基于支持向量机的不平衡数据分类算法研究

基于支持向量机的不平衡数据分类算法研究

ID:32966798

大小:2.01 MB

页数:63页

时间:2019-02-18

基于支持向量机的不平衡数据分类算法研究_第1页
基于支持向量机的不平衡数据分类算法研究_第2页
基于支持向量机的不平衡数据分类算法研究_第3页
基于支持向量机的不平衡数据分类算法研究_第4页
基于支持向量机的不平衡数据分类算法研究_第5页
资源描述:

《基于支持向量机的不平衡数据分类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、江苏科技大学硕士学位论文大摘要论文题目基于支持向量机的不平衡数据分类算法研究研究方向智能信息处理技术学科、专业计算机技术研究生姓名洪淑芳导师姓名于化龙填表时间2014年3月16日万方数据大摘要基于支持向量机的不平衡数据分类算法研究大摘要在这个信息爆炸的时代,数据量的庞大已经引起人们的高度重视,因此需要寻找其规律并对其进行充分利用。分类问题是处理大量数据时最常遇到的问题,它已经成为机器学习领域一个重要研究内容。与传统的分类方法相比,支持向量机具有泛化能力强、不易陷入局部极小值、高维和小样本适应性等优

2、点,能更好地解决过学习、维数灾难、局部极小值等问题,因此支持向量机是本文首要考虑的分类方法。支持向量机(SVM)主要思想是通过核函数将训练集映射到高维空间。研究表明支持向量机对平衡数据有较好的分类效果,而对非平衡数据分类效果较差。其中主要原因是支持向量机的分类超平面仅仅是由少量的支持向量所决定的。支持向量机在处理不平衡数据分类问题时,其预测具有一定的倾向性,对于样本数量多的类别,其分类误差小,而对于样本数量少的类别,其分类误差大。故本文主要研究了如何利用支持向量机来解决不平衡数据分类问题,具体研究

3、成果如下:(1)针对二类不平衡数据分类问题,从理论上分析了类不平衡分布对支持向量机性能产生危害的原因,提出了一种基于支持向量机的优化的决策阈值调整算法(SVM-OTHR),并利用其来解决类不平衡问题,希望其能回答一个令人困惑的问题:分类超平面应该移动多大距离?具体来讲,该策略是自适应的,可以根据训练样本的分布找到分类超平面的最优移动距离。此外,为了进一步提高分类器的泛化能力,增强其鲁棒性,本文也扩展了该策略,提出一种集成分类算法(EnSVM-OTHR),进一步提高了分类性能。通过10个UCI数据集

4、验证了上述两种算法的有效性和可行性。(2)针对高维的多类不平衡数据分类问题,提出了一种集成支持向量机分类算法。该算法首先利用OAA编码策略将多类分类问题转换为多个二分类问题,继而用特征子空间策略大量精确且高差异的调整策略训练子集。接下来在每个训练子集中使用决策阈值调整策略或随机降采样方法来降低类不平衡的危害性。最后,利用支持向量机作为基分类器,并且利用计数器投票规则做出最终的决策。通过8个多类癌症DNA微阵列数据集,其中有不同数量的类别,样本,和类不平衡比率,评估了该方法。实验结果表明:因该方法可

5、产生更平衡和健壮的分类结果,所以明显优于一些传统的分类方法,有效了万方数据大摘要提高分类性能。综上所述,本文对支持向量机进行了改进,使其能更好地用于解决类不平衡问题。然而,本研究仍有许多待改进和提高之处,如所提算法尽管可取得较好的分类效果,但时空复杂度仍然较高,这也有待在未来的工作中做出改进。另外,本文涉及的集成分类算法均是以Bagging为框架开发的,故在未来的工作中,也将进一步考虑现有算法与AdaBoost集成学习框架相结合的可行性。同时,本文算法只在少量数据集上进行了验证,在未来的工作中,我

6、们也希望能在各种应用领域的真实数据集上对本文算法进行验证,以推广其应用的范围。关键词:支持向量机;类不平衡学习;集成学习;分类;DNA微阵列数据万方数据AbstractTheResearchofImbalancedDataClassificationAlgorithmBasedonSupportVectorMachineAbstractIntheeraofinformationexplosion,thelargenumberofdatahasarousedpeople'sattention,thu

7、sitneedspeopletofindtheirownregularpatternsandtomakefulluseofthem.Classificationproblemareoneofthemostfrequentlyencounteredproblemsindataprocessing.Ithasbecomeanimportantresearchcontentofmachinelearning.Comparedwiththetraditionalclassificationmethods,

8、supportvectormachinehasseveralmeritsasfollows:highgeneralizationability,absenceoflocalminimaandadaptationforhigh-dimensionandsmallsampledata,whichcanbettersolvetheproblemslistedasfollows:over-learning,dimensiondisasterandlocalminima,thuswegive

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。