基于集成学习的不平衡数据分类的研究及应用

基于集成学习的不平衡数据分类的研究及应用

ID:33569622

大小:5.35 MB

页数:69页

时间:2019-02-27

基于集成学习的不平衡数据分类的研究及应用_第1页
基于集成学习的不平衡数据分类的研究及应用_第2页
基于集成学习的不平衡数据分类的研究及应用_第3页
基于集成学习的不平衡数据分类的研究及应用_第4页
基于集成学习的不平衡数据分类的研究及应用_第5页
资源描述:

《基于集成学习的不平衡数据分类的研究及应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任a学位论文题目:廛五纽蔓芝z壶至塑纽盘丝霉:美查塑幽作者签名:一团孚笈一一.日期:丛!竺年—厶月上二日大连理工大学硕士学位论文摘要近年来,不平衡数据分类已成为数据挖掘领域的重要研究问题之一。数据不平

2、衡是指数据集的各类别样本在数量上相差悬殊,其中样本数量少的类称为少数类,样本数量多的类称为多数类。传统的分类算法在处理平衡数据分类问题时,通常能够有效发挥性能优势,然而在处理不平衡数据分类时,对少数类样本的分类正确利率通常低于多类样本的分类正确率。在很多实际应用中,例如欺诈诊断、故障检测、文本检测、垃圾邮件过滤等,通常更关注少数类样本分类的准确率。因此,研究如何提高分类器对不平衡数据分类性能和提高分类器的泛化能力具有重要价值和现实意义。为了提高不平衡数据分类的分类性能,人们在传统分类算法的基础上做了很多改进。这些改进主要集中于两个层面:数据层面和算法层面

3、。数据层面主要是对数据集样本的重采样,通过改变数据集的分布特点使之变得类别间基本平衡,然后采用传统的分类算法进行分类。如随机过取样、SMOTE算法、单边取样算法等。算法层面是保持原有数据的分布特点,通过修改算法内部结构使之能够适应不平衡数据分类。如基于代价敏感度学习的分类方法、改进的SVM、集成学习算法等。在上述改进算法中,集成学习能够表现出很好的分类性能和较强的泛化能力。通过对单个分类器进行改进和协调各个基分类器之间的差异性能够进一步提高集成学习的分类性能的主要因素。基于以上考虑,本文进行了如下几方面工作:1.在数据层面,分析并总结了取样算法单边取样和

4、SMOTE过取样算法,针对SMOTE算法存在的问题,提出了一种改进的SMOTE算法。2.在算法方面,研究并分析了集成学习解决分类问题的优势以及影响其分类性能的因素,提出了一种新的解决不平衡数据分类问题的集成框架2D—SEFrame。3.研究了多类分类的常用策略,并将2D.SEFrame扩展到多类不平衡数据分类问题中,提出了针对多类不平衡数据分类问题的继承学习框架MC2D.SEFrame。4.将MC2D.SEFrame应用到了实际数据心电信号分类问题中,实验结果表明,所提出的算法能够取得很好的分类效果。关键词:数据挖掘;不平衡数据;SMOTE;集成学习;2

5、D-SEFrame;MC2D-SEFrameResearchandApplicationofImbalancedDataClassificationAlgorithmsBasedonEnsembleLearningAbstractInrecentyears,imbalanceddataclassificationhasbecomeoneoftheimportantresearchissuesindatamining.Imbalanceddatareferstothevariousclassesofdatasetsdisparitiesinthenumbe

6、rofsamplesinwhichtheclassthathaslesssamplesiScalledminorityclass.theclassthathasmoresamplesiscalledmajorityclass.Thetraditionalclassificationalgorithmswhendealingwithbalancedataclassificationproblemscanoftenplayaneffectiveperformanceadvantage,however,whendealingwithimbalanceddata

7、classification,correctclassificationrateofminorityclasssamplesareoftenlessthantheclassificationaccuracyofthemajorityclasssamples.Inmanypracticalapplications,suchasfrauddiagnostics,faultdetection,textdetection,spamfiltering,etc.,areusuallymoreconcemedabouttheaccuracyoftheminorityc

8、lasssampleclassification.Therefore,thest

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。