基于集成学习的不平衡数据分类算法的研究

基于集成学习的不平衡数据分类算法的研究

ID:37065545

大小:1.46 MB

页数:86页

时间:2019-05-17

基于集成学习的不平衡数据分类算法的研究_第1页
基于集成学习的不平衡数据分类算法的研究_第2页
基于集成学习的不平衡数据分类算法的研究_第3页
基于集成学习的不平衡数据分类算法的研究_第4页
基于集成学习的不平衡数据分类算法的研究_第5页
资源描述:

《基于集成学习的不平衡数据分类算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:TP391单位代码:10183研究生学号:2015522023密级:公开吉林大学硕士学位论文(学术学位)基于集成学习的不平衡数据分类算法的研究ResearchonImbalancedDataClassificationAlgorithmsBasedonEnsembleLearning作者姓名:王茹雪专业:通信与信息系统研究方向:数据挖掘指导教师:张丽翠副教授培养单位:通信工程学院2018年6月——————————————————————————————————基于集成学习的不平衡数据分类算法的研究——

2、————————————————————————————————ResearchonImbalancedDataClassificationAlgorithmsBasedonEnsembleLearning作者姓名:王茹雪专业名称:通信与信息系统指导教师:张丽翠副教授学位类别:工学硕士答辩日期:2018年6月2日未经本论文作者的书面授权,依法收存和保管本论文书面版本、电子版本的任何单位和个人,均不得对本论文的全部或部分内容进行任何形式的复制、修改、发行、出租、改编等有碍作者著作权的商业性使用(但纯学术性使用不

3、在此限)。否则,应承担侵权的法律责任。吉林大学博士(或硕士)学位论文原创性声明本人郑重声明:所呈交学位论文,是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:年月日《中国优秀博硕士学位论文全文数据库》投稿声明研究生院:本人同意《中国优秀博硕士学位论文全文数据库》出版章程的内容,愿意将本人的学

4、位论文委托研究生院向中国学术期刊(光盘版)电子杂志社的《中国优秀博硕士学位论文全文数据库》投稿,希望《中国优秀博硕士学位论文全文数据库》给予出版,并同意在《中国博硕士学位论文评价数据库》和CNKI系列数据库中使用,同意按章程规定享受相关权益。论文级别:█硕士□博士学科专业:通信与信息系统论文题目:基于集成学习的不平衡数据分类算法的研究作者签名:指导教师签名:年月日作者联系地址(邮编):吉林省长春市南湖大路5372号(130012)作者联系电话:18204310789摘要基于集成学习的不平衡数据分类算法的研究分

5、类是数据挖掘和机器学习中重要的知识获取手段之一,经典的分类算法通常是基于数据集平衡这一假设而提出的,而在实际应用中,许多数据集是不平衡的,并且少数类数据有时更重要,将其错分要付出更大的代价,如信用卡欺诈检测、医疗诊断、垃圾邮件判别等。因此,以总体分类精度为学习目标的传统分类算法并不适用于不平衡数据的分类,研究如何提高分类器对不平衡数据的分类效果有着重要的意义。集成学习一般有较好的分类效果且个体学习器的数据子集的构建与不平衡数据分类的重采样技术可以结合在一起,因此,本文主要研究将集成学习用于不平衡数据的分类。本

6、文从通过过采样技术改变数据集样本分布使之平衡、将基于集成学习的混合采样与改进的分类算法相结合、将不平衡数据分类问题转化为异常检测问题几个方面入手,提出几种新的算法。本文主要工作如下:(1)本文对重采样技术使数据集平衡进行研究,由于合成少数类过采样技术SMOTE(Syntheticminorityoversamplingtechnique)算法及边界合成少数类过采样技术BSMOTE(Borderline-SMOTE)算法在过采样过程中都没有考虑到少数类样本的差异性,均是对少数类样本随机选择其应合成的样本数目,存

7、在一定的盲目性。本文针对这个问题提出了综合考虑少数类样本中的边界样本的邻近平均距离与邻近多数类样本数目的自适应边界合成少数类过采样技术ABSMOTE(AdaptiveBorderlineSyntheticminorityoversamplingtechnique)算法,使用UCI数据集验证ABSMOTE算法可以提高分类器对于不平衡数据的分类效果。(2)为了增加集成学习中个体学习器的多样性,提高分类效果,本文首先对AdaBoost(AdaptiveBoosting,自适应增强)算法的权值更新过程进行改进,并提出

8、了基于不同采样率的混合采样的改进AdaBoost集成算法IAE-MSD(ImprovedAdaBoostEnsembleBasedMixedSamplingwithDifferentSamplingRates)。其中过采样部分使用ABSMOTE算法,欠采样部分使用基于先验的分层I欠采样算法;重采样部分减少了噪声数据的负面影响,又一定程度的保留了数据集样本的原始分布,同时使用不同的采样率使每一个数据子

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。