综合过采样和欠采样的不平衡数据集的学习研究

综合过采样和欠采样的不平衡数据集的学习研究

ID:35186479

大小:2.86 MB

页数:50页

时间:2019-03-21

综合过采样和欠采样的不平衡数据集的学习研究_第1页
综合过采样和欠采样的不平衡数据集的学习研究_第2页
综合过采样和欠采样的不平衡数据集的学习研究_第3页
综合过采样和欠采样的不平衡数据集的学习研究_第4页
综合过采样和欠采样的不平衡数据集的学习研究_第5页
资源描述:

《综合过采样和欠采样的不平衡数据集的学习研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、的学习研究硕士学位论文基于改进投影法的车牌定位算法的研究与实现(学术学位)综合过采样和欠采样的不平衡数据集的学习研究COMPREHENSIVEOVERSAMPLINGANDUNDERSAMPLINGSTUDYOFIMBALANCEDDATASETS东北电力大学硕士学位论文闫欣2016年3月中图分类号:TP311学校代码:10188UDC:密级:公开综合过采样和欠采样的不平衡数据集的学习研究硕士研究生:闫欣导师:杨杰明教授学位类别:工学硕士学科专业:计算机科学与技术所在单位:信息工程学院答辩日期:2016年3月授予学位单位:东北电力大学Clas

2、sifiedIndex:TP311U.D.C:COMPREHENSIVEOVERSAMPLINGANDUNDERSAMPLINGSTUDYOFIMBALANCEDDATASETSCandidate:YanXinSupervisor:Prof.YangJiemingAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:SchoolofInformationEngineeringDateofDefence:Mar

3、.2016Degree-Conferring-Institution:NortheastDianliUniversity《中国优秀博硕±学位论文全文数据库》和《中国学位论文全文数据库》投稿声明《中国优秀博硕±学位论文全文数据库》和《中国学位论文全文数据库》投稿声明东北电力大学;本人同意《中国优秀博硕±学位论文全文数据库》和《中国学位论文全文数据库》出版章程的内容,愿意将本人的学位论文委托东北电力大学向中国学术期刊(光盘版)电子杂志社的《中国优秀博硕±学位论文全文数据库》和中国科技信息研究所的《中国学位论文全文数据库

4、》投稿,希望《中国优秀博硕±学位论文全文数据库》和《中国学位论文全文数据库》给予出版,并同意在《中国优秀博硕:t学位论文全文数据库》和CNKI系列数据库化及《中国学位论文全文数据库》中使用,同意按章程规定享受相关权益。论文级别:□博±作者签名:向指导教师签名:矣4肩於-日期:年令月日j东北电力大学硕±学位论文东北电力大学学位论文原创性声明和使用权限学位论文原创性声明本人郑重声明:此处所提交的学位论文《综合欠采样和过采样的不平衡数据集的学习研究》,是本人在导师指导下,在东北电力大学攻读学位期间独立进

5、行研究工作所取得的成果,且学位论文中除已标注引用文献的部分外不包含他人完成或已发表的研究成果。对本学位论文的研究王作做出重要贡献的个人和集体,均己在文中W明、确方式注明。作者签名:/考阿^曰期:年今月曰tW4学位论文使用权限学位论文是研究生在东北电力大学攻读学位期间完成的成果,知识产权归属东北电力大学。学位论文的使用权限如下:(1)学校可采用影印、缩印或其他复制手段保存研究生上交的学位论文,并向国家图书馆报送学位论文;(2)学校可W将学位论文部分或全部内容编入有关数据库进行检索和提供相应阅览服务;(3)一

6、署研巧生毕业后发表与此学位论文研究成果相关的学术论文和其他成果时,应征得导师同意,且第名单位为东北电力大学。保密论文在保密期内遵守有关保密规定,解密后适用于此使用权限规定。本人知悉学位论文的使用权限,并将遵守有关规定。作者签名;/於日期:>/知知/曰导师签名:方备史日期;扣//年户月片日摘要摘要不平衡数据学习已经逐渐成为当前机器学习领域研究热点之一。在解决不平衡数据集的学习分类的问题时,需要尽可能大的提高分类器对少数类的预测精度,而且也要保证分类器的分类精度受到特别大的影响。本课题在对不平衡数据的特殊性的研究基础上

7、,结合实际数据集中数据分布特性和数据各个属性的在分类过程中的作用,对目前常用于不平衡数据的重采样方法进行改进,有效的解决存在于传统方法中的不足,得到了新的重采样方法。为了确保对少数类的识别性能,对集成分类器进行相应的改进,最终得到一个针对不平衡数据集的完整的分类学习系统。首先,本课题提出了一种针对不平衡数据集的基于数据密度分布的欠采样方法。该算法引入数据密度的概念,并以此将多数类数据划分为高密度数据簇和低密度数据簇,针对不同密度的数据簇,执行不同的重采样策略,以达到改善数据平衡度的目的。实验通过选取6组UCI数据集进行验证,选取C4.5、SV

8、M作为分类器,将该方法与随机欠采样、KNN-NearMiss等方法进行比较,实验结果表明,该方法对不平衡数据分类有较好的效果,能有效提升分类器对少数类的识别性能。其

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。