基于半监督学习的不平衡数据分类算法与应用

基于半监督学习的不平衡数据分类算法与应用

ID:33551563

大小:8.48 MB

页数:141页

时间:2019-02-27

基于半监督学习的不平衡数据分类算法与应用_第1页
基于半监督学习的不平衡数据分类算法与应用_第2页
基于半监督学习的不平衡数据分类算法与应用_第3页
基于半监督学习的不平衡数据分类算法与应用_第4页
基于半监督学习的不平衡数据分类算法与应用_第5页
资源描述:

《基于半监督学习的不平衡数据分类算法与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据博士学位论文基于半监督学习的不平衡数据分类算法与应用AlgorithmsandApplicationsofImbalancedDataClassificationbasedonSemisupervisedLearning学号:11117003学科、专业:盐箕扭筮鲑生理途答辩日期:窒Q!垒生!!旦星鱼旦大连理工大学DalianUniversityofTechnology万方数据大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论

2、文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。学位论文题目:作者签名:大连理工大学学位论文版权使用授权书本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印、或扫描等复制手段保存和汇编

3、本学位论文。学位论文题目:作者签名:导师签名:答辩委员会主席万方数据大连理工大学博士学位论文摘要半监督学习方法能够利用有限的有标签数据,并结合大量的无标签数据挖掘出有用的信息,在诸多领域得到了广泛的应用。然而传统的半监督分类方法大多建立在数据集中各个类别样本数相等的假设基础上,一旦数据集中各个类别样本数不等,分类边界将偏向于拥有样本数少的类别,(此类别称之为弱势类,而拥有样本数多的类别称之为强势类),导致强势类分类空间增大,弱势类样本难以被识别出来,分类性能受到严重影响。实际应用中,人们往往更关注弱势类样本的识别率,如森林火灾监测发生火灾的

4、温度序列相比正常情况要少得多,然而识别火灾温度序列是人们更为关心的;社交网络隐私保护应用中,恶意用户的识别要比可信任用户更重要,然而恶意用户的数量远远小于可信任用户的数量。因此,解决此类问题具有很强的理论意义和实用价值。本文将各个类别样本数不相等的数据集分类称为不平衡的数据集分类。研究表明,不平衡数据集分类方法大多在监督学习的环境下,而在半监督学习领域内关于不平衡数据集分类的研究甚少。不平衡数据集分类方法可以通过算法层面或数据层面去解决。算法层面主要通过改变现有算法的策略以适应对不平衡数据集的分类;数据层面主要通过数据集重采样的方法来改变数

5、据集的样本分布,以构造平衡的数据集,来适应现有算法。因此,本文的研究重点为:根据现有的半监督分类算法,在算法层面提出了LMN算法,在数据层面提出了INN0算法,来解决在半监督学习环境下的不平衡数据集的分类问题,明显提高了对不平衡数据集的分类精度。并利用提出的算法与经典的半监督分类算法相结合,有效的解决了森林火灾监测和社交网络隐私保护两个实际问题。论文主要研究工作如下:(1)首先从算法层面出发,由于传统的基于图的半监督分类方法在对不平衡数据集分类时,各个类别在标签传递过程中的信息总量不等,导致分类边界倾斜。针对此问题,本文提出LMN算法,即用

6、标签“平衡因子”来构造规范化的标签矩阵,将每个类的标签总信息量归一,以保证各个类拥有的初始标签信息总量相等,进而消弱了强势类的标签信息带来的分类倾向。(2)然后从数据层面考虑,由于传统的重采样方法在分类边界构造人工样本,而半监督学习环境中,只拥有稀少的有标签数据难以判断分类边界。针对此问题,考虑到半监督学习环境中包含大量的无标签数据,本文提出迭代最近邻过采样标签平衡方法(1NN0算法),在分类开始前,迭代地从无标签数据集中选出与所有弱势类的标签数万方数据基于半监督学习的不平衡数据分类算法与应用据距离最近的样本,同时避开可能处于分类边界的样本

7、,然后将其添加到有标签数据的集合中,以防止引入错误分类给后续分类算法带来错误累积,以保证分类算法输入的数据集是平衡的或者近似平衡的。(3)另外,在基于边界采样的主动学习的过程中,每次挑选距离分类边界最近的样本,然后交给专家系统进行标注,然而选择的样本可能与已知的样本区域距离较近,这样的样本可能会给分类器带来重复的分类信息。针对此问题,本文通过相似性检测算法来避免选择局部集中的样本,更好地扩展了样本的选择区域,一定程度上解决了不平衡数据集的分类问题。(4)传统森林火灾监测的识别算法受限于能源消耗、处理效率和内存大小限制。此外,由于火灾出现的概

8、率要远远小于正常情况,因此,数据集存在着明显的不平衡性。本文首先将温度变化序列概括为四种不同的变化曲线(即为分类目标),然后将传感器检测的温度序列,按照时间间隔划分成相同长度的子

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。