基于误差界估计的聚类树分类方法研究.pdf

基于误差界估计的聚类树分类方法研究.pdf

ID:51959367

大小:4.69 MB

页数:139页

时间:2020-03-20

基于误差界估计的聚类树分类方法研究.pdf_第1页
基于误差界估计的聚类树分类方法研究.pdf_第2页
基于误差界估计的聚类树分类方法研究.pdf_第3页
基于误差界估计的聚类树分类方法研究.pdf_第4页
基于误差界估计的聚类树分类方法研究.pdf_第5页
资源描述:

《基于误差界估计的聚类树分类方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、博博博士士士学学学位位位论论论文文文基于误差界估计的聚类树分类方法研究RESEARCHONCLUSTERTREECLASSIFICATIONMETHODSBASEDONERRORBOUNDESTIMATION孙孙孙兆兆兆才才才哈哈哈尔尔尔滨滨滨工工工业业业大大大学学学2012年年年10月月月国内图书分类号:TM301.2学校代码:10213国际图书分类号:62-5密级:公开工工工学学学博博博士士士学学学位位位论论论文文文基于误差界估计的聚类树分类方法研究博士研究生:孙兆才导师:黄哲学教授副导师:叶允明教授申请学位:工学博士学科:计算机应用

2、技术所在单位:深圳研究生院答辩日期:2012年10月授予学位单位:哈尔滨工业大学ClassifiedIndex:TM301.2U.D.C:62-5DissertationfortheDoctoralDegreeinEngineeringRESEARCHONCLUSTERTREECLASSIFICATIONMETHODSBASEDONERRORBOUNDESTIMATIONCandidate:SunZhaocaiSupervisor:Prof.HuangZhexueAssociateSupervisor:Prof.YeYunmingAcad

3、emicDegreeAppliedfor:DoctorofEngineeringSpecialty:TechnologyofComputerApplicationAffiliation:ShenzhenGraduateSchoolDateofDefence:October,2012Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要模式分类是数据挖掘的一个重要研究分支,其任务是根据给定的特征集与类标集训练一个数学函数,该函数也被称为分类器,以便对新出现的对象进行类别预测。自

4、上世纪六七十年代以来,模式分类一直受到国内外学者的关注。然而,随着研究的深入,近年来数据挖掘领域涌现出许多新的分类问题。例如:模型不匹配问题、不确定性问题、小样本问题、样本不均衡问题等等。越来越多的学者认识到,常规的分类技术在解决这些复杂的分类问题上存在一定的难度。常规的分类技术是一种有监督的学习方式,即在完全信任特征与类标的前提下,训练一个分类器,并以某种准则去逼近一个函数,以发现出一种特征与类标之间的关系。但是,由于模型不匹配、类标不确定性、有类标样本数目过少等原因,直接根据特征与类标寻找分类函数存在一定困难,因而这种有监督的学习方式

5、并不适合处理复杂的分类问题。相反,基于聚类的分类方法(Clustering-BasedClassfication,CBC)并不是完全相信训练集的类标信息,而是通过类与簇的相互转换,在数据的空间特征与类标信息之间寻找平衡,是一种弱监督的学习方式。与有监督学习方法相比,弱监督学习方法受类标的误导程度更低,因而泛化能力更强,更适合于处理上述复杂的分类问题。本论文着重研究的聚类树方法是一类基于聚类的分类方法。本文以误差界估计为理论基础,研究了文本聚类树、半监督聚类树、主动半监督聚类树等具体的分类算法,来解决一些实际的应用问题。本文的主要研究内容和创

6、新成果如下:1.分析了CBC方法与传统分类方法在原理上的不同,并解释了这种弱监督学习方式可用于解决某些复杂分类问题的原因。提出了置信误差公式,该公式可以用于预测分类误差和优化分类模型。2.在基于距离度量决策的CBC模型研究中,提出了一种基于Kernel距离的DCC算法(KDCC),该算法解决了簇之间不均衡的问题。3.针对文本数据,扩展了k-means系列算法,提出椭球k-means算法。该算法既采用更适合文本数据的余弦距离作为相似度度量,又采用一种加权机制来突出重要词并抑制噪声词。基于椭球k-means算法,本文提出了一种聚类树算法,以适

7、合文本数据的分类。4.针对小样本问题,提出了一种半监督聚类树算法,该算法根据所用聚类-I-哈尔滨工业大学工学博士学位论文算法的不同,又有两个变种,分别针对常规数据分类与文本数据分类,该算法在样本数极少的情况下优于目前常见的半监督算法。5.结合主动学习与半监督学习思想,提出了主动半监督聚类树算法。此外,本论文在讨论了训练代价和分类性能之间关系的基础上,提出了一个基于性价比的主动半监督分类系统。该系统能够根据最优的性价比自动终止学习过程,弥补了目前主动学习算法中没有类似机制的缺陷。本文的研究成果推进了CBC方法的研究进展,也为解决复杂的分类问

8、题提供了一种新的方法。关键词:聚类;分类;聚类树;弱监督学习;置信误差-II-AbstractAbstractPatternclassification,asanimportantresearc

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。