基于聚类树的多类标文本分类算法研究

基于聚类树的多类标文本分类算法研究

ID:33756369

大小:1.25 MB

页数:76页

时间:2019-02-28

基于聚类树的多类标文本分类算法研究_第1页
基于聚类树的多类标文本分类算法研究_第2页
基于聚类树的多类标文本分类算法研究_第3页
基于聚类树的多类标文本分类算法研究_第4页
基于聚类树的多类标文本分类算法研究_第5页
资源描述:

《基于聚类树的多类标文本分类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于聚类树的多类标文本分类算法研究RESEARCHONMULTI-LABELTEXTCLASSIFICATIONBASEONCLUSTERTREE邓伟儒哈尔滨工业大学2011年12月国内图书分类号:TP181学校代码:10213国际图书分类号:004.91密级:公开工学硕士学位论文基于聚类树的多类标文本分类算法研究硕士研究生:邓伟儒导师:叶允明教授申请学位:工学硕士学科:计算机科学与技术所在单位:深圳研究生院答辩日期:2011年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP181U.D.C:004.

2、91ThesisfortheMasterDegreeinEngineeringRESEARCHONMULTI-LABELTEXTCLASSIFICATIONBASEONCLUSTERTREECandidate:WeiruDENGSupervisor:Prof.YunmingYEAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScience&TechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:De

3、cember,2011Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要文本分类技术是解决由于互联网的迅猛发展而导致人们面临“信息爆炸而知识匮乏”问题的有效手段。文本分类往往是属于多类标分类,即单篇文章属于一个或以上的类别。多类标问题是传统机器学习算法不能解决的,同时因为文本数据的特殊性,业已开发的多类标分类算法不能很好地应用于文本数据。如何更好地解决多类标文本分类问题是本文的核心议题。本文的具体工作如下:(1)全面总结了现有的文本处理技

4、术,多类标分类方法及其优势劣势,多类标数据集的度量准则和算法验证准则。(2)深入分析并总结出多类标文本数据的关键特点。通过对传统文本数据的分析及多类标数据的度量特点,推导出多类标文本数据普遍存在“一高两疏”的特点——高维、特征空间和类标空间稀疏。(3)提出了解决多类标文本数据的思路。根据多类标文本数据的关键特点,提出对特征空间和类标空间的划分,通过构造不同子空间及其专注的问题,迭代解决多类标文本分类问题是一个好的思路;也就是说,通过把原问题划分为若干个子问题,子问题之间相互协作,寻找最优解。(4)提出了全新的多类标分类算法——多类标聚

5、类树算法。多类标聚类树算法是根据解决多类标文本文类问题的指导思想,结合传统单类标聚类树算法的特点,通过迭代调用“基于类标信息的聚类算法”将两空间依树的生长不断划分,直至空间足够简单为止。(5)提出了全新的基于问题转化的多类标分类方法——类标掩盖树。类标掩盖树是通过树形结构和类标掩盖手段,把多类标问题转化为一系列层次分明,相互协作的多类别分类问题,进而考察类标掩盖数组,解决多类标分类问题。(6)实验证明多类标聚类树算法在文本数据上的优越性。通过实验手段,选择十三种近年学术界公认的stateofart多类标分类方法,在十二个基准多类标文本

6、数据集,六个多类标二值验证准则,七个多类标排序和概率验证准则上进行对比分析,得到的结论是多类标聚类树算法总体上优于其他对比算法,并得到多类标聚类树算法的分类能力强于其排序能力的结论。关键词:多类标分类;文本分类;聚类树分类-I-哈尔滨工业大学工学硕士学位论文AbstractWiththedevelopmentofInternetandWebtechnology,peoplefaceedwith"knowledgeexplosionbutlackofinformation"problem.Textclassificationcaneff

7、ectivesolvetheproblem.ButTextclassificationalwayssuffermulti-labelproblem,thatissamplesareassociatedwithasetoflabels.Tranditionalmachinelearningalgorithmcannotsolvethisproblem.Anddevelopedmulti-labelclassificationalgorithmscannoteffectivesolvetextdatabecauseofit'scharac

8、ter.So,thispaperfocusonhowtoeffectivesolvemulti-labeltextclassification.Ourmainworkincludes:(1)Comprehensively

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。