中文短文本聚类算法的研究

中文短文本聚类算法的研究

ID:35039288

大小:3.12 MB

页数:59页

时间:2019-03-16

中文短文本聚类算法的研究_第1页
中文短文本聚类算法的研究_第2页
中文短文本聚类算法的研究_第3页
中文短文本聚类算法的研究_第4页
中文短文本聚类算法的研究_第5页
资源描述:

《中文短文本聚类算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:TP391单位代码:10183研究生学号:2013544005密缀:公丹曝古林大学硕古学位论文专化净I位()中文短文本聚类算法的硏究RcssarchofGhirt巧6Short了6xtGlusteringAlorithmg作者姓名:程杨类别:工程硕±领域(方向):软件王程指导教师;欧阳继红教授培养单位:软件学院2016年5月未经本论文作者的书面授权,依法收存和保管本论文书面版本、电子版本的任何单位和个人,均不得对本论义的全部或部

2、分内容进行任何形式的复制、修改、发行、出租、改编等有碍作者著作权的商业性使用(但纯学术性使用不在此限)。否则,应承担侵权的法律责任。吉林大学硕±学位论文原创性声明本人郑重声明:所呈交的硕±学位论文,是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中己经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均己在文中W明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名;日期;20

3、16年5月28日中文短文本聚类算法的研究ResearchofChineseShortTextClusteringAlgorithm作者姓名:程杨领域(方向):软件工程指导教师:欧阳继红教授类别:工程硕士答辩日期:2016年5月28日摘要中文短文本聚类算法的研究随着互联网的高速发展,我国已经进入数字化和信息化时代,各行各业中信息的传递和交流都依赖于先进的文本挖掘技术,文本聚类是文本挖掘中的重要分支,是一种无监督的机器学习,它可以自动检测文本之间的关联程度,并将关联程度最高的文本划分进同一类聚簇。近年来,文本聚类不

4、再满足于单一的文本形式,短文本在即时通讯、在线聊天日志、电子布告栏系统标题、网络日志评论、网络新闻评论、短讯服务、微博等领域都得到了广泛应用。短文本具有高度精炼、词汇稀疏、领域广泛、数量庞大等特点,传统文本聚类往往无法达到令人满意的效果,如何对短文本进行高效和可靠的聚类,是文本聚类领域的主要挑战。目前,已经有许多聚类算法用于处理短文本的聚类,其中CHIR-TCFS(CHIR-TextClusteringwithFeatureSelection)算法是一种对卡方检验进行改进,同时解决特征选择算法应用于短文本聚类监督问

5、题的短文本聚类算法。本文针对CHIR算法低频特征的问题,结合特征出现的次数提出一种CHIR算法的改进算法CHIRF;针对TCFS算法中随机选择初始聚簇的问题,提出一种基于基点的初始聚簇中心选择算法ICCP(InitialClusterCenterwithPoints);结合CHIR和ICCP提出一种短文本聚类算法CHIRF-NTCFS(CHIRF-NewTextClusteringwithFeatureSelection),完成了参数取值实验和对比试验,实验结果表明该算法的聚类效果优于k-means算法和CHIR-

6、TCFS算法。本文的主要工作有:1)阐述短文本聚类的研究背景和意义、短文本的主要特点和短文本聚类的难点以及当前短文本聚类领域的国内外研究现状,简要介绍短文本聚类中文本的预处理方法,包括中文文本分词、去停用词和短文本特征选择。2)介绍了几种传统的短文本聚类算法,包括K-means算法、K-medoids算法、BIRCH算法和EM算法,算法的优点和存在的问题进行评价。3)详细介绍了一种对卡方检验算法进行改进的特征选择算法CHIR和一种I基于CHIR的短文本聚类算法CHIR-TCFS,CHIR算法解决了卡方检验无法识别特

7、征与类别之间关联正负的问题,CHIR-TCFS算法解决了将特征选择算法应用于短文本聚类的监督问题。4)针对CHIR算法存在的低频词影响的问题,结合特征出现的次数提出一种CHIR算法的改进算法CHIRF,实现了短文本聚类特征选择算法的优化,针对TCFS算法存在的随机选择初始聚簇中心的问题,提出一种基于基点的初始聚簇中心选择算法ICCP,结合CHIRF算法和ICCP算法提出一种短文本聚类算法CHIRF-NTCFS,解决了将CHIRF算法应用在短文本聚类算法中的监督问题。5)基于matlab编程环境实现了k-means算

8、法、CHIR-TCFS算法和CHIRF-NTCFS算法,通过CHIRF算法的参数取值实验,得到了该算法的最优参数。将最优参数代入CHIRF-NTCFS算法中,针对文本的规模和聚类的个数设计并完成了两个对比实验,实验结果表明CHIRF-NTCFS算法聚类效果优于其他两种算法。关键词:短文本,中文文本聚类,CHIR-TCFS,CHIRF,ICCP,CHIRF-N

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。