中文文本聚类算法研究

中文文本聚类算法研究

ID:35039276

大小:2.98 MB

页数:31页

时间:2019-03-16

中文文本聚类算法研究_第1页
中文文本聚类算法研究_第2页
中文文本聚类算法研究_第3页
中文文本聚类算法研究_第4页
中文文本聚类算法研究_第5页
资源描述:

《中文文本聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代瞄102化学号20144507006I多.爭SOOCHOWUNIVERSITY.-:/:版志wi--.巾城本M类算尉腺胃民esearchonChinese1:ext加steringalrithmgo硏究生姓名汪丹丹指导教师姓名唐煌专业名称应用统计硏究方向金融统计所在院部数学科学学院论文提交日期2016年4月苏州大学学位论文独创性声明本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文

2、不含其他个人或集体己经发表或撰写过的祈究成果,也不含为获得苏州大学或其它教育机构的学位证书而使用过的材料。对本文的研巧作出重要贡献的个人和集体,均己在文中明滿方式标明。本人承担本声明的法律责任。论文作者签名:日期:)认备Jo苏州大学学位论文使用授权声明本人完全了解苏州大学关于收集、保存和使用学位论文的规定,郎:学位论文著作较归属苏州大学。本学位论文电子文挡的内容和纸质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献信息情报中也、中国科学技术信息研巧所(含万方数据电子出版社)、中文国学术期巧(光盛版)电子杂志化送

3、交本学位论文的复印件和电子保存挡和,汇允许编学论文位被论蒼文阀和借阅,可采用影印、缩印或其他复制手段据库进本巧学位检论索文。属涉密,论可文将口学化在论文的全部或月部解分密内后容适编入有关数论文非涉密论文囚用本规定。导师作者签签名:__凹期;MikA馆名:目期:>作、分?/0中文文本聚类算法研究摘要聚类作为一种无监督的学习算法,具有一定的灵活性和较高的自动化处理能力。其应用领域非常广泛,它可以结合文本挖掘技术,对文本进行聚类分析,从而可以应用于搜索引擎中,方便用户快速搜索到自己想要的有价值的信息,同时也可以应用于垃圾邮件的过

4、滤、文档归类等问题中。本文主要研究的是中文文本聚类算法。首先对课题的研究背景和意义进行了阐述,随后引入文本挖掘的概念,并对文本挖掘的相关技术进行研究,利用R语言中的Rwordseg包和jiebaR包实现文本的分词、研究文本特征提取与降维技术,如常见的TF-IDF技术。在第三章中对文本聚类的流程和常见的聚类算法做总结。重点介绍了VSM文本表示模型和几种常用的聚类算法。最后应用k-means、hclust聚类算法对旅游业的用户点评数据进行聚类,并分析聚类效果。同时加入电子商务业的点评数据进行文本聚类,和旅游业的聚类效果对比分析。关键词:文本挖掘文本聚类聚类算法作者:汪丹

5、丹指导老师:唐煜IResearchonChinesetextclusteringalgorithmAbstractClusteringalgorithmisanunsupervisedlearningalgorithm,ithassomeflexibilityandahigherabilitytodealwithproblemsautomatically.Consequentlyithasawideapplication.Itcanbecombinedwithtextminingtechnologytodoclusteringanalysisontexts,whic

6、hcanbeappliedtothesearchengineareaforuserstosearchthevaluableinformationtheywantconvenientlyandquickly.Atthesametime,itcanalsobeusedinspamfiltering,documentclassification,etc.ThispapermainlyconsideredtheChinesetextclusteringalgorithm.Firstly,thebackgroundandsignificanceoftheresearchwer

7、edescribed.Thentheconceptoftextminingwasintroduced,andtherelatedtechnologyoftextminingwasstudied.ItusedRpackagesincludingRwordsegandjiebaRtoachievethetextwordsegmentation,andstudiedthetechnologyofthefeatureextractionanddimensionreduction,suchasTF-IDFtechnology.Inthethirdchapter,thisp

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。