基于统计方法的中文文本分类

基于统计方法的中文文本分类

ID:37039108

大小:5.27 MB

页数:54页

时间:2019-05-15

基于统计方法的中文文本分类_第1页
基于统计方法的中文文本分类_第2页
基于统计方法的中文文本分类_第3页
基于统计方法的中文文本分类_第4页
基于统计方法的中文文本分类_第5页
资源描述:

《基于统计方法的中文文本分类》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号密级UDC编号岸肀矸靛九岑硕士学位论文jk于洗计方法的中文文本分类学位申请人姓名:版越申请学位学生类别:全g喇碩士申请学位学科专业:左用洗计指导教师姓名:左固扣到教提纖考CiISPmALCHINANORMALIJNIVEES1TV硕士学位论文基于统计方法的中文文本分类论文作者:殷越指导教师:左国新副教授学科专业:应用统计研究方向:数据挖掘华中师范大学数学与统计学学院2017年5月CENTRALOIUNANOR

2、MM,UNIVERSITYChinesetextclassificationbasedonstatisticalmethodAThesisSubmitedinPartialFulfillmentoftheRequirement}DFortheMastersegreeinCentralChinanormaluniversityByYinYuePostraduateProramggSchoolofMathematicsandStatist

3、icsCentralChinaNormalUniversitySupervisor:ZuoGuoxinAcademicTitle:AssociateProfessorSinaturegApprovedMay.2017纖岸"flu考CENTRALiCHINANORMALUNIVmSlTY华中师范大学学位论文原创性声明和使用授权说明康剞性声明:所呈交的学位论文本人郑重声明,是本人在导师指导下,独立进行研究工作所取得的研究成果。除文中已经标明引用的内容外,本论

4、文不包含任何其他个人或集体已经发表或撰写过的研宄成果。对本文的研宄做出贡献的个人和集体,均己在文中以明确方式标明。本声明的法律结果由本人承担。作者签名:曰期:1^年r月外曰?学位抡文版权使用梭权书学位论文作者完全了解华中师范大学有关保留、使用学位论文的规定,g卩:研宄生在校攻读学位期间论文工作的知识产权单位属华中师范大学。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位

5、论文。(保密的学位论文在解密后遵守此规定):保密论文注释本学位论文属于保密,在_年解密后适用本授权书。非保密论文注释:。本学位论文不属于保密范围,适用本授权书:导师签名作者签名:日期:年(月外日日期:月I^曰“”本人己经认真阅读CALIS髙校学位论文全文数据库发布章程,同意将本人的学位“”“”论文提交CALIS髙校学位论文全文数据库中全文发布,并可按章程中的规定享受M半年—相关权益。同竟论文搵交后滞后::□年:口二年发布。作者签名:取从导师签名??曰期.年月_曰曰期年JT月_

6、曰5考翁CENTRALCHfINANORMALINIVISIlStTV摘要文本分类就得利用待分类文本的模型特征来进行匹配。其过程有:文本的表达、建立一、。分类器评价预测结果等目前,有些比较成熟的分类算法,比如朴素贝叶斯、神经网络等,但在中文文本分类上,有时效果并不理想,,用到英文文本分类时效果较好原因在于英文单词与中文词语的区别。在英文文档里,单词之间都是有空格间隔开的,这样在进行分词处理时很容易就能完成,;而中文文档里字与字之间没有间隔,而且字之间不同的组合,其意思也会有很大的差别

7、。现在,基于理解的分词、基于字符串匹配的。分词和基于统计的分词是解决中文分词常用的方法本文对中文文本的分类进行了研究,一。尝试了些提髙分类准确度的设想,并做了相应的实验本文从搜狗实验室(http://www.sogou.coni/labs/)下载了480个中文文本文档,其中400个文档的类别己知,分别为财经类、健康类、教育类和军事类80;另外个文本的类别需要通过计算机来自动分类。本文首先系统阐述了几种分类算法的原理以及特点,接着对中文文本文档进行基于统-计方法的分词处理,在去除停止词之后,基于T

8、FIDF提取了特征项,根据特征项进行分。类,并比较各种分类方法的好坏本文运用了KNN分类算法、SVM分类算法和组合学习方法来进行文本分类,并比较了各种分类算法的好坏。各种算法模型的分类准确率均能达到80%以上,以组合学习方法里的随机森林模型的分类准确率最高.5%。,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。