【硕士论文】基于支持向量机的文本分类方法研究.pdf

【硕士论文】基于支持向量机的文本分类方法研究.pdf

ID:32032635

大小:1.34 MB

页数:42页

时间:2019-01-30

【硕士论文】基于支持向量机的文本分类方法研究.pdf_第1页
【硕士论文】基于支持向量机的文本分类方法研究.pdf_第2页
【硕士论文】基于支持向量机的文本分类方法研究.pdf_第3页
【硕士论文】基于支持向量机的文本分类方法研究.pdf_第4页
【硕士论文】基于支持向量机的文本分类方法研究.pdf_第5页
资源描述:

《【硕士论文】基于支持向量机的文本分类方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、摘要随着计算机技术和www的飞速发展,互联网上的电子文档信息急剧增加。面对如此浩瀚的信息,人们迫切需要寻找一条能够快速、准确获得所需信息的途径。而文本分类作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,有着广泛的应用前景,因此也就成为人们研究的热点问题。本文从文本的向量模型表示,特征选择和分类器训练这三个步骤较系统地研究了文本自动分类。(1)讨论了文本表示的整个过程——分词,建立停用词表,特征选择,权重计算,生成向量空间。针对停用词对分类的影响,建立了适合文本分类的停用词表,使向量维数得到初步降低;对现有特征选择方法进行了介绍和对比,

2、构造了一种适合支持向量机的特征选择函数——基于类内频率的特征选择函数。(2)介绍了当前性能较好的三种文本分类方法:朴素贝叶斯、KNN法和支持向量机法,对它们进行了对比研究,实验结果表明支持向量机是当前分类结果较稳定,精度较高,性能较好的方法。(3)结合粗糙集和支持向量机的优点,提出了基于粗糙集与支持向量机融合的文本分类方法,利用粗糙集的约简可以降低向量的维数,从而缩短了支持向量机的训l练时间。(4)实现了一个实用性较强的文本分类实验系统,利用该系统可以进行特征选择、权重计算研究,也可以直接对不同的语料进行训练和测试。(5)对文本分类未来研究进行了展望。关键词:文

3、本分类;特征选择;粗糙集;支持向量机百度排名http://www.001baidu.com/童装批发网http://www.tongzhuangpifawang.com/AbstractWiththedevelopmentatfullspeedofthetechnologyofthecomputerandWWWjtheelectronicfileinfoHnationonImemetincreasessha叩ly.Inthefaceofsovastinfbmation,peopleurgentIyneedtolookforawaythatcanobtainnec

4、essaryinfomationfleetlyandaccuratelyAndtextcategorizationasmetechllolo西calfoundationisusedinsuchfieldsasinfbmationflltering,infbHnationretrieVal,searchengine,textdatabase,digitized1ibraryetc.ThereareextensiVeappl.cationprospects,soitbecomesthehotproblem.Thisp印erstudysystematicallytex

5、tautomaticcategorization矗ommreewaVsincludingvectormodelrepresentation,featureselectionandclassmertraining.(1)ThewholeprocessofteXtrepresemationwerediscussed⋯wordsegmentation,buildingstopwordslist,featureselection,weightcomputationa11dgeneratingvectorspace.Aimattheinfluenceofstopwords

6、,alist,whichisfitfortextcategorization,issetupandmakesthevectordimensionreduce.TheeXistin2memodsoffeatureselectionwereimroducedandcomDaredandakindoffeatureselectionmnctionwhichissuitableforSVMwasconstmcted—f宅amreselectionfunctionbasedonfrequencyinkind.f2)ThreebettermethodsofteXtcateg

7、orization—NaiVeBayes,K卜mandSVMwereintroducedandcomparedatpresent:TheexDerimentalresultindicatesthatSVMisabettermetllodwithrelatiVelystabmzation,hi曲precisionandb毗erperfo玎nance.CombinedadVantagesofRou曲setsandSVM,ateXt(3)categorizationmethodbasedonRoughsetsandSVMwereproposed.Thismethodc

8、ancutdownvec

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。