基于支持向量机的文本分类方法研究

基于支持向量机的文本分类方法研究

ID:36740646

大小:1.64 MB

页数:58页

时间:2019-05-14

基于支持向量机的文本分类方法研究_第1页
基于支持向量机的文本分类方法研究_第2页
基于支持向量机的文本分类方法研究_第3页
基于支持向量机的文本分类方法研究_第4页
基于支持向量机的文本分类方法研究_第5页
资源描述:

《基于支持向量机的文本分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、t一研68咀⑧天津大薯中国近代第所大学硕士学位论文学科专业:系统工程作者姓名:堕堡指导教师:至垩堕塑量⋯⋯㈣2005年12月中文摘要数据挖掘是一门从大规模数据中提取有用信息和知识的新兴技术,文本挖掘是数据挖掘中一项重要内容。面对大规模的、高维的数据,如何建立有效的文本挖掘算法是数据挖掘研究的方向之一。围绕以上问题,本文利用支持向量机对文本分类数据挖掘中涉及的若汗问题进行了深入研究,主要包括以下几个方面的内容:通过对支持向量训练速度慢的主要原因进行分析,利用一种预抽取两类样本相对边界的边界向量的FFMVM方法、模

2、糊循环迭代算法,提高支持向量机训练速度。在此基础上,提出了一种基于上述改进的支持向量机的两类文本分类算法,以预抽取的边界向量集合作为初始工作集合,以模糊循环迭代算法对支持向量机进行训练,实验结果表明,与传统方法相比该算法具有更高的效率。针对目前支持向量机多类分类方法存在的缺点,在一种新的支持向量机多类分类方法基础上提出了一种SVM多类文本分类算法。实验结果表明,此方法与目前认为性能好的DDAGSVM方法相比,需要训练的支持向量机数目少,训练速度快,分类速度快,同时克服了可能出现的不确定分类区域的存在。关键词:文

3、本挖掘,支持向量机,两类分类,多类分类ABSTRACTDataminingisanewtechnologythatisusedtoextractusefulinformationandknowledgefromlargedatabases.Textclassificationisanimportanttaskofdatamining.Facingthemassivevolumeandhighdimensionaldatahowtobuildeffectivealgorithmfortextminingisone

4、ofresearchdirectionsofdatamining.Aimingataboveissues,someproblemsoftextclassificationwithSVM(supportvectormachine)havebeenstudiedsubstantiallyinthispaper.Themaincontentsarelistedasfollows:ThroughanalyzingthemainreasonthatthetrainingspeedofSVMisslow,weemploya

5、pre—extractingSVs(supportvectors)algorithmandcirculatediterativealgorithmtoimprovethespeedoftrainingSVM.Andbasedonitanewtwoclassestextcategorizationalgorithmispresentedwhichincludespre—extractingsupportvectorsastheinitialworkingsetandfuzzycirculatediterative

6、algorithmastrainingmethodofSVM.Comparedwiththeconventionalsupportvectormachines,thepresentmethodpossessesmuchhighercomputationefficiency.TosolvetheproblemsanddefectionsofexistingmethodsofSVMmulticlassclassification.anewmethodofSVMmulticlassclassificationbase

7、donbinarytreeisemployedandappliedittomultielasstextcategorization.Severalsimulationsdemonstratethatcomparedwiththeexistingmethods,thenewmethodprseessedthefollowingadvantages:thenumberofSVMsneededtobetrainedisless,thespeedoftraininganddecisionisfastandtheregi

8、onthatcannotbeclassifieddoesnotexistagain.keywords=Textmining,supportvectormachines(SVM),twoclassestextcategorization,multiclasstextcategorizationⅡ独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。