欢迎来到天天文库
浏览记录
ID:36740646
大小:1.64 MB
页数:58页
时间:2019-05-14
《基于支持向量机的文本分类方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、t一研68咀⑧天津大薯中国近代第所大学硕士学位论文学科专业:系统工程作者姓名:堕堡指导教师:至垩堕塑量⋯⋯㈣2005年12月中文摘要数据挖掘是一门从大规模数据中提取有用信息和知识的新兴技术,文本挖掘是数据挖掘中一项重要内容。面对大规模的、高维的数据,如何建立有效的文本挖掘算法是数据挖掘研究的方向之一。围绕以上问题,本文利用支持向量机对文本分类数据挖掘中涉及的若汗问题进行了深入研究,主要包括以下几个方面的内容:通过对支持向量训练速度慢的主要原因进行分析,利用一种预抽取两类样本相对边界的边界向量的FFMVM方法、模
2、糊循环迭代算法,提高支持向量机训练速度。在此基础上,提出了一种基于上述改进的支持向量机的两类文本分类算法,以预抽取的边界向量集合作为初始工作集合,以模糊循环迭代算法对支持向量机进行训练,实验结果表明,与传统方法相比该算法具有更高的效率。针对目前支持向量机多类分类方法存在的缺点,在一种新的支持向量机多类分类方法基础上提出了一种SVM多类文本分类算法。实验结果表明,此方法与目前认为性能好的DDAGSVM方法相比,需要训练的支持向量机数目少,训练速度快,分类速度快,同时克服了可能出现的不确定分类区域的存在。关键词:文
3、本挖掘,支持向量机,两类分类,多类分类ABSTRACTDataminingisanewtechnologythatisusedtoextractusefulinformationandknowledgefromlargedatabases.Textclassificationisanimportanttaskofdatamining.Facingthemassivevolumeandhighdimensionaldatahowtobuildeffectivealgorithmfortextminingisone
4、ofresearchdirectionsofdatamining.Aimingataboveissues,someproblemsoftextclassificationwithSVM(supportvectormachine)havebeenstudiedsubstantiallyinthispaper.Themaincontentsarelistedasfollows:ThroughanalyzingthemainreasonthatthetrainingspeedofSVMisslow,weemploya
5、pre—extractingSVs(supportvectors)algorithmandcirculatediterativealgorithmtoimprovethespeedoftrainingSVM.Andbasedonitanewtwoclassestextcategorizationalgorithmispresentedwhichincludespre—extractingsupportvectorsastheinitialworkingsetandfuzzycirculatediterative
6、algorithmastrainingmethodofSVM.Comparedwiththeconventionalsupportvectormachines,thepresentmethodpossessesmuchhighercomputationefficiency.TosolvetheproblemsanddefectionsofexistingmethodsofSVMmulticlassclassification.anewmethodofSVMmulticlassclassificationbase
7、donbinarytreeisemployedandappliedittomultielasstextcategorization.Severalsimulationsdemonstratethatcomparedwiththeexistingmethods,thenewmethodprseessedthefollowingadvantages:thenumberofSVMsneededtobetrainedisless,thespeedoftraininganddecisionisfastandtheregi
8、onthatcannotbeclassifieddoesnotexistagain.keywords=Textmining,supportvectormachines(SVM),twoclassestextcategorization,multiclasstextcategorizationⅡ独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特
此文档下载收益归作者所有