基于svm的web文本分类研究

基于svm的web文本分类研究

ID:33491324

大小:1.72 MB

页数:55页

时间:2019-02-26

基于svm的web文本分类研究_第1页
基于svm的web文本分类研究_第2页
基于svm的web文本分类研究_第3页
基于svm的web文本分类研究_第4页
基于svm的web文本分类研究_第5页
资源描述:

《基于svm的web文本分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、上海海事大学硕士学位论文姓名:王琪申请学位级别:硕士专业:计算机软件与理论指导教师:刘锋20070601摘要随着INrIERNET的飞速发展,网上的信息越来越丰富,激增的数据背后隐藏着许多重要的信息。用户使用现有的搜索引擎浏览页面时,虽然能部分解决“资源发现”的问题,但精度不高,不能满足实际需要。更重要的是不能发现隐藏在海量Web数据背后的知识,造成了相对于海量数据的知识贫乏。为了在这些海量的、异质的、非结构化的数据源中提取感兴趣的、潜在的、有用模式和隐藏的信息,需要对Web文本信息进行数据挖掘,这就是Web文本挖掘。随着Web文本数据的迅速增长,Web文本挖掘己经成为了数据

2、挖掘领域的一个重要的研究方向。目前主要的文本分类方法有:最近邻分类、贝叶斯分类、决策树、支持向量机、向量空间模型、回归模型和神经网络等。本文通过分析现有的文本分类,提出了基于改进SVM的Web文本分类方法。本文所做工作如下:(1)介绍了Web数据挖掘的基本概念、分类和方法,以及现有Web文本挖掘的具体过程和相关理论。(2)认真研究了统计学习理论的主要内容和支持向量机的基本原理。阐述了SVM研究与应用的现状,以及所面临的问题。(3)提出了一种改进的并行SW算法,将其应用于文本分类中,并通过实验验证了其有效性。(4)提出了一种主动学习的SWt算法,将其应用于文本分类中,并通过实验

3、验证了其有效性。关键字:网页文本挖掘;统计学习理论;支持向量机;并行学习;主动学习AAbstractW.胁therapiddevelopmentoftheIntemet.theWebinforlTIationbecomesricherandricher.Theincreasingsharplydataleadstothefactthatalotofimportantinformationishidden.W胁theexistentsearchingengine.theusersmayroughlyfindwhattheywantontheIntemet.However,the

4、wayinwhichtheresourcesarenotexactlyfitfortheusersneed,andonemoreimportantreasonisthatitcannotquicklyandeffectivelyabstracttheusefulinformationfrDmthemanyWebdata.whichbringustheconflictbetweenvastinformationandlittleknowledge.Dataminingshouldbeappliedtothetextinformationinordertoextracttheus

5、efulpattem仇atisinterestedandpotentialandthehiddeninformationfromthesubstantive.heterogeneousandunstructureddatasources.Thisiswebte)(tminingW附1therapidlydevelopmentofthewebte×tdata.webtextmininghavebeenanimportantstudydirectionindataminingarea.Manytechniqueshavebeenappliedinte)(Icategorizati

6、on.suchastheNearestNeighboremethod,BayesianNetworks,decisiontrees,neuralnetworks,supportvectormachines,vectorspacemodel,regressionmodel,etc.InthisPapar,weintroducewebtextcategorizationmethodsbasedonimprovedSVM.(1)ThistextintroducesthebasicconcE}pt。kindandmethodofwebdatamining,withtheconcret

7、eprocedureandcorrelatedtheoriesofwebtextmining.(2)WestudytheStatisticalLeamingTheory(sLT)andSupportVectorMachine(SVM)Theoryseriously.WeexplaintheresearchandapplicationstatusofSupportVectorMachineandpointoutsomeimportantissueswhichistoberesolvedwhenresear

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。