knn和svm算法在中文文本自动分类技术上比较及研究

knn和svm算法在中文文本自动分类技术上比较及研究

ID:34953859

大小:166.00 KB

页数:7页

时间:2019-03-15

knn和svm算法在中文文本自动分类技术上比较及研究_第1页
knn和svm算法在中文文本自动分类技术上比较及研究_第2页
knn和svm算法在中文文本自动分类技术上比较及研究_第3页
knn和svm算法在中文文本自动分类技术上比较及研究_第4页
knn和svm算法在中文文本自动分类技术上比较及研究_第5页
资源描述:

《knn和svm算法在中文文本自动分类技术上比较及研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、...页眉KNN和SVM算法在中文文本自动分类技术上的比较研究[日期:2009-07-22]来源: 作者:[字体:大中小]马建斌‘,李谨,滕桂法’,王芳’,赵洋’摘要:中文文本分类技术在中文信息智能处理方面具有十分重要的作用比如:中文信息检索和搜索引攀等KNN、贝叶斯、SVM等算法都可以应用到中文文本分类技术上,本研究分析和比较了KNN和SVM两种分类算法,并通过实验比较这两种算法对中文文本分类技术的效果。结果表明:SVM算法较优,是一种较好的中文文本分类算法。ThecomParisonstudiesonthealgorit

2、hmofKNNandSVMforchinesetextClassificationAbtraet::Chinesetextelassifieation15importantforehineseintelligentinformationmanagement,suehasehineseinformationretrievalandrehengine.AIOtofalgorithmseanbeusedforChinesetextelassifieation,suehasKNN,BayesandSVMete.ThePaperhas

3、analyzedandcomparedtheKNNandSVMalgorithm.AndtheeffectofthetwoagorithmsonChinesetextelassifieationwasgotbytheexperiments.TheresultsindieatedthattheSVMalgorithmwasbetterthantheKNNalgorithm,whiehprovedthattheSVMalgorithmwasoneexcellentehinesetextelassifieationalgorith

4、m.Keywords:Chinesetextelassifieation;KNN;SVM随着计算机技术、信息技术的发展,尤其是互联网的日益普及,以半结构化或完全非结构化为主的电子信息呈几何级数增长,当前,仅google搜索引攀搜索的网页就达40....页脚...页眉多亿。如此海量的信息,为网络用户的工作和生活带来了极大的便利,但是如何从海量的信息中快速、准确地找到用户感兴趣的内容成为一个需要迫切解决的问题。基于内容的信息检索和数据挖掘逐渐成为备受关注的领域。其中,文本分类技术是信息检索和文本挖掘的重要基础,其主要任务是在预先

5、给定的类别标记(label)集合下,根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有粉广泛的应用。20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行分类。人工分类非常费时,效率过低.20世纪90年代以来,众多的统计方法和机器学习方法应用于自动文本分类,文本分类技术的研究引起了研究人员的极大兴趣。目前英文自动分类已经取得了丰硕的成果,提出了多种成熟的分类方法,如最近邻分类(Knearestneighbor,KNN)、贝叶斯分类川、决策树

6、以及支持向量机(Sup因rtveetormaehine,svM)[,]、向量空间模型(vesto:spaeemedel,vSM)、回归模型和神经网络川等方法,但对于中文文本的自动分类技术研究尚不尽人意。目前国内中文文本分类研究主要集中在朴素贝叶斯、KNN、向量空间模型[’]和支持向量机[’]等技术上。本研究分析和比较KNN和SVM这两种机器学习算法在中文文本自动分类技术上的应用,并通过实验比较这两种分类算法的效果。1中文文本分类技术自动文本分类也就是在已有数据的基础上学会一个分类函数或分类模型,即所谓的分类器(Classif

7、ier)。为文档集合中的每个文档确定一个类别。现在主流的文本分类方法是基于机器学习的方法,此方法首先使用训练样本进行特征选择和分类器训练,然后把特征形式化待分类样本输人到分类器进行类别判定,最终得到输人样本的类别。基于机器学习的自动文本分类方法的基本过程包括文本的特征表示、特征提取、特征选择、文本分类等过程。1.1文本特征衰示和特征提取用简单而准确的方法将文档表示成计算机能够处理的形式是进行文本分类的基础,它是对从文本中抽取出的特征项进行量化,以一定的特征项表示目标信息。最经典文本形式化表示方法是20世纪60年代Salton

8、等人提出的向量空间模型(VSM)。向量空间模型的基本思想把文档简化为以项的权重为分量的向量表示:(w,,w:,w3……w,),其中w‘为第i个特征项的权重,一般选取词作为特征项。向量用词频表示。词频分为绝对词频和相对词频:绝对词频,即词在文本中出现的频率,相对词频为归一化的词频,其计算方法

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。