基于粗糙集与改进KNN算法的文本分类方法的研究_邵莉.pdf

基于粗糙集与改进KNN算法的文本分类方法的研究_邵莉.pdf

ID:52768254

大小:1.54 MB

页数:4页

时间:2020-03-30

基于粗糙集与改进KNN算法的文本分类方法的研究_邵莉.pdf_第1页
基于粗糙集与改进KNN算法的文本分类方法的研究_邵莉.pdf_第2页
基于粗糙集与改进KNN算法的文本分类方法的研究_邵莉.pdf_第3页
基于粗糙集与改进KNN算法的文本分类方法的研究_邵莉.pdf_第4页
资源描述:

《基于粗糙集与改进KNN算法的文本分类方法的研究_邵莉.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、计算机与现代化2012年第2期JISUANJIYUXIANDAIHUA总第198期文章编号:1006-2475(2012)02-0086-04基于粗糙集与改进KNN算法的文本分类方法的研究邵莉(阿坝师范高等专科学校教务处,四川汶川623000)摘要:KNN算法是文本自动分类领域中的一种常用算法,对于低维度的文本分类,其分类准确率较高。然而在处理大量高维度文本时,传统KNN算法由于需处理大量训练样本导致样本相似度的计算量增加,降低了分类效率。为解决相关问题,本文首先利用粗糙集对高维文本信息进行属性约简,删除冗余属性,而后用改进的基于簇的KNN算法进行文本分类。通过仿真实验,证明该

2、方法能够提高文本的分类精度和准确率。关键词:粗糙集;改进KNN;文本分类中图分类号:TP392文献标识码:Adoi:10.3969/j.issn.1006-2475.2012.02.023StudyofTextClassificationMethodBasedonRoughSetandImprovedKNNAlgorithmSHAOLi(TeachingAffairsOffice,AbaTeachersCollege,Wenchuan,623000,China)Abstract:TheKNNalgorithmisacommonmethodinthefieldofautomati

3、ctextclassification.Ithashighclassificationaccuracyfortextswithlowdimensionalvectors.However,whenitdealswithlargenumbersofhigh-dimensionaltexts,thetraditionalKNNalgorithm,duetotheneedtoprocessconsiderablethetrainingsamples,resultinincreasedsimilaritycalculationandreducedclassificationefficie

4、ncy.Tosolveensuingproblems,thispaperusestheroughsetmethodtoreducetheattributesofdecisiontableandremoveredundantattributes,andthentheimprovedcluster-basedKNNalgorithmisusedtoclassifytexts.Simulationresultsshowthatthemethodcanimprovetheprecisionandaccuracyrateoftextclassification.Keywords:roug

5、hset;improvedKNNalgorithm;textclassificationmethod已知的训练数据,当遇到新样本时,通常需要遍历训0引言[5]练实例空间以找到查询实例的k个最近的邻居,计[6-7]如何从浩瀚的信息海洋中寻找有效信息是传统算量较大。本文提出基于粗糙集与改进KNN算图书馆学与情报学一直关注的问题,但始终不理想。法的文本分类新方法,首先运用粗糙集进行高维信息基于人工智能技术的文本自动分类系统可以根据文的属性约简,再运用改进的KNN算法进行进一步的本的语义,将大量的文本进行自动分类,从而帮助人处理,这种方法极大提高了文本自动分类的效率。们提取有用信息,在

6、一定程度上可以解决该问题。1文本分类的过程文本自动分类是指在给定的分类体系下,由计算机系统根据被分类文本的内容自动确定文本的类别。文本分类的一般过程包括文本的预处理、文本的如今的互联网络遍布全球,文本自动分类方法为人们表示、文本的特征抽取、分类方法和模型评价等环节。掌握如此丰富的信息提供了技术支持。文本分类方其基本思想如下:[1][2][3]法包括贝叶斯法、KNN算法、决策树法、支持首先,对训练文本进行预处理,主要包括分词和[4]向量机等。很多学者将多种方法运用到文本自动去除禁用词等操作。运用禁用词典去除文本中的禁分类中,起到了非常有效的效果。由于KNN算法本用词,如“的、虽然

7、、is”等,并利用特征词典集进行分身是一种消极学习法———学习过程只是简单地存储词,如“计算机操作系统”应划分为3个词:“计算收稿日期:2011-09-13基金项目:四川省科技厅2010年科研立项支持课题(2010JY0J41);四川省教育厅2010年科研立项课题(10SA090);阿坝师范高等专科学校规划课题(ASB10-14)作者简介:邵莉(1980-),女,四川广汉人,阿坝师范高等专科学校讲师,硕士,研究方向:信息系统与智能信息处理。2012年第2期邵莉:基于粗糙集与改进KNN算法的文

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。