基于KNN文本分类分析报告

ID：45694398

大小：151.50 KB

页数：16页

时间：2019-11-16

资源描述：

《基于KNN文本分类分析报告》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、-研究生（大数据技术）报告题目：第27组-基于KNN文本分类分析学号姓名专业计算机技术指导教师院（系、所）计算机学院.---填表注意事项一、本表适用于攻读硕士学位研究生选题报告、学术报告，攻读博士学位研究生文献综述、选题报告、论文中期进展报告、学术报告等。二、以上各报告内容及要求由相关院（系、所）做具体要求。三、以上各报告均须存入研究生个人学籍档案。四、本表填写要求文句通顺、内容明确、字迹工整。.---1研究背景1.1研究背景以及现实意义随着Internet的迅速发展，现在处于一个信息爆炸的时代，人们可以在网络上获取更多的信息，如文本、图片、声音、视

2、频等，尤其是文本最为常用和重要。因此文本的分类在发现有价值的信息中就显得格外重要。文本分类技术的产生也就应运而生，与日常生活紧密联系，就有较高的实用价值[1]。文本分类的目的是对文本进行合理管理，使得文本能分门别类，方便用户获取有用的信息。一般可以分为人工[2]和自动分类。人工分类是早期的做法，这种方式有较好的服务质量和分类精度，但是耗时、耗力、效率低、费用高。而随着信息量以惊人的速度增长，这种方式就显得很困难，所以需要一种自动分类的方式来代替人工分类；自动分类节省了人力财力，提高准确力和速度。1.2国内外研究现状国外对于文本分类的研究开展较早，20

3、世纪50年代末，H.P.Luhn[3]对文本分类进行了开创性的研究将词频统计思想应用于文本分类，1960年，Maro发表了关于自动分类的第一篇论文，随后，K.Spark，GSalton，R.M.Needham，M.E.Lesk以及K.S.Jones等学者在这一领域进行了卓有成效的研究。目前，文本分类已经广泛的应用于电子邮件分类、电子会议、数字图书馆]、搜索引擎、信息检索等方面[4]。至今，国外文本分类技术在以下一些方面取得了不错的研究成果。.---(1)向量空间模型[5]的研究日益成熟Salton等人在60年代末提出的向量空间模型在文本分类、自动索引

4、、信息检索等领域得到广泛的应用，已成为最简便高效的文本表示模型之一。(2)特征项的选择进行了较深入的研究对于英法德等语种，文本可以由单词、单词簇、短语、短语簇或其他特征项进行表示。国内对于文本分类的研究起步比较晚，1981年，侯汉清教授对于计算机在文本分类工作中的应用作了探讨，并介绍了国外计算机管理分类表、计算机分类检索、计算机自动分类、计算机编制分类表等方面的概况。此后，我国陆续研究出一批计算机辅助分类系统和自动分类系统。但是中英文之间存在较大差异，国内的研究无法直接参照国外的研究成果，所以中文文本分类技术还存在这一些问题。(1)缺少统一的中文语料

5、库不存在标准的用于文本分类的中文语料库，各个学者分头收集自己的训练文本集，并在此基础上开展研究，因此，系统的性能可比性不强。同时，由于财力人力有限，中文语料库的规模普遍不大。(2)向量空间模型的研究还不十分成熟国内的学者，例如，吴立德和黄萱菁也提出了如何选择特征项的问题，他们提出可以使用字、词、概念作为特征项来构成向量空间模型，并对以此为基础的文本分类系统进行了初步的性能比较。但是，在这方面的研究[6]还没有深入的开展，尤其是对于概念的定义不清晰，没有全面的比较和测试系统。另外，在特征项抽取算法方面也缺少深入的研究。.---(3)文本分类算法的研究不

6、十分完整每个分类器通常只实现一种分类算法，然后进行测试和分析，缺少完整的多种分类算法性能的比较和测试。.---1解决方案1.1KNN文本分类算法KNN[7]算法最初由Cover和Hart于1968年提出[8]，是一个理论上比较成熟的方法。该算法的基本思想是:根据传统的向量空间模型，文本内容被形式化为特征空间中的加权特征向量，即D=D(T1，W1;T2，W2;…;Tn，Wn)。对于一个测试文本，计算它与训练样本集中每个文本的相似度，找出K个最相似的文本，根据加权距离和判断测试文本所属的类别。具体算法步骤如下:(1)对于一个测试文本，根据特征词形成测试文

7、本向量。(2)计算该测试文本与训练集中每个文本的文本相似度，计算公式为:式中:di为测试文本的特征向量，dj为第j类的中心向量;M为特征向量的维数;Wk为向量的第k维。(3)按照文本相似度，在训练文本集中选出与测试文本最相似的k个文本。(4)在测试文本的k个近邻中，依次计算每类的权重，计算公式如下:式中:x为测试文本的特征向量;Sim(x，di)为相似度计算公式;b为阈值，有待于优化选择;而y(di，Cj)的取值为1或0，如果di属于Cj，则函数值为1，否则为0。.---(5)比较类的权重，将文本分到权重最大的那个类别中。KNN方法基于类比学习，是一

8、种非参数的分类技术，在基于统计的模式识别中非常有效，对于未知和非正态分布可以取得较高的分类准确率，具有鲁棒性

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 16



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于KNN文本分类分析报告

基于KNN文本分类分析报告

相关文章

相关标签