基于knn专利文本分类算法的研究

基于knn专利文本分类算法的研究

ID:34203665

大小:898.66 KB

页数:75页

时间:2019-03-04

基于knn专利文本分类算法的研究_第1页
基于knn专利文本分类算法的研究_第2页
基于knn专利文本分类算法的研究_第3页
基于knn专利文本分类算法的研究_第4页
基于knn专利文本分类算法的研究_第5页
资源描述:

《基于knn专利文本分类算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据中图分类号:TP391密级:公开UDC:38单位代码:10460基于KNN的专利文本分类算法研究ResearchofPatentTextClassificationAlgorithmBasedonKNN申请人姓名苑迪文学位类别工学硕士计算机软件与理计算机网络技术专业名称研究方向论导师刘沛骞职称副教授提交日期2012.4答辩日期2012.6河南理工大学万方数据河南理工大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是我个人在导师指导下进行的研究工作及取得的研究成果。论文中除了特别加以标注和致谢的地方外,不包含任何其他个人或集体已经公开发表或撰写过的研究成果。

2、其他同志对本研究的启发和所做的贡献均已在论文中作了明确的声明并表示了谢意。本人愿意承担因本学位论文引发的一切相关责任。学位论文作者签名:年月日河南理工大学学位论文使用授权声明本学位论文作者及导师完全了解河南理工大学有关保留、使用学位论文的规定,即:学校有权保留和向有关部门、机构或单位送交论文的复印件和电子版,允许论文被查阅和借阅,允许将本学位论文的全部或部分内容编入有关数据库进行检索和传播,允许采用任何方式公布论文内容,并可以采用影印、缩印、扫描或其他手段保存、汇编、出版本学位论文。保密的学位论文在解密后适用本授权。学位论文作者签名:导师签名:年月日年月日万方数据万方数

3、据万方数据致谢日月如梭,转眼我的研究生生活即将结束,回想这短短三年的日子,让我感慨万千。在此,我要特别感谢在读研期间给过我关心和帮助的老师、家人、同学和朋友。首先,诚挚的感谢我的论文指导老师,刘沛骞副教授。在研究生期间,刘老师给予悉心教导,从本文的选题、研究等各个方面都是在刘老师的精心培养下完成的。他善诱的教导和不拘一格的思路,解决问题的严谨给予我无尽的启迪,成为我一生中不可或缺的宝贵经验,为今后我从事科研工作奠定了坚实的精神基础。还有教过我的老师们,他们给我了一些有益的意见和建议。至此,我对刘老师和所有教过我的老师们表示非常的感谢。其次,我要感谢和我一个实验室的同学们

4、、一个宿舍的舍友们以及我的好朋友们,在朝夕相处的日子里,我们经常在一起讨论各种问题,使我受益菲浅,是他们在我迷茫和彷徨的时候给了我勇气和信心,是他们的关心和帮助让我体会到同学之间深刻的友谊,论文马上要结束了,我向他们说一声谢谢!最后,我要感谢在我撰写论文期间在我背后默默付出的家人。正是由于他们用无私的爱给我创造了一个温暖舒适的环境,才使得我可以专心致志于学业,没有他们不求回报的付出和始终不渝的支持,我将难以按照计划完成本论文,他们的关怀和期盼是我的动力和源泉。本论文凝聚了他们大量的心血和精力,再次对他们表示深深的谢意。万方数据万方数据摘要随着Internet和信息技术的

5、快速发展,大量的半结构化和非结构化信息量的急剧增加,如何在最短的时间内获取自己所需要的信息已成为当前我们迫切需要解决的问题。目前,专利技术已成为国家或地区间竞争力的核心,面对海量的专利信息,如何利用文本分类技术来对这些专利信息分类已成为大势所趋。首先,本文介绍了文本分类的研究现状以及专利分类背景。其次,系统介绍了文本分类的关键技术和各种分类算法,以及各种分类算法在不同领域中的应用。目前,在众多分类器当中,KNN分类器相对于其他分类器分类效果较好,但是其依旧存在一些缺点,诸如分类速度慢、分类精度低下等。为了克服KNN分类算法的诸缺点,本文提出了优化的KNN算法分类器,该分

6、类模块由训练、分类以及评价三部分组成。优化的KNN算法采用基于簇的原始空间模型对训练集进行处理,首先将训练集中相似的文本形成一簇,把每一簇看作是一个普通文本,计算每一簇的中心向量,再设定一个阈值,对高于该阈值的簇进行管理,并重新形成训练集。该分类算法在尽量保存原始文本信息的基础上,根据文本稀疏性特点,本文采用压缩表示模型的思想,然后做距离的计算,最后将待测文本归属所属的类别。这种分类算法不仅减少计算量,而且提高了KNN分类器的分类速度以及分类精度。最后本文通过专利分类的实验,对优化KNN算法在专利分类运算速率、正确率、错误率以及召回率方面作评估,验证了优化KNN算法较传

7、统KNN算法在分类效果上有一定程度的提高。关键词:文本分类;KNN算法;簇;专利文本分类I万方数据II万方数据AbstractWiththerapiddevelopmentoftheInternetandinformationtechnology,lotsofsemi-structuredandunstructuredtextinformationgreatlyincreases.However,howtoobtaintheusefulinformationquicklyandaccurately,ithasbecomesanurgent

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。