中文文本分类算法设计及其实现

中文文本分类算法设计及其实现

ID:813718

大小:861.03 KB

页数:56页

时间:2017-09-07

中文文本分类算法设计及其实现_第1页
中文文本分类算法设计及其实现_第2页
中文文本分类算法设计及其实现_第3页
中文文本分类算法设计及其实现_第4页
中文文本分类算法设计及其实现_第5页
资源描述:

《中文文本分类算法设计及其实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、毕业设计(论文)任务书毕业设计(论文)题目中文文本分类算法的设计及其实现电信学院计算机系84班学生姓名丰成平学号2008055089指导教师相明设计所在单位西安交通大学计算机系2013年6月毕业设计(论文)任务书系(所)计算机科学与技术系(所)主任批准日期毕业设计(论文)任务书电信学院计算机系84班学生丰成平毕业设计(论文)工作自2013年2月21日起至2013年6月20日止毕业设计(论文)进行地点:西安交通大学课题的背景、意义及培养目标随着文本文件的增多,对其自动进行分门别类尤为重要。文本分类是指采用计算机程序对文本集按照一定的分类体系进行

2、自动分类标记。文本分类器的设计通常包括文本的特征向量表示、文本特征向量的降维、以及文本分类器的设计与测试三个方面。本毕设论文研究文本分类器的设计与实现。通过该毕业设计,可使学生掌握文本分类器设计的基本原理及相关方法,并通过具体文本分类算法的设计与编程实现,提高学生的实际编程能力。设计(论文)的原始数据与资料1、文本语料库(分为训练集与测试集语料库)。2、关于文本分类的各种文献(包括特征表示、特征降维、以及分类器设计)以及资料。3、中科院文本分词工具(nlpir)。4、文本分类中需要用到的各种分类方法的资料描述。课题的主要任务毕业设计(论文)任

3、务书1.学习文本特征向量的构建方法及常用的降维方法。2.学习各种分类器的基本原理及其训练与测试方法。3.设计并编程实现文本分类器。4、对试验结果进行分析,得出各种结论。5、撰写毕业论文。6、翻译一篇关于文本分类的英文文献。课题的基本要求(工程设计类题应有技术经济分析要求)1、程序可演示。2、对源代码进行注释。3、给出完整的设计文档及测试文档。完成任务后提交的书面材料要求(图纸规格、数量,论文字数,外文翻译字数等)1、提交毕业论文2、提交设计和实现的系统软件源程序及有关数据3、提交外文资料翻译的中文和原文资料主要参考文献:自然语言处理与信息检索

4、共享平台:http://www.nlpir.org/?action-viewnews-itemid-103Svm(支持向量机)算法:http://www.blogjava.net/zhenandaci/archive/2009/03/06/258288.html基于神经网络的中文文本分析(赵中原):http://www.doc88.com/p-030716713857.htmlTF-IDF的线性图解:http://bbs.e3ol.com/blog-170225-6014.html东南大学向量降维文献:http://www.doc88.com

5、/p-690306037446.html指导教师相明接受设计(论文)任务日期2013-02-21~2013-06-20学生签名:毕业设计(论文)任务书西安交通大学毕业设计(论文)考核评议书院系(专业)班级指导教师对学生所完成的课题为的毕业设计(论文)进行的情况,完成的质量及评分的意见:指导教师年月日毕业设计(论文)评审意见书评审意见:评阅人职称年月日毕业设计(论文)任务书毕业设计(论文)答辩结果院系(专业)毕业设计(论文)答辩组对学生所完成的课题为的毕业设计(论文)经过答辩,其意见为并确定成绩为毕业设计(论文)答辩组负责人答辩组成员年月日摘要

6、论文题目:中文文本分类算法的设计及其实现学生姓名:丰成平指导教师:相明摘要随着当今社会,计算机的普遍使用,出现了连绵不断的文本文件,如何对这些毫无逻辑、毫无层次的文件进行分门别类的整理,做到井井有条,层次鲜明呢?文本自动分类就是针对上述情况,采用机器,通过一定的约束条件和一些分类算法,自动的对这些文件进行遍历,从而实现分门别类。这样用机器代替人来“阅读”文章,用机器代替人来“整理”文章,不仅减轻了工作人员的负担,而且大大节省了时间,工作人员可以去做更多有意义的事情。文本分类主要有以下三个方面:第一、文本的空间向量表示:由于计算机并不能识别真正

7、的文本,本质上只懂得0,1,因此若要对文本进行分类,首先要让计算机能够“读懂”每篇文章,引入文本空间向量表示,将文章里面的特征词形成空间向量,通过计算向量之间的差距,来实现分门别类。第二、文本特征的降维:由于中文词汇成千上万,那么形成的文本向量肯定也很长,计算起来会很麻烦,因此要对向量进行处理。第三、文本分类器的设计:文本分类方法例如:KNN、朴素贝叶斯、SVM、决策树,BP神经网络,运用这些算法设计分类器,从而处理文本向量之间的关系,实现对文本的分门别类。最后,将文本分类运用于众多领域,例如:信息过滤、文档管理、网络安全、电子图书整理、网络

8、图书馆,搜索引擎,这样则不是通过关键字过滤,而是基于文本内容的过滤或者是搜索,能大大提高过滤的可靠性以及搜索的准确性,无疑使文本领域的一项重大的突破关键词:文本向量

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。