基于支持向量机的文本分类算法的研究与实现

基于支持向量机的文本分类算法的研究与实现

ID:33922514

大小:802.50 KB

页数:51页

时间:2019-02-27

基于支持向量机的文本分类算法的研究与实现_第1页
基于支持向量机的文本分类算法的研究与实现_第2页
基于支持向量机的文本分类算法的研究与实现_第3页
基于支持向量机的文本分类算法的研究与实现_第4页
基于支持向量机的文本分类算法的研究与实现_第5页
资源描述:

《基于支持向量机的文本分类算法的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、.学号:2009030114哈尔滨师范大学学士学位论文题目基于支持向量机的文本分类算法研究与实现学生李慧颖指导教师李红宇副教授年级2009级专业计算机科学与技术系别计算机科学与技术学院计算机科学与信息工程...哈尔滨师范大学学士学位论文开题报告论文题目:基于支持向量机的文本分类算法研究与实现学生姓名:李慧颖指导教师:李红宇年级:2009级专业:计算机科学与技术2013年3月1日...课题来源:指导教师指导选题课题研究的目的和意义:随着计算机技术的飞速发展以及Internet的普及与应用,互联网上的电子文档信息急剧增加。如何从大量的信息中快速、准确地检索到所需的信

2、息资料,是人们普遍关心的问题,也是计算机工作者急需解决的问题。面对如此复杂的问题,分类技术在信息检索、信息过滤、数据挖掘等方面起着至关重要的作用。而网上的大部分信息以文本的形式存在,于是文本自动分类技术就成为网上信息检索和信息过滤的关键。另外,文本分类可以应用到垃圾邮件的判定(spamornotspam),类别{spam,not-spam};新闻出版按照栏目分类,类别{政治,体育,军事….};词性标注,类别{名词,动词,形容词…);词义排歧,类别{词义1,词义2….),文本检索,文本过滤以及主题发现与跟踪等。而从Springer全文电子期刊与IEL(IEE,IE

3、EE)数据库中,可以看到最近的期刊与国际会议论文,有大量的关于文本分类的文章,说明随着大量的网上的电子信息,文本分类仍是人们研究的热点。面对网上的海量信息,传统的做法是对网上信息进行人工分类,并加以组织和整理,为人们提供一种相对有效的信息获取手段。但是,这种传统的人工分类的做法存在着许多弊端:一是耗费大量的人力,物力和精力;二是存在分类结果一致性不高的问题。这就要求我们探索计算机自动进行文本分类的有效方法,使得分类的正确率提高。只有这样才能保证检索的查全率和准确率都得到提高。文本自动分类是人工智能技术和信息检索技术相结合的研究领域,是进行基于内容的自动信息管理的

4、核心技术。文本分类是指根据一些已经分配好类标签(这些类标签预先定义好)的训练文档集合,来对新文档分配类标签,其目的就是对文本集进行合理处理和组织,使得这些文本能够按照类别区分开来。作为知识的组织工具,它为信息检索提供了更高效的搜索策略和更准确的查询结果,其中,高效性在于用户可以首先确定查询的可能类别,以减小需进一步匹配的文本数量:有效性在于相似的文本很可能与相同的查询相关,这样使得检索的查全率和准确率都得到了提高。...国内外同类课题研究现状及发展趋势:1.国外文本自动分类主要经历了四个发展阶段:第一阶段(1958——1964):研究文本自动分类的可能性;第二阶

5、段(1965——1974):进入文本自动分类的实验性阶段;第三阶段(1975——1998):文本自动分类的实用性阶段;第四阶段(1990——至今):因特网文本自动分类研究阶段。在20世纪80年代术以前,基于知识工程的方法一直在文本分类方法中占主导地位。这种方法是由专业人员手工编写分类规则来表达领域专家所拥有的知识,将文档分到某个给定的类别体系中。这种方法需要有领域专家,还需要知识工程师手工编制大量的推理规则。其最典型的应用是卡内基集团为路透社开发的Construe系统。90年代以来,随着模式识别、机器学习、统计学习、数据挖掘等理论研究的发展,新型机器学习方法的不

6、断涌现,基于机器学习的分类技术开始取代基于知识工程的方法,成为文本分类的主流技术。2.国内文本自动分类研究起步较晚,始于20世纪80年代初期。1981年侯汉清对计算机在文献分类工作中的应用作了探讨,并介绍了国外在计算机管理分类表、计算机分类检索、计算机自动分类、计算机编制分类表等方面的概况。此后,有越来越多的人借鉴国外的一些研究成果,结合中文的特点进行中文文本自动分类的研究。中科院计算所的李晓黎、史忠植等人应用概念推理网进行文本分类。复旦大学的周水庚等人用了N-gram方法对中文文本进行分类尝试,从文档中提取N-gram属性,然后用ON方法判别文本类别,摆脱了对

7、词典和切词处理的依赖,实现文本分类的领域无关性和时间无关性。刁力力、石纯一等用Boosting来组合决策树(Stllnlps)的方法进行文本分类。卜东波从信息粒度的角度来剖析聚类和分类技术,试图使用信息粒度原理的框架来统一聚类和分类。庞剑峰等应用向量空问模型进行了中文文本分类实验,并同时对文本分类所涉及的关键性技术,例如特征提取,不同机器学习方法等进行了研究和探讨,给出了评估方法和实验结果。之后他又验证了在文本分类系统中应用反馈方法的可行性,给出了结合反馈方法的文本分类算法。...课题研究的主要内容和方法,研究过程中的主要问题和解决办法:本文在研究文本分类和支持

8、向量机理论的基础上,针对

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。