文本自动分类系统研究与实现

文本自动分类系统研究与实现

ID:20452889

大小:141.00 KB

页数:9页

时间:2018-10-12

文本自动分类系统研究与实现_第1页
文本自动分类系统研究与实现_第2页
文本自动分类系统研究与实现_第3页
文本自动分类系统研究与实现_第4页
文本自动分类系统研究与实现_第5页
资源描述:

《文本自动分类系统研究与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于向量空间模型的文本自动分类系统的研究与实现ResearchandImplementationofTextCategorizationSystemBasedonVSM庞剑锋(Pangjianfeng)卜东波(Budongbo)白硕(Baishuo)(中国科学院计算技术研究所InstituteofComputingTechnology,CAS100080)E-mail:pangjf@ncic.ac.cn中图法分类号TP391摘要:随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具,文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系

2、下,根据文本的内容自动判别文本类别的过程,本文对文本分类中所涉及的关键技术,包括向量空间模型、特征提取、机器学习方法,进行了研究和探讨,并且提出了基于向量空间模型的文本分类系统的结构,并给出了评估方法和实验结果。关键词:文本分类中文信息处理向量空间模型Abstract:Inrecentyears,informationprocessingturnsmoreandmoreimportantforustogetusefulinformation.TextCategorization,theautomatedassigningofnaturallanguagetexts

3、topredefinedcategoriesbasedontheircontents,isataskofincreasingimportance.ThispapergivesaresearchtoseveralkeytechniquesaboutTextCategorization,includingVectorSpaceModel,FeatureExtraction,MachineLearning.ItalsodescribesatextcategorizationmodelbasedonVSM,andgivestheevaluationsandresults.

4、Keywords:TextCategorizationChineseInformationProcessingVectorSpaceModel1引言九十年代以来,Internet以惊人的速度发展起来,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息、图像信息等等。如何在浩若烟海而又纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一大目标。基于人工智能技术的文本分类系统能依据文本的语义将大量的文本自动分门别类,从而更好地帮助人们把握文本信息。近年来,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。本文主要探

5、讨了文本分类系统的实现和关键技术,第一部分为引言,第二部分描述了文本分类解决的问题并对其性能评估方法进行了介绍,第三部分探讨了文本分类系统的关键技术,第四部分给出了我们实现的基于向量空间模型的文本分类系统的结构框架,第五部分是该系统的测试数据和实验结果,第六部分是对将来工作的设想,第七部分是结束语。2问题描述2.1系统任务简单地说,文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类

6、别相关联。用数学公式表示如下:文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则。然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。2.2评估方法因为文本分类从根本上说是一个映射过程,所以评估文本分类系统的标志是映射的准确程度和映射的速度。映射的速度取决于映射规则的复杂程度,而评估映射准确程度的参照物是通过专家思考判断后对文本的分类结果(这里假设人工分类完全正确并且排除个人思维差异的因素),与人工分类结果越相近,分类的准确程度就越高,这里隐含了评估文本分类系统的两个指标:准确率和查全率。准确率是所

7、有判断的文本中与人工分类结果吻合的文本所占的比率。其数学公式表示如下:查全率是人工分类结果应有的文本中分类系统吻合的文本所占的比率,其数学公式表示如下:准确率和查全率反映了分类质量的两个不同方面,两者必须综合考虑,不可偏废,因此,存在一种新的评估指标,F1测试值,其数学公式如下:另外有微平均和宏平均两种计算准确率、查全率和F1值的方法。微平均:计算每一类的准确率、查全率和F1值。宏平均:计算全部类的准确率、查全率和F1值。所有文本分类系统的目标都是使文本分类过程更准确,更快速。3关键技术3.1文本的表示计算机并不具有人类的智能,人在阅读文章后,根据自身的理解能力可

8、以产生对文

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。