中文文献的层次分类方法

中文文献的层次分类方法

ID:5379622

大小:271.72 KB

页数:6页

时间:2017-12-08

中文文献的层次分类方法_第1页
中文文献的层次分类方法_第2页
中文文献的层次分类方法_第3页
中文文献的层次分类方法_第4页
中文文献的层次分类方法_第5页
资源描述:

《中文文献的层次分类方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、中文信息学报第13卷第6期JOURNALOFCHINESEINFORMATIONPROCESSINGVol.13No.6X中文文献的层次分类方法战学刚林鸿飞姚天顺东北大学计算机科学与工程系沈阳110006摘要现有的分类系统通常忽略类别体系的层次结构,在对文献进行分类时,往往很难区分类别相近的文献属于哪一类。本文基于向量空间模型,提出根据类别体系的层次结构,自顶向下,逐层分类的方法。其目的是提高分类精度;并根据概念词典,将同义词或下位概念映射到单一的概念词上,由这些概念词构成一个规模很小的特征集,以

2、缩小特征向量空间的维数,从而减少分类系统的计算量。此外,通过对类别层次体系的分析,压缩特征向量,从另一方面减少分类系统的计算量。关键词文献分类向量空间模型类别层次结构HierarchicalMethodforChineseDocumentClassificationZhanXuegangLinHongfeiYaoTianshunDepartmentofComputerScience,NortheasternUniversityShenyang110006Email:ics@mail.neu.edu

3、.cnAbstractExistingstatisticaldocumentclassificationsystemsoftenignorethehierarchicalstruc2tureofthepre2definedtopics.Thismakesitdifficulttoidentifywhichcategoryadocumentbe2longstowhenthepossiblecategoriesaresomewhatsimilar.Inthisarticle,weproposeatop

4、2downclassificationmethodaccordingtothehierarchicalstructureoftopics.Thepurposeistoimproveprecisionandreducecomputationofclassificationsystems.Throughaconceptdictionary(the2saurus),wemapthesynonymsorlower2levelconceptsinadocumenttoasmallsetofconceptwo

5、rdsthatareusedasterms.Thisreducesthecomputationalcomplexityfromanotheraspectbyreducingthedimensionofthevectorspace.KeywordsDocumentclassificationVectorspacemodelTopiccategoryhierarchy一、引言文献分类就是将大量的自然语言文献归结到一个(或多个)预定义的文献类别中。近年来,随着文本信息的不断增多,人们对大规模文本信息自动

6、处理也提出了更高要求。有效的信X本文于1999年3月22日收到20息检索需要有良好的索引和文献内容概括。文献分类便是解决这类问题的一种手段。文献分[1]类一般是通过统计方法或知识工程方法来实现的。知识工程方法需要编制大量的推理规则,因此其开发费用相当昂贵。这种方法的一个例子是卡内基集团为路透社开发的Construe[2]系统。该系统的开发工作量达10个人年。相比之下,统计方法由于其相对简单的机制,为[3]大多数实用文献分类系统所采用。在基于统计的各种分类方法中,应用最广的是向量空间法(VSM)和B

7、ayes方法。其它的[1]统计方法,大都是这两种方法的变形或改进(如kNN方法)。它们的共同特点是:●忽略文献的语言学结构●把文献类和文献都作为特征项的集合对待●利用加权特征项构成向量作为文献或文献类的表示●根据词频信息计算权值。统计分类方法的基本假设是文章的内容与其中的词汇有着必然的联系。因此,许多分类系统都直接用词(主要是名词)或词组作为特征项,并将文献的向量表示与文献类的向量表示逐个比较,以确定文献的类别。这就要求系统在此之前确定文献类的特征向量,即用手工标注的文献集作为训练文献,求出各个类

8、别的特征向量。然而,对于较大规模的训练文献集,往往有数百个类别和成千上万的特征项,系统的计算量极大。而且系统的性能对训练集的依赖性非常大。此外,由于这些系统通常忽略类别体系的层次结构,而将各个文献类作为单一的实体看待,这就加剧了系统对训练集的依赖性,系统的分类精度也受到影响。[4]Schutze等人的实验表明,特征筛选是处理这些问题的有效方法。我们可以将训练集中[5]那些对于主题类别不具区分能力或区分能力很小的词汇从特征项中删除。而Koller等人则进一步证实,将特征项从1600条

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。