分类词典编撰的领域词语聚类实现

分类词典编撰的领域词语聚类实现

ID:14199175

大小:122.50 KB

页数:6页

时间:2018-07-26

分类词典编撰的领域词语聚类实现_第1页
分类词典编撰的领域词语聚类实现_第2页
分类词典编撰的领域词语聚类实现_第3页
分类词典编撰的领域词语聚类实现_第4页
分类词典编撰的领域词语聚类实现_第5页
资源描述:

《分类词典编撰的领域词语聚类实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、分类词典编撰的领域词语聚类实现刘华1中文提要:针对分类词典中学科词条的获取和选择问题,我们利用文本分类和聚类中特征提取的方法进行词语聚类,从而达到辅助词典编撰的目的。关键词:分类词典文本分类特征提取词语聚类StudiesonWordsClusteringinlexicographyLiuHua1,2ZhouLingYan1ZhangPu21(CollegeofChineseLanguageandCultureofJinanUniversity,Guangzhou,510000)2(BeijingLanguageUn

2、iversity,Beijing,100000)E-mail:liuhua0461@sina.comAbstract:Forobtainingandselectingsubjectlemmaauxiliarytobuildingclassifieddictionary,thispaperpresentsanalgorithmthatclustersfieldWordsinlarge-scaleclassedcorpusbycharacterextractionintextclassing.Keywords:Lexi

3、cography,TextClassing,CharacterExtraction,WordsClustering词典或词库建设是一项重要的基础性工程,词典编撰工作量巨大、枯燥繁琐。在信息化高度发展的今天,如何利用高科技手段辅助词典编撰已成为一项非常有意义的课题。针对分类词典编撰中学科词条(每一条目的条头,可能是词或短语,本文通称为词条,下同)的获取和选择问题,我们利用文本分类和聚类中特征提取的方法进行词语聚类,从而达到辅助词典编撰的目的。1.分类词典编撰的两个关键问题现代词典按其收录内容和用途可分为:语文词典、综

4、合性词典和专科性词典。[1]其中,综合性词典和专科性词典常常以学科(或题材)为纲来进行组织编排。综合性词典收录内容广泛,涉及各个领域,便于查找最基本的知识和资料,往往只选择重要的或查检率较高的词目收录,而在涉及各学科体系的深度和收词的平衡及完整性方面有它薄弱的一面。这样在查检某一学科、专业的知识时则主要利用专科词典。人类很早就有将词汇按题材分类编纂的传统,距今2000多年前编纂的《尔雅》是最早的分类词典雏形。近现代,分类词典的出版空前繁荣,出现了很多专科词典,基本上涵盖了各学科。按学科(或题材)编撰词典的两个关键问

5、题在于学科词条的获取和选择。1.2.1学科词条的获取以往的词条通常是由学科领域的专家利用其学科经验来提供,这一方面保证了学科词条的准确性,但另一方面又带来了一些问题。如个人主观性太大,难以保证词条的一致性,特别是对于那些新出现的没有定论的学科术语更是如此;个人或几个人的力量毕竟有限,很难保证词条的学科涵盖性,特别是在编撰综合性词典时,如何调动大规模的领域专家协同工作,更是一个大问题;信息化时代的到来,特别是网络的发展,使得知识更新非常快,单纯依靠专家的知识很难保证学科词条的时效性,难以及时更新。1刘华,男,02级博

6、士生,研究方向:计算语言学,智能检索,e-mail:liuha0461@sina.com11.2.2学科词条的选择综合性词典和专科性词典虽然都是以学科(或题材)为纲来进行组织编排的,但侧重点不一样。综合性词典收录内容广泛,涉及多个领域,多为各学科最基本、普通的词条,较少顾及那些专业性很强的学科术语。而专科性词典则注重学科的专业性,比较注意收集专业性很强的学科术语。在专科性词典的内部,通俗性的和专业性的专科词典由于其面向的读者群不一样,二者在词条的专业性选择上也存在如上的问题。因此,如何快速自动地获取学科分类的词条,

7、并且区分其学科的专指度(词条的学科专业性强度)成了词典编纂的两个瓶颈问题。2.词语聚类2.1特征提取方法在文本自动分类中,关键的一个技术是特征提取。特征提取的步骤包括:词语切分,词频统计,加权计算和特征选择(二者通常结合在一起进行)。权重计算和特征选择有很多计算公式,如信息增益、期望交叉熵、文本证据权、χ2统计量等,其中最著名的是TFIDF公式。经过权重计算和特征选择后,就能生成文本类别的核心向量,这些向量中的特征词可以认为是能代表该类文本特征的类别领域词。我们分类词典编撰中需要用到的学科词条可以通过此方法获得。2

8、.2TF*IDF算法经典的权重计算和特征选择的算法是TF*IDF算法,后来有很多人对此进行了改进,如RobertoBasils提出的TF*IWF*IWF公式和国内有人提出的TF*IDF*IG公式等。[3]陈克利对TF*IDF和TF*IWF*IWFF公式进行了分析并作了一些改进:公式二:22N(w)w(wi,cj)pijpipijlog(i

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。