欢迎来到天天文库
浏览记录
ID:38283846
大小:627.08 KB
页数:6页
时间:2019-05-29
《英文单词提取》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、《现代图书情报技术》版权所有,欢迎下载引用!请注明引用地址:上下文分析与统计特征相结合的英文术语抽取研究[J],现代图书情报技术,2010(12):28-33.知识组织与知识管理上下文分析与统计特征相结合的英文术语抽取研究1,2131,2许德山张智雄王峰邢美凤1(中国科学院国家科学图书馆北京100190)2(中国科学院研究生院北京100049)3(中北大学电子测试技术国家重点实验室太原030051)【摘要】介绍术语的基本特征,探讨科技术语的自动识别方法,并结合文本特征对TF-IDF和C-value两种主流统计指标进行改进。为了区分词汇位置对文档内容的影响,分别对不
2、同位置的候选词设置不同的权重。最后设计并实现一个统计与规则相结合的科技术语自动抽取系统,通过位置权重、C-value、TF-IDF指标的联合计算来识别术语,提高抽取的准确率。【关键词】术语抽取多词术语识别加权TF-IDFC-value计算【分类号】TP391EnglishTermExtractionBasedonContextAnalysis&StatisticalCharacteristic1,2131,2XuDeshanZhangZhixiongWangFengXingMeifeng1(NationalScienceLibrary,ChineseAcademyo
3、fSciences,Beijing100190,China)2(GraduateUniversityofChineseAcademyofSciences,Beijing100049,China)3(NationalKeyLaboratoryforElectronicMeasurementTechnology,NorthUniversityofChina,Taiyuan030051,China)【Abstract】Firstly,thearticleintroducesthebasicfeaturesofterms,anddiscussestheautomaticid
4、entificationmethodofscientificterms.ThenV-valueisproposed,whichimprovesthetwomainstatisticalindicators:TF-IDFandC-valueaccordingtotextcharacteristics.Differentweightsarealsosetforthecandidatetermsbythepositiontoshowtheireffect.Finally,atermextractionsystemisimplementedbasedonstatistics
5、andrules.Thesystemcombinestheweight,C-valueandTF-IDF,soithasahigherprecisionofextraction.【Keywords】TermextractionMulti-wordrecognitionWeightedTF-IDFC-valuecomputing1引言随着科学研究的发展,科技文献产出越来越多,特别是英文文献已经成为成果发表、科技交流的主要载体。世界上权威的领域核心期刊和网络资源多数都以英文表述。为了高效、迅速地了解前沿的科技发展动态,研究人员不断地探索各种信息处理方法。术语自动抽取(A
6、utomaticTermExtraction,ATE)便是智能信息处理领域的一项基础性工作。利用从海量文献中抽取的重要术语,可以进一步完成文献分类、数据挖掘、关系发现等热点研究,但收稿日期:2010-09-30收修改稿日期:2010-11-18本文系“十一五”科技支撑计划课题“网络科技信息监测与评价”(项目编号:2006BAH03B05)的研究成果之一。28现代图书情报技术总第200期2010年第12期语言的灵活性、语境的复杂性为自动抽取带来了困难,(1)具有意义单一、高专指度、出现环境相对稳定使得抽取的效果精确程度不高,噪声数据过多。因此等特点,在领域内的分布具
7、有一定规律,例如跟在一些本文尝试将术语的上下文特征融入到统计指标中,利特定动词(is、named等)前面或跟在形容词及其他修饰用联合的统计值来提升术语的抽取效果。成分后面的名词或名词短语极可能是术语。(2)字词的重要性随其在文件中出现的次数成正2术语抽取的研究现状比增加,但同时会随其在语料库中出现的频率成反比从术语抽取采用的技术手段来看,可分为基于字下降,如果某个词或短语在一篇文章中出现的频率TF典、基于规则、基于统计、基于机器学习等方法。高,并且在其他文章中很少出现,则认为此词或者短语Krauthammer等曾经对基于词典的术语抽取做过实具有很好的类别区分能力
此文档下载收益归作者所有