基于条件随机场的汽车领域术语抽取_李丽双.pdf

基于条件随机场的汽车领域术语抽取_李丽双.pdf

ID:52332046

大小:452.31 KB

页数:6页

时间:2020-03-26

基于条件随机场的汽车领域术语抽取_李丽双.pdf_第1页
基于条件随机场的汽车领域术语抽取_李丽双.pdf_第2页
基于条件随机场的汽车领域术语抽取_李丽双.pdf_第3页
基于条件随机场的汽车领域术语抽取_李丽双.pdf_第4页
基于条件随机场的汽车领域术语抽取_李丽双.pdf_第5页
资源描述:

《基于条件随机场的汽车领域术语抽取_李丽双.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第53卷第2期大连理工大学学报Vol.53,No.22013年3月JournalofDalianUniversityofTechnologyMar.2013文章编号:1000-8608(2013)02-0267-06基于条件随机场的汽车领域术语抽取李丽双*1,党延忠2,张婧1,李丹1(1.大连理工大学计算机科学与技术学院,辽宁大连116024;2.大连理工大学管理科学与工程学院,辽宁大连116024)摘要:中文领域术语抽取是中文信息处理领域的一项重要研究任务,在词典构建、领域本体构造等方面有重要的应用.采用条件随机场(conditionalrando

2、mfields,CRFs),从汽车知识网站上爬取网页,预处理后得到纯文本,然后分析汽车领域的术语组成特点并制定相应的语料标注规则进行人工标注,对汽车领域进行了术语抽取.在使用词和词性特征的基础上增加了词典特征、领域词频和背景领域词频等特征,精确率、召回率和F-值分别达到84.61%、80.50%和82.50%.与其他方法比较说明所提出的汽车领域术语抽取方法是有效的.关键词:信息抽取;领域术语抽取;汽车领域术语;条件随机场中图分类号:TP391文献标志码:A0引言马尔可夫模型对计算机术语进行识别.文献[7]将语言学方法和统计方法进行一体化处理,同时考术

3、语是代表特定学科领域基本概念的语言单虑了词所在句子的术语度,利用CRFs进行计算元,可以是词也可以是词组,在我国又称为名词或机领域术语抽取,F-值为79.64%.三是统计与规科技名词.术语抽取是信息处理领域中一项重要则相结合的方法,文献[8]首先利用语言学规则获[1]的研究任务,在词典编撰、领域本体构建、机器取候选术语,再利用统计的方法进行过滤.文献翻译等领域都有重要的应用.[9]首先利用C-value和互信息获取候选术语,然目前比较常用的术语抽取方法主要有三大后根据术语的词性规则和词典特征进行过滤,最类:一是基于规则的方法,主要是根据语言学及领终F

4、-值达到42%.本文主要就汽车领域的术语抽域知识制定相应的规则模板,与规则模板匹配的取任务展开讨论,分析该领域术语的特点及抽取视为术语,此方法受限于规则模板的质量,不够灵难点,利用目前较为流行的条件随机场(CRFs)模活.二是基于统计的方法,又分为基于统计量度和型,选取词、词性、词典及频率等特征进行汽车领统计机器学习的方法.目前常用的统计量参数有域术语的抽取.频率、假设检验(t检验、卡方检验等)、似然比、信1汽车领域的术语抽取息熵和互信息.文献[2]通过计算字串的互信息得到候选术语,最终取得75%的F-值.文献[3]提出1.1汽车领域术语一种基于质子

5、串分解的算法,利用C-value和本文利用有监督的统计机器学习方法进行领F-MI参数来进行术语的抽取.由于没有大规模的域术语抽取,需要一定规模的带标签的训练语料.标注语料,基于统计机器学习方法的中文领域术由于没有标注好的汽车领域标准语料,需要人工语抽取的研究不多,文献[4]和[5]基于条件随机标注.目前缺少一个关于汽车领域术语的统一标场(CRFs)对科技术语和军事领域术语进行抽取,准,本文对《汽车行业名词术语汇编》中和汽车零F-值分别达到84.4%和76.46%.文献[6]利用隐部件相关的7525个术语进行了学习和分析,统收稿日期:2012-01-0

6、9;修回日期:2013-01-15.基金项目:国家自然科学基金资助项目(71031002,61173101,61173100).作者简介:李丽双*(1967-),女,副教授.E-mail:lilishuang314@163.com.268大连理工大学学报第53卷计得到单词型术语占9%,由两个单词组成的复或应用会不断增多,相应的术语表示也会不断丰富.杂术语占35%,三词术语占31%,四、五、六词术比如“绿色汽车”“零公里”是近几年提出的概念.语分别占15%、6%、2%,七词及以上术语占2%,(2)由于汽车领域引入国外技术比较多,在表即复杂术语一般由2~

7、4个单词组成,占全部术语述时多采用音译词或是英文缩写,比如“皮卡”的81%,符合中文术语的一般性特点.为了方便(“pick-up”的音译)“RV”(休闲车),而且由于使人工标注,本文分析了汽车领域术语的特点并借用习惯等原因,在表述时使用的不同的名称代表助前人对领域术语特点的研究成果,制定了一定同一事物,比如“皮卡”和“轿卡”就代表同一类型的标注标准,凡是符合标注标准的词都被视为汽汽车,在使用时比较随意,没有特定的用法.车领域的术语.标注标准如下:(3)汽车领域的术语模式多变,表现在长度、(1)描述或表示汽车的词,一般是随着汽车领词性、组成模式等方面.

8、例如,“悬架”和“综合电子域的产生和发展而出现的,比如“轿车”“两厢车”控制动力转向系统”相差10个字长,还

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。