基于平行语料库的双语术语抽取.pdf

基于平行语料库的双语术语抽取.pdf

ID:50116849

大小:2.91 MB

页数:61页

时间:2020-03-05

基于平行语料库的双语术语抽取.pdf_第1页
基于平行语料库的双语术语抽取.pdf_第2页
基于平行语料库的双语术语抽取.pdf_第3页
基于平行语料库的双语术语抽取.pdf_第4页
基于平行语料库的双语术语抽取.pdf_第5页
资源描述:

《基于平行语料库的双语术语抽取.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于平行语料库的双语术语抽取何福江2015年6月中图分类号:TP391.7UDC分类号:540基于平行语料库的双语术语抽取作者姓名何福江学院名称计算机学院指导教师黄河燕教授答辩委员会主席李侃教授申请学位工程硕士学科专业计算机技术学位授予单位北京理工大学论文答辩日期2015年6月BilingualTermExtractionBasedonParallelCorpusCandidateName:FujiangHeSchoolorDepartment:ComputerScience&TechnologyFacultyMentor:Prof.H

2、eyanHuangChair,ThesisCommittee:Prof.KanLiDegreeApplied:MasterofEngineeringMajor:ComputerTechnologyDegreeby:BeijingInstituteofTechnologyTheDateofDefence:June,2015研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它

3、教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:北京理工大学硕士学位论文摘要双语术语抽取是自然语言处理领域的一个重要课题,它被广泛地应用在机器翻译、信息抽取、双语信息检索、辅助机器翻译等方面。本文采用了基于平行语料库的双语术语抽取方法,该方法在单语术语抽取的基础上,从平行语料中统计出共现矩阵,再用相似度函数的方法生成对齐词典,最后抽取出互为翻译的术语对。论文主要工作包括:详细分析了基于平行语料库的双语术语抽取技术,介绍了目前常用的词对齐方

4、法,并将单语抽取的候选术语看作是一个词,然后对语料进行编码,从而把短语对齐转化成了词对齐;详细介绍了四种相似度函数:Dice系数、χ2检验、对数释然比、互信息以及它们的优缺点。统计出平行语料中不同词和术语的共现矩阵,然后用相似度函数的方法计算相关度,生成对齐词典。同时分析此方法的不足,结合多种方法对此进行改善:(1)为减小单语抽取的不平衡,提出使用基于相同原理和方法的单语术语抽取工具;(2)针对中文多词术语到英文单词术语对齐准确率不高的情况,提出用HMM模型优化词对齐,提高了词对齐的准确度,进而提高了双语术语抽取的准确率。基于上述方法,

5、开发了一个双语术语抽取系统,并做了三方面的实验:不同相似度函数对术语抽取正确率的影响、不同语料规模对术语抽取结果的影响、改进之后的方法对术语抽取结果的影响。实验发现:针对本文使用的语料,χ2检验是效果最好的相似度函数;随着语料规模的增大,双语术语抽取的准确率最开始快速提高,最后逐渐趋于稳定;使用HMM模型优化词对齐后,双语术语抽取的准确率提高了2.5%。本文开发的双语术语抽取系统,已经作为商品化软件,在华建IAT辅助翻译系统中投入实际应用。关键词:平行语料、词对齐、共现矩阵、相似度函数、双语术语抽取I北京理工大学硕士学位论文Abstra

6、ctAutomatictermextractionisanimportantsubjectinnaturallanguageprocessing.ItiswidelyusedinMachineTranslation,Crosslanguageinformationretrieval,terminologydictionaryconstructionandsoon.Inthispaper,weusedparallelbilingualcorpus,andthismethodisbasedonMonolingualtermextractio

7、n.Aco-occurrencematrixisstatisticallygenerated,andasimilarityfunctionisusedtogeneratealigneddictionaries.thefinalresultsarepairsoftranslationterms.Thispaperanalyzesindetailbasedonparallelcorpusofbilingualterminologyextractiontechnology,introducesthecurrentlycommonlyusedw

8、ordalignmentmethod.Weregardcandidatetermsfromthemonolingualextractionasaword,andthenencodethecorpus,thu

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。