汉英统计翻译系统中未登录词的处理方法

汉英统计翻译系统中未登录词的处理方法

ID:5325135

大小:198.24 KB

页数:6页

时间:2017-12-08

汉英统计翻译系统中未登录词的处理方法_第1页
汉英统计翻译系统中未登录词的处理方法_第2页
汉英统计翻译系统中未登录词的处理方法_第3页
汉英统计翻译系统中未登录词的处理方法_第4页
汉英统计翻译系统中未登录词的处理方法_第5页
资源描述:

《汉英统计翻译系统中未登录词的处理方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、*汉英统计翻译系统中未登录词的处理方法周可艳,宗成庆中国科学院自动化研究所模式识别国家重点实验室100080E-mail:{kyzhou,cqzong}@nlpr.ia.ac.cn摘要:在统计机器翻译系统的解码过程中,经常会出现训练语料中没有的“未登录词”,这些词的出现严重地影响了解码器的速度和整个系统的性能,为此,本文通过对未登录词现象及其同义词的分析,提出并实现了一种针对统计翻译系统中未登录词的处理方法,该方法利用汉语同义词知识对源语言句子中未登录词的语义进行解释,使其具备初步的词义消歧能力。实验表

2、明在训练语料规模有限的情况下,充分利用语义知识,在某种程度上可以解决未登录词问题。关键字:统计机器翻译,未登录词处理,同义词DealingwithOOVWordsinChinese-to-EnglishStatisticalMachineTranslationSystemKeyanZhou,ChengqingZongNationalLaboratoryofPatternRecognition,InstituteofAutomation,ChineseAcademyofSciences,100080E-m

3、ail:{kyzhou,cqzong}@nlpr.ia.ac.cnAbstract:Instatisticalmachinetranslation(SMT)system,therearealwaysOOV(Out-of-Vocabulary)wordswhichhaveneverappearedinthetrainingset.TheseOOVwordsseriouslyslowthespeedofdecodingandweakentheperformanceofsystem.Thispaperfirs

4、tgivestheanalysisonOOVwordsintheChinese-to-EnglishMTsystem,andthenproposesanapproachtodealingwiththeOOVproblemtoimprovetheperformanceofthesystem.Inourapproach,theknowledgeofChinesesynonymisusedtoexplaintheOOVwordsandmakethewordsensedisambiguation.Theexpe

5、rimentalresultshaveshownthatourapproachmayresolvetheOOVprobleminsomeextentandimprovetheperformanceofthesystem.Keywords:SMT,OOVword,synonym1.引言基于噪声信道模型的统计翻译方法是基于语料库的翻译方法的一种,这种方法对翻译建立数学模型,从大规模语料库中学习模型的参数,然后对句子进行翻译。其优点在于避开了语言理解的诸多难题,包括句法、语义分析等,对于不同语种的翻译有很好的

6、可移植性,近几年来统计翻译方法成为机器翻译研究的热点[Ney,2004]。然而,这种翻译方法仍然面对许多问题,一方面是语料规模的问题,由于统计翻译模型不具备语言知识,需要大规模的双语语料来获得翻译所需要的知识,当语料库规模不够大的时候,就会存在数据稀疏现象,从而产生“未登录词”;另一方面,即使语料规模足够大,也难以保证实际翻译过程中出现的词汇都已100%地被训练语料所涵盖,即“未登录词”的出现是不可避免的,这些未登录词不仅严重地影响了解码器的速度,而且是影响整个翻译系统性能的重要因素之一。通常处理未登录

7、词的方法有两种:一种是加大训练语料的规模,使其包含尽可能多的语言现象;另一种是借助语义词典,利用语义知识,为未登录词寻求解释。两种方法各有缺点:1)收集和整理双语语料是一项很繁杂的工作,尤其对于口语双语语料来说,其收集需要大量的人力、*本论文的研究工作得到国家自然科学基金项目(60575043,60121302)、863项目(2006AA01Z194)、国家支撑计划项目(2006BAH03B02)和东芝(中国)研究开发中心合作项目的资助。物力和财力。2)语义词典的建设成本很高,并且需要不断更新和维护,目

8、前比较成熟的语义词典有《知网》和《同义词词林》。[吕雅娟,2001]提出了借助《同义词词林》通过计算语义相似度进行词汇对齐的方法,以弥补双语词典译文覆盖面的不足,从而提高词对齐的召回率。受该方法启发,本文通过对未登录词现象及其同义词的分析,提出了一种汉英统计翻译系统中未登录词的处理方法,该方法利用汉语同义词知识对源语言句子中的未登录词进行语义解释,使其具备初步的词义消歧能力。实验表明,在训练语料规模有限的情况下,充分利用词汇语义知识在某种程

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。