欢迎来到天天文库
浏览记录
ID:5325135
大小:198.24 KB
页数:6页
时间:2017-12-08
《汉英统计翻译系统中未登录词的处理方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、*汉英统计翻译系统中未登录词的处理方法周可艳,宗成庆中国科学院自动化研究所模式识别国家重点实验室100080E-mail:{kyzhou,cqzong}@nlpr.ia.ac.cn摘要:在统计机器翻译系统的解码过程中,经常会出现训练语料中没有的“未登录词”,这些词的出现严重地影响了解码器的速度和整个系统的性能,为此,本文通过对未登录词现象及其同义词的分析,提出并实现了一种针对统计翻译系统中未登录词的处理方法,该方法利用汉语同义词知识对源语言句子中未登录词的语义进行解释,使其具备初步的词义消歧能力。实验表
2、明在训练语料规模有限的情况下,充分利用语义知识,在某种程度上可以解决未登录词问题。关键字:统计机器翻译,未登录词处理,同义词DealingwithOOVWordsinChinese-to-EnglishStatisticalMachineTranslationSystemKeyanZhou,ChengqingZongNationalLaboratoryofPatternRecognition,InstituteofAutomation,ChineseAcademyofSciences,100080E-m
3、ail:{kyzhou,cqzong}@nlpr.ia.ac.cnAbstract:Instatisticalmachinetranslation(SMT)system,therearealwaysOOV(Out-of-Vocabulary)wordswhichhaveneverappearedinthetrainingset.TheseOOVwordsseriouslyslowthespeedofdecodingandweakentheperformanceofsystem.Thispaperfirs
4、tgivestheanalysisonOOVwordsintheChinese-to-EnglishMTsystem,andthenproposesanapproachtodealingwiththeOOVproblemtoimprovetheperformanceofthesystem.Inourapproach,theknowledgeofChinesesynonymisusedtoexplaintheOOVwordsandmakethewordsensedisambiguation.Theexpe
5、rimentalresultshaveshownthatourapproachmayresolvetheOOVprobleminsomeextentandimprovetheperformanceofthesystem.Keywords:SMT,OOVword,synonym1.引言基于噪声信道模型的统计翻译方法是基于语料库的翻译方法的一种,这种方法对翻译建立数学模型,从大规模语料库中学习模型的参数,然后对句子进行翻译。其优点在于避开了语言理解的诸多难题,包括句法、语义分析等,对于不同语种的翻译有很好的
6、可移植性,近几年来统计翻译方法成为机器翻译研究的热点[Ney,2004]。然而,这种翻译方法仍然面对许多问题,一方面是语料规模的问题,由于统计翻译模型不具备语言知识,需要大规模的双语语料来获得翻译所需要的知识,当语料库规模不够大的时候,就会存在数据稀疏现象,从而产生“未登录词”;另一方面,即使语料规模足够大,也难以保证实际翻译过程中出现的词汇都已100%地被训练语料所涵盖,即“未登录词”的出现是不可避免的,这些未登录词不仅严重地影响了解码器的速度,而且是影响整个翻译系统性能的重要因素之一。通常处理未登录
7、词的方法有两种:一种是加大训练语料的规模,使其包含尽可能多的语言现象;另一种是借助语义词典,利用语义知识,为未登录词寻求解释。两种方法各有缺点:1)收集和整理双语语料是一项很繁杂的工作,尤其对于口语双语语料来说,其收集需要大量的人力、*本论文的研究工作得到国家自然科学基金项目(60575043,60121302)、863项目(2006AA01Z194)、国家支撑计划项目(2006BAH03B02)和东芝(中国)研究开发中心合作项目的资助。物力和财力。2)语义词典的建设成本很高,并且需要不断更新和维护,目
8、前比较成熟的语义词典有《知网》和《同义词词林》。[吕雅娟,2001]提出了借助《同义词词林》通过计算语义相似度进行词汇对齐的方法,以弥补双语词典译文覆盖面的不足,从而提高词对齐的召回率。受该方法启发,本文通过对未登录词现象及其同义词的分析,提出了一种汉英统计翻译系统中未登录词的处理方法,该方法利用汉语同义词知识对源语言句子中的未登录词进行语义解释,使其具备初步的词义消歧能力。实验表明,在训练语料规模有限的情况下,充分利用词汇语义知识在某种程
此文档下载收益归作者所有