欢迎来到天天文库
浏览记录
ID:36257553
大小:573.51 KB
页数:64页
时间:2019-05-07
《机器翻译iimachinetranslationii》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、机器翻译IIMachineTranslationII张宇哈尔滨工业大学计算机科学与技术学院zhangyu@ir.hit.edu.cn大纲基于翻译记忆的机器翻译方法基于模板(模式)的机器翻译方法双语语料库对齐技术句子对齐词语对齐机器翻译的评价7/11/20212语言信息处理--机器翻译II翻译记忆方法1翻译记忆方法(TranslationMemory)是基于实例方法的特例;也可以把基于实例的方法理解为广义的翻译记忆方法;翻译记忆的基本思想:把已经翻译过的句子保存起来翻译新句子时,直接到语料库中去查找如果发现相同的句
2、子,直接输出译文否则交给人去翻译,但可以提供相似的句子的参考译文7/11/20213语言信息处理--机器翻译II翻译记忆方法2翻译记忆方法主要被应用于计算机辅助翻译(CAT)软件中翻译记忆方法的优缺点翻译质量有保证随着使用时间匹配成功率逐步提高特别适用于重复率高的文本翻译,例如公司的产品说明书的新版本翻译与语言无关,适用于各种语言对缺点是匹配成功率不高,特别是刚开始使用时7/11/20214语言信息处理--机器翻译II翻译记忆方法3计算机辅助翻译(CAT)软件已经形成了比较成熟的产业TRADOS号称占有国际CAT市
3、场的70%Microsoft、Siemens、SAP等国际大公司和一些著名的国际组织都是其用户雅信CAT适合中国人的习惯产品已比较成熟国际组织:LISA(LocalisationIndustryStandardsAssociation)面向用户:专业翻译人员数据交换:LISA制定了TMX(TranslationMemoryeXchange)标准。7/11/20215语言信息处理--机器翻译II翻译记忆方法4完整的计算机辅助翻译软件除了包括翻译记忆功能以外,还应该包括以下功能多种文件格式的分解与合成术语库管理功能语料
4、库的句子对齐(历史资料的重复利用)项目管理:翻译任务的分解与合并翻译工作量的估计数据共享和数据交换7/11/20216语言信息处理--机器翻译II翻译记忆方法57/11/20217语言信息处理--机器翻译II基于模板(模式)的机器翻译方法1基于模板(Template)或者模式(Pattern)的机器翻译方法通常也被看做基于实例的机器翻译方法的一种延伸所谓“翻译模板”或者“翻译模式”可以认为是一种颗粒度介于“翻译规则”和“翻译实例”之间的翻译知识表示形式翻译规则:颗粒度大,匹配可能性大,但过于抽象,容易出错翻译实例:
5、颗粒度小,不易出错,但过于具体,匹配可能性小翻译模板(模式):介于二者之间,是一种比较合适的知识表示形式一般而言,单语模板(或模式)是一个常量和变量组成的字符串,翻译模板(或模式)是两个对应的单语模板(或模式),两个模板之间的变量存在意义对应关系7/11/20218语言信息处理--机器翻译II基于模板(模式)的机器翻译方法2模板举例:这个X比Y更Z。TheXismoreZthanY.模板方法的主要问题对模板中变量的约束模板抽取模板的冲突消解7/11/20219语言信息处理--机器翻译IIPattern-BasedC
6、FGforMT1KoichiTakeda,Pattern-BasedContext-FreeGrammarsforMachineTranslation,Proc.of34thACL,pp.144--151,June1996给出了翻译模式的一种形式化定义,并给出了相应的翻译算法以及算法复杂性的理论证明7/11/202110语言信息处理--机器翻译IIPattern-BasedCFGforMT2每个翻译模板由一个源语言上下文无关规则和一个目标语言上下文无关规则(这两个规则称为翻译模板的骨架),以及对这两个规则的中心词约
7、束和链接约束构成;中心词约束:对于上下文无关语法规则中右部(子结点)的每个非终结符,可以指定其中心词;对于规则左部(父结点)的非终结符,可以直接指定其中心词,也可以通过使用相同的序号规定其中心词等于其右部的某个非终结符的中心词;链接约束:源语言骨架和目标语言骨架的非终结符子结点通过使用相同的序号建立对应关系,具有对应关系的非终结符互为翻译。7/11/202111语言信息处理--机器翻译IIPattern-BasedCFGforMT37/11/202112语言信息处理--机器翻译IIPattern-BasedCFGf
8、orMT3翻译的过程分为三步:使用源语言CFG骨架分析输入句子s应用源语言到目标语言的CFG骨架的链接约束,生成一个译文CFG推导序列根据译文CFG推导序列产生译文模板排序的启发式原则:对于源文CFG骨架相同的模板,有中心词约束的模板优先于没有中心词约束的模板;对于同一跨度上的两个结点,比较其对应的模板的源文CFG骨架,非终结符少的模板优先于非终结符多的模板
此文档下载收益归作者所有