双语平行语料库对齐技术述评

双语平行语料库对齐技术述评

ID:280702

大小:48.00 KB

页数:6页

时间:2017-07-17

双语平行语料库对齐技术述评_第1页
双语平行语料库对齐技术述评_第2页
双语平行语料库对齐技术述评_第3页
双语平行语料库对齐技术述评_第4页
双语平行语料库对齐技术述评_第5页
资源描述:

《双语平行语料库对齐技术述评》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、双语平行语料库对齐技术述评  对齐的双语语料库在机器翻译、词义消歧和双语词典编撰等领域都非常有用。语料对齐的单位由大到小,有篇章、段落、句子、短语、词等不同的层次。粒度越小,提供的语言信息就越多,应用的价值也就越大。然而平行语料库的自动对齐并非是一件容易的事情。由于语料大都来自人工翻译,句子之间并不都是一对一的翻译模式,还有一对多、多对多的翻译模式。这种复杂性加大了对齐的难度,特别是对更细粒度级别的对齐。由于语言之间存在着差异,找到固定的对应翻译很难,再加上文本预处理工具难以保证处理效果,以及一些电子文本的噪声纷繁复杂,这都增加了对齐的难度。而

2、对于英汉两种差别很大的语言来说,目前的语料库对齐算法并不一定完全适用于汉英语料库的对齐。本文首先回顾了当前国外平行语料库的对齐技术,然后分析了国内在对齐中所使用的技术,旨在为本研究所今后构建小型汉英平行语料库提供一个技术支持。    1目前平行语料库对齐技术的现状    1.1句子级对齐技术  在各级对齐研究中,其中最为重要且较为成熟的自动对齐技术是句子一级的对齐。句子级对齐的方法主要有三种:①基于长度的方法(length-based)(Brownetal,1991;Gale&Church,1991a);②基于词汇的方法(lexical-b

3、ased)(Kay&Roscheisen,1993);③混合法(combination)(Tan&Nagao,1995;Wu,1994)。  基于长度的方法最早是由Brown和Gale提出,虽然他们的算法都是由源文本中句子长度和译文本中的句子长度有很大的正相关这一观察得出,但其侧重点却不同。Brown的算法以词为单位计算句子的长度,而Gale和Church则是以字符为单位计算句子的长度。他们分别用各自的算法对加拿大议会会议所录英法双语语料库进行了对齐实验,准确率达96~97%。然而该方法在处理复杂句子的对齐(如2∶1或2∶2的句子对齐,或非直译

4、和省略的句子)以及不同语系的句子对齐时,准确率却并不高,而且此算法一旦出错,便不可能自动纠正。  基于词汇的方法是由Kay和Rosheisen提出的。他们认为最佳的句子对是那些使系统词汇对齐数量最大化的句子。基于词汇的算法虽然可以提高对齐的准确性,但却费时;而且目前还没有充分证明这一方法适合于大型语料库。Chen(1993)对Kay和Rosheisen的算法进行了改进,这一算法运用词汇信息构建了一对一词汇统计翻译模型,用这样的翻译模型找到语料库生成的最大可能性。他用此算法对旧的Hansard语料库进行双语对齐。与Brown和Gale的对齐算法相

5、比,这一算法不仅正确率高,而且在处理大量省略的对齐中能轻易确定省略的位置,且鲁棒性(robust)较好。基于词汇方法的另一种做法是利用同源词(cognate)(Church,1993)。此方法在处理英法和英德语言中的诸如名字、日期、数字、术语等可辨认单位出现比率高的情况下效果更好。  如前所述,基于词汇的方法相对可靠精确,但计算起来相当复杂且速度较慢;而基于长度的算法模型虽然简单,独立于语言知识和外部资源,但鲁棒性不好,极易造成错误蔓延。由于每种方法都有自己的优缺点,人们试图将各种方法混合起来找到问题的解决途径(Tan&Nagao,1995;W

6、u,1994;;Collier,1998;Vronis,1999;Melamed,2000)。试验结果表明,混合的方法优于单纯使用其中的任何一种方法。6  1.2词汇级对齐技术  与句子对齐相比,词汇对齐的应用价值更加直接。目前词对齐主要有基于统计(也称为基于同现)的方法、基于词典和语言学知识的方法。  基于统计的方法是通过大规模双语语料的统计训练,获得双语对译词的同现概率,以此来获得对齐。一种统计法是基于机器翻译模型的词汇对齐法(Brownetal.,1993,吴尉林,2003)。此法用词汇对齐模型来实现翻译模型并通过EM(expectati

7、on-maximization)算法来进行词汇对齐。但是该方法不仅在运行时需要很大的内存空间,而且EM算法本身也缺乏鲁棒性。另一种统计法是基于同现的词汇对齐(Gale&Church,1991b;ZhangYingetal.,2001)。其中,Gale&Church用同现测度函数对译双语词汇,通过统计对译词在双语句对中同现的频率来确定双语词汇之间的对应关系,并为每个双语词对引入一个联列表(ContingencyTable)。基于同现的对齐算法简单,鲁棒性也比EM算法好,但是该方法在计算时没有考虑词汇的上下文关系,因此获得的词汇翻译对应存在着间接相

8、关的问题。  基于词典和语言学知识的词汇对齐方法。机读双语词典包含丰富的词汇对译信息,是进行词对齐的重要资源。Ker(1997)根据语义类实现词对齐,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。