信息处理用彝汉双语词汇对齐技术探究

信息处理用彝汉双语词汇对齐技术探究

ID:46659654

大小:68.50 KB

页数:6页

时间:2019-11-26

信息处理用彝汉双语词汇对齐技术探究_第1页
信息处理用彝汉双语词汇对齐技术探究_第2页
信息处理用彝汉双语词汇对齐技术探究_第3页
信息处理用彝汉双语词汇对齐技术探究_第4页
信息处理用彝汉双语词汇对齐技术探究_第5页
资源描述:

《信息处理用彝汉双语词汇对齐技术探究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、信息处理用彝汉双语词汇对齐技术探究摘要:本文首先以信息处理用彝汉词汇对齐的难点作为出发点,然后在分析参照Borwn词汇对齐模型的基础上提出基于彝汉双语词典的彝汉词汇对齐的实现算法BiDictAlign,并用此方法进行了实验测试,测试数据显示此方法具有良好的性能,为信息处理用彝汉双语料词汇对齐技术的研究进行了有意义的探索。关键词:彝汉双语;对齐算法;BiDictAlign;测试分中图分类号:TP391.2文献标识码:A文章编号:1007-9599(2012)11-0000-02一、引言双语语料对齐分为段落、句子、短语和词语几个不同的层次。但在词汇输入、信息检索、机器翻译、电子词典、语义分析等语

2、言信息处理领域,段落、句子、短语级别的对齐是不能满足需要的,例如:机器翻译是把要翻译的句子与语料库里的源语实例进行对比,分析相似程度,找到最适合的源语实例,再参照与它对齐的目标语实例生成目标语言,这就要求必须实现源语言和目标语言词与词的对齐才能找出两者之间的对应翻译关系,相对于段落、句子、短语级别的对齐,词与词之间的对齐因为实现的技术较复杂,对齐的难度更大一些。而且彝语、汉语两个语言的差异比较大,客观上造成了彝汉双语词汇对齐的难度比其他语言之间词汇对齐的困难更大。二、信息处理用彝汉双语词汇对齐的难点分析词汇对齐是指在源语言和目标语言的对应翻译中找到词与词之间匹配关系的过程,如下文所举例出的彝

3、汉双语词汇对齐的句子所示,在每个词的右下角都用数字表示了该词在句子排列中的顺序。彝文:汉文:我1前天2去3北京了4o-我1;-前天2;-去3;北京4-通过这个实例,我们可以用形式化的理论来进行分析:假设彝汉双语词汇对齐的每个对应词汇只包含相邻的词或不存在,那么彝汉双语词汇对齐的每个部分就可以用这个六元组来进行分析,Ci表示汉语词条,Yj表示彝语词条,i、j分别表示Ci、Yj在各自句子的起始词序号。1C,1Y分别表示词的个数。词汇的对齐主要找出源语言和目标语言的对应翻译的词与词之间匹配关系,因此词汇对齐提高的语言信息度更精确,为语言信息处理研究在词典编纂、机器翻译、词义排歧、信息检索等领域研究

4、与开发提供了重要的语言学材料支撑。然而由于彝语、汉语两个语言的差异比较大,造成了彝汉双语词汇对齐技术的实现难度比较大,主要有以下几个方面的原因:1•不同语言都有自身的语言表达习惯与方式,假设性的词汇排序不可能都能满足所有的情况。在段落、句子级别的对齐中,因为在对照、翻译、对齐的过程中段落、句子的次序调整都是少见的,因此常规性的假设对齐条件能满足大多数情况的语言应用实际。但是在词汇对齐中词序的错位是常见的。词序的错位将直接扩大对齐的搜索空间和范围,匹配的结果不相符的可能性将大大增加。2•词汇的匹配模式比较复杂多样化。在词汇对齐中,除了词与词之间需的对照翻译外,还有一些在对照翻译过程中不需要翻译

5、、省略,但需要对齐的现象也很常见;此外,有些词直接翻译成从句子,例如:飞檐走壁-;词也翻译成相邻或不相邻的短语;一些更复杂的情况,如:在彝语中有些词通过跟相邻的词语组合成短语后短语才会有相应的对照。词汇对齐匹配模式比较多样化无形中就加大了词汇对齐时搜索对象的数量。3•词汇的匹配关系难以断定。通过不同句子的对照翻译信息、长度匹配关系就可以判定句子间的匹配可能性。虽然通过彝汉双语词典可以满足一部分词汇匹配,但对于新词术语、未登录词、外来词等不可能全部收入词典,还需要寻找别的匹配方法来进行对齐。众所周知,不同语言之间的翻译对照是不以词为单位的,考虑的因素比较多,这也是造成目前词汇对齐技术研究的根本

6、原因。以上说述的几个方面主要是由于彝语、汉语之间的较大差异,在进行彝汉词汇对齐的过程这些方面表现得很明显。此外,由于彝语本身的特点,在进行彝汉词汇对齐的过程还得处理好两个的问题:1•彝语中的词没有固定或明显的词头、词尾和性、数、格变化等分词标志,而且没有统一、严格的非形式定义,对形式或抽象定义都还存在一定的问题。导致这个困难一方面是单字词与语素之间的划界,另一方面是词与短语(词组)的划界,也就是说词与词之间的边界还没有最终划清,在这种情况下,进行彝汉的词汇对齐,必然有一定的困难。2•彝文中有大量尔比,即谚语、熟语。其结构紧密,语义完整,但其中的许多字符可以单独切分为词,也可以与其他字符或字符

7、串组成词,而且与之相应汉语中通常没有固定的对应目标语言,而且通常采用意译,几乎找不出词汇级别上的对应。对于这样的翻译,很难进行词汇的对齐。女"汉语:八仙过海,各显神通;彝语:三、Borwn词汇对齐模型基于统计的机器翻译系统在Borwn等人推动下有了长足的进展,也是目前进行词汇对齐实验研究最初的动机。这个模型把源语言S到目标语言T的翻译看成是T经过某个噪声信道畸变成S,然后通过S恢复T的过程,用形式化的表达方式

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。