欢迎来到天天文库
浏览记录
ID:26826952
大小:62.50 KB
页数:9页
时间:2018-11-29
《基于短语的阿拉伯语到中文的机器翻译系统》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于短语的阿拉伯语到中文的机器翻译系统基于短语的阿拉伯语到中文的机器翻译系统自然语言处理在国内已经得到了充分的发展,尤其是在中文处理方面已经达到了相对较高的水平;同时在机器翻译方面,也取得了长足的进步,但主要研究还是在中文与英文的互翻译上,对于一些相对较小的语种来说,国内的研究还比较少,如在阿拉伯语与中文的翻译方面,还处于起步阶段。本文采用国际上流行的基于短语(basephrase)的统计机器翻译思想,借鉴了国际上阿拉伯语到英语[1]、英语到中文[2,3]的机器翻译处理方法,利用国内外现有的开源工具,
2、建立了一个简易的阿拉伯语到中文的翻译系统。 1系统描述 1.1基于短语的统计机器翻译模型 基于短语的统计机器翻译[4~6]以短语作为翻译的基本单位。对于一个阿拉伯语句子,翻译系统将其划分为多个连续的词语串[7](即所谓的phrase);然后将每一个阿拉伯语短语翻译为汉语短语;最后将产生的汉语短语进行顺序调整,并输出译文,如图1所示。 1.2基准的统计机器翻译系统 在统计机器翻译中,假定一个源语言句子fJ1=f1fjfJ,near模型中:短语翻译概率为p(c~
3、a~);逆向短语翻
4、译概率为p(a~
5、c~);词汇化的短语翻译概率为lex(c~
6、a~);逆向词汇化的短语翻译概率为lex(a~
7、c~);中文语言模型为lm(cI1);中文句子长度为I。 翻译系统的整个流程图如图2所示。 整个系统由以下模块构成:训练语料库预处理模块、中文分词工具(利用开源工具StanfordNLP提供的中文分词工具[10])、阿拉伯语词形分析工具(利用开源工具Encode-Arabic-1.8版[11]和AMIRA1.0版[12])、词语对齐模块(利用开源工具GIZA++获得初始对齐,然后对
8、结果进行再处理)、短语抽取模块、语言模型训练模块(利用开源工具SRI)、语言模型应用工具(利用开源工具SRI)、输入预处理模块、解码模块、输出后处理模块。 每个模块都是一个可独立执行的文件,可以运行在Linux平台上。模块之间以文件作为接口,这些文件包括训练语料库、规范的训练语料库(采用GIZA++定义)、分词的训练语料库(采用GIZA++定义)、词语对齐的语料库、短语翻译概率表、语言模型(采用SRI定义)、输入文本、输出文本。 2预处理和规范化工具 一个训练语料的流程图如图3所示。
9、 2.1训练语料的预处理 训练语料都是中文和阿拉伯文句子对齐的语料,在进行GIZA++训练前,需要对这些语料进行加工处理。对语料进行预处理的主要工作就是进行中文分词和阿拉伯语的词形分析。实现原理如下: a)中文分词 系统中使用StanfordNLP自本文由论文联盟.LIRA1.0进行阿拉伯语词形分析,但是在处理前,首先要利用软件Encode-Arabic将阿拉伯语的句子转换为BuckIRA,依次进行词法分析、词性标注和短语划分。举例如图5所示。2.2词语对齐 本模块的主要目标就是实现
10、训练语料库中的句子自动词语对齐。 其基本思想是利用GIZA++进行汉语到阿拉伯语、阿拉伯语到汉语两个方向的训练,再对两个方向的对齐结果按照Och等人[14]提出的Heuristic的思路进行优化。GIZA++实现了IBM统计翻译模型,但得到的对齐结果忽略了多对多及多对一的情况。为了解决GIZA++词语对齐的问题,通常利用双向对齐的结果进行优化。优化的方法采用了以两个方向对齐结果的交集为中心点,检查其上下左右(groentpoint(c-neA fY Aln$ATAt AlryADyp 图
11、6词语对齐矩阵 2.3.3计算概率 短语抽取完后,再计算四个翻译概率:p(a~
12、c~),lex(a~
13、c~)、p(c~
14、a~)、lex(c~
15、a~)。计算方法就是对所有生成的短语对分别计算阿拉伯语短语、中文短语以及两者的同现次数;然后求商得到p(a~
16、c~)和p(c~
17、a~),最后利用2.3.1节中生成的词典按照 lex(cJ1
18、aI1,;(j,i)∈search。 d)根据beamsearch中每一步假设的代价,选择最低的假设,回溯产生中文译文。 图7是核心模块的系
19、统流程。 3.1选择候选短语 一般地,一个双语短语表是非常庞大的,对于一个输入句子,只需选择与这个句子相关的短语就可以了,这样可以节省内存空间。为了便于解码,候选短语中需记录以下信息:阿拉伯语短语的起始、结束位置;阿拉伯语短语对应的中文短语翻译;翻译概率。然后可以穷举一个阿拉伯语句子的所有可能短语,对每一个阿拉伯语短语查找双语短语表,将双语短语表中汉语部分与之完全匹配的短语选择出来,参考以下算法: forstart=0toArabicAX
此文档下载收益归作者所有