引入韵律结构信息层次短语模型改进探究

引入韵律结构信息层次短语模型改进探究

ID:46707721

大小:84.50 KB

页数:13页

时间:2019-11-26

引入韵律结构信息层次短语模型改进探究_第1页
引入韵律结构信息层次短语模型改进探究_第2页
引入韵律结构信息层次短语模型改进探究_第3页
引入韵律结构信息层次短语模型改进探究_第4页
引入韵律结构信息层次短语模型改进探究_第5页
资源描述:

《引入韵律结构信息层次短语模型改进探究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、引入韵律结构信息层次短语模型改进探究摘要:随着自然语言处理研究的不断深入,人们不但迫切需要挖掘文本更多的潜在语言学信息,而且还力图通过机器学习预测这些潜在的语言学知识,以便更加有效地提高机器翻译的性能,同时为计算语言学服务。韵律作为语音学方面的知识,已经广泛用于到语音合成、文音转换、语音翻译各个语音方面,对基于语音的自然语言处理起到不可替代的作用。该文对韵律信息如何,并以何种方式改进机器翻译进行了介绍,并通过实验验证韵律信息对层次短语模型有改进。关键词:统计机器翻译;层次短语模型;韵律结构信息;计算语言学;语音学中图分类号:TP393文献标识码:A文章

2、编号:1009-3044(2013)12-2860-04随着统计机器翻译的不断发展,翻译模型经历了从最初的基于词的翻译模型,到基于短语的翻译模型,一直到基于句法甚至语义的翻译模型的演变。其中层次短语模型[1][2]是当今最好的基于句法的模型之一。层次短语模型脱胎于传统的短语模型[3],继承了短语模型鲁棒的优点,同时又具备较强的长距离重排序能力。然而,现有的层次短语模型存在严重的规则冗余问题。例如,给定汉英句对如下:这星期它特价一百二十美元。it'sonsalethisweekforonehundredtwentydollars・句对对齐结果由GIZA+

3、+从语料库训练得到。现给出平行句对的对齐矩阵,如图1所示:根据该对齐矩阵,我们可以得到初始短语(为简洁,此处省略了对齐信息,下同),根据蒋伟的层次抽取算法,我们可以进一步得到如下含变量的规则集:1.x->2.X->3.X-4.X-5.X->6.X->7・X—8.X-9.X-10.x->11.X->12.X->13.X-14.X->通过对上述规则集进行分析,我们发现规则集中存在大量冗余。冗余规则的的形式如下:x_X—X—X-*为什么这些规则是不合理的?如果我们把原句的韵律结构信息考虑近来就比较清楚了。假设现有句对源端的韵律结构,如下所示:这y星期y它y特

4、价y—n百n二n十y美元y。y可以看到这些不合理的规则绝大多数其规则变量与两边终结符的边界,并不是韵律切分边界。可见韵律结构信息将可能对层次规则泛化通过指导性信息。为此,该文将研究利用韵律信息对层次短语模型的改进。本章将从两个角度改进层次短语模型。首先利用韵律结构边界信息约束层次短语模型的抽取。另一种角度,增加模型的特征函数[5],利用韵律信息,改进层次短语模型的翻译模型,生成最优的译文。1层次短语模型在层次短语模型中,对任意给定的源语言句子f,一般会存在多个推导得到f,从而得到许多可能的翻译候选项e。层次短语翻译模型通过计算推导过程的概率值确定最终的

5、翻译结果,使用对数线性模型来进行推导,模型如下:[P(D)ocj?i(D)Xi](1)这里,[?i]是定义在推导的特征值,[入订为这些特征值的权重。除了m元语言模型P(m),剩余的特征定义为上下文无关文法的推导过程中使用的规则的特征上:[?i(D)=(X-)£D?i(X—)](2)进一步地,可以推导出[P(D)]:[P(D)ocPLM(e)XLMi^LM(X-)£D?i(X-)入i](3)除了语言模型,将其他因子放在一起表示,如下表示:[W(D)=(X—)£DW(X—)](4)且定义:[W(X-)二iHLM?i(X-)Xi](5)由以上公式,可以得到模

6、型的最后表示:[P(D)*PLM(e)XLMXW(D)](6)而层次短语模型的规则集D是在训练过程中,从对齐的平行句对中抽取出来的,规则形式如下:X-其中,X是N集合中的某个非终结符;Y,a分别为源语言端、目标语言端的终结符与N中的非终结符组成的串;〜为V,a中非终结符之间的对齐关系,在实际规则中可以通过变量的下标表示;w为规则的权值。且短语规则利用了类似于Pharaoh的默认特征集相似的特征:目标语言与源语言之间的双向短语翻译概率、短语规则中词相互翻译的贴切度、每个短语规则的惩罚、胶水规则惩罚以及词惩罚。使用最小错误率对对数线性模型各特征的权值调整,

7、并通过对数线性模型把上述特征组合起来。层次翻译模型的解码器是一个CKY句法分析器,用CKY形式的算法使用学习得到的同步上下文无关文法的源端,对目标端进行同步句法分析,同时生成译文。2基于韵律的层次翻译模型改进因改进需要用到韵律边界信息,因此本节首先介绍韵律边界的预测。然后根据概述,分析有效的韵律约束。本节最后一部分介绍韵律信息以特征的方式改进机器翻译模型。2.1韵律边界预测韵律层次结构主要分为三个基本层级:韵律词、韵律短语和语调短语。从形式句法来看,语调短语往往可以被认为是由标点符号分开,比较容易识别。因此对韵律结构的预测问题可以认为是对韵律词和韵律短

8、语的预测。而韵律层次的预测主要有两类[6],—类是基于规则的方法,另一类是基于统计学习的方法。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。