ZZX_MT系统评测报告.ppt

ZZX_MT系统评测报告.ppt

ID:57052192

大小:389.00 KB

页数:18页

时间:2020-07-29

ZZX_MT系统评测报告.ppt_第1页
ZZX_MT系统评测报告.ppt_第2页
ZZX_MT系统评测报告.ppt_第3页
ZZX_MT系统评测报告.ppt_第4页
ZZX_MT系统评测报告.ppt_第5页
资源描述:

《ZZX_MT系统评测报告.ppt》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、ZZX_MT系统评测报告巢文涵李舟军北航计算机学院2008-11提纲引言系统描述词对齐模型训练SMT模型及解码器实验结论&讨论1.引言中英SMT系统中的两个问题词对齐(WordAlignment)重定序(Reordering)解决办法词对齐中引入启发式规则,加入ITG约束重定序模型中结合ITG和句法知识两个评测中-英新闻英-中科技2.系统描述ZZX_MT:一个Log-LinearSMT系统词对齐模块模型训练模块解码器模块词对齐(1/2)问题中-英词序差别大非一一对应解决思路在词对齐搜索过程中引入句法知识(ITG文法)ITG:反向转录文法(Wu1997)工业产品质量责任条例r

2、egulationonqualityresponsibilityforindustrialproduct词对齐(2/2)词对齐中引入ITG约束算法模型训练(1/2)需要训练的模型语言模型:SRILM翻译模型:重定序模型问题:数据稀疏解决办法:利用子块近似预测整个块的方向如:模型训练(2/2)块的提取翻译信息的提取重定序信息的提取解码器(1/3)SMT模型特征翻译模型:重定序模型语言模型词惩罚短语惩罚树的同构模型计算源句法分析树与解码过程中生成的ITG树的结构相似性尽量使得:句法树的每个子树能够映射到ITG树中的子树解码器(2/3)解码过程束搜索的CYK解码过程看作是ITG规

3、则的应用序列,最终形成的目标句子与源句子会形成一棵ITG树数据结构为每个源短语创建的翻译选项列表。每个选项的结构如下:解码器(3/3)解码算法3.实验两个受限翻译评测中-英新闻翻译评测英-中科技翻译评测测试环境操作系统:Windows2KCPU:AMD642.8G内存:1G中-英新闻翻译评测(1/3)语料来源CWMT08提供的新闻语料(Common部分)作为训练集预处理去掉长句全角符号处理分词:中文ICTCLAS,英文WMT05的Tokenizer工具英文的词根化处理:词对齐过程中使用句法分析:Stanford的Parser训练语料库:724,914句对中-英新闻翻译评测(

4、2/2)实验设计及结果结论同构模型对于翻译结果产生的积极的影响,各个指标均比两个对照组的结果好方向偏好产生了负面的影响,原因可能有:一是因为中英文的输出顺序变化非常大,简单的计算输出方向不具有解释能力,反而影响了模型的稳定性;二是模型的权值调整过程中,过度拟合,导致在真实测试集上效果不佳英-中科技翻译评测语料来源CWMT08提供的科技语料(Special)作为训练集采用类似的预处理后,共:616597个句对实验设计及结果结论采用同构模型后产生了负面影响,原因需要进一步分析,可能有:中文过于灵活,采用英文的句法对目标句子进行约束,可能导致某些好的组合难于出现来源于我们程序的B

5、ug,以字为单位,这导致了大量的短语对被过滤掉4.总结&讨论参与了两个单元的评测试图在SMT系统中结合句法知识试图在词对齐中结合ITG约束在模型训练及解码过程中结合ITG约束和句法分析树知识结果不同在中-英新闻任务中,采用同构模型提高了翻译质量,在英-中科技任务中,同构模型的采用产生了负面影响,具体的原因我们将在后续进一步研究主要参考文献FranzJosephOchandHermannNey.2003.ASystematicComparisonofVariousStatisticalAlignmentModels.ComputationalLinguistics,29(1)

6、:19–52.DeyiXiong,QunLiuandShouxunLin.2006.MaximumEntropyBasedPhraseReorderingModelforStatisticalMachineTranslation.InProceedingsofthe21stInternationalConferenceonComputationalLinguisticsand44thAnnualMeetingoftheACL,pages521-528.PeterF.Brown,StephenA.DellaPietra,VincentJ.DellaPietra,&Robert

7、L.Mercer.1993.Themathematicsofstatisticalmachinetranslation:parameterestimation.ComputationalLinguistics19(2),pp.263-311.KenjiYamadaandKevinKnight.2001.ASyntax-basedStatisticalTranslationModel.InProceedingsofthe39thAnnualMeetingoftheAssociationforComputational

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。