欢迎来到天天文库
浏览记录
ID:52428313
大小:330.75 KB
页数:5页
时间:2020-03-27
《特定句法增强的SMT调序模型.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、西安理工大学学报JournalofXi’anUniversityofTechnology(2O15)Vo1.31No.3277文章编号:1006—4710(2015)03—0277—05特定句法增强的SMT调序模型杜金华,张喜媛(1.西安理工大学自动化与信g,m程学院,陕西西安710048;2.陕西省复杂系统控制与智能信息处理重点实验室,陕西西安710048)摘要:面向基于短语的汉英统计机器翻译,提出了一种基于特定句法(汉语“的”结构)增强的调序方法,该方法首先在词对齐和源端词性(POS)信息的约束下抽取基本调序规则
2、,然后根据中文端特定句法结构一“的”字结构,将抽取的基本规则自动分类为“调序倾向性强”和“调序倾向性弱”两类,最后采用不同的优化和剪枝策略对两类规则进行处理,得到最终的源语言端调序规则集合。在NIST汉英数据集上的实验表明,相对于基线系统,本文所提方法在NISTMT2005测试集上显著提高了0.69BLEU值。关键词:统计机器翻译;特定句法结构;“的”结构;POS调序模型中图分类号:TP391文献标志码:ASpecificsyntacticconstructionenhancedPOSreorderingmodelf
3、orSMTDUJinhua.一,ZHANGXiyuan,(1.FacultyofAutomationandInformationEngineering,Xi’anUniversityofTechnology,Xi’an710048,China;2.ShaanxiKeyLaboratoryofComplexSystemControlandIntelligentInformationProcessing,Xi’an710048,China)Abstract:Thispaperpresentsaspecificsyntac
4、ticstructure(Chinese“DE”structure)enhancedreorderingmodelforphrase—basedChinese—EnglishSMT.Thismethodfirstextractsthebasicre—orderingrulesinthecaseofconstraintofwordalignmentandpartofspeech(POS)information,andthenclassifiestheextractedbasicrulesautomaticallyint
5、otwotypesof“strongreorderingtendency”and“weakreorderingtendency”intermsofChineseandspecificsyntacticstructure一“Chinese“DE’’structure”.Finally,thedifferentoptimizationandpruningstrategiesareadoptedtodealwiththerulesoftwotypes,wherebyobtainingthereorderingruleset
6、ofthesourceside.TheexperimentalresultsonChinese——EnglishNIST2005datasetindicatethattheproposedmeth-。odsignificantlyraisesthebaselinebyrelatively0.69BLEUagainstbaselinesystem.Keywords:statisticalmachinetranslation;specificsyntacticconstruction;“DE”construction;P
7、OSreorderingmodel词序作为一种语法关系序列,它是表达语法关别:1)按照作用对象不同,调序分源语言端调序和目系的重要手段,是语言内在意义的句法表现形式。标语言端调序;2)依据作用范围,可分为全局[】]和局不同语言之间的句法异构性,导致了源语言端和目部调序;3)按照作用位置,可以分为作为特征融入到标语言端词序不同。从语法学角度来看,词序不仅对数线性模型框架_2。的模型和作为解码前的一个可以决定句子的逻辑语义模式,而且可以通过变化预处理模型[4;4)从建模方法来看,可以分为基于词来实现不同含义的表达。汇化的
8、调序和基于句法的调序等。统计机器翻译研究中,词序调序是一个热点和随着机器翻译研究的不断发展,调序模型的研难点问题。调序模型按照不同标准可划分为以下类究也取得了很大的进展。2006年Chen等提出了收稿日期:2014—10—16基金项目:国家自然科学基金资助项目(61100085)。作者简介:杜金华,男,副教授,博士,研究方向为机器学习与自然语言
此文档下载收益归作者所有