面向统计机器翻译的中文分词研究

面向统计机器翻译的中文分词研究

ID:36779701

大小:5.99 MB

页数:58页

时间:2019-05-15

面向统计机器翻译的中文分词研究_第1页
面向统计机器翻译的中文分词研究_第2页
面向统计机器翻译的中文分词研究_第3页
面向统计机器翻译的中文分词研究_第4页
面向统计机器翻译的中文分词研究_第5页
资源描述:

《面向统计机器翻译的中文分词研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、ChineseWordSegmentationforStatisticsMachinern1-●lranslatlonPresentedbyBoyuanLiSupervisedbyProfessorJiajunChenAthesissubmittedtotheGraduateSchoolofNanjingUniversityfortheDegreeofMasterDepartmentofComputerScienceandTechnologyNanjingUniversityNanjing,Ma

2、y2011南京大学硕士毕业论文面向统计机器翻译的中文分词研究摘要统计机器翻译的首要工作是获取双语词对齐信息,而词对齐需要从词边界清晰的双语语料中训练才能得到。因此,在涉及中文的统计机器翻译系统中,首先需要对中文语料进行分词处理。可以说,中文分词是中文统计机器翻译的基础工作之一,分词的结果很大程度上影响着统计机器翻译系统的性能。如何能找到一种适应统计机器翻译任务的分词方法,已经成为一个重要研究方向。传统的中文分词方法都仅对单语知识进行学习,根据中文语言的特点和语法知识来对中文句子进行分词。这种分词

3、方法可以胜任单语自然语言处理任务,但应对统计机器翻译这种双语自然语言处理任务时,往往因双语语言差异而会产生一定的不适应,从而影响统计机器翻译系统的性能。针对上述问题,有些学者提出了使用双语知识进行分词的方法,首先对双语语料进行对齐训练,再从对齐结果中学习双语知识进行分词。这种分词方法取得了一定的效果,但由于受到词对齐质量的制约,分词结果中词语的质量不尽人意,影响了统计机器翻译系统的性能;同时,这种分词方法无法对翻译系统中的待翻译语料进行分词(待翻译语料都是仅含中文单语句子的语料),因此他们的方法

4、不能算是完整的分词方法。本文在借鉴了前人工作的基础上,提出了一种结合中文单语知识和中英双语语料知识的中文分词方法,在保证了分词准确率的基础上使分词结果更适应于统计机器翻译系统的要求。在本文的方法中,首先将双语平行语料中的中文语料按字进行切分,利用双语语料进行中英“字一词”对齐训练。然后利用对齐可信度的概念,将可信的中英“多对一”对齐中的中文部分合并成词,得到可信对齐分词结果。最后对使用可信对齐方法无法判断分词的字符,则使用其在单语分词方法中的结果作为最终分词结果。另外,针对测试语料等不易利用双语

5、知识进行分词的语料,本文使用条件随机场模型结合单、双语知识的分词结果训练得到了一个包含单、双语知识的分词模型,并将此模型用于统计机器翻译所有语料的分词工作之中。与传统分词方法相比,本文提出的分词模型包含单、双语知识信息,使分词结果中的汉语词与英文单词间的对应关系更加明确。在基于短语的统计机器翻译实验中,本文方法使统计机器翻译系统的性能得到了提升。关键词:中文分词统计机器翻译双语知识对齐可信度条件随机场南京大学硕士毕业论文AbstractWordalignmentisthefirstbasicst

6、epforbuildingstatisticsmachinetranslation(SMT)svstems.whichwouldbetrainedonlyifwordboundaryisavailableinbilingualcorpus.ThismeansifwewanttotrainaSMTsystemincludingChinese,weneeddosegmentationforChinesesentencesfirstly.TheresultofChinesesegmentationsh

7、owssignificantinfluenceonDerformanceofSMTsystem.Thus,howtofindaSMT-motivatedwayofChinesesegmentationisbecominganimportantissue.ThetraditionalmethodofChinesesegmentationistolearnknowledgeaccordingtothecharacteristicfeaturesandgrammarofChineselanguageo

8、nly,whichcanbecategorizedasmonolingualtaskinnaturallanguageprocessing(NLP).HoweverwhenwetrytodealwithbilinguallanguageprocessingtaskslikeSMTtheabovemethodmaybeinappropriateandturntobeobstacleforimprovingtheperformanceofSMTsystem.Toovercomeaboveproble

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。