基于单语语料库的词语新译挖掘方法研究

基于单语语料库的词语新译挖掘方法研究

ID:34605048

大小:2.76 MB

页数:65页

时间:2019-03-08

基于单语语料库的词语新译挖掘方法研究_第1页
基于单语语料库的词语新译挖掘方法研究_第2页
基于单语语料库的词语新译挖掘方法研究_第3页
基于单语语料库的词语新译挖掘方法研究_第4页
基于单语语料库的词语新译挖掘方法研究_第5页
资源描述:

《基于单语语料库的词语新译挖掘方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于单语语料库的词语新译挖掘方法研究RESEARCHONTHEMETHODOFMININGTRANSLATIONOFWORDS’NEWSENSEBASEDONMONOLINGUALCORPORA张捷鑫哈尔滨工业大学2015年6月国内图书分类号:TP391.2学校代码:10213国际图书分类号:681.37密级:公开工程硕士学位论文基于单语语料库的词语新译挖掘方法研究硕士研究生:张捷鑫导师:赵铁军教授申请学位:工程硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2015年6月授予学位单位:哈尔滨工

2、业大学ClassifiedIndex:TP391.2U.D.C:681.37DissertationfortheMasterDegreeinEngineeringRESEARCHONTHEMETHODOFMININGTRANSLATIONOFWORDS’NEWSENSEBASEDONMONOLINGUALCORPORACandidate:JiexinZhangSupervisor:Prof.TiejunZhaoAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:Com

3、puterScienceandTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2015Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要机器翻译是应用计算机将一种源自然语言自动地翻译成另一种目标自然语言的技术。随着时代的迅速发展,人们为了更容易地互相交流和获取信息,对于机器翻译的需求也在逐渐加强。如何提高机器翻译质量已经成为研究者们的研究热点。统计机

4、器翻译系统对平行语料有很强的依赖性,然而,一些语言对以及特定领域中平行语料资源稀缺,甚至不存在,使得机器翻译不能顺利进行。即使存在丰富数据资源,一般也来自于不同领域。这种领域上的差异导致很多词语在不同领域中有不同的译法,使得跨领域机器翻译效果并不理想。为了解决这些问题,本文提出了基于单语语料库的词语新译挖掘方法研究。本文在进行词语新译挖掘时,将其拆分为两个子任务,分别是:词语新译法发现和词语译文挖掘,并将二者融合进行一体化研究,最终还将挖掘的词语新译应用在机器翻译实际场景中。本文的具体研究内容如下:(1)在词语新译法发现任务

5、中,本文将其转换为分类问题,判断词语是否存在新译法。在原有方法基础上对特征加以改进,提出了基于丰富特征的方法,引入了语言学特征,分别是目标语言、词性和句法特征,这些特征更符合本文所要解决的新译法发现任务的特点,能够提高分类器的准确性。(2)在词语译文挖掘任务中,本文对基于分布表示的方法加以改进,提出了基于神经网络的方法。首先对词语进行聚类,然后在每个类别中利用神经网络来代替线性函数,挖掘词语向量表示之间的映射关系。所有操作都是在单语语料库上进行。改进后能够更好地挖掘同一语言词语之间的关联,以及不同语言词语之间的映射关系,达到

6、提高挖掘词语译文准确率的目的。(3)本文还对词语新译法发现和译文挖掘进行一体化研究,将两个子任务结果进行融合,来对抽取的词语新译进行过滤,提高抽取词语新译的准确性。最终将在从新领域抽取的词语新译加入到原领域机器翻译系统中,提高跨领域机器翻译系统性能。实验结果表明,本文提出的方法能够比较好的完成词语新译挖掘任务,在实际应用中能够使跨领域机器翻译系统性能提升1个BLEU百分点。关键词:统计机器翻译;单语语料;丰富特征;神经网络;一体化-I-AbstractAbstractThemachinetranslationisatechn

7、ologythatusescomputertotranslateasourcenaturallanguageintoatargetnaturallanguageautomatically.Withtherapiddevelopmentofthetimes,peoplewanttocommunicateandacquireinformationeasier,thedemandformachinetranslationisgraduallystrengthened.Howtoimprovethequalityofmachinet

8、ranslationhasbecomehotforresearchers.Thestatisticalmachinetranslationsystemdependsontheparallelcorporaseriously.However,theparallelcorporaisscare

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。