基于汉英双语语料库的翻译词典获取研究及实现

基于汉英双语语料库的翻译词典获取研究及实现

ID:36645578

大小:2.28 MB

页数:51页

时间:2019-05-13

基于汉英双语语料库的翻译词典获取研究及实现_第1页
基于汉英双语语料库的翻译词典获取研究及实现_第2页
基于汉英双语语料库的翻译词典获取研究及实现_第3页
基于汉英双语语料库的翻译词典获取研究及实现_第4页
基于汉英双语语料库的翻译词典获取研究及实现_第5页
资源描述:

《基于汉英双语语料库的翻译词典获取研究及实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、哈尔滨T业大学工学硕卜学位论文摘要随着计算机的普及和信息化程度的日益提高,人们对自然语言理解技术的需求也越来越大。20世纪80年代以来,语料库语n学(CorpusLinguistics)的崛起和迅速发展令世人耳目一新。人们希望通过对大规模真实语料的调查来自动获取自然语言的各种语言事实及语法规律。基于双语平行语料库翻译词典自动获取技术的研究,可以大大加快翻译词典的建设,推进基于语料库的自然语言处理研究的7「展。研究成果将为机器翻译、计算机辅助翻译、双语词典编纂、术语学、跨语言信息检索等自然语言处理技术以及第二语言学习等方面

2、提供重要的支持。众多研究者都意识到了双语语料库重要的研究价值和潜在的巨大应用价值,纷纷在不同的双语语料库中不断尝试各种方法来探索这个问题。但是所有这些研究中,基于汉英(世界上拥有最多使用者的2种语言)双语语料的不多,缺乏系统研究。本课题主要研究基于句子级对齐的汉英双语语料库,利用共现信息计算双语词汇之间的关联强度,从而建立词汇对译关系,获取翻译词典的方法。具体地讲,本文从如下几个方面进行了研究:1.深讨了4种基于共现信息计算词汇对译关系的统计模型,分析比较各模型性能优劣。比较过程中,采用了一种新的双语词对集评测方法,该方

3、法既体现了译文之间的相对关系又提高了评判人员的工作效率,合理而科学。2.探讨了基于双语语料库自动获取双语对译词对面临的主要问题及其形成原因,提出了相应的解决策略。对于间接共现问题,采用迭代抽取策略,模型的整体性能比传统的直接计算方法,有成倍的提高。3.实现了一个基于汉英双语语料库的翻译词典辅助获取原型系统,给出了系统的基本框架,介绍了组成系统的各模块功能及使用的主要技术。最后通过对得到的汉英翻译词对的评价验证了该系统的可行性和实用性。4.研究双语语料库规模与词典获取效果的相互关系。经实验发现,随着双语句对的增加,语料规模

4、的扩大,词典获取系统将得到更多正确的汉英翻译词刘一,更高的语料利用率,以及稳定的系统整体性能,确保了用户的工作效率。关键词双语语料库;翻译词典获取;共现信息统计模型哈尔滨工业人学下学硕卜学位论文AbstractBilingualco印usresearchisoneofthehotissuesincurrentnaturallanguageprocessing(NLP)andisbelievedtobeapromisingdirectionforsolvingknowledgeacquisition--thebottlen

5、eckprobleminNLPsystemslikemachinetranslation.Basedonabilingualcorpus,theresearchonautomaticallytranslationlexiconbuildingisofgreattheoreticalandpracticalsignificancesincetranslationlexiconsplayanimportantroleinmanynaturallanguageprocessingtasks,e.g.machinetransla

6、tion,cross-languageinformationretrievalandcomputer-assistedlanguagelearningetal.Therefore,Manyeffortshavebeenmadeonbuildingthetranslationlexiconsautomaticallyfrombilingualcorpus.However,Chinese-Englishbilingualcorpus,constitutedbythetwomostwidelyusedlanguagesinth

7、eworld,islesstouchedforthetranslationauto-extraction.ThispaperisaimedatstudyingtranslationlexiconautomaticallybuiltfromaChinese-Englishbilingualcorpus,basedonwordpairsco-occurrencestatistics.Indetail,thisthesisisarrangedasthefollowing:1.Fourkindsofco-occurrenceba

8、sedwordassociationmeasuresarestudied.Andanewevaluationfunctionisadoptedtopickoutthebestmodel,whichnotonlyindicatestherelativerelationshipoftranslations,butalso

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。