基于英汉平行语料库的命名实体对自动获取方法研究

基于英汉平行语料库的命名实体对自动获取方法研究

ID:34131870

大小:2.27 MB

页数:52页

时间:2019-03-03

基于英汉平行语料库的命名实体对自动获取方法研究_第1页
基于英汉平行语料库的命名实体对自动获取方法研究_第2页
基于英汉平行语料库的命名实体对自动获取方法研究_第3页
基于英汉平行语料库的命名实体对自动获取方法研究_第4页
基于英汉平行语料库的命名实体对自动获取方法研究_第5页
资源描述:

《基于英汉平行语料库的命名实体对自动获取方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、劣妻未交万方数据硕士学位论文癌乞和一基于英汉平行语料库的命名实体对自动获取方法研究ResearchonNamedEntityEquivalentsAutomaticAcquisitionMethodBasedonEnglish—ChineseParallelCorpus作者:张静导师:徐金安北京交通大学2014年6月万方数据IIIiklIIIIILLIqlIIIIIIIIIIIIIILIMLLllll学位论文版权使用授权书Y2735166本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可以将学

2、位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。学校可以为存在馆际合作关系的兄弟高校用户提供文献传递服务和交换服务。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:嗽督签字日期:抄叶年1月多日导师躲彳荔金函签字日期:如fP年7月乡。日万方数据学校代码:10004北京交通大学硕士学位论文密级:公开基于英汉平行语料库的命名实体对自动获取方法研究ResearchonNamedEntityEquivale

3、ntsAutomaticAcquisitionMethodBasedonEnglish—ChineseParallelCorpus作者姓名:张静导师姓名:徐金安学位类别:工学学号:11120503职称:副教授学位级别:硕士学科专业:计算机科学与技术研究方向:自然语言处理北京交通大学2014年6月万方数据致谢本论文的工作是在我的导师徐金安副教授的悉心指导下完成的,他严谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢三年来徐金安老师对我的关心和指导。徐金安副教授悉心指导我们完成了实验室的科研工作,在学习上和生活上都

4、给予了我很大的关心和帮助,在此向徐金安老师表示衷心的谢意。张玉洁教授对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷心的感谢。在实验室工作及撰写论文期间,茹旷、吴培昊、张平、郑瑞君等同学对我论文中的实验以及研究工作给予了热情帮助,在此向他们表达我的感激之情。我还要由衷地感谢赵紫玉同学,感谢她在生活上的陪伴。另外也感谢我的父母家人,他们的理解和支持使我能够在学校专心完成我的学、I匕。万方数据j量塞交道太堂亟±堂僮途塞揸蔓摘要命名实体主要包括人名、地名和组织机构名,是标识某一特定实体的词或词组。而双语命名实体等价对是指来自

5、两种不同语言的具有互译关系的命名实体对。现阶段全球化进程不断加快,不同国家不同语言间沟通交流的重要性和必要性日益凸显,在此社会背景下机器翻译等自然语言处理技术得到了迅速的发展。作为当前研究热点之一,命名实体的识别和翻译技术正广泛应用于自然语言处理的各项任务中,如机器翻译、信息检索、问答系统、文本分类及自动文摘等。本文主要针对英汉平行语料中命名实体等价对的自动获取方法进行研究,在学习前人工作的基础上,提出一种基于音译模型、翻译模型等特征的英汉命名实体等价对的抽取方法。首先从英汉平行语料中分别抽取英文和中文命名实体,形成多个候选命

6、名实体等价对,然后计算得到每个候选等价对之间多个特征的特征值,最后利用命名实体等价对对齐模块,采用最大熵模型将候选命名实体等价对进行对齐,从而得到最终的命名实体等价对集合。实验结果表明,本文提出的方法能够有效地提高平行语料中双语命名实体等价对抽取的准确率和召回率。本文的主要贡献有:(1)提出一种从平行语料中抽取双语命名实体等价对的方法:(2)有效地利用了平行语料中命名实体等价对之间的特征:音译模型、翻译模型、同现频率及词长度特征;(3)基于上述特征利用最大熵模型对候选命名实体等价对进行对齐。关键词:命名实体等价对;音译模型;翻

7、译模型;平行语料万方数据j匕立变通太堂亟±堂焦诠塞△旦S!丛£!ABSTRACTNamedEntitiesOrEs)weredefmedaspropernamesandquantitiesofinterest,mainlyincludingperson,organization,andlocationnames.WhilebilingualNEsareNEpairsfromtwodifferentlanguageswithtranslationrelations.Atthepresentstageofglobalization

8、,communicationbetweendifferentlanguagesandcountriesincreasinglyhighlightsitsimportanceandnecessity.Inthissocialbackground,NaturalLanguageP

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。