基于深度学习的跨语言信息抽取研究

基于深度学习的跨语言信息抽取研究

ID:35067219

大小:6.52 MB

页数:63页

时间:2019-03-17

基于深度学习的跨语言信息抽取研究_第1页
基于深度学习的跨语言信息抽取研究_第2页
基于深度学习的跨语言信息抽取研究_第3页
基于深度学习的跨语言信息抽取研究_第4页
基于深度学习的跨语言信息抽取研究_第5页
资源描述:

《基于深度学习的跨语言信息抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、义蓮键A乂聋DALTECHNOLOGYIANUNIVERSITYOFfi西王导恆巧交M乂STE民ALDISSERTATION鑛基于深度学习的跨语言信息抽取研究计算机应用技术学科专业作看姓名墜适周恵巍副教授指导教师答辩日期20166^^硕:±r学位论文基于深度学习的跨语言信息抽取研究-ResearchonCrosslanguaeInformationExtractiongBasedonDeepLearning作者姓名:陈龙学科、专业:计算机用技术学号:21309

2、153指导教师:周惠巍副教授完成日期:2016年06月11日夫金巧义夫聲DalianUniversitofTechnoloy^大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体己经发表的研究成果,也不包含其他己申请学位或其他用途使用过的成果一。与我同工作的同志对本研究所做的贡献均己在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。球《缘马聲磋语畫隹1抽取餐

3、学位论文题目:如乃/I/《/作者签名:日期:如年月日a大连理工大学硕±学位论文摘要基于机器学习的信息抽取方法性能依赖训练语料的质量和数量。然而标注数据在不同语言分布不均衡一,阻碍了中文的信息抽取研究。针对送问题,研究人员提出跨语言信息抽取方法,利用资源丰富语言(源语言)的标注数据来训练资源直乏语言(目标语言)的信息抽取系统。然而,语言鸿沟和机器翻译错误影响了信息抽取的性能。本文研究基于深度学习的中英文跨语言信息抽取技术,主要包括W下内容:(1)基于降噪自动编码机(DAE)的双视图跨语言信息抽取提出基于DAE的双视图跨语言信息抽

4、取方法。在源语言和目标语言向量重构过程中,DAE适当引入噪音,减少翻译错误对分类性能的影响。同化在中英文两个视图,。分别构建分类模型,融合两个模型的分类结果,减少语言鸿沟对分类性能的影响在跨语言情感分类和跨语言模糊限制语识别两个任务进行实验,证明DAE模型和双视图方法均能有效提高跨语言信息抽取性能。(2)基于双语词表示的跨语言信息抽取提出基于双语词表示的跨语言信息抽取方法,双语词表示的学习分为无监督和有监督两个学习阶段。无监督学习阶段利用DAE进行中英文双语词表示学习,捕获中英文双语语义信息。有监督学习阶段将训练语料的标注信息嵌入双语词表示,提

5、高信息抽取。性能实验表明,双语词表示能够有效捕获双语语义信息和标注信息,克服双视图方法难W深入融合两种语言的不足。(3)基于联合表示学习的跨语言信息抽取提出基于験合表示学习的跨语言信息抽取方法。采用长短时记忆递归网络(LSTM),学习中英文双语表示。在词语义表示基础上,引入上下文情感(模糊)信息表示,联合训练惰感词(模糊限制语)在特定语境下的语义和情感(模糊)信息。实验表明LSTM能够有效实现跨语言信息抽取。同时,词语义表示与上下文情感(模糊)信息的联合表示学习能够进一步提高跨语言信息抽取的性能。本文研究了基于深度学习的跨语言信息抽取方法,

6、减少了翻译错误、语言鸿沟等对跨语言分类性能的影响,获得了有效的双语语义信息和标注信息,提高了跨语言信息抽取性能,为深度学习理论在跨语言的相关研究提供了有益借鉴。关键词:跨语言信息抽取;双视图;深度学习双语词表示合表示学习;;联--I基于裸度学习的跨语言信息抽取研究searchonCross-民elanguaeInfbrmationExtractionBasedonDeepgLearningAb巧ractTheerformanceofmachineleami打basedinformatio打extraction

7、sstemreliesonthepgyqualityandquantityoftrai打i打gcorpora.However,labeleddataindiffere打tlanguagesareverymbalancedheackofabeleddatamitstheresearchroressinChineseando1;heri.Tlllipg-m-resourcescarcelanuaes.I打ordertosol

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。