基于双语的事件抽取方法研究

基于双语的事件抽取方法研究

ID:35062640

大小:5.28 MB

页数:63页

时间:2019-03-17

基于双语的事件抽取方法研究_第1页
基于双语的事件抽取方法研究_第2页
基于双语的事件抽取方法研究_第3页
基于双语的事件抽取方法研究_第4页
基于双语的事件抽取方法研究_第5页
资源描述:

《基于双语的事件抽取方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、-.入:v:-?'.:-.rvi;1学校代码;0285-崎I、,学号=20134227008:/._SOOCHOWUNIVERSITY":瞪心.-如川'';-^‘■■->w.??■''?:{;:...■':'v—-:;-妨|:|&|?^;-典婚-邱?}?^"'.^^^)|^^^^^;换Researcho打刖ingualEventExtraction研究生姓名朱珠指导教师姓名周国栋专业名称计算机科学与技术

2、秘:,研究方向中文信息与自然语言处理所在院部计算机科学与技术学院论文提交日期2016年5月苏州大学学位论文独创性声明本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研巧工作所取得的成果。除文中己经注明引用的内容外,本论文不含其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学或其它教育机构的学位证书而使用过的材料。对本文的研巧作出重要贡献的个人和集体;。,均已在文中(^1明确方式标明本人承担本声明的法律责任。b、论文作者签名:日期:w处_苏州大学

3、学位论女使用授权声明本人完全了解苏州大学关于收集、保存和使用学位论文的规定,艮P:学位论文著作一权致归。属苏州大学。本学位论文电子文档的内容和纸质论文的内容相苏州大学有权向国家图书馆、中国化科院丈献信息情报中也、中国科学技术信息研究所(含万方论数据电子出版社)、中国学术期刊(光盘版)电子杂志化送交本学位文的复他印件和电子文挡,允许论文被査阅和借阅,可(^^1采用影印、缩印或其复入制手段保存和汇编学位论文,可1^^1将学位论文的全部或部分内容编有关数据库进行检索。涉密论文口本规

4、本学位论文属在年__月解密后适用定。论非涉密论文□文作者签名:主护___日期:>。!白.i、义导师签名:娘^日期:心t-乂吟基于双语的事件抽取方法研究中文摘要基于双语的事件抽取方法研究中文摘要随着互联网技术的高速发展和大数据时代的来临,数据呈爆炸式增长,如何对这些数据进行智能分析和自动处理,高效地挖掘出潜在的有使用价值和社会竞争力的信息就显得愈发重要。信息抽取正是在这种背景下应运而生。其中,事件抽取是信息抽取领域中最具挑战性的基本任务之一。目前,事件抽取方法一般是基于监督机器学习的方法,然而基

5、于机器监督学习的方法往往需要大量的标注样本,人工标注这些样本耗时耗力。同时,事件类别的多样性导致事件语料的稀疏和不平衡。这些问题在各种语言背景下的事件抽取任务中都不同程度的存在。本文主要针对基于英文和中文的双语事件抽取方法展开深入研究,主要研究内容包括以下三个方面:首先,本文提出了一种基于双语特征空间叠加的事件抽取方法。其核心思想是使英文和中文事件有效结合,然后通过特征空间叠加的方式获取双语特征文本,实现对中英文的事件抽取。该方法能够扩大单语事件抽取的训练集规模和信息量,从一定程度上避免因语料稀疏所带来的不利影响。

6、实验结果表明,该方法相比于传统的单语事件抽取,能够获得更好的性能。其次,本文提出了一种基于整数线性规划的跨语言事件抽取方法。其核心思想是利用丰富和完善的英文事件的研究资源实现中文事件抽取,并通过整数线性规划的联合学习模型对事件识别和分类的结果进行优化和统一。实验结果表明,当我们使用英文源语言及其翻译的叠加语料进行训练时,能够获取较好的中文事件抽取的效果。最后,本文提出了一种基于主动学习的双语事件抽取方法。其核心思想是使用英文事件训练分类器,通过不确定性的选择策略从中文的未标注样本中挑选出一部分样本,结合自动标注的结

7、果进行选择性的人工标注,将标注后的样本加入到训练集中,最后使用扩展后的训练集构建最终模型,实现事件抽取。实验结果表明,该方法可以有效的降低人工标注样本的消耗,丰富训练样本的信息量,同时能够获得较好的事件抽取效果。I中文摘要基于双语的事件抽取方法研究关键词:事件抽取,双语信息,特征叠加,整数线性规划,主动学习作者:朱珠指导老师:周国栋李寿山IIResearchonBilingualEventExtractionAbstractResearchonBilingualEventExtractionAbstractSubj

8、ectivetextsontheInternetareundergoingaratherrapidexpansionwiththedevelopmentofInternet.Howtodealwiththehugeamountsofinformationautomaticallyandintelligentlytominethevaluableandcomp

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。