鉴于中文事件抽取关键技术研究

鉴于中文事件抽取关键技术研究

ID:34783660

大小:1.72 MB

页数:134页

时间:2019-03-10

鉴于中文事件抽取关键技术研究_第1页
鉴于中文事件抽取关键技术研究_第2页
鉴于中文事件抽取关键技术研究_第3页
鉴于中文事件抽取关键技术研究_第4页
鉴于中文事件抽取关键技术研究_第5页
资源描述:

《鉴于中文事件抽取关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、工学博士学位论文中文事件抽取关键技术研究谭红叶哈尔滨工业大学2008年6月国内图书分类号:TP391.2国际图书分类号:681.37工学博士学位论文中文事件抽取关键技术研究博士研究生:谭红叶导师:赵铁军教授申请学位:工学博士学科、专业:计算机应用技术所在单位:计算机科学与技术学院答辩日期:2008年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.2U.D.C.:681.37ADissertationfortheDoctoralDegreeinEngineeringRESEA

2、RCHONCHINESEEVENTEXTRACTIONCandidate:TanHongyeSupervisor:Prof.ZhaoTiejunAcademicDegreeAppliedfor:DoctorofEngineeringSpecialty:ComputerApplicationTechnologyAfflication:SchoolofComputerScienceandTechnologyDateofDefence:June,2008Degree-Conferring-Instituti

3、on:HarbinInstituteofTechnology摘要摘要信息抽取是从文本中自动获取信息的一种主要手段。针对自由文本的信息抽取一般包括实体及其关系的抽取。但真实世界不断发生变化,实体的关系和状态也随之发生变化。而事件反映了实体参与者之间的关系和状态的变化。因此要想捕捉到实体之间状态的变化,必须针对事件进行相关信息的抽取。目前事件的检测与识别(Eventdetectionandrecognition,VDR,又称事件抽取)已被ACE(Automaticcontentextraction)评测会

4、议定义为一项基本任务。ACE2005将该项任务定义为:识别特定类型的事件,并进行相关信息的确定和抽取,主要的相关信息包括:事件的类型和子类型、事件论元角色等。根据这个定义,可将事件抽取的任务分成两大核心子任务:(1)事件的检测和类型识别;(2)事件论元角色的抽取。除此以外,由于绝大部分的论元角色都是实体,因此实体的识别也是事件抽取的一项基本任务。本文从事件的检测和类型识别,事件论元角色的识别,事件触发词的识别以及实体的识别几个方面对信息抽取进行了研究,最后还针对事件抽取探讨了可信度估计的方法。具体来讲

5、,本文主要从以下几方面作了研究:(1)研究了扩展名实体的识别。尝试利用半监督学习方法获取模式来缓解缺少大规模的扩展名实体的标注语料的局限性。具体采用了Bootstrapping这种自训练方法来自动获取模式;在迭代过程中利用准确率较高的词典资源评价模式的可信度,进而通过模式的可信度来评价实例的可信度,从而避免了叠代过程中的错误放大问题。在此基础上,研究了模式的泛化方法,提出了软模式和特征向量两种模式泛化的形式,并通过联合概率、二元同现概率和相似度的计算实现了模糊匹配,有效地提升了模式的覆盖能力和系统的性

6、能。(2)对事件的检测和分类,以及事件触发词的识别进行了相关研究。针对ACE语料中存在着规模小,类别不平衡等问题,尝试利用好的特征选择策略来克服一般分类器在小类别和难识别类别上性能不佳的弊端。提出了一种基于局部特征选择和正负特征相结合的特征选择策略,充分保证了分类器在每个类别(尤其是小类别和难识别类别)上的识别效果。除此以外,研究了在事件类别已知的情况下事件触发词的识别,提出充分利用正反例特-I-哈尔滨工业大学工学博士学位论文征,和《同义词词林》、Hownet等语义词典扩展特征的基础上进行触发词的识别

7、策略。(3)研究了事件论元角色的识别。为了充分利用词法、句法等不同层级的语言信息,提出利用多层级模式的方法来进行事件论元角色的识别。每一级模式都包含不同层级的语言信息,既充分利用了准确率高的浅层词法信息,也考虑到了更能反应语言意义的依存句法信息;同时在更深层次的模式中引入软匹配部分,使模式更灵活,实现了模式的模糊匹配。接着,又探讨了基于CRF模型的事件角色识别方法,同时在特征选择中,将模式及其相似度作为特征,不仅扩大了分类器中使用的特征范围,而且使用的特征更加细致和全面,获得了较好的事件角色识别效果。

8、(4)探讨了事件抽取可信度估计的方法。针对事件抽取存在精确率不完美的问题,探讨了两种可信度估计方法,一种是利用源系统输出概率进行直接的可信度估计;另一种是独立的基于ME的可信度估计方法。并利用ROC方法对可信度估计进行了评价。结果表明,独立的可信度估计策略比直接利用源系统的输出进行可信度估计显示出了更好的估计能力,为系统的实际使用奠定了基础。关键词事件抽取;事件检测和分类;论元角色;名实体识别;可信度估计-II-AbstractAbstractInfor

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。