自由文本的信息抽取模式获取的研究

自由文本的信息抽取模式获取的研究

ID:41410617

大小:3.98 MB

页数:129页

时间:2019-08-24

自由文本的信息抽取模式获取的研究_第1页
自由文本的信息抽取模式获取的研究_第2页
自由文本的信息抽取模式获取的研究_第3页
自由文本的信息抽取模式获取的研究_第4页
自由文本的信息抽取模式获取的研究_第5页
资源描述:

《自由文本的信息抽取模式获取的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中国科学院计算技术研究所博士学位论文自由文本的信息抽取模式获取的研究姓名:姜吉发申请学位级别:博士专业:计算机软件与理论指导教师:白硕20040901摘蔓摘要信息抽取(IE)是指从一个给定的文档集合中自动识别出预先设定的实体、关系和事件等类型信息,并对这些信息进行结构化存储和管理的过程。信息抽11)(在许多领域均有重要的应用。从自由文本中抽取事件信息是IE领域中难度最大、最具学术挑战性的研究课题,也是本文的主要研究对象。另外,从自由文本或从Web网页之类的半结构化文本中抽取关系信息也有相当的学术挑战性,也雨:本义研究范围之列。目前

2、世界上多数IE系统都采用模式匹配法,而采用模式匹配法的IE系统在本质上是领域相关的。这是因为对每个特定的1E领域/任务,都要为之设定相应的模式来指导针对该IE领域/任务的IE。为了提高采用模式匹配法的IE系统的可移植性,关键是如何较为快捷方便准确全面的获取针对某个IE领域/任务的IE模式。起初,IE模式是人工通过手工方法来建立的,但这费时费力,对用户或领域专家的技能水平要求较高。为了较为快捷方便的获取IE模式,人们采用机器学习方法来获取IE模式。最早的IE模式学习方法需要手工标注规模较大的语料;而标注大规模的语料也费时费力,于是为

3、了减轻用户的劳动并降低对用户的技能要求,改进后的模式学习方法只是要求用户将训练文档集合分为相关和不相关的两类,然后就能自动的从中学出相关的IE模式;进一步的研究发现,即使要求用户将训练文档集合分为相关和不相关的两类,也并非易事,因而目前最新的做法是只要求用户提供几个可以轻易想到的有代表性的IE模式,相应的模式学习方法就可以从⋯个未经分类的文档集合中学出更多的模式并同时完成对文档的相关性分类。在上述各种事件IE模式学习方法中,都采用了各自不同的模式表示方式。但无论这些事件IE模式的表示方式有多大差异,它们都利用了语法信息和语义信息的

4、概括约束作用。其中,语义信息的概括约束作用是通过将模式中的某蝼概念元素用它们的上位概念代替柬完成的,而这就需要一个概念层次知识库的支持。一般的,这个概念层次知识库中的概念知识可分为领域相关和领域无关两个部分,而领域无关部分概念知识可以直接从现成的领域无关的概念层次知识库如wordNet/HowNet等中得到,需要用户手工建造的只是领域相关部分的概念知U{,这进一步减轻了用户在IE模式获取过程中的工作量。本文给出了一种基于领域无关概念知识库的事件IE模式学习方法Genl,AM。该方法利用了领域无关的概念层次知识库如wordNet/H

5、owNet等的支持并能n:模式学习的过程中同时实现词义消岐。GenPAM在进行IE模式学习的时候,不需用户提供几个有代表性的种子模式,也不需用户进行语料分类,更不需用厂】进行摘篮语料标注,只需用户进行lE任务定义之后,系统就可自动的从一个末经杯注和分类的原始语料中学出lE模式,而且整个过程是在领域无关的概念知识库的支持之下实现的。这自然可以比以往的其它IE模式学习方法更能减少用户的I‘f1。量并降低对他们的技能要求。我们将GenPAM用于从MUC一7提供的英语飞行事故训练语料中进行lE模式获取并在这些IE模式指导下从MOC一7提供

6、的测试语料中进行坠机事件的抽取的实验,结果表明;GenPAM可大大降低用户的劳动量和技能要求;使用该法所获取模式的完整性和难确性与其它IE模式获取方法相比,也不错。将GenPAM用j:汉语IE模式获取的实验目前也l卜在进行中。Internet/www的发展使得网上电子文档数目巨大且迅猛增长,从中抽取出各种关系并将之结构化存储是进行Web挖掘的前提之一。而抽取某类二元关系需要与该类二元关系相对应的关系模式的指导。加上各种应用如开放领域知识问答对关系IE模式的需求,关系IE模式的获取也同显重要。本文提出了一种自举的二元关系和二元关系模

7、式获取方法BRPAM,该法能在人工给定的属于某个二元关系类别的几个二元关系的基础上,通过自举学习,从一个大的文档集合D中找m更多的二元关系并同时生成更多的二元关系模式。我们根据BRPAM的基本思想设计了一个从web网页中获取二元关系的系统BRPAM2Web和从自由文本中获取二元关系的系统BRPAM2Texts,并将之分别用于一个特定的二元关系类别所对应的二元关系的获取的实验。结果表明,以BRPAM的基本思想而设计的具体应用系统能够较好的完成从半结构化的web网页中和自由文本中获取二元关系的任务,而且对用户的要求很低。另外,将BRP

8、AM用于开放领域QA中某些问答类型所对应的二元关系模式的获取,所获取的模式对ji指导进行相应类型问题答案的查找,效果也不错。总之,本文的主要提出了一种事件IE模式获取方法和一种关系IE模式获取方法。提出这两种方法的直接目标是减少用户在模式获取过程中

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。