基于迭代方法的命名实体关系抽取技术研究

基于迭代方法的命名实体关系抽取技术研究

ID:33693523

大小:1.63 MB

页数:47页

时间:2019-02-28

基于迭代方法的命名实体关系抽取技术研究_第1页
基于迭代方法的命名实体关系抽取技术研究_第2页
基于迭代方法的命名实体关系抽取技术研究_第3页
基于迭代方法的命名实体关系抽取技术研究_第4页
基于迭代方法的命名实体关系抽取技术研究_第5页
资源描述:

《基于迭代方法的命名实体关系抽取技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、南开大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名:专饫诗脚,月如日第一章绪论第一节研究的目的和意义信息在当代是极其重要的资源,因此,获取、处理和运用信息的手段至关重要。而语言作为信息的重要载体,对语言信息的自动化处理

2、对于国家的信息化、文化教育、经济建设、国家安全都有着重要的意义。自然语言处理是研究计算机如何理解人类语言的学问。自然语言处理的研究在我国信息技术和计算机产业中处于关键的位置。随着计算机的普及以及互联网的迅猛发展,大量的信息以电子文本的形式出现在人们面前。为了应对信息爆炸带来的挑战,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。信息抽取(InformationExtraction)研究正是在这种背景下产生的。信息抽取的主要目的是将无结构的文本转化为结构化或半结构化的信息,并以数据库的形式存

3、储,供用户查询以及进一步分析利用。信息抽取系统的主要功能是从文本中抽取出特定的事实信息(factualinformation)。比如,从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;从经济新闻中抽取出公司发布新产品的情况:公司名、产品名、发布时间、产品性能等;从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方等等。通常,被抽取出来的信息以结构化的形式描述,可以直接存入数据库中,供用户查询以及进一步分析利用。信息抽取虽然需要对文本进行一定程度的理解,但与真正的文本理解

4、(TextUnderstanding)还是不同的。在信息抽取中,用户一般只关心有限的感兴趣的事实信息,而不关心文本意义的细微差别以及作者的写作意图等深层理解问题,因此,信息抽取只能算是一种浅层的或者说简化的文本理解技术。然而,在大多数的应用中,不但要识别文本中的实体,还要确定这些实体之间的关系,我们称其为实体关系抽取。与实体类似,实体关系的类型也是预先定义的,例如:地理位置关系(PHYS)、雇佣关系(EMP.ORG)等等。假设文本中提到“⋯美国第七舰队司令⋯’’其中“美国第七舰队司令’’和“美国第七舰队’’分别

5、为人物(PER)和组织(ORG)实体。而它们又构成了一种雇佣关第一章绪论系(PER.ORG),即“美国第七舰队司令"受雇于“美国第七舰队"。通过以上介绍,我们发现如果说信息抽取的主要功能是自动将文本转化为数据表格,实体抽取确定了表格中各个元素的话,实体关系抽取则是确定这些元素在表格中的相对位置。可见,实体关系抽取是信息抽取中的重要环节。命名实体是文本中基本的信息元素,是正确理解文本的基础。狭义地讲,命名实体是指现实世界中的具体的或抽象的实体,如人、组织、公司、地点等,通常用唯一的标志符(专有名称)表示,如人名、

6、组织名、公司名、地名等。广义地讲,命名实体还可以包含时间、数量表达式等。至于命名实体的确切含义,只能根据具体应用来确定。比如,在具体应用中,可能需要把住址、电子信箱地址、电话号码、舰船编号、会议名称等作为命名实体。命名实体之间的语义关系是信息抽取中的一个重要研究课题。信息抽取技术在研究与应用都有着重要的意义。在研究方面,可以利用机器学习技术增强系统的可移植能力、探索深层理解技术、篇章分析技术、多语言文本处理能力、WEB信息抽取以及对时间信息的处理等等。在应用方面,信息抽取应用的领域更加广泛,除自成系统以外,还往

7、往与其他文档处理技术结合建立功能强大的信息服务系统。它与信息检索、问答系统、信息过滤有直接的关联,同时,作为一项基础性研究,它对于自动文摘、机器翻译、内容理解、语境生成、文本分类、信息过滤以及数字图书馆建设都有重要的研究意义。第二节选题的背景信息抽取的提出和兴起有着特定的时代背景。二十世纪80年代后期,美国政府为了提高政府部门的信息处理速度和质量,提出了一个包括了信息抽取、文档检索、文献摘要等专门的文本处理研究计划。其中一个重要的目标是研究和实现文本信息的自动查找、收集汇总和存储,以期把人们从大量、低效的文本阅

8、读劳动中解放出来。这是对信息抽取概念的首次真正意义上的实践。与此同时,自然语言处理理论和应用开始发生着“范式变化”(ParadigmShift),即从以Chomsky等为代表的“纯理性范式’’转变为日益强调以对真实文本数据的统计分析和经验知识归纳为主要方法的范式。这种趋势还同计算机处理能力不断提高和文本数据积累不断增大密切相关。尊重真实文本语言事实已成为当前各种信息处理技术(包括信息抽

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。