基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究 毕业论文

基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究 毕业论文

ID:326439

大小:1.44 MB

页数:127页

时间:2017-07-23

基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究  毕业论文_第1页
基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究  毕业论文_第2页
基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究  毕业论文_第3页
基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究  毕业论文_第4页
基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究  毕业论文_第5页
资源描述:

《基于实体上下文的实体关系发现与支持事件发现的网页文档表示研究 毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、OntheNamedEntitybasedRelationExtractionandEventSupportedWebPageRepresentationDissertationSubmittedtoPekingUniversityinpartialfulfillmentoftherequirementforthedegreeofDoctorofPhilosophyinScience(ComputerScienceandTechnology)DissertationSupervisor:ProfessorMAY,2010版权声明任何收存和保管本论文各种

2、版本的单位和个人,未经本论文作者同意,不得将本论文转借他人并复制、抄录、拍照、或以任何方式传播。否则,引起有碍作者著作权益之问题,将可能承担法律责任。摘要:命名实体是现实社会中一个具体的事物,而在Web上的网页文本中有大量的有关命名实体的内容。这些内容中有些是描述实体的静态属性信息,例如实体的属性,实体之间的关系。描述实体静态信息的文本一般为较短的包含实体的单个句子,而且其信息内容不会随时间产生明显变化。而另一些包含实体的文本内容描述的是实体的动态信息,主要是描述实体参与到新闻事件中,并且在新闻事件中的行为。包含后一种实体信息的内容较之前一种内容要更长

3、,一般包含若干句子构成一段内容相对统一的文本子段,而且其内容信息也会随时间变化而发生明显变化。本文希望通过采用对网页文本中包含实体的上下文进行分析挖掘这一基本方法,分别解决利用实体共现文本发现实体间关系的问题和以实体为核心的事件发现与追踪的问题。概括而言,本文在这两个研究问题上的主要贡献包括: (一)Web实体关系实例的提取实体关系在网页文本中的一种重要体现形式,是处于特定关系的实体对共同出现在一段描述这种关系的文本中。这里我们定义这段描述特定实体关系的文本为web实体关系实例。能否提取足够数量与较高质量的Web实体关系实例是能否有效地发现实体间关系的

4、重要前提工作。已有的使用命名实体上下文来发现命名实体之间关系的工作,一般是直接使用包含命名实体对的句子作为表示关系对的特征。这种做法存在两个明显的问题:其一,在海量网页文本中包含命名实体共现的句子除了描述实体间关系的Web实体关系实例之外,还可能是描述两个实体同时参与到一个事件这样的动态特征。其二,由于描述实体关系的句子长度比传统文本分类语料的长度要小很多,即使描述相同类型实体关系的文本也可能在词汇特征上有很大差异。本文中的实验也验证了直接使用网页文本中实体上下文作为实体关系对特征会对实体关系发现带来的负面影响。IX因此,我们提出了描述实体关系的实体上

5、下文的筛选与扩充这两个新的研究问题。在此基础上,本文提出了一种有效的方法来解决上述两个问题。该方法首先利用对Wikipedia和百度百科中描述实体关系的文本进行分析挖掘,学习得到描述实体关系的语言模型,利用贝叶斯公式计算实体共现句子包含实体关系信息的概率并依此对共现句子进行筛选;其次,该方法利用搜索引擎作为媒介,通过将描述实体关系的实体共现文本作为查询投送到搜索引擎,得到在互联网中其他描述同一实体关系对的文本作为描述该实体对的文本的扩充,通过迭代执行实体对上下文的筛选与扩充,最终得到表示每个实体对的文本特征。 (二)基于图扩散的实体关系类型标注方法通过

6、上述工作,我们将每个实体关系对表示为该实体对在网页中的web实体关系实例,下一步的工作是对这些web实体关系实例标注其所描述的关系类型。在本文的工作中,我们使用NIST举办的ACE(AutomaticContentExtraction)评测中提供的命名实体关系分类体系,这一体系包括三大类实体间关系:人物-人物间关系、人物-机构间关系、人物-地点间关系,以及11个具体关系子类。为了确定每个实体关系对的关系类型,前期研究者所使用的实体关系类型标注方法主要是以一定数量的、有标注类别的、描述各类实体关系文本作为训练集,通过传统的有监督学习方法,例如kNN,SV

7、M等,将待标注类型的实体对的共现文本分类到特定的实体关系类别,并依此来标注实体对的关系类型。由于我们要处理的网页文本的特点是数据量巨大,语言规范性不强,因此在网页文本数据上人工标注、或者自动获取一个足够数量与较高质量的描述各类实体关系的训练集都是一项困难的工作。因此,我们提出了一种新的利用图扩散的实体关系标注方法,所需的人工干预只是对每种关系类别标注少数几个实体对。该方法以共现的实体对作为顶点,以实体对上下文之间的相似度来建立边,构建一个无向加权图,并利用边上的权重将少数几个已标注类别顶点的类别信息,通过半监督学习的迭代扩散方法将少数已标注结点的类别信

8、息在整个图中进行传播,在传播到达平衡的时候获得图中顶点即所有实体对的关系类型信息。通过实验,该

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。