网络数据关系抽取系统的研究

网络数据关系抽取系统的研究

ID:46259084

大小:65.74 KB

页数:7页

时间:2019-11-22

网络数据关系抽取系统的研究_第1页
网络数据关系抽取系统的研究_第2页
网络数据关系抽取系统的研究_第3页
网络数据关系抽取系统的研究_第4页
网络数据关系抽取系统的研究_第5页
资源描述:

《网络数据关系抽取系统的研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、网络数据关系抽取系统的研究摘耍:网络数据飞速增长,,其中绝人部分是无结构化的文本数据。本文系统地论述了从网贝数据中进行关系抽取的实现方案。首先对网页结构进行分析,提取出网页的正文部。接下來通过分词和实体识别对止文中语句进行处理,然后将处理的结果进行整合作为句法分析器的数据。并在句法树的基础上结合实体抽取的结果,获得描述实体间关系的关键字,根据关键字得出命名实体对Z间的关系。关键词:命名实体关系抽収;实体识别;网贝数据抽取;句法分析THERESEARCHOFRELATIONEXTRACTIONBASEDONWEBDATAWANGDi,WUBin(BeijingUniversityofPo

2、stsandTelecommunications,Beijing100876)Abstract:Thispaperexpoundasystemforrelationextrationbasedonwebdata.Firstofall,weshouldparsethewebpageandextratthetextcontentfromthesepages・Segmentationandnamedentityrecognitionisthenextstatementofthetextprocessing,andthenparsingtheresultwithasyntacticparser

3、.Extractingthekeywordwhichdescribetherelationofthenamedentitiesbasedontheresultsofentityextractionandsyntacticparsing.Accordingtothekeyword,wecangettherelationofthenamedentities・Keywords:RelationExtraction;Named-entityRecognition;WebDataExtraction;SyntacticParser0引言当今社会,随着科技的迅速发展,数据特别是网络数据止以指数规律

4、飞速地増长。而作为网络数据屮非常重要的一部分,文木数据受到了相当大的重视。如何提取文木这种无结构化的数据屮的信息,也成为人们H益关注的研究课题。信息抽取(InformationExtraction)的研究正是为了解决这个问题。信息抽取,是从结构化或者板结构化的文本屮自动抽取特处信息,并以结构化的形式(例如数据库或者XML文档)存储。信息抽取任务一般都会包含了两个紧密相连的任务:命名实体识別和实体关系抽取。本文主要研究的就是基于网络数拯的实体关系抽取系统,即如何获取两个命名实体之间关系的问题。AlexanderSchutz等人⑴认为关系抽取就是自动识别山一对概念以及联系这对概念的关系所构

5、成的相关三元组。SophiaKatrenko等人囚则认为关系抽収应该分为两个步骤:识别存在关系的证据和检查是否存在关系。而关系抽取方面的权威会议ACE(AutomaticContentExtraction)⑶会议则将关系抽取的任务定义为:弹出和识别文档中特定类型的关系,并对这些抽取出的关系进行规范化表示。例如,在语句“乔布斯是苹果公司的创始人”屮,包含了人物实体“乔布斯”和组织机构实体“苹果公司”,关系抽取就是耍获得“乔布斯”和“苹果公司"雇佣的关系。实体关系抽取的结果,在社会、牛活、经济、军事等方面都有着广泛的运用前景。木文在第2节介绍了基于网络数据进行关系抽取的相关基础工作。第3节

6、介绍了目前主流的关系抽取方法,以及本文所实现的关系抽取系统中所使用的关系抽取方法。第4节介绍了依照木文中的关系抽取方法所做的实验并对实验结果进行分析。最后笫5节是本文的总结部分。1相关基础工作1.1数据抓取基于网络数据的关系抽取系统,故基础的部分就是数据的准备工作。冃前,网络数据以指数规律迅速增氏,但各个网站并未提供统一的获取数据的接口。只有各大搜索引擎实现了对网络数据的收集和整理的相关工作。所以,耍对网络数据进行整理,垠有效的方法就是通过搜索引擎,按照关键字进行搜索,将搜索结果的页面进行解析。根期解析结果,分别抓取每个地址对应的网页的内容。1.2网页正文提取数据抓収的结果都是HTML

7、页面,耍进行关系抽収,需耍将页Illi中的正文内容提取出来。在止文抽取的研究屮,相关学者己经冇了大量的研究成果:孙承杰等⑷提出了基于统计的网页正文信息抽取方法,该方法基对DOM(DocumentObjectModel)元素屮信息数量的统计结果,对页面中的正文进行抽取;周佳颖等⑸在此方法的基础上,利用了页面屮的正文特征,提髙了正文抽取的总体效果;王利等⑹则提出了利用文本相似度的方法对网页中的正文进行抽収。跟据对所抓取的4000多篇新闻页面的研究,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。