非限定类型的实体关系抽取研究

非限定类型的实体关系抽取研究

ID:37030085

大小:4.73 MB

页数:66页

时间:2019-05-17

非限定类型的实体关系抽取研究_第1页
非限定类型的实体关系抽取研究_第2页
非限定类型的实体关系抽取研究_第3页
非限定类型的实体关系抽取研究_第4页
非限定类型的实体关系抽取研究_第5页
资源描述:

《非限定类型的实体关系抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、?咖f耗讀硕士学位论文非限定类型的实体关系抽取研究学科专业计算机软件与理论学位类型工学领士学位研究生姓名王宋祥导师姓名、职称刘方舟副教授论文编号S1802644湖南师范大学学位评定委员会办公室二O—八年六月分类号TP391.1密级公开学校代码10542学号201520100873非限定类型的实体关系抽取研究ResearchonUnrestrictedTyeEntitpyRelationExtraction研究生姓名王宋祥指导教

2、师姓名、职称刘方舟副教授学科专业计箕件与理论研究方向自然语言处理湖南师范大学学位评定委员会办公室二〇—八年六月摘要互联网上存在的信息不仅来自各个领域而且内容丰富、数量巨大,然而这些信息都是非结构化的,如何从巨量的非结构化的互联网信息中提取出实体信息以及实体关系信息是非限定类型关系抽取的主要目的,是信息抽取领域的研究热点,具备非常重要的科研意义和实际运用价值。传统的关系抽取工作不仅建立在小规模已标注语料库上,还过度依赖某个领域人工构建的关系类型体系,不能自动去适应互联网

3、开放。领域下不断增长的关系类型因此,限定领域下以预定义关系类型为前提的关系抽取方法并不适合开放领域。本文的非限定类型的实体关系抽取研究探索一种从互联网开放领域无标注的语料库中抽取出命名实体以及实体关系的半自动化框架,拥有关系类型非限定性、人工标注需求量少的特点。本研究首先使用混合了点互信息、左右信息熵的模型对无标注语料进行命名实体识别,能识别出大量传统命名实体识别工具无法识别一的实体一般性名词和;接着本研究从语料中抽取能表示关系的般性动词(称为特征词),经过特征词的聚类完成关系类型的自主

4、发现,实验表明当关键阈值为0.383,基于词向量余弦相似度的聚类效果可以达到基于同义词林的聚类效果;接着本研究提出基于SimHash的关系种子集抽取算法,可以利用搜索引擎从关联语料中抽取出关系种子集来.4,在九类人物关系类型中实验平均正确度达到907%接着;本研究从关系种子所在的上下文泛化出关系描述模式,使用描述模式在语料库中抽取出关系实例,再将关系实例融入关系种子集中开始迭代关系描述模式挖掘和关系实例抽取的工作,在九类人物关系类型中.98%,,迭代三次的平均正确度达到了95满足实际应用的

5、标准;最后本研究设计并实现了关系实例可视化的系统,将关系实例构成的网络以直观。、清晰、互动性强的力导向图的方式呈现出来本研究整I个过程仅需要较少的人工干预,运行成本较小,且领域移植性较强,具有很高的实用价值。关键词:关系抽取;非限定类型;命名实体识别;关系类型自主发现;关系描述模式挖掘;关系实例抽取IIABSTRACTTheinformationthatexistsontheInternetisnotonlyfromvariousfieldsbutals

6、orichincontentandhugeinuantitybutitisunstructured.q,HowtoextractentityinformationandentityrelationshipinformationfromlareamountofunstructuredInternetinformationistheresearchghotspotinthefieldofinformationextraction.Ithasv

7、eryimportantscientificresearchsignificanceandpracticalapplicationvalue.Thetraditionalrelationshipextractionworkisnotonlybasedonthellsmalscaletaedcorusbutasoreliesontheartificialrelationshiteggp,pypssteminacertainfield.Itca

8、nnotautomaticallyadattothegrowingyprelationshiptypesintheoendomainoftheInternet.Thereforethep,relationalextractionmethodbasedonp

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。