实体关系自动抽取技术比较的研究

实体关系自动抽取技术比较的研究

ID:32010038

大小:1019.00 KB

页数:64页

时间:2019-01-30

实体关系自动抽取技术比较的研究_第1页
实体关系自动抽取技术比较的研究_第2页
实体关系自动抽取技术比较的研究_第3页
实体关系自动抽取技术比较的研究_第4页
实体关系自动抽取技术比较的研究_第5页
资源描述:

《实体关系自动抽取技术比较的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文实体关系自动抽取技术的比较研究COMPARATIVESTUDYOFAUTOMATICENTITYRELATIONEXTRACTION宁海燕哈尔滨工业大学2010年6月国内图书分类号:TP391.1学校代码:10213国际图书分类号:681.37密级:公开工学硕士学位论文实体关系自动抽取技术的比较研究硕士研究生:宁海燕导师:王晓龙教授申请学位级别:工学硕士学科、专业:计算机科学与技术所在单位:计算机科学与技术学院答辩时间:2010年6月授予学位单位:哈尔滨工业大学哈尔滨工业大学工学硕士学位论文Cla

2、ssifiedIndex:TP391.1U.D.C.:681.37DissertationfortheMasterDegreeinEngineeringCOMPARATIVESTUDYOFAUTOMATICENTITYRELATIONEXTRACTIONCandidate:NingHaiyanSupervisor:Prof.WangXiaolongAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScienceandTechnology

3、Affiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2010Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要随着计算机技术和网络技术的不断发展,海量信息以电子文档的形式出现在人们面前。从这些自然文本中提取出有用的信息,日益成为人们关注的问题。因此信息抽取技术应运而生,关系抽取是其中的一个子任务。文本中特定的事实信息称为实体,而确定

4、这些实体之间的关系称为实体关系抽取。实体关系抽取对本体库的构建以及改进信息检索技术等有重要的作用。本文重点对实体关系抽取技术的几个问题进行了研究和解决:首先,本文抽取了传统命名实体以外的存在重要语义关系的词:领域术语。针对领域术语评测数据的不统一和评价的困难性,通过词典评测、人工评测在准确率、召回率、F度量等评价指标上与几种主流的基于统计的术语抽取方法进行了详细的对比和分析。本文还提出了基于线性支持向量机权重的术语抽取方法,实验结果表明,该方法能有效地抽取领域术语。其次,本文基于不同的应用需求,利用统一的语料

5、对比研究了基于特征的有监督、半监督和无监督的实体关系抽取方法。在有监督实体关系抽取方法中,前人的研究工作没有考虑各种特征对两个实体间无关系即no-relation的影响。对此,本文详细对比了通用特征:实体周围词语、实体类型、子类型、实体位置、实体中心词和内容的依存句法分析对真正关系和no-relation的影响,并提出了新特征:特征词位置信息,实验表明该特征能有效提高实体关系抽取的准确率。本文通过Bootstrapping半监督实体关系抽取方法进行了不同的对比实验:实体特征、种子集规模对实体关系抽取性能的影响

6、;同等条件下,半监督实体关系抽取方法与有监督实体关系抽取方法的性能比较。实验结果表明半监督实体关系抽取能够提高实体关系抽取的准确率。无监督实体关系抽取方法主要采用的是聚类方法,因此本文主要研究了聚类算法以及合并策略对实体关系抽取的影响。本文对比研究了三种聚类算法,即K-means、自组织映射和AffinityPropagation算法,以及两种合并策略(DCM和Cosine)。AffinityPropagation算法能够取得较优的结果,自组织映射算法在运行时间上更有优势。关键词实体关系抽取;领域术语抽取;B

7、ootstrapping;聚类;DCM合并-I-哈尔滨工业大学工学硕士学位论文AbstractWiththedevelopmentofcomputerandnetworktechnology,largeamountofinformationinformofelectronicdocumentshasappeared.Moreandmoreattentionsarepaidtoextractusefulinformationfromthesetexts.Therefore,informationextracti

8、ontechnologyhasbecomeprevalentandrelationextractionisoneoftheimportantsubtasks.Specificfactinformationintextisrepresentedasentity,andthejudgmentoftherelationshipbetweentheseentitiesisdefinedasentityrel

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。