基于新闻数据的中文人物社会关系抽取研究

基于新闻数据的中文人物社会关系抽取研究

ID:35175137

大小:6.50 MB

页数:71页

时间:2019-03-20

基于新闻数据的中文人物社会关系抽取研究_第1页
基于新闻数据的中文人物社会关系抽取研究_第2页
基于新闻数据的中文人物社会关系抽取研究_第3页
基于新闻数据的中文人物社会关系抽取研究_第4页
基于新闻数据的中文人物社会关系抽取研究_第5页
资源描述:

《基于新闻数据的中文人物社会关系抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、夺国钟達據术大赛UniversitofScienceandTechnoloofChinaygy硕±学位论文戀-’宗鱗进知..巧二!:■■':‘,V-.班.基子斬巧教挺的中文人物论文题目社会矣条抽取研堯糾锦文作者姓名学科专业计專机应用化术导师姓部統到教换名二D—完成时间六年A月争固种《若术大赛硕±学位论文戀*白文人物習鑑揣究作者姓名:刘锦文学科专业:计算机应用技术导师姓名:邢凯副教授一— ̄〇/、年五月完成时间

2、;mstofSclinaUnienceandTechnooofChiversiygy’iisdereeAdisselatonIbrmasterg戀ResearchofChinesePersonalSoclationExtractionialRe目asedonNewsDataAuthorJinwenLiu:Secialit:ComputerApplicationTechnologypySuervisor:AssociateProf.Ka

3、iXingpFinishedTime;5,2016-KI.1^中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研巧王作所取得的成果。除己特别加W标注和致谢的地方外,论文中不包含任何他人己经发表或撰写过的研究成果一。与我同工作的同志对本研巧所做的贡献均己在论文中作了明确的说明。>么作者签名:主欠签字日期.則奉:盛令?中国科学技术大学学位论文授权使用声明一作为申请学位的条件之,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即

4、:学校有权按有关规定向国家有关部口或机构送,交论文的复巧件和电子版,允许论文被查网巧借阅可W将学位论文编入《中国学位论文全文数据库》等有关数据库进行检索,可W采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相-致。保密的学位论文在解密后也巧守此规定。区^公开□保密(年)_作者签名:占>11导师签J句签字日期:签字日期;艰摘要摘要,其中蕴含的信息和数据也在持续增长随着互联网规模的不断扩大。信息抽取技术的目标是从互换网中的海量无结构化数据中挖掘出结构

5、化的数据。实体一关系抽取是信息抽取的子任务,己经成为数据挖掘与信息检索领域的个研巧一热点,。人物关系抽取属于实体关系抽取的个方面人物关系H元组数据被用于构建人物关系网络和问答系统,具有较高的应用价值。但是,目前关系抽取研究主要集中在英文语料的处理上,基于中文数据的关系抽取研巧进展比较缓慢且研究难度较大。基于机器学习的关系抽取方法因其在关系抽取结果上较好的表,己经成为目前的研巧热点,现。按照训练数据获取方式的不同本文对基于半监,,主要贡献如下督学习远监督学习和无监督学习的H种方法进行研巧:1,.有监督学习的

6、关系抽取方法对人工标注的训练数据的依赖性较强且人工标注的成本过商。为了在少量标注数据的条件下也能获取较髙的关系抽取性。能,本文对半监督学习的关系抽取方法进行研巧使用基于标签传巧的半监督学习算法能提升少呈标注数据下的关系抽取效果,但是随机选择训练样本会影响关系抽取性能,。为了提升标签传播算法的关系抽取效果本文将标签传播算法与主动学习方法相结合用于人物关系抽取。这个方法主动选取对于关系分类的帮助最大的样本进行标注,可W减少无效标注样本数量,在相同标注数据量的条件下提升系统的性能。2,.在目前的关系抽取研巧中远

7、监督方法通常用于自动构建训练数据,但是远监督学习的基本假设存在不准确的问题,从而在训练数据中会引入噪声数据。本文针对该问题提出了基于打分函数过滤训练数据中噪声的方法,能减少基于远监督学习获取的训练巧据中的噪声数据。另外,针对目前关系抽取系统的准确率不巧理想的问题,本文应用词向量技术从单句文本中提取盡于词向量的若干。特征加入常用的关系抽取特征系统中,用于提升人物关系抽取系统的表现3.W上方法都需要预先定义关系类型后进行关系抽取获得相应的关系实例。这些方法会限制了关系抽取模型可^式获得的关系种类.无法得到新的关

8、系类型的关系H元组数据一。因此本文提出了种不喬要训练巧巧W及预先定义的关系类型的基于无监替学习的关系抽取方法。该方法首先从新闻标屈巧据获得关联度较髙的人物对用于关系抽取研巧:巧后,抓取关联人物对

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。