基于网络数据的中文公司实体关系抽取研究

基于网络数据的中文公司实体关系抽取研究

ID:10303257

大小:5.38 MB

页数:67页

时间:2018-07-05

基于网络数据的中文公司实体关系抽取研究_第1页
基于网络数据的中文公司实体关系抽取研究_第2页
基于网络数据的中文公司实体关系抽取研究_第3页
基于网络数据的中文公司实体关系抽取研究_第4页
基于网络数据的中文公司实体关系抽取研究_第5页
资源描述:

《基于网络数据的中文公司实体关系抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:10004密级:公开又邊乂學BEIJINGJIAOTONGUNIVERSITY顿士学位论文基于网络数据的中文公司实体关系抽取研究作者姓名孟蕾学科专业软件工程指导教师魏小涛副教授培养院系软件学院二零一八年三月硕士学位论文基于网络数据的中文公司实体关系抽取研究ResearchonRelationshipExtractionofChineseCompanyEntitiesBasedonWebData作者:孟蕾导师:魏小涛北京交通大学2018年3月学位论文版权使用授权书本学位论文

2、作者完全了解北京交通大学有关保留。、使用学位论文的规定特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,。提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅同意学校向国家有关部门或机构送交论文的复印件和磁盘。学校可以为存在馆际合作关系的兄弟高校用户提供文献传递服务和交换服务。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:、备泰导师签名:签字日期:年<月日签字日期年月日>^丨Y密级:公开学校代码:10004北京交通大学硕士学位论文基于网络数据的中文公司实体关系抽取的研究Reth

3、eRelationshiExtractionofChineseComansearchonppyEntitiesBasedonWebData15121689:作者姓名:孟蕾学号:副教授导师姓名:魏小涛职称:硕士学位类别:工学学位级别学科专业:软件工程研宂方向:自然语言处理北京交通大学2018年3月i致谢在硕士学位论文完成之际,硕士研究生生涯也进入尾声。回顾将近三年硕士一,,研宄生学习与科研历程,感慨颇多在即将毕业之际衷心感谢每位支持和关。心我的老师,、同学、朋友和家人并感谢北京交通大学的精心培养这次毕

4、业论文的完成得到了许多帮助与指导,在这些帮助和指导下我才得以顺利完成我的论文。首先感谢北京交通大学软件学院这两年半以来对我的精心培养,学院为我们,,营造了浓厚的学术研宄氛围,提供了先进的学习资源国际化的教学模式我在这样的学习环境中快速成长,使自己变的越来越优秀。祝福北京交通大学在今后的岁月里越来越辉煌。其次要由衷的感谢我的指导老师在研宂生生涯中,为我的学习研究提供的各,种机会与条件,在生活上给予的帮助给我在书写论文的过程中不厌其烦的修改与建议。,,再次要感谢跟我并肩作战学习的同学,我们相互讨论,交流思路研宄方法,,在遇到问题时,相互帮助,互

5、相解决在进行实验过程中。感谢同学们的帮助,他们都给予了很大的帮助。在老师与同学们的帮助下我快速找到解决方案使我论文顺利完成。同时还要感谢我的家人对我攻读硕士学位的无限支持。北京交通大学硕士学位论文摘要摘要公司实体关系抽取作为实体关系抽取的研宄分支,是信息抽取任务的重要组成部分,在开放性数据中抽取公司关系在了解和分析行业、做出管理决定选择商业伙伴等方面均具有重大意义,传统的实体关系抽取方法存在分类颗粒粗、不够细致等问题,而中文公司实体关系抽取中存在着语法复杂、组成灵活等问题,直接将传统的方法应用到此领域效果较差。因此,本文主要研究中文公司实体识别以

6、及中文公司实体关系抽取。一本文研究的内容包含两个部分:第,研究中文公司实体识别的方法。中文公司名称和简称的识别是自然语言处理一(NLP)中实体识别的个重要的挑战性的任务。传统的公司名称识别的方法存在未登录的公司名称难识别以及简称识别存一在实效性差和训练语料库构建困难等问题,基于这些问题本文提出了种基于规SF-UNION则和词典匹配以及统计的机器学习方法融合的算法(),以公司名称作为标准语料库,有机结合提高了中文公司名称与简称识别的性能,在开放测试中,该方法的公司名称与简称识别的召回率1、准确率、F值分别取得较好的效果。第二,研究中文公司实体关系抽取的方

7、法。中文公司实体关系抽取中存在着诸多一,问题,传统的方法应用性较差。为了解决以上问题本文提出了种基于依存句法分析(DependencyParsing,DP)的注意力机制(Atentionmechanism,ATT)Short-TermMemor与长短期记忆网络(Longy,LSTM)网络融合的算法(DPATTLSTM),对输入文本,__句子进行依存句法分析操作根据公司实体关系一的特点获取到由依存弧进行判断的谓语动词序列,输入

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。