基于词汇语义信息的中文命名实体关系抽取研究

基于词汇语义信息的中文命名实体关系抽取研究

ID:35070388

大小:3.11 MB

页数:63页

时间:2019-03-17

基于词汇语义信息的中文命名实体关系抽取研究_第1页
基于词汇语义信息的中文命名实体关系抽取研究_第2页
基于词汇语义信息的中文命名实体关系抽取研究_第3页
基于词汇语义信息的中文命名实体关系抽取研究_第4页
基于词汇语义信息的中文命名实体关系抽取研究_第5页
资源描述:

《基于词汇语义信息的中文命名实体关系抽取研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、太原理工大学硕士研究生论文基于词汇语义信息的中文命名实体关系抽取研究摘要自互联网诞生以来,接入的用户越来越多,直接导致了当今互联网上的信息量呈爆炸式增长,信息量的巨大也带来了巨大的使用价值。然而互联网上的信息大多为无结构或半结构化的文本,要想有效利用其中的信息,就涉及到自然语言处理领域的一个热门课题——信息抽取。命名实体关系抽取是信息抽取的重要任务,其内容为使计算机自动的通过实体所在的文本抽取出实体之间的关系。关系抽取对领域本体和知识图谱的构建、问答系统、信息检索等领域具有重要意义。在四种中文关系抽取

2、的方法中,本文选择基于树核函数的机器学习方法作为研究方向,其关键是构建有效的关系抽取特征。在已有的特征中,很少涉及《同义词词林》、《知网》等语义词典,而这些词典包含的语义信息对关系的识别和抽取非常有研究价值。本文首先提出了一种简易的根据《同义词词林》计算词汇语义相似度的方法,并根据该方法提出了词汇语义相似度树特征。《同义词词林》编码分为5层,从左到右相同的层数越多,词汇在语义上越相近;而树核函数计算相似度的原理为相同的子树越多,相似度越高。针对以上两点,提出了《同义词词林》编码树特征,将5层编码分别放

3、入树形结构的5层节点中。为了探究哪一层编码所代表的语义信息更适合关系抽取,又提出了各个级别的《同义词词林》编码树特征。《知网》中词条的语义信息都包含在常识性知识库中的DEF项里,由此本文提出了一种由DEF项转化而来的《知网》语义树特征。为了缩减特征中节点数量提出了两种简化的《知网》语义树:三层语义树和无动态角色语义树。I太原理工大学硕士研究生论文经过实验得到了以下结论:在基于《同义词词林》的特征中,完整的《同义词词林》编码树取得了最好的效果;在基于《知网》的特征中,同样是完整的《知网》语义树抽取效果最

4、好;《同义词词林》编码树和《知网》语义树的组合特征取得了非常好的抽取效果,关系大类和关系小类的抽取的TF分别达到了86.6和93.3,而且该组合特征可以不依赖标注语料得到,在未来的开放域关系抽取中很有应用价值。关键字:关系抽取,树核函数,机器学习,《同义词词林》,《知网》II太原理工大学硕士研究生论文RESEARCHONCHINESENAMEDENTITYRELATIONEXTRACTIONBASEDONLEXICALSEMANTICABSTRACTSincethebirthoftheInternet

5、,therearemoreandmoreuserswhoaccesstoit,whichresultintheamountofinformationgrowingexplosively.Andahugeamountofinformationhasbroughtgreatvalue.However,informationontheInternetaremostlyunstructuredorsemi-structuredtext.Inordertotakeadvantageoftheinformatio

6、neffectively,ahottopiconNaturalLanguageProcessing-InformationExtractionhastobeinvolvedin.NamedentityrelationextractionisanimportanttaskofInformationExtraction,anditstaskistoletacomputerextractrelationsbetweenentitiesautomatically.Relationextractionisofg

7、reatsignificanceformanyareas,suchastheconstructionofdomainontologyandknowledgemap,question-answeringsystems,andinformationretrieval.OfthefourChineserelationextractionmethod,wechoosethetreekernelbasedmachinelearningmethodasresearchdirection,andthekeyisto

8、buildeffectivefeatures.Intheexistingfeatures,semanticdictionariessuchas"TongyiciCilin","HowNet"arerarelyinvolved,butthesemanticinformationcontainedinthemisofgreatvalueforrelationextraction.Thispaperpresentsamethodtocalculatelexic

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。