基于海量文本的语义构建方法研究

基于海量文本的语义构建方法研究

ID:37390968

大小:7.98 MB

页数:134页

时间:2019-05-23

基于海量文本的语义构建方法研究_第1页
基于海量文本的语义构建方法研究_第2页
基于海量文本的语义构建方法研究_第3页
基于海量文本的语义构建方法研究_第4页
基于海量文本的语义构建方法研究_第5页
资源描述:

《基于海量文本的语义构建方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于海量文本的语义构建方法研究学位论文完成日期:指导教师签字:答辩委员会成员签字:谨以此论文献给我的恩师徐建良教授、我的父母以及一直默默支持着我的爱人董晶!——袁冬独创声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含其他教育机构的学位或证书使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:签字日期:20!Z年门月g日学位论文版权使用授权书本学位论文作者完全了解学

2、校有关保留、使用学位论文的规定,并同意以下事项:1、学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。2、学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权清华大学“中国学术期刊(光盘版)电子杂志社”用于出版和编入CNKI《中国知识资源总库》,授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》。(保密的学位论文在解密后适用本授权书)靴敝储戤:粼导师粹荐遣良签字日期:20t2年胆月g日签字日期沙『2年/嘲沪日基于海量文本的语义构建方

3、法研究摘要随着互联网的快速发展和信息量的急剧增加,如何快速、有效的获取信息越来越受到人们的关注。传统的自然语言处理方法已经逐渐不能人们的要求,如何使用智能化的手段对信息进行加工和处理已经成为一个十分重要的问题。对文本信息进行自动化处理的基础和关键是理解文本的语义,即使用形式化的语义结构表示文本的含义,并且这种语义结构应该是可以被计算机所理解和处理的。目前将文本转化为语义结构的方法主要有基于专家知识的方法和基于数据统计的方法两种,但由于自然语言文本和形式化的语义结构之间存在巨大的差距,因此难以实现良好的转换效果。为了避免直接从自然语言映射到语义结构十

4、分困难的问题,研究人员提出了以“谓词一论元结构”为核心的浅层语义分析理论,又称语义角色标注。该理论着眼于词汇层面,主要目的是建立语句中各词汇或短语等句法成分之间的语义关系。浅层语义分析可以被看作是一种通用的语义抽取技术,并且可以作为深层语义分析的基础,因此得到了快速的发展,并被广泛应用于自然语言处理的各个相关领域中。本文在以上成果的基础上,对基于浅层语义分析的海量文本语义构建方法进行了研究,主要包括以下几方面工作:1.提出了一个基于海量文本的语义构建框架。该框架以“谓词一论元结构”为核心,通过语义角色归纳实现了对海量文本的语义角色标注,然后根据“谓

5、词一论元结构”与语义结构之间的映射关系,实现了文本的深层语义构建。2.提出了一种基于多特征的语义角色归纳算法。该方法将语义角色归纳视为一个聚类问题,对于给定的谓词,首先从大规模文本中找到给定谓词的所有论元,然后根据论元的语法结构复杂程度将论元集合划分为简单论元和复杂论元两种类型,并针对不同类型论元,使用不同的特征进行对论元集合进行划分。然后使用一种经过改进的层次聚类算法对划分结果进行进一步合并,最终聚类所得的每一个簇代表谓词的一个语义角色。该方法不需要人工标注的数据,能够自动从大规模文本中得到各谓词的“谓词一论元结构”。3.提出了一种基于语义相似度

6、的谓词一论元结构与本体的映射算法。本文使用本体作为文本语义的描述方式。面向语义构建的本体大多以事件为核心进行组织。本文提出的方法通过计算“谓词一论元结构”与本体中谓词相关事件的语义相似度,建立了“谓词一论元结构”到本体中事件的映射关系,这一映射关系将语言层面的内容与语义层面的内容联系在一起。对于文本来说,在经过句法分析和语义角色标注后,可以通过该映射关系转化为语义结构,形成一个完成的语义构建过程。4.提出了一种语义构建结果的自评价机制。针对不同的语义构建算法对不同文本适用能力不同的现象,本文提出了一种自评价机制。该机制从三个层面对整个语义构建过程中

7、不同阶段的结果进行评价,给出了结果的可信度的度量办法。利用该可信度,可以从结果集中筛选出相对正确的部分。本文提出海量文本语义构建方法一方面利用海量文本的规模优势,实现了文本语义角色的无监督标注,克服了有监督的方法需要大量训练数据的问题,使得语义标注可以在不同领域和语言之问方便的扩展。另一方面,通过“谓词一论元结构”到本体映射关系的自动建立,实现了从浅层语义分析到深层语义分析的转换,形成了一个完整的文本语义构建过程。关键词:文本语义构建;海量文本;语义角色归纳;本体;自然语言理解;IlTheResearchofSemanticConstruction

8、MethodBasedOnNassiyeTextAbstractWiththerapiddevelopmentoftheI

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。