基于领域本体的信息抽取和知识获取系统毕业设计

基于领域本体的信息抽取和知识获取系统毕业设计

ID:6807450

大小:159.50 KB

页数:24页

时间:2018-01-26

基于领域本体的信息抽取和知识获取系统毕业设计_第1页
基于领域本体的信息抽取和知识获取系统毕业设计_第2页
基于领域本体的信息抽取和知识获取系统毕业设计_第3页
基于领域本体的信息抽取和知识获取系统毕业设计_第4页
基于领域本体的信息抽取和知识获取系统毕业设计_第5页
资源描述:

《基于领域本体的信息抽取和知识获取系统毕业设计》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、本科毕业论文第24页共24页1绪论信息抽取(IE)是指从自然语言文档中找到特定的信息,是自然语言处理领域特别有用的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结构化文本,又能处理自由式文本(如关于军用飞机的报道)。IE系统中的关键组成部分是一系列的抽取规则或模式,其作用是确定需要抽取的信息。网上文本信息的大量增加导致这方面的研究得到高度重视。信息抽取是自然语言理解技术和实际应用相折衷的产物。自然语言处理有着从根本上解决人机对话问题的良好前景。然而,目前的自然语言处理水平尚不能对任意的文本进行深入的分析,不具备深入理解自然语言的能力。与自然语言

2、理解不同,信息抽取一般不对文本作深入的全面分析,它的主要功能是根据预先设定的任务,抽取特定类型的信息。例如,一个用于关于军用飞机领域的信息抽取系统,只需提取诸如飞机种类、名称、相关性能及用途等信息即可达到要求。信息抽取的优势在于简化了自然语言处理的过程,只关注相关的信息,而忽略无关的内容。1.1本文研究的背景及所做工作为了提高检索的查全率和查准率,国内外的学者专家正在致力于研究基于语义的信息检索,并取得了一定的成果。为广大学者所公认的是在本体的基础上设计信息检索系统,实现信息的语义检索。本文所要做的工作就是对基于语义检索的检索系统后台服务方面进行研究。

3、这次毕业设计所要完成的任务是对领域本体(军用飞机)有关的网页进行内容提取后的文本文档进行自动分析,提取其中的实词,筛选出一些能揭示文章主题的词,然后将这些词按照一定的组配关系提取出文章中相应的句子。最后将这些组配好的词和句子存入到数据库中,作为用户检索依据。1.2试验系统实现思路基于领域本体的信息抽取和知识获取系统的目的是对本体有关的信息进行识别、筛选。按照一定语法规则将信息提取出来,保存到数据库中,供检索系统作为检索依据使用。通过对关键信息的抽取来初步实现对文中知识的获取。本科毕业论文第24页共24页1.2.1实现步骤提取领域相关的网页中的文本内容并

4、保存到文本文档分词系统对文本进行分词提取名词和动词并词频统计词筛选出高频词文本内容以句子为单位解析将筛选出的词按一定组配关系同原文句子进行匹配,将符合要求的词和句子存入数据库。图1.1领域本体网页结构化信息抽取系统地实过程图1.1为信息抽取实现步骤,下面按顺序对处理流程作简要说明。(1)利用网页信息爬取程序将和本体领域相关的网页中的文字内容提取并保存到相应的文本文件中;(2)利用智能分词系统3GWS对文本进行分词,分词过程中导入了本体自定义词典。分词后的结果自动保存在JNI文件下的Test_result.txt中;(3)将分词前的文本文件以句子为单位进

5、行切分,作为最后信息提取的材料;(4)提取出分词后的文件中的名词和动词,并分别对其进行词频统计;(5)对进行词频统计后的实词排序,筛选出文中出现次数高的词作为关键字;(6)将筛选出来的关键字按照“名词-动词-名词”的组配方式和切分出来的句子进行匹配,将匹配成功的词和句子存入到Mysql中作为检索系统的检索依据。1.2.2需要解决的问题1)汉语切词和切词后次的识别与提取信息抽取是建立在对文章进行篇章分析的基础上的,而篇章分析的基础又是句法分析,句法分析又离不开实体的识别。因此作为实体的单元词的切分自然是十分关键的。中文词切分的难点在于中文词缺少像英文词之

6、间天然存在的空格一样的词间区分标志。现代中文智能分词的两大主流技术是基于语言学规则的方法和基于语料库统计语言模型的方法,这两种方法各有利弊:基于规则的方法,其核心就是根据语言学原理和知识制定一系列共性规则和个性规则,本科毕业论文第24页共24页以处理自动分词中所遇到的各种语言现象。规则的方法本质上是一种确定性的演绎推理方法,我们很难用一套规则去准确地预测真实文本中所出现的各种变异。而基于语料库统计学的方法主要的特点是利用从语料库中语义知识的统计信息来进行分词,语言处理的覆盖面更广,可实现高效实时的处理,缺点是它仅仅考虑了语言的上下文关系,忽略了语言的结

7、构化特征,它所用的概率模型总会抑制小概率事件的发生,而且这种方法还会受到标记集、长距离搭配等限制。各种分词软件分词后都会将结果以一定形式返回出来。所以词的提取首先要做的就是如何区分这些分词后的文件中的词。分词结果通常都会对每个词进行标注,并在词之间作区分标志。词的提取主要靠这些区分标志的识别来完成。2)词和句子的匹配问题常见的句子提取主要是通过关键字来完成。而本文所要采用的句子提取方式是在关键词方法的基础上加入了语义分析。即关键字按照一定的组配方式和原文中句子进行匹配,将符合这种要求的句子提取出来存入到数据库中。至于何种组配方式才是有意的,靠程序来自动

8、识别是有一定难度的。本文所采用的词组配方式是“名词-动词-名词”的方式。因为一个大多数句子都符

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。