利用protege构建新媒体领域本体的探索

利用protege构建新媒体领域本体的探索

ID:25186474

大小:56.50 KB

页数:7页

时间:2018-11-18

上传者:U-991
利用protege构建新媒体领域本体的探索_第1页
利用protege构建新媒体领域本体的探索_第2页
利用protege构建新媒体领域本体的探索_第3页
利用protege构建新媒体领域本体的探索_第4页
利用protege构建新媒体领域本体的探索_第5页
资源描述:

《利用protege构建新媒体领域本体的探索》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

  利用protege构建新媒体领域本体的探索-->第一章绪论1.1选题背景万维网为人们提供了一个信息浏览和共享的环境,使人们能享受万维网上的丰富信息,但在这些信息资源中存在大量的冗余信息,人们可能无法找到自己真正需要的信息。互联网上存在语义多重、格式异构的信息,且信息之间缺乏联系,这些信息是人能理解的信息而非机器所能理解的信息,这样不仅对用户搜索自己真正需要的信息造成了极大的不便,还对一些网络的深层次应用的发展提出了难题。由于计算机能够处理海量信息,互联网技术的研究者开始思考如何将信息交给计算机自动处理,考虑如何使计算机能更好“理解”信息,即如何以一种更容易被机器处理的表示方法描述信息,且在此基础上处理这些信息并深层次地幵发利用。因此,作为万维网的创始人TimBemer-Lee提出建设下一代的语义网。TimBemers-Lee于2000年提出了语义网设计蓝图的主要层次(layer cake),并对这些层次结构分别做出了介绍。他所描述的语义网体系结构共有七层,自顶向下各层功能不断减弱:信任层(Trustlayer)、证明层(Prooflayer)、逻辑层(Logiclayer)、Ontology>RDF+RDF、XML+NS+XMLSchema、URIUnicode和URI。本体既是基于可扩展性标记语言(XML),又为逻辑层、证明层的推理和验证提供了语义结构,是整个语义网结构中最重要的组成部分。目前,本体在信息集成、语义eta—ontology)。”丨3]还有一些其他具有代表性的分类方式:(1)从概念结构的数量分为:知识建模本体、术语本体、信息本体。(2)从形式化程度上分为如下四类:严格形式化的本体、半形式化的本体、结构化非形式化的本体和高度非形式化的本体;(3)从概念的主题不同可分为:通用本体、领域本体、通用本体、表示本体、应用本体。2.3本体描述语言 构建好的本体为同一领域的成员(人或智能代理)之间提供公认的概念集和关系集,而本体描述语言则为构建本体提供建模原语。不同本体在自然语言的表达格式下无法进行在不同系统间的互操作,本体描述语言提供一种标引工具,使本体转变成为机器可读的格式,可以方便不同本体之间的操作集成等。本体描述语言有很多种,下面主要介绍几种常见的本体表示语言。XML是extensive-->markuplanguag的缩写,即可扩展性标记语言,作为一种标记语言有些类似HTML,两者主要不同在于HTML用来显示数据,XML用来结构化、传输和存储数据。XML具有自描述性、高度形式化、开放性等特点。自描述性表现在XML包含一个文挡类型声明。通过XML可以发明自己的标签,由于每个人定义的标签集会不同,需要一套标准来规定标签的定义原则,可以釆用DTD(DocumentTypeDefinition)来定义XML的编写规则。XML的标签必须成对出现且区分大小写,起始标签必须有结束标签,标签要按照合适的顺序嵌套,所有的特性要有值且须在值得周围加双引号。第三章领域本体的半自动构建................................103.1领域本体构建流程概述................................103.2新媒体领域本体框架设计................................11 3.2.1文献材料的选取................................113.2.2确定框架................................123.3领域本体详细设计................................153.3.1领域核心概念的获取................................153.3.2概念关系的识别................................18第四章利用PROTEGE构建本体类模型................404.1创建新项目................................404.2构建类................................424.3构建属性................................434.4添加实例................................45第五章总结及展望................................495.1总结...............................495.2展望................................49第四章利用protege构建本体类模型4.1创建新项目 1、双击图标启动Protege4.1,会得到如下启动画面,我们需要创建一个新的OWLontologyT选择第一个“CreatenewOWLontology”。2、设置国际资源标识符(IRl)的发布路径,一般选择默认值就可以了,点击continue按钮。第五章总结及展望5.1总结本文在借鉴已有的本体构建方法的基础上,依据新媒体学科领域的具体情况提出基于新媒体领域文献的领域本体半自动构建方法。通过学科领域专家的参与、客观地分析新媒体学科知识和领域文献的文献结构,提炼出新媒体领域本体主要概念和范畴,形成领域本体的框架;采用自然语言信息处理技术从教材和领域文献中提炼概念、概念的定义和概念之间的关系,提高本体的生成效率。详细介绍了整个构建的流程包括“领域本体需求分析”、“ 领域本体总体框架设计”、“领域本体概念获取"、“概念关系标注”、“领域本体表示”五个环节。首次将本体论的思想引入传媒领域并新媒体领域的文献为例为例探讨新媒体领域本体的构建方法。为保证概念术语的领域相关性、权威性和全面性,主要以《新媒体百科全书》作为术语,辅之以新媒体学科教材。在概念获取的过程中,由于没有上述书籍文献的TXT格式的纯文本数据源,首先考虑将其转化为纯文本格式数据。比较各种版本的PDF转WORD工具,效果不甚理想,最后选中汉王OCR文字识别软件将PDF格式的文献转换为TXT,准确而高效。采用目前最好的分词工具ICTCLAs对这些纯文本数据进行分词,得到大量的领域术语,为获取概念和组织概念间的关系打下了基础;尝试构建新媒体领域本体部分类模型,用本体构建工具protege4.1进行领域类模型的构建得到类模型结构图,介绍利用protegee构建模型图的过程,详细的讲解为之后的大量实际构建工作提供有益参考。5.2展望 本文对新媒体领域本体的构建在理论上进行了探讨,介绍了基于《传媒》杂志《新兴传媒》栏目领域文献的新媒体领域本体的半自动构建的方法和流程,但实际构建出该领域本体是一件复杂庞大的工程,需要领域专家和知识工人配合帮助,且将构建好的领域本体运用到实际应用中仍需进一步的研究和探索。下一步的工作主要是要完善各个环节的不足,积极推进该领域本体的构建:在获取领域术语的环节,要判断领域文献内不断动态更新的词汇为字符串还是概念术语、除了依赖领域专家的帮助外,还要加强研究本领域术语定义在语言表达上存在的共性,编写术语判定规则,完善对领域术语的判断;在对领域概念进行分类和概念间关系的获取的环节,可以采用对于概念间关系获取的几种釆用常用方法或几种方法混合使用,提高自动构建的效率,减少对人工的依赖。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭