《语义web中基于多本体协同的语义检索研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
摘要摘要信息检索技术在网络信息资源爆炸性增K的时代显得尤为罩要,如今从大量的网络信息当中搜索出符合用户需求的信息变得越来越困难。目前传统的搜索引擎利用基于字符串匹配的关键词检索技术,往往得不到让用户满意的检索结果,输出结果很多是无用信息。在基于语义Web本体的检索中,由于匹配的是概念而不是关键词,这就避免了出现大量冗余信息的可能,同时可以匹配到用户检索概念的同义词,从而提高查询的查准率及查全率。基于本体的语义检索研究虽然目前在国内外已经取得了很大的成就,但总的来说本体检索还处于理论同趋成熟,应用相对滞后的阶段。由于语义本体技术是一个新兴的研究领域,在构建本体时还没有一个统一的标准,因此不同机构或用户建立的本体存在着异构性。在对某领域的信息进行语义检索时,可以基于同领域中多个本体协同进行,以获得更全面的结果。本文中,我们在基于语义Web的本体检索的基础上,提出了一种基于多个同领域本体协同的语义检索方法:该方法将用户输入的检索关键词进行概念扩展以匹配到本体中的资源;把关键}司检索转化为形式化检索;并根据这些关键词进行领域本体的排序和选择;再利用本体映射技术找出不同形式化检索关系路径问的关联;根据这些关联对关系路径进行分组并排序;最终将经过组织的检索结果返[uI给用户。关键词:语义Web;语义检索;多本体 AbstractInformationretrievaltechnologyisparticularlycriticalintheepochofinformationresourceincreaseexplosively.Findoutwhattheclientsneedfromtheheavilystorednetworkinformationbecomeharderandharder.Thetraditionalsearchenginesusekeywordsearchbasedonstringmatchingwhichusuallyfailstomeetclients’demand,theoutputstillhasalotofredundantinformation.SearchbasedonSemanticWebontologymatchtheconceptsratherthanthekeywords,whichwillgetridofmuchredundantinformation,andwillmatchthesynonymsoftheinputwordsmeanwhile,SOtoimprovetheprecisionratioandrecallratioofthequery.ThoughstudyonSemanticsearchhasmadegreatprogressbothindomesticandabroad.Thepresentstatusisthatstudyoftheoryisbecomingmorematurebutstudyofapplicationisbackwardcomparably.AsSemanticontologytechnologyisanemergingresearchdomain,thereisnouniformstandardexist,SOdifferentontologybuildbydifferentorganizationoruserhasdifferentconstruction.WecandoSemanticsearchbasedonseveralcooperatedontologiesinthesamedomaintogetmorecomprehensiveresult.Inthispaper,inthebasisofSemanticWebontologysearch,weintroduceanapproachthatsearchbasedOilseveralcooperatedontologies:theapproachUSeStermmappingtofindcorrespondingontologyresourcesforeachterminthekeywordquery;translateskeywordqueryintoformallogicquery;rankingandselectontologieswiththeUSerinputtedkeywords;usesontologymappingtofindtherelationshipbetweeneachformallogicquery;groupingandrankingtheseformallogicquerybytherelationship;atlastgivebacktheorderedqueryresulttotheuser.Keywords:SemanticWeb;SemanticSearch;Multi—OntologiesII 南开大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名:节j)们年,月Z华 南开大学学位论文版权使用授权书本人完全了解南开大学关于收集、保存、使用学位论文的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。学位论文作者签名:节b卟凡2pDc7年§月2午日经指导教师同意,本学位论文属于保密,在年解密后适用本授权书。指导教师签名:学位论文作者签名:解密时间:年月日各密级的最长保密年限及书写格式舰定如下:r⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一⋯⋯~⋯—、!内部5年(最长5年,可少于5年)|{|秘密★lo年(最长10年,可少于10年){5机-密-k20年(最K20年,可少于20年); 第一章引言当前,随着互联网的发展,互联网已经成为人们获取信息的一个重要渠道。截止今年,全球互联网站总数接近2.25亿个【11,国内网站总数为287.8万,网页总数超过160亿个【2J。在如此巨大的信息海洋中获取用户期望的信息变得十分困难,因此提高检索的质量、推出令人满意的检索技术成为了全世界范围的研究重点和热点。许多研究者曾在当前的基于字符串匹配的关键词检索技术上作了努力,但是由于受制于以HTML为基石的力.维网(WWW)本身的局限,使这种技术在提高查全率和查准率上很难再有更大的作为。那么什么/4‘是解决办法昵?TimBemers.Lee提出了下一代因特网一语义Web(SemanticWeb)13],提出语义Web的目的是为因特网上的信息提供具有计算机可以理解的语义,它的发展和成熟使得高效高质的语义检索成为可能。第一节研究背景1.1.1语义检索问题的提出自WWW发明到现在,随着功能的不断提升,使得网上办公、网上学习、网上购物以及网上看病等都成为现实。因此在当前资源爆炸性增长的时代,获取这些网络应用信息的信息检索技术变得尤为重要,成为这些网上系统不可或缺的一项功能。但是,人们越来越发现目前系统的检索功能在满足人们R益多样的需求时开始有些力不从心,其主要原因是在于传统的基于字符串匹配的关键词检索技术上的缺陷。依据不同的划分标准,可将信息检索划分为几大类。依据检索对象的不同,可以分为:文本检索和多媒体检索。文本检索是指基于文字的检索,它是最早也是最常见的信息表现形式;多媒体检索的对象包括图像、动画、音频和视频等,绝大多数多媒体检索系统仍采取基于关键词(keyword)的搜索技术。依据检索范围的不同,可以分为:全文检索和字段检索。依据匹配方式的不同,可以分为:模糊匹配和精确匹配。依据截词方式的不同,可以分为:左截词、右截 第一章引言词、中间截词和左右截词。但是从检索思想的本质入手,可以看出上述检索方法基本上都是基于串匹配方式,它们都属于关键词检索范畴。而关键词检索的弊端是每个用户都深有体会的,例如:在用户输入关键词查找信息时,总会遗漏很多相关的信息,同时会返回大量完全无关或者相关度不高的“副产品”,用户在找到所需材料之前,通常需要再进行过滤工作。这种性能低下的检索功能会让用户感到非常的沮丧。而妨碍基于关键词检索在检索性能上更上一层楼的主要原因是:缺乏语义信息。这包括两方面内容:一方面,检索的表达式通常缺乏语义信息,例如,用户的初衷是查找一种名字为“苹果”的水果,当它输入检索词“苹果"时,计算机无法分辨用户要查找的是一种水果,还是一种电脑,还是其它什么,这种情况下,计算机会返回所有的信息,这就导致了大量的冗余信息。另一方面,被检索的资源缺乏语义,此时,就算检索表达式被赋予了丰富的语义,计算机仍然无法准确的定位相关信息。例如,表达式已经明确表明它要查找的是一种名为“苹果”的计算机,但是因为资源缺乏清晰的语义标注,计算机无法理解这些资源,所以结果仍将不尽人意。人们从来不曾停止过努力,尝试过各种办法,希望能够很好的解决这些问题,但是终因没能从根本上解决问题,而很难有大的作为。问题的症结在于,www最初的设计目的主要是面向用户直接阅读与处理,它没将信息的表现形式、内在结构和表达内容相分离。WwW的基石一HTML语言过分的关注显示外观,它所表达的页面信息和组织方式都缺乏计算机叮读的语义信息,使得计算机很难理解文档的内容,也很难抽取语义信息。这些都限制了计算机在信息检索中自动分析处理的能力。1.1.2语义检索的作用解决上述问题的一种有效途径就是为互联网提供一个高层的、良定义的组织方法,实现一个有序的瓦联网。为此WWW的缔造者TimBerners.Lee提出了语义Web的概念。语义Web作为F一代互联网,它的根本目的就是:为互联网上的信息提供计算机可以理解的明确语义,从而实现网上信息资源在语义层应用。利用语义Web,我们能够将语义丰富的描述信息和资源关联起来,能够超越机器町读阶段而发展到机器理解的阶段。构建于语义Web上的检索技术能够2 第一章引言真正实现语义层的检索,在查全率和查准率这两项指标上达到质的飞跃。第二节研究现状基于语义Web及本体的信息检索是目前国内外语义Web及本体领域中研究的热点之一。无论是在理论方面还是实际应用方面的相关研究都很多,并不断趋向成熟。1.2.1基于语义Web及本体的检索系统基于语义Web及本体的检索技术在理论以及实际应用领域都得到了广泛的研究,从事与语义检索相关的研究工作的机构有AIFB、W3C、KSL,曼彻斯特大学、新加坡国立大学、阿姆斯特丹大学等。这些研究组织有一系列基于语义w曲和本体(Ontology)描述的语言,以及基于本体应用的产品。成型的检索系统有:(1)Swoogle[41:语义Web搜索引擎Swoogle可以像GooSe一样在互联网上爬行,搜集各类元数据信息。虽然Swoo西e现在所表现出来的技术还很简单,但它不仅仅是一个本体搜索引擎,更重要的是一个本体词典,汇总各种本体后,进行匹配和融合,生成一个更完备的和被更多人公认的本体。与Google这类搜索引擎或不同的是,Swoogle目I{{『主要是面向语义Web开发者的。(2)Powersett5】:是一个提供维基百科(Wikipedia)的搜索引擎,同时也是一个自然语言搜索引擎,取得了PARC(PaloAltoResearchCenter,Inc)的技术,于2008年5月12日J下式发布。目前能够对Wikipedia英文版的250万篇文章进行搜索,Powerset尝试理解句子的含义并进行匹配(包括GooSe在内的传统的搜索引擎都是基于关键词匹配)。(3)SemanticWebSearchl61:是一个基于语义Web的搜索引擎,它可以很好地定位和搜集发布在语义Web上的信息,它的用户可以是人,也可以是计算机。对于人类用户,该站点提供了一个标准的搜索引擎界面,用户可以在搜索栏中输入相应的描述信息。对于计算机,此站点提供了一个具有类似功能的Webservice,智能软件代理将它们需要执行的任务进行准确描述后提交给service,然后service以一种智能软件代理能够理解的形式,将精确匹配得到的结果返回给3 第一章引言代理。(4)Ontoseek[‘7】:是一个协作智能Agent系统,着重于精确地、详细地描述黄页中的产品或服务,将一个本体驱动的内容匹配机制与一个具有中等表达能力的表示形式化系统相结合,尝试如何使本体与大辞典数据库相集成,为用户提供一个可以使用领域内任何词汇进行交互式语义检索的系统。(5)(onto)2Agentt引:目的是为了帮助用户检索到所需要的www上已有的本体,主要采用了参照本体。参照本体是以www上已有的本体为对象建立起来的本体,它保存有各类本体的元数据。(6)Ontobrokert9】:是ontopriSe开发组研发的,面向的是WWW上的网页资源,使用本体转换w曲文档,向用户提供基于本体的回答服务,支持用户对知识的检索,目的是帮助用户更好的检索到所需要的网页。它主要包括:检索引擎、信息引擎、推理引擎和数据库管理引擎。因为是基于F—logic开发的,在对OWL的支持上做得不是很好。1.2.2重要的语义Web及本体项目在这一领域,国际上的著名项目主要有:(1)OntoWebIlo】:是一个从2001年丌始得到欧盟支持的面向知识管理和电子商务的基于本体的信息交换项目,其目的是联系学术界和工业界,加强各学科之间的联系,加强对语义Web标准(OWL、RDF、XML等)的影响。(2)OntoKnowledgeE¨】:是欧洲信息技术委员会IST计划中的一个项目。该项目通过在信息中应用本体来提高大型分布式系统的知识管理水平。其技术要点是在各种任务的信息集成中引入本体。它的成果0IL为本体语言提供了一个层次结构视图。OntoKnowledge还开发了许多工具,可以大大增加皋于本体方法的作用,使得知汉管理更加方便。(3)CYC[12l:该项目对多个领域应用丌发本体提供常识推理的基础。CYC中的知识用一阶逻辑语言‘CYCL(一阶逻辑的变种)陈述式断言表示。知识库包括简单断言、推理规则、推理控制规则,推理机可以从知。"叭tl库中归纳出新的断言,其中的本体被组织成模块化的集合。(4)SKCtl3】:是斯坦福大学的一个项目,主要研究如何用代数学方法来合成不同领域的本体,解决信息系统语义异构的问题,实现异构的自治系统之问的4 第一章引言互操作。(5)FOAF[14】:是目前一个较为著名的本体论应用项目,它利用XML和RDF来描述用户的信息,包括用户的名字、电子邮件等信息以及用户的朋友的相关信息。这使得软件可以处理这些描述(可能作为搜索引擎的一部份检索信息),从而找到用户的或是用户参与的社群的资料。FOAF有潜力为网络社群发展出一些新的应用。(6)Enterprisell5】:是英国政府为促进基于知识的系统在企业建模中的应用丌展的项目,包括与企业相关的术语和定义的集合。该项目着重于管理革新和使用IT的策略来帮助管理方式的变革。目标是提供方法和计算机工具帮助企业获取商业过程的各个方面,通过分析比较各个方面来满足企业的需要。1.2.3国内研究现状目前国内许多学者对本体在信息检索领域的应用有较为深入的研究。[16】试图对本体论做形式化的描述,在此基础上讨论基于本体的信息检索方法,并指出这种方法克服了目自订基于关键词检索所造成的信息冗余和丢失的不足,其检索方法更符合人类的思维习惯,检索结果也更合理、实用。【17]中讨论了当前情报检索系统的相关性判断,指出在相关性判断的多维度多层次的复杂概念中,用户关心的是语用相关,但多数检索系统仅能提供形式相关。该文建议运用本体的基本原理,建立基于本体的情报检索系统,从而实现检索的语用相关判断。[18】首次提出基于本体论的信息处理、构造数字图书馆启发式检索模式的思路。把信息检索从传统的基于关键词层面提高到基于知识或概念的层面,构想了数字图书馆本体论模型,并设计了一个区别于传统的数据库系统的基于本体论的检索算法。中国农业科学院科技文献信息中心参与的联合幽粮农组织(FAO)发起的“农业本体论服务(AOS)”研究项目。该项目的成果之一是国际农业研究信息管理中心的“多语农业术语汇编(Agrovoc)系统”[191,这一系统提供农业词汇检索,其检索方式具有。定的语义特征,并提供多国语言翻译。[20]把本体作为信息检索系统的核心,通过构造形式化的领域本体,提出了一种将知识表示和知识处理引入互联网信息处理的方法,为互联网上半结构化数据和关系数据库提供了统一的语义模型。[21]提出基于内容的信息检索系统,利用本体对检索需求进行语义扩充,并用文档分析器对检索文档进行过滤,因此增加了检索结果的5 第一章引言准确性,更加符合用户的检索需求。中国科学院文献情报中心李景深入研究了本体理论在文献检索系统中的应用,构建了基于花卉学领域本体的试验性文献检索统FORS,验证了本体作为知识组织体系,在检索系统中的适用性【2引。东南大学万维网科学研究所开发的Falcon.S【23J是一个面向足球领域的语义Web搜索引擎,在概念空间的辅助下搜索和浏览语义web,利用语义web技术使得用户可以方便地搜索和浏览WWW上与足球有关的信息。第三节论文的内容和结构本文在总结语义Web和语义检索研究现状的基础上,着重研究了基于多本体的检索。由于语义Web中信息量以及本体的数量越来越多,Web环境的分布性和开放性导致本体是在并发环境下开发的,这就必然会使得不同本体之问存在异构性问题。另外,建立完备的本体知识库是一件相当困难的事情,而在知识库不完备的情况下,语义查洵的查全率可能会受到很大的影响,在许多场合,单个本体不能充分完成目标任务,必须联合多个本体来完成。在对某领域的信息进行语义检索时,如果基于同一领域中多个本体协同进行,则可能避免应用单一本体信息不完备的情况,获得更全面的结果。因此在本文中,我们在基于语义Web的本体检索的基础上,提出了一种基于多个同领域本体协同的语义检索方法:该方法将用户输入的检索天键渊进行概念扩展以匹配到本体中的资源;把关键词检索转化为形式化检索;并根据这些关键词进行领域本体的排序和选择;再利用本体映射技术找出不同形式化检索关系路径问的关联;根据这些关联对关系路径进行分组并排序;最终将经过组织的检索结果返回给用户。并根据多本体语义检索方法,开发了一个多本体语义榆索系统,用于对教育领域的信息进行语义检索。根据用户输入的不同检索关键词,系统返回经过多本体语义检索的结果。相比较对唯一本体进行语义检索的结果,我们经过多本体语义检索获得的结果更加全面。论文的组织结构为:第一章:引言。介绍当前信息检索技术的困扰并引出语义检索问题。第二章:语义Web基本概念。介绍了语义Web概念的提出,它的体系结构,支撑技术,以及本体及其描述语言。6 第一章引言第三章:语义检索技术。介绍了语义Web开发工具Jena,并介绍了应用于三元组查询的SPARQL查询语言。以及从关键词检索到语义检索的转换方法。第四章:多本体语义检索。提出了基于同一领域多个相关联本体的检索技术。第五章:多本体语义检索系统的实现。为解决基于多个相关联本体的检索问题,建立教育系统领域本体以及基于多本体的语义检索系统。介绍了该系统的具体实现过程和应用。第六章:总结和展望。对全文做出总结,指出论文的创新点以及不足之处,同时给出后续的研究方向。7 第二章语义Web基本概念第一节语义Web简介2.1.1语义Web概念的提出语义Web的概念是由wWW的奠基人TimBerners.Lee在1998年一篇题为“Semanticw曲Roadmap’’1241的文章中首次提出的。在文中,作者简单介绍了语义Web的概念。语义Web是一个信息集散地,它包含了文档或文档的一部分,描述了事物间的明显关系,且包含语义信息,不仅可以让人与人交流,而且可以使机器能参与进来,并且帮助人类完成一些事情。在2000年12月的XML2000会议上Tim给出了语义Web的体系结构,并于2001年5月在《科学美国人》杂志上发表了名为“TheSemanticWeb”的论文【3】,介绍了语义Web的一些基本特征:(1)语义Web不同于现在WWW,现有的WWW是面向文档而语义Web则是面向文档所表示的数据;(2)语义Web将更利于计算机“理解与处理”,并将具有一定的判断、推理能力。当然,语义Web并非一个独立的Web,它的主要目的不是要完全代替现有的Web,而是对当前的WWw进行延伸,使得网络中所有信息都是具有语义的,以便于人和计算机之间的交互。语义Web到底是如何做到让计算机理解这些信息的?我们可以从人对信息的理解过程中得到一些启发:人在交流时会使用词语或者符号,这些词语和符号都对应专门的事物,人不可能直接在词语和事物问进行映射,而是要借助“概念"这一桥梁,通过“概念”这一中fbJ层,人能够迅速准确地将词语和符号对应到相应的事物。fJ样道理,光是给机器一些词语和符号,很难让机器理解当中蕴含的语义知识,更别说推理了,语义Web研究的侧重点就是如何为机器添加概念知识,并且这种“知识”是全面的,凭借这些知识,机器能够很好地理解信息,从而实现语义层上的智能应用。语义Web描述信息的方式都是基于二元关系的,在通俗意义上我们称之为三元组,也就是说语义Web上的任何一个知识表达都是由三部分组成~主语、谓语和宾语。语义Web通过绑定、组合等一系列方法来使简单的三元组具有丰8 第二章语义Web基本概念富的表达能力,能够表示很多复杂的知识。在设计语义Web时,一般应遵循以下几个原则:所有的资源都能用URI来标识;资源和链接可以有类型;部分、片断、不完整的信息是被容许的;信息不必是绝对真的;能支持、反映信息的变化和演化;最小设计原则。2.1.2语义Web的体系结构TimBerners—Lee于2000年提出了著名的‘‘分层蛋糕图表”f25】,他将语义Web分成七个层次,其结构如图2.1所示。RuleslTrustlProofData8—∞_日%嘲In口;P—圈戮黝缀。上一”61。2皇c寸矗Self弱一曩朦施溯OntologyvocabularyQ磐Description一_document—1—...。.....。,。。..。一RDF+RDFschemaXML+NameSpace+XMLschemaUnicodeUlU图2.1语义Web的体系结构该七层体系结构的功能自下而上逐渐增强。在语义Web七层结构中,第一层是整个语义Web的基础,Unicode处理资源的编码,URI负责标识资源。XML、RDF和Ontology三层主要用于表示Web信息的语义,因而是系统的核心和关键所在。其中,第二层是XML+Namespace+XMLschema,提供了表示数据内容和结构的语法;第三层是RDF+RDFschema,提供了描述Web资源的数据模型,可以表示论断、定义模式;第四层是本体词汇表(Ontologyvocabulary),是在RDFschema基础上定义的概念和关系的抽象描述,用于描述领域知识。第五层9 第二章语义Web基本概念是逻辑,在下面四层的基础上进行逻辑推理操作。第六层是验证,根据逻辑陈述进行验证以得出结论。第七层是信任,在用户间建立信任关系。其中,本体层通过对概念的严格定义和概念之间的关系来确定概念精确含义,表示共同认可的、可共享的知识。此外,数字签名层贯穿三到六层,主要是用来检测文档是否被篡改过,以证明其真实可靠性。第二节本体简介人与计算机系统之间的通讯从语法或者语义上缺乏一个统一的标准,这个问题在信息数量以指数级增长、信息描述模糊不清的情况下进一步恶化。本体作为一个形式化、显式的共享概念化的规范,为这个问题提供了一个好的解决方案,至少是在某种程度上解决了这个问题。本体作为一种入与机器、机器与机器之间语义交流的渠道,实际上是一种约定、是语义理解的基石。2.2.1本体的定义本体最早是一个哲学的范畴,是对世界任何领域内的真实存在所做出的客观描述。自90年代以来,人们将本体的概念引入计算机领域,本体被给予了新的定义。最早的定义是1991年Neches等人提出的:“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。后来又有一些人对本体进行了不同的定义,如由斯坦福大学的Gruber于1993年提出的,“本体是概念化的明确的规范说明”。其中最著名并被引用得最为广泛的定义是Studer定义本体为:“共享概念模型的明确的形式化规范说明”126]。2.2.2本体的分类依照领域依赖程度,本体可分为:(1)顶层(top—level)本体:描述的是最普通的概念及概念2.1"1的关系,如空间、时问、事件、行为等,完全独立于特定的问题和领域,其它种类的本体都足该类本体的特例。lO 第二章语义Web基本概念(2)领域(domain)本体:描述的是特定领域中的概念及概念之间的关系。(3)任务(task)本体:描述的是特定任务或行为中的概念及概念之间的关系。(4)应用(application)本体:描述的是依赖于特定领域和任务的概念及概念之间的关系。依照细化程度,本体可分为:(1)参考(reference)本体:详细程度高。(2)共享(shareable)本体:详细程度低。依照形式化程度,本体可分为:(1)高度非形式化本体:用自然语言松散表示的本体。(2)结构非形式化本体:用限制的结构化的自然语言表示的本体。(3)半形式化本体:用半形式化(人工定义的)语言表示的本体。(4)严格形式化本体:所有术语都具有形式化的语义,能在某种程度上证明完全性和合理性的本体。除了上述几种分类方法外,1999年,Perez和Benjamins在分析和研究了各种本体分类法的基础上,归纳出10种本体:知识表示本体、常识本体、顶级本体、元(核心)本体、领域本体、语言本体、任务本体、领域.任务本体、方法本体和应用本体。这种分类法是对Guarino提出的分类方法的扩充和细化,但是这10种本体之fuJ有交叉,层次不够清晰。2.2-3本体的建模元语传统知识库系统(KBS)的开发采用的足概念化建模方法,但这种普通开发KBS的建模方法不能完全适用于本体建模。因为丌发知识本体的目的是用于人类和计算机X,J怯H识的_=}{=享和重用,它是相对稳定的,独立于具体应用。冈此在这种情况下,Perez等研究学者归纳出了用于描述本体建模的5个基本建模原语(ModelingPrimitives)t27】:(1)类(classes)或概念(concepts)指任何事务,如工作描述、功能、行为、策略和推理过程。从语义上讲,它表示的是对象的集合,其定义一般采用框架(frame)结构,包括概念的名称,与其它概念之问的关系的集合,以及用自然语言对概念的描述。(2)关系(relations) 第二章语义Web基本概念在领域中概念之间的交互作用,形式上定义为n维笛卡尔积的子集:R:q×C2×...×e。如子类关系(subclass-00。在语义上关系对应于对象元组的集合。(3)函数(functions)一类特殊的关系。该关系的前n一1个元素可以唯一决定第n个元素。形式化的定义为:F:G×c2×⋯×e-I,专e。如mother-of就是--个函数,mother-of(x,y)表示Y是X的母亲。(4)公L墅(axioms)代表永真断言,如概念乙属于概念甲的范围。(5)实例(instances)代表元素。从语义上讲实例表示的就是对象。2.2.4本体的构造准则和方法自科研人员把本体引入计算机科学领域,本体即被定义为共享概念模型的形式化规范说明。应用本体的主要目的是为了知识共享和复用。科研人员从实际出发提出多种构造本体的标准,其中最有影响的是T.R.Gruber提出的5个准则【28】:(1)清晰性、明确性和客观性:即必须有效地说明所定义属于的意思,而且,当定义可以用逻辑公理表达时,它应该是形式化的。(2)一致性:即支持与其定义相一致的推理,不会产生矛盾。(3)完全性:即给出的定义是完整的,完全能表达所描述的术语的含义。(4)最大单调可扩展性:即支持在已有的概念基础上定义新术语。(5)最小承诺:即本体约定应该最小,对待建模对象应给出尽可能少的约束。在实际构造本体的过程中,根据各自问题域和具体工程的不同,形成了各种各样创建本体的方法。如:IDEF一5方法;SkeletalMethodology骨架法;TOVE企qk建模法;Methodology方法;循环获取法;Uschold方法等。2.2.5语义Web与本体的关系在语义Web的体系结构中,本体处于核心的地位。本体为语义Web提供了相关领域的共同理解,确定了该领域内共同认可的概念的明确定义,通过概念12 第二章语义Web基本概念之间的关系描述了概念的语义,是解决语义层次上Web信息共享和交换的基础。这使得人们与机器之间能准确地交互,为将本体应用于信息检索中,实现基于语义上而不仅仅是基于语法上检索提供支持。基于本体的方法是基于知识的、语义上的匹配,在查准率和杏全率上有更好的保证,对于面向Web信息的知识检索必将起到关键性的作用【291。2.2.6本体在信息检索中的应用目前信息检索技术的分类和对他们的描述如表2.1所示:表2.I信息检索技术的分类及描述分类特点缺点全文检索(Text把用户的杏询请求和全文中的每虽然可以保证杏全率,但是查准retrieval)一个词进行比较,不考虑杏询请求率人人降低。和文什语义上的匹配。数据检索(Data查询要求和信息系统中的数据都性能取决丁所使用的字段标识retrieval)遵循一定的格式,具有一定的结方法和用户对方法的理解,具有构,允许对特定字段检索。需要有很人的局限性,支持语义匹配的标识字段的方法。能力较筹。知识检索基丁.知识的、语义上的匹配,在奄(Knowledge准率和夯全率上有更好的保证。是retrieval)信息检索的重点,特别是面向Web信息的知识检索的重点。本体具有良好的概念层次结构和对逻辑推理的支持,在知识检索中有广泛应用。基于本体的信息检索的摹本思想如下:(1)在领域专家的帮助下,建立相关领域的本体;(2)收集信息源中的数据,并参照已建立的本体把收集来的数据按规定格式存储在元数据库(RDB,KDB等)中;(3)对用,、检索界面获取的查询请求,查询转换器按照本体把查询请求转换成规定的格式,在本体的帮助下从元数据库中匹配出符合条件的数据集合;(4)检索的结果经过定制处理返pl给用户。13 第二章语义Web基本概念第三节本体描述语言本体经常被视作一个高层次的描述方法,这个描述方法由一些概念组成,而这些概念被认为组成了知识库的上层结构。本体中的概念更主要的是为机器服务,机器并不能像人类一样理解自然语言中表达的语义,目前的计算机也只能把文本看成字符串进行处理。因此,在计算机领域讨论本体,就要讨论如何实现本体的具体表示,也就是概念的形式化问题。这就涉及到本体的描述语言。本体语言使得用户为领域模型编写清晰的、形式化的概念描述,因此它应该满足以下要求:(1)良好定义的语法(awell.definedsyntaX)(2)良好定义的语义(awell.definedsemantics)(3)有效的推理支持(efficientreasoningsupport)(4)充分的表达能力(sufficientexpressivepower)(5)表达的方便。|生(convenienceofexpression)大量的研究丁:作者活跃在该领域,冈此诞生了多种本体描述语言,例如:RDF和RDFS、OIL、DAML、DAML+OIL、OWL、KIF、SHOE、XOL、OCMLOntolingua、CYCL等。他们当中有基于一阶逻辑的,也有基于描述逻辑的;有基于HTML的,也有基于XML的;有与具体系统相关的,也有与W曲相关的。对于Web上的应用程序而言,需要一个通用的功能强大的标准语言来表示本体,以避免在不同规格的描述语言之问的转换。在W3C的本体语言栈(图2.2)中,OWL位于最上层,它是从一种结合性的描述语言DAML+OIL发展起来的,是W3C推荐的语义Web中本体描述语言的标准。OWL的基本思想是在表达力和推理复杂度之问取得平衡,既要满足表达Web上信息的要求,又要控制推理复杂度,方便应用的丌发。14 第二章语义Web基本概念o;程X}。AML—s1ffD~AML-R}DAML+OIL纩NlDAML—O.nt;I眦1俞zDCPICSRDFschemaXOLTopicMapsSMILRDFH嗍,XML+NameSpace+XMLschemaU撕codeU砒图2.2W3C本体语言栈2.3.1RDF语言(ResourceDescriptionFramework)RDF(资源描述框架)t30]能够将数据打散并分布开来。RDF模型可以很容易地合并在一起,而且序列化的RDF也可以简单地通过HTTP交换。应用程序可以通过web松散地耦合到多个RDF数据源上。RDF基本的数据模型包括3种对象类型(如图2.3所示),分别为资源、属性和声明。(1)资源(Resource)RDF表达式中描述的所有事物都称之为资源。一个资源可能是一个网页,也可能是网页的一部分,比如文档中特定的HTML或者XML元素;资源也可以是一些网页的集合,比如整个网站中所有特定的网页;资源甚至可以是不能直接通过Web访问的对象,比如打印的书籍。资源的命名和标识方法是通过一个URI加上一个可选的定位lD字符串来表示的。URI本身的扩展性允许表示任何可以想象的实体。(2)属。I生(Property)属性是用来描述资源的具体方面、特性或者相互的关系等。每个属性有特定的含义,规定了其允许的值,定义能够描述的资源类型以及和其它资源的关15 第二章语义Web基本概念系。(3)声明(Statement)RDF的一个声明用来描述一个有属性及属性值的特定资源。每个声明有三个部分:主体(Subject)、谓词(Predicate)、客体(Objecto主体表示资源,谓词代表规定了名称的属性,而客体则是属性的具体值。声明的客体可以是另外一个资源,也可以是直接的字面(1iteral)表示,即可以是用URI规定的资源或简单的用一个字符串或者是由XML定义的其它原始类型。Literal//\\‘]P,oC口》h_o誊2器|霎山&2.山弋\/7Resource鋈≤Ifu酣l『司飞缓编旒筋缓笏磁貔荔滋、—。’——●‘—‘一————一——’—_—‘——————Propertyif;;画叵I⋯valu墨e:}·:Statement图2.3RDF基本数据模硝2.3.2OWL语言(WebOntologyLanguage)OWL[3¨是W3C丌发的一种网络本体语言,用于对本体进行语义描述。由于OWL是针对各种需求、在DAML+OIL的基础上改进而开发的,所以一方面要保持对DAML+oIL/RDFS的兼容性,另一方面又要保证更加强大的语义表达能力,同时还要保证描述逻辑(DL,DescriptionLogic)的可判定推理,因此,W3C组织针对各类特征的需求制定了三种相应的OWL的子语言,即OWL—Lite、16 第二章语义Web基本概念OWL—DL和OWL-Full,而且各子语言的表达能力是递增的。(1)OWL.Lite:OWL.Lite是表达能力最弱的子语言。它是OWL.DL的一个子集,当用户本体中类的层次结构比较简单,并且只有简单的约束时,适合使用它来描述本体。例如,在需要把一个已存在的辞典移植到另一个差不多简单的概念层次时,OWL.Lite可以做得又好又快。(2)OWL—DL:与OWL.Lite相比,OWL—DL的表达能力要丰富许多,它的基础是描述逻辑(DL)。因此它就能够提供描述逻辑的推理功能,计算机从而可以知道本体中的分类层次,以及本体中的各种概念是否一致。(3)OWL—Full:OWL—Full是OWL的三种子语言中表达能力最强的一个,适合在那些需要非常强的表达能力,而不用太关心可判定性或是计算完全性的场合下使用。不过也正是由于表达能力太强这个原因,用OWL.Full表示的本体是不能保证可判定推理的。这三种子语言之间的关系是:(1)每个合法的OWL.Lite都是一个合法的OWL.DL;(2)每个合法的OWL.DL都是一个合法的OWL.Full;(3)每个有效的OWL.Lite结论都是一个有效的OWL—DL结论;(4)每个有效的OWL.DL结论都是一个有效的OWL.Full结论。用户在选择使用哪种语言时主要考虑的是:(1)选择OWL.Lite还是OWL.DL主要取决于用户需要整个语言在多大程度上给出约束的可表达性;(2)选择OWL—DL还是OWL.Full主要取决于用户在多大程度上需要RDF的元模型机制(如定义类型的类型以及为类型赋予属性);(3)在使用OWL—Full而不足OWL.DL时,推理的支持不可预测,因为目前还没有完全的OWL.Full的实现。2.3.3OWL基本元素(BasicElements)一个OWL本体中的大部分元素是与类(class)、属性(property)、类的实例(instance)以及这些实例问的关系有关的。本节给出应用这些元素所必需的语言成分。(1)简单的具名类17 第二章语义Web基本概念~个领域中的最基本概念应分别对应于各个分类层次树的根。OWL中的所有个体都是类owl:Thing的成员。因此,各个用户自定义的类都隐含的是owl:Thing的一个子类。要定义特定领域的根类,只需将它们声明为一个具名类(namedclass)即可。OWL也可以定义空类,owl:Nothing。(2)个体除了描述类,我们还希望能够描述类的成员。我们通常认为类的成员是我们所关心的范畴中的一个个体(而不是另一个类或属性)。要引入一个个体(individual),只需将它们声明为某个类的成员。(3)属性一个属性是一个二元关系。有两种类型的属性:●数据类型属性(datatypeproperties),类实例与RDF文字或XMLSchema数据类型I、RJ的关系。·对象属性(objectproperties),两个类的实例间的关系。(4)属性特征·传递属性(TransitiveProperty):如果一个属性P被声明为传递属性,那么对于任意的x,Y和z:P(x,y)与P(y,z)蕴含P(x,z)·对称属性(SymmetricProperty):如果一个属性P被声明为对称属性,那么对于任意的x和y:P(x,y)当且仅当P(y’x)·函数型属性(FunctionalProperty):如果一个属性P被标记为函数型属性,那么对于所有的X,y,和z:P(x,y)与P(x,z)蕴含),=z·逆属性(inverseOf):如果一个属性P1被标记为属性P2的逆属性(owl:inverseOf),那么对于所有的X和y:PI(x,y)当且仅当P2(y,X)·反函数型属性(InverseFunctionalProperty):如果一个属性P被标记为反函数型的,那么于所有的X,Y和z:P(y,x)与P(z,x)蕴含y=z(5)属性限制·allValuesFrom:对于每一个有指定属性实例的类实例,该属性的值必须是由owl:allValuesFrom从句指定的类的成员。◆someValuesFrom:对于每一个有指定属性实例的类实例,该属性的值至少有一个是由owl:someValuesFrom从旬指定的类的成员。●Cardinality(基数限制):这一约束允许对一个关系中的元素数目做出精确限制。18 第二章语义Web基本概念·hasValue:使得我们能够根据“特定的”属性值的存在来标识类。因此,一个个体只要至少有“一个”属性值等于hasValue的资源,这一个体就是该类的成员。(6)类和属性之间的等价关系(equivalentClass,equivalentProperty):当我们要把一些本体组合在一起作为另一个新的本体的一部分时,能说明在一个本体中的某个类或者属性与另一个本体中的某个类或者属性是等价的,这往往很有用。但实际应用中我们需要小心,因为如果要组合的那些本体是互相矛盾的(例如“所有A都是B”,与“A并不全是B"),那么在组合得到的结果中就不会有满足条件的扩展(没有满足条件的个体或关系)了。(7)个体间的同一性(sameAs)描述个体之间相同的机制与描述类之间的相同的机制类似,仅仅只要将两个个体声明成一致的就可以了。(8)不同的个体(differentFrom,AllDifferent)这一机制提供了与sameAs相反的效果。(9)复杂类OWL另外还提供了一些用于构建类的构造子。这些构造子被用于创建所谓的类表达式。OWL支持基本的集合操作,即交、并和补运算。它们分别被命名为owl:intersectionOf,owl:unionOf,禾lowl:complementOfo此外,类还可以是枚举的。类的外延可以使用oneOf构造子来显式地声明。同时,也可以声明类的外延必须是互不相交(disjoint)的。2.3.4本体构造编辑工具目前,用于开发本体的环境和工具有很多,但较为成熟、知名度较高、较为常用的工具不超过1O种,!tlOntolingua、OntoSaurus、Protege、WebODE、OntoEdit等。判断一种工具是否具有较高的使用效率和是否便于用户使用,主要有以下几个标准:(1)是否可以供用户免费使用、下载,或者可以在线使用。(2)提供免费软件下载的官方网站是否有英文版本。(3)编辑工具的使用是否支持Unicode字符集。(4)最后一次版本更新的时l'白J。19 筇二章语义Web基本概念r51编辑工具在使州中,其输入和输出格式是舌支持XML,或语法基十XML的本体标记语言,以及W3C、ISO或IEEE等国际权威组织的推荐标准。(6)编辑丁只是否提供可视化的本体表达视图。f7谋种:[具的名称是否经常出现在相关文献、网页-p作为被引用的实例,或者介绍它的文献和网页经常成为文档中的参考引文。奉文中采片j九扫荚田斯坦稿大学研制丌发的protege。利用protege的原冈是:它是基于Java的"发工具,并日=Jl=放源码,提供了较好的本体和知识库的,r发环境,支持而向对象方式的奉体构建,与目前的整个发展方向更能够融合,而且它使用较为简单,可以很快的构造、修改本体。protege有OWL可视化插件,虽然暂时还没有中文版本,但是却支持中文输入浊。所以,利用protege可以比较方便的构建本体和知静{库。protege界丽如图2.4所示。幽2.4protege编辑界而 第二章语义Web基本概念第四节本章小结本章介绍了语义Web的概念以及本体的基本知识,包括语义Web的起因、发展,本体的定义、分类、构建、描述语言、构建工具、在语义Web中的地位以及在信息检索领域的研究和应用。21 第三章语义检索技术第一节语义检索概述对于语义检索的定义,[33]认为语义检索是一种在获得了被检索的数据或信息的语义的基础上,通过对语义进行明确的表示和处理来使得结果在意义上,而不仅仅是在语法或结构上满足检索需求的系统或方法。[34]认为:语义检索是对检索条件、信息组织以及检索结果显式赋予了一定的语义成分的一种新的检索方式。从这两个定义上我们可以看出,语义检索本身还是信息检索,但它更加强调“语义",这是与传统关键词检索的区别。传统的信息检索无论是采用元数据还是采用文本,其基础都是文本字符串匹配,自然语言的不确定性极大限制了检索的查全率和查准率。语义检索关注信息资源的真实含义,不仅仅停留在文字表面,从而保证了信息检索的质量。语义检索赋予检索条件语义,对于用户各种形式的输入,通过加入特定的背景信息或者语义关系,使得计算机能够更好理解用户输入,用户和计算机在对检索入口的理解上达到更大的一致;语义检索赋予信息组织语义,是指在建立索引时,不再局限于以词作为索引入口,而是以语义实体、语义属性和语义关系作为切入点,使信息检索具有更强的推理分析能力;语义检索赋二i;检索结果语义,是指检索的结果将不再是纯粹的文本,而可能是语义实体、语义属性和语义关联,从而拓展了语义检索的应用空问。除此之外,语义检索通常使用本体描述语言来描述语义实体、属性和关系,本体描述语言的推理能力为查询中进行推理分析提供了条件。一类非常典型的推理应用就是:在本体知识库已经建屯的情况下,用户可以使用类和属性的继承关系对查询进行扩展,提高查全率。例如,查询与“水果”相关的文档,在知识库中,由于“节果”是“水果”的子类,所以,可以将“={i}:果”在后台作扩展后再进行检索。语义检索在国外的研究也才刚刚起步。目前所见的语义检索系统在检索过程和模式上既引入了新的元素,又在很大程度类似于传统的检索系统。以检索模型[351为例,其检索流程人致如图3.1所示:用户通过检索界面以关键词或文本形式输入检索条件,系统首先对检索条件进行一定的解析,转化为本体检索语22 第三章语义检索技术言(例如RDQL或SPARQL等),在语义信息库中找到符合条件的三元组(本体实例),最后,再在文档库中找出与这些三元组相匹配的文档,并把它提供给用户。这种检索方式,存在着一个缺陷,即在知识库不完备的情况下,查全率会受到很大的影响。假定,对于用户输入的检索词,在知识库中没有找到相应的本体实例,则以这种检索方式,检索到的文档数为零,而如果直接利用关键词在文档中进行查找反而能够找到检索结果。在这种情况下,本体的引入在一定程度上反而降低了查全率。而事实上,建立完备的知识库又是一件相当困难的事情。KBBase图3.1基丁.本体的语义检索系统流程示例第二节语义Web开发工具Jena为了实现语义检索,我们要对本体进行操作,将本体持久化到数据库中,再以三元组形式读取数据,最后还要用到本体查洵语言查询结果。这样,我们就需要语义Web丌发工具的支持。Jena是由HPLabs(http://www.hpl.hp.corn)开发的Java丌发工具包,用于语义web中的应用程序开发。Jana是开源的,它的框架主要包括:23 第二章语义检索技术(1)以RDF/XML、三元组形式读写RDF:Jena文档中有一部分详细介绍了RDF和JenaRDFAPI,其内容包括对JenaRDF包的介绍、RDF模型的创建、读写、查询等操作,以及RDF容器等的讨论。(2)支持RDFS、OWL、DAML+OIL等本体的操作:Jena框架包含一个本体子系统(OntologySubsystem),它提供的API允许处理RDF文件格式的本体数据,也就是浇,它支持OWL、DAML+OIL和RDFS。本体API与推理子系统结合可以从特定本体中提取信息,Jena还提供文档管理(OntDocumentManager)以支持对导入本体的文档进行管理。(3)利用数据库持久化数据:Jena允许将数据持久化到硬盘中,或者是OWL文件中,或者是关系数据库中。本文中处理的本体就是利用Jena持久化后存储在mySQL数据库中的。(4)查询模块:Jena提供了ARQ查询引擎,它实现SPARQL查询语言,从而支持对模型的查询。另外,查询引擎与关系数据库相关联,这使得查询存储在关系数据库中的本体时能够达到更高的效率。(5)基于规则的推理:Jena支持基于规则的简单推理,其推理机制支持将推理机(inferencereasoner)导入Jena,创建模型时将推理机与模型关联以实现推理。第三节SPARQL查询语言简介3.3.1SPARQL简介随着网络的发展,会有越来越多的数据使用RDF格式保存,因此一种新的需求产生了,即要求用一种简单方法在RDF数据中查找特定信息。SPARQLt36】这个功能强大的新查询语言填补了这个空白。SPARQL是W3C的RDF数据工作组设计的一种查询语言和协议,用于RDF数据的奄询。Berners.Lee指出,SRARQL查询语言作为“分层蛋糕图表”的最后一层的最后一步,如果没有它,那么可以说这一“蛋糕"是不完整的,最后的这一步也可以况是最大的一步,因为它能够连接现有的Web和语义w曲。利用SRARQL服务器,可以将大量的现有数据提供给语义Web使用。SPARQL为开发者和终端用户提供写入和使用跨越多方面信息(如个人资料、社会网络和数码物件等的冗数据)搜寻结果的途径。SPARQL办提供方法整合异质资料来源。24 第三章语义检索技术SPARQL构建在以前的RDF查询语言(例如rdfDB、RDQL和SeRQL)基础之上,它实际上包括3个独立的部分:查询语言规范、SPARQL数据访问协议以及查询结果XML格式。下面将简单介绍SRARQL如何用于查询信息。SRARQL为语义Web用户提供查询语言,就如同SQL为相关数据库用户提供查询语言。比较SPARQL查询语言与数据库中的SQL查询语言,都包括SELECT部分和WHERE部分。其中的不同点主要有:(1)SPARQL所使用的元素都是URI具体实体(Entity)。(2)SPARQL里面的WHERE部分主要足三元组以及三元组之间的关系,同时三元组里面可以有变量,所有变量以问号开始。(3)SPARQL旱面的操作比较简单,没有SQL罩面Max,Min之类的操作。例如,想查询ChenQiushuang老师指导的学生写的论文。在本体持久化到mySQL数据库(以三元组形式存储)后,可以利用如下SPARQL语句进行查询:select?paperWhere{Chen_Qiushuanginstruct?student.?studenthas-paper?paper.)用关系代数表示如图3.2所示:丌l枷per//冈\\\兀Chen—Qiushuang-->?subject?student-->?objectIO?predicate=instructlH?student-->?subject?paper--->?objectlO?predicate=has—paperl图3.2SPARQL查询关系代数图25 第三章语义检索技术3.3.2在Jena中使用SPARQL在Jena中使用SRARQL目前可以通过叫做ARQ的模块得以实现。ARQ是一个属于Jena的支持RDF查询语言SPARQL的查询引擎。ARQ有如下特点:(1)支持多种查询语言:·支持SPARQL查淘●支持RDQL查询·支持ARQ查询(ARQ查询引擎自身的查询语言)(2)支持多种查询引擎:·普通目的引擎(Generalpurposeengine)●远程登录引擎(Remoteaccessengines)·重写入SQL(RewritertoSQL)ARQ的开发很活跃,但它还不是标准Jena发行版本中的一部分。但是,可以从Jena的CVS仓库或者自包含的下载文件中获得它。Java应用程序也可以直接调用Jena的SPARQL功能。第四节语义检索研究及实现一般的语义检索问题都可以归结为找一组由一定关系和限制连接的数据的|、uJ题。在本体中,一个语义检索就相当于一个带有受限制的目标节点和属性弧的查询图。由此可以得出这样的结论:关键词检索转化到形式化检索的问题可以简化为由关键词检索来构建等价的查询图的』、uJ题【3171。首先给出以下定义。定义1(知识库):D=(己,,R)称为一个知谚{库,其中,U≠o称为论域,尺是U上的一簇等价关系。本体也是一个知谚{库。在本文中为了便于定义本体知识库内元素之间的联系,定义本体知识库D为有向图Go=
此文档下载收益归作者所有