语义web中基于多本体协同的语义检索研究

语义web中基于多本体协同的语义检索研究

ID:33367631

大小:3.65 MB

页数:75页

时间:2019-02-25

上传者:U-3868
语义web中基于多本体协同的语义检索研究_第1页
语义web中基于多本体协同的语义检索研究_第2页
语义web中基于多本体协同的语义检索研究_第3页
语义web中基于多本体协同的语义检索研究_第4页
语义web中基于多本体协同的语义检索研究_第5页
资源描述:

《语义web中基于多本体协同的语义检索研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

摘要摘要信息检索技术在网络信息资源爆炸性增K的时代显得尤为罩要,如今从大量的网络信息当中搜索出符合用户需求的信息变得越来越困难。目前传统的搜索引擎利用基于字符串匹配的关键词检索技术,往往得不到让用户满意的检索结果,输出结果很多是无用信息。在基于语义Web本体的检索中,由于匹配的是概念而不是关键词,这就避免了出现大量冗余信息的可能,同时可以匹配到用户检索概念的同义词,从而提高查询的查准率及查全率。基于本体的语义检索研究虽然目前在国内外已经取得了很大的成就,但总的来说本体检索还处于理论同趋成熟,应用相对滞后的阶段。由于语义本体技术是一个新兴的研究领域,在构建本体时还没有一个统一的标准,因此不同机构或用户建立的本体存在着异构性。在对某领域的信息进行语义检索时,可以基于同领域中多个本体协同进行,以获得更全面的结果。本文中,我们在基于语义Web的本体检索的基础上,提出了一种基于多个同领域本体协同的语义检索方法:该方法将用户输入的检索关键词进行概念扩展以匹配到本体中的资源;把关键}司检索转化为形式化检索;并根据这些关键词进行领域本体的排序和选择;再利用本体映射技术找出不同形式化检索关系路径问的关联;根据这些关联对关系路径进行分组并排序;最终将经过组织的检索结果返[uI给用户。关键词:语义Web;语义检索;多本体 AbstractInformationretrievaltechnologyisparticularlycriticalintheepochofinformationresourceincreaseexplosively.Findoutwhattheclientsneedfromtheheavilystorednetworkinformationbecomeharderandharder.Thetraditionalsearchenginesusekeywordsearchbasedonstringmatchingwhichusuallyfailstomeetclients’demand,theoutputstillhasalotofredundantinformation.SearchbasedonSemanticWebontologymatchtheconceptsratherthanthekeywords,whichwillgetridofmuchredundantinformation,andwillmatchthesynonymsoftheinputwordsmeanwhile,SOtoimprovetheprecisionratioandrecallratioofthequery.ThoughstudyonSemanticsearchhasmadegreatprogressbothindomesticandabroad.Thepresentstatusisthatstudyoftheoryisbecomingmorematurebutstudyofapplicationisbackwardcomparably.AsSemanticontologytechnologyisanemergingresearchdomain,thereisnouniformstandardexist,SOdifferentontologybuildbydifferentorganizationoruserhasdifferentconstruction.WecandoSemanticsearchbasedonseveralcooperatedontologiesinthesamedomaintogetmorecomprehensiveresult.Inthispaper,inthebasisofSemanticWebontologysearch,weintroduceanapproachthatsearchbasedOilseveralcooperatedontologies:theapproachUSeStermmappingtofindcorrespondingontologyresourcesforeachterminthekeywordquery;translateskeywordqueryintoformallogicquery;rankingandselectontologieswiththeUSerinputtedkeywords;usesontologymappingtofindtherelationshipbetweeneachformallogicquery;groupingandrankingtheseformallogicquerybytherelationship;atlastgivebacktheorderedqueryresulttotheuser.Keywords:SemanticWeb;SemanticSearch;Multi—OntologiesII 南开大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名:节j)们年,月Z华 南开大学学位论文版权使用授权书本人完全了解南开大学关于收集、保存、使用学位论文的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。学位论文作者签名:节b卟凡2pDc7年§月2午日经指导教师同意,本学位论文属于保密,在年解密后适用本授权书。指导教师签名:学位论文作者签名:解密时间:年月日各密级的最长保密年限及书写格式舰定如下:r⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一⋯⋯~⋯—、!内部5年(最长5年,可少于5年)|{|秘密★lo年(最长10年,可少于10年){5机-密-k20年(最K20年,可少于20年); 第一章引言当前,随着互联网的发展,互联网已经成为人们获取信息的一个重要渠道。截止今年,全球互联网站总数接近2.25亿个【11,国内网站总数为287.8万,网页总数超过160亿个【2J。在如此巨大的信息海洋中获取用户期望的信息变得十分困难,因此提高检索的质量、推出令人满意的检索技术成为了全世界范围的研究重点和热点。许多研究者曾在当前的基于字符串匹配的关键词检索技术上作了努力,但是由于受制于以HTML为基石的力.维网(WWW)本身的局限,使这种技术在提高查全率和查准率上很难再有更大的作为。那么什么/4‘是解决办法昵?TimBemers.Lee提出了下一代因特网一语义Web(SemanticWeb)13],提出语义Web的目的是为因特网上的信息提供具有计算机可以理解的语义,它的发展和成熟使得高效高质的语义检索成为可能。第一节研究背景1.1.1语义检索问题的提出自WWW发明到现在,随着功能的不断提升,使得网上办公、网上学习、网上购物以及网上看病等都成为现实。因此在当前资源爆炸性增长的时代,获取这些网络应用信息的信息检索技术变得尤为重要,成为这些网上系统不可或缺的一项功能。但是,人们越来越发现目前系统的检索功能在满足人们R益多样的需求时开始有些力不从心,其主要原因是在于传统的基于字符串匹配的关键词检索技术上的缺陷。依据不同的划分标准,可将信息检索划分为几大类。依据检索对象的不同,可以分为:文本检索和多媒体检索。文本检索是指基于文字的检索,它是最早也是最常见的信息表现形式;多媒体检索的对象包括图像、动画、音频和视频等,绝大多数多媒体检索系统仍采取基于关键词(keyword)的搜索技术。依据检索范围的不同,可以分为:全文检索和字段检索。依据匹配方式的不同,可以分为:模糊匹配和精确匹配。依据截词方式的不同,可以分为:左截词、右截 第一章引言词、中间截词和左右截词。但是从检索思想的本质入手,可以看出上述检索方法基本上都是基于串匹配方式,它们都属于关键词检索范畴。而关键词检索的弊端是每个用户都深有体会的,例如:在用户输入关键词查找信息时,总会遗漏很多相关的信息,同时会返回大量完全无关或者相关度不高的“副产品”,用户在找到所需材料之前,通常需要再进行过滤工作。这种性能低下的检索功能会让用户感到非常的沮丧。而妨碍基于关键词检索在检索性能上更上一层楼的主要原因是:缺乏语义信息。这包括两方面内容:一方面,检索的表达式通常缺乏语义信息,例如,用户的初衷是查找一种名字为“苹果”的水果,当它输入检索词“苹果"时,计算机无法分辨用户要查找的是一种水果,还是一种电脑,还是其它什么,这种情况下,计算机会返回所有的信息,这就导致了大量的冗余信息。另一方面,被检索的资源缺乏语义,此时,就算检索表达式被赋予了丰富的语义,计算机仍然无法准确的定位相关信息。例如,表达式已经明确表明它要查找的是一种名为“苹果”的计算机,但是因为资源缺乏清晰的语义标注,计算机无法理解这些资源,所以结果仍将不尽人意。人们从来不曾停止过努力,尝试过各种办法,希望能够很好的解决这些问题,但是终因没能从根本上解决问题,而很难有大的作为。问题的症结在于,www最初的设计目的主要是面向用户直接阅读与处理,它没将信息的表现形式、内在结构和表达内容相分离。WwW的基石一HTML语言过分的关注显示外观,它所表达的页面信息和组织方式都缺乏计算机叮读的语义信息,使得计算机很难理解文档的内容,也很难抽取语义信息。这些都限制了计算机在信息检索中自动分析处理的能力。1.1.2语义检索的作用解决上述问题的一种有效途径就是为互联网提供一个高层的、良定义的组织方法,实现一个有序的瓦联网。为此WWW的缔造者TimBerners.Lee提出了语义Web的概念。语义Web作为F一代互联网,它的根本目的就是:为互联网上的信息提供计算机可以理解的明确语义,从而实现网上信息资源在语义层应用。利用语义Web,我们能够将语义丰富的描述信息和资源关联起来,能够超越机器町读阶段而发展到机器理解的阶段。构建于语义Web上的检索技术能够2 第一章引言真正实现语义层的检索,在查全率和查准率这两项指标上达到质的飞跃。第二节研究现状基于语义Web及本体的信息检索是目前国内外语义Web及本体领域中研究的热点之一。无论是在理论方面还是实际应用方面的相关研究都很多,并不断趋向成熟。1.2.1基于语义Web及本体的检索系统基于语义Web及本体的检索技术在理论以及实际应用领域都得到了广泛的研究,从事与语义检索相关的研究工作的机构有AIFB、W3C、KSL,曼彻斯特大学、新加坡国立大学、阿姆斯特丹大学等。这些研究组织有一系列基于语义w曲和本体(Ontology)描述的语言,以及基于本体应用的产品。成型的检索系统有:(1)Swoogle[41:语义Web搜索引擎Swoogle可以像GooSe一样在互联网上爬行,搜集各类元数据信息。虽然Swoo西e现在所表现出来的技术还很简单,但它不仅仅是一个本体搜索引擎,更重要的是一个本体词典,汇总各种本体后,进行匹配和融合,生成一个更完备的和被更多人公认的本体。与Google这类搜索引擎或不同的是,Swoogle目I{{『主要是面向语义Web开发者的。(2)Powersett5】:是一个提供维基百科(Wikipedia)的搜索引擎,同时也是一个自然语言搜索引擎,取得了PARC(PaloAltoResearchCenter,Inc)的技术,于2008年5月12日J下式发布。目前能够对Wikipedia英文版的250万篇文章进行搜索,Powerset尝试理解句子的含义并进行匹配(包括GooSe在内的传统的搜索引擎都是基于关键词匹配)。(3)SemanticWebSearchl61:是一个基于语义Web的搜索引擎,它可以很好地定位和搜集发布在语义Web上的信息,它的用户可以是人,也可以是计算机。对于人类用户,该站点提供了一个标准的搜索引擎界面,用户可以在搜索栏中输入相应的描述信息。对于计算机,此站点提供了一个具有类似功能的Webservice,智能软件代理将它们需要执行的任务进行准确描述后提交给service,然后service以一种智能软件代理能够理解的形式,将精确匹配得到的结果返回给3 第一章引言代理。(4)Ontoseek[‘7】:是一个协作智能Agent系统,着重于精确地、详细地描述黄页中的产品或服务,将一个本体驱动的内容匹配机制与一个具有中等表达能力的表示形式化系统相结合,尝试如何使本体与大辞典数据库相集成,为用户提供一个可以使用领域内任何词汇进行交互式语义检索的系统。(5)(onto)2Agentt引:目的是为了帮助用户检索到所需要的www上已有的本体,主要采用了参照本体。参照本体是以www上已有的本体为对象建立起来的本体,它保存有各类本体的元数据。(6)Ontobrokert9】:是ontopriSe开发组研发的,面向的是WWW上的网页资源,使用本体转换w曲文档,向用户提供基于本体的回答服务,支持用户对知识的检索,目的是帮助用户更好的检索到所需要的网页。它主要包括:检索引擎、信息引擎、推理引擎和数据库管理引擎。因为是基于F—logic开发的,在对OWL的支持上做得不是很好。1.2.2重要的语义Web及本体项目在这一领域,国际上的著名项目主要有:(1)OntoWebIlo】:是一个从2001年丌始得到欧盟支持的面向知识管理和电子商务的基于本体的信息交换项目,其目的是联系学术界和工业界,加强各学科之间的联系,加强对语义Web标准(OWL、RDF、XML等)的影响。(2)OntoKnowledgeE¨】:是欧洲信息技术委员会IST计划中的一个项目。该项目通过在信息中应用本体来提高大型分布式系统的知识管理水平。其技术要点是在各种任务的信息集成中引入本体。它的成果0IL为本体语言提供了一个层次结构视图。OntoKnowledge还开发了许多工具,可以大大增加皋于本体方法的作用,使得知汉管理更加方便。(3)CYC[12l:该项目对多个领域应用丌发本体提供常识推理的基础。CYC中的知识用一阶逻辑语言‘CYCL(一阶逻辑的变种)陈述式断言表示。知识库包括简单断言、推理规则、推理控制规则,推理机可以从知。"叭tl库中归纳出新的断言,其中的本体被组织成模块化的集合。(4)SKCtl3】:是斯坦福大学的一个项目,主要研究如何用代数学方法来合成不同领域的本体,解决信息系统语义异构的问题,实现异构的自治系统之问的4 第一章引言互操作。(5)FOAF[14】:是目前一个较为著名的本体论应用项目,它利用XML和RDF来描述用户的信息,包括用户的名字、电子邮件等信息以及用户的朋友的相关信息。这使得软件可以处理这些描述(可能作为搜索引擎的一部份检索信息),从而找到用户的或是用户参与的社群的资料。FOAF有潜力为网络社群发展出一些新的应用。(6)Enterprisell5】:是英国政府为促进基于知识的系统在企业建模中的应用丌展的项目,包括与企业相关的术语和定义的集合。该项目着重于管理革新和使用IT的策略来帮助管理方式的变革。目标是提供方法和计算机工具帮助企业获取商业过程的各个方面,通过分析比较各个方面来满足企业的需要。1.2.3国内研究现状目前国内许多学者对本体在信息检索领域的应用有较为深入的研究。[16】试图对本体论做形式化的描述,在此基础上讨论基于本体的信息检索方法,并指出这种方法克服了目自订基于关键词检索所造成的信息冗余和丢失的不足,其检索方法更符合人类的思维习惯,检索结果也更合理、实用。【17]中讨论了当前情报检索系统的相关性判断,指出在相关性判断的多维度多层次的复杂概念中,用户关心的是语用相关,但多数检索系统仅能提供形式相关。该文建议运用本体的基本原理,建立基于本体的情报检索系统,从而实现检索的语用相关判断。[18】首次提出基于本体论的信息处理、构造数字图书馆启发式检索模式的思路。把信息检索从传统的基于关键词层面提高到基于知识或概念的层面,构想了数字图书馆本体论模型,并设计了一个区别于传统的数据库系统的基于本体论的检索算法。中国农业科学院科技文献信息中心参与的联合幽粮农组织(FAO)发起的“农业本体论服务(AOS)”研究项目。该项目的成果之一是国际农业研究信息管理中心的“多语农业术语汇编(Agrovoc)系统”[191,这一系统提供农业词汇检索,其检索方式具有。定的语义特征,并提供多国语言翻译。[20]把本体作为信息检索系统的核心,通过构造形式化的领域本体,提出了一种将知识表示和知识处理引入互联网信息处理的方法,为互联网上半结构化数据和关系数据库提供了统一的语义模型。[21]提出基于内容的信息检索系统,利用本体对检索需求进行语义扩充,并用文档分析器对检索文档进行过滤,因此增加了检索结果的5 第一章引言准确性,更加符合用户的检索需求。中国科学院文献情报中心李景深入研究了本体理论在文献检索系统中的应用,构建了基于花卉学领域本体的试验性文献检索统FORS,验证了本体作为知识组织体系,在检索系统中的适用性【2引。东南大学万维网科学研究所开发的Falcon.S【23J是一个面向足球领域的语义Web搜索引擎,在概念空间的辅助下搜索和浏览语义web,利用语义web技术使得用户可以方便地搜索和浏览WWW上与足球有关的信息。第三节论文的内容和结构本文在总结语义Web和语义检索研究现状的基础上,着重研究了基于多本体的检索。由于语义Web中信息量以及本体的数量越来越多,Web环境的分布性和开放性导致本体是在并发环境下开发的,这就必然会使得不同本体之问存在异构性问题。另外,建立完备的本体知识库是一件相当困难的事情,而在知识库不完备的情况下,语义查洵的查全率可能会受到很大的影响,在许多场合,单个本体不能充分完成目标任务,必须联合多个本体来完成。在对某领域的信息进行语义检索时,如果基于同一领域中多个本体协同进行,则可能避免应用单一本体信息不完备的情况,获得更全面的结果。因此在本文中,我们在基于语义Web的本体检索的基础上,提出了一种基于多个同领域本体协同的语义检索方法:该方法将用户输入的检索天键渊进行概念扩展以匹配到本体中的资源;把关键词检索转化为形式化检索;并根据这些关键词进行领域本体的排序和选择;再利用本体映射技术找出不同形式化检索关系路径问的关联;根据这些关联对关系路径进行分组并排序;最终将经过组织的检索结果返回给用户。并根据多本体语义检索方法,开发了一个多本体语义榆索系统,用于对教育领域的信息进行语义检索。根据用户输入的不同检索关键词,系统返回经过多本体语义检索的结果。相比较对唯一本体进行语义检索的结果,我们经过多本体语义检索获得的结果更加全面。论文的组织结构为:第一章:引言。介绍当前信息检索技术的困扰并引出语义检索问题。第二章:语义Web基本概念。介绍了语义Web概念的提出,它的体系结构,支撑技术,以及本体及其描述语言。6 第一章引言第三章:语义检索技术。介绍了语义Web开发工具Jena,并介绍了应用于三元组查询的SPARQL查询语言。以及从关键词检索到语义检索的转换方法。第四章:多本体语义检索。提出了基于同一领域多个相关联本体的检索技术。第五章:多本体语义检索系统的实现。为解决基于多个相关联本体的检索问题,建立教育系统领域本体以及基于多本体的语义检索系统。介绍了该系统的具体实现过程和应用。第六章:总结和展望。对全文做出总结,指出论文的创新点以及不足之处,同时给出后续的研究方向。7 第二章语义Web基本概念第一节语义Web简介2.1.1语义Web概念的提出语义Web的概念是由wWW的奠基人TimBerners.Lee在1998年一篇题为“Semanticw曲Roadmap’’1241的文章中首次提出的。在文中,作者简单介绍了语义Web的概念。语义Web是一个信息集散地,它包含了文档或文档的一部分,描述了事物间的明显关系,且包含语义信息,不仅可以让人与人交流,而且可以使机器能参与进来,并且帮助人类完成一些事情。在2000年12月的XML2000会议上Tim给出了语义Web的体系结构,并于2001年5月在《科学美国人》杂志上发表了名为“TheSemanticWeb”的论文【3】,介绍了语义Web的一些基本特征:(1)语义Web不同于现在WWW,现有的WWW是面向文档而语义Web则是面向文档所表示的数据;(2)语义Web将更利于计算机“理解与处理”,并将具有一定的判断、推理能力。当然,语义Web并非一个独立的Web,它的主要目的不是要完全代替现有的Web,而是对当前的WWw进行延伸,使得网络中所有信息都是具有语义的,以便于人和计算机之间的交互。语义Web到底是如何做到让计算机理解这些信息的?我们可以从人对信息的理解过程中得到一些启发:人在交流时会使用词语或者符号,这些词语和符号都对应专门的事物,人不可能直接在词语和事物问进行映射,而是要借助“概念"这一桥梁,通过“概念”这一中fbJ层,人能够迅速准确地将词语和符号对应到相应的事物。fJ样道理,光是给机器一些词语和符号,很难让机器理解当中蕴含的语义知识,更别说推理了,语义Web研究的侧重点就是如何为机器添加概念知识,并且这种“知识”是全面的,凭借这些知识,机器能够很好地理解信息,从而实现语义层上的智能应用。语义Web描述信息的方式都是基于二元关系的,在通俗意义上我们称之为三元组,也就是说语义Web上的任何一个知识表达都是由三部分组成~主语、谓语和宾语。语义Web通过绑定、组合等一系列方法来使简单的三元组具有丰8 第二章语义Web基本概念富的表达能力,能够表示很多复杂的知识。在设计语义Web时,一般应遵循以下几个原则:所有的资源都能用URI来标识;资源和链接可以有类型;部分、片断、不完整的信息是被容许的;信息不必是绝对真的;能支持、反映信息的变化和演化;最小设计原则。2.1.2语义Web的体系结构TimBerners—Lee于2000年提出了著名的‘‘分层蛋糕图表”f25】,他将语义Web分成七个层次,其结构如图2.1所示。RuleslTrustlProofData8—∞_日%嘲In口;P—圈戮黝缀。上一”61。2皇c寸矗Self弱一曩朦施溯OntologyvocabularyQ磐Description一_document—1—...。.....。,。。..。一RDF+RDFschemaXML+NameSpace+XMLschemaUnicodeUlU图2.1语义Web的体系结构该七层体系结构的功能自下而上逐渐增强。在语义Web七层结构中,第一层是整个语义Web的基础,Unicode处理资源的编码,URI负责标识资源。XML、RDF和Ontology三层主要用于表示Web信息的语义,因而是系统的核心和关键所在。其中,第二层是XML+Namespace+XMLschema,提供了表示数据内容和结构的语法;第三层是RDF+RDFschema,提供了描述Web资源的数据模型,可以表示论断、定义模式;第四层是本体词汇表(Ontologyvocabulary),是在RDFschema基础上定义的概念和关系的抽象描述,用于描述领域知识。第五层9 第二章语义Web基本概念是逻辑,在下面四层的基础上进行逻辑推理操作。第六层是验证,根据逻辑陈述进行验证以得出结论。第七层是信任,在用户间建立信任关系。其中,本体层通过对概念的严格定义和概念之间的关系来确定概念精确含义,表示共同认可的、可共享的知识。此外,数字签名层贯穿三到六层,主要是用来检测文档是否被篡改过,以证明其真实可靠性。第二节本体简介人与计算机系统之间的通讯从语法或者语义上缺乏一个统一的标准,这个问题在信息数量以指数级增长、信息描述模糊不清的情况下进一步恶化。本体作为一个形式化、显式的共享概念化的规范,为这个问题提供了一个好的解决方案,至少是在某种程度上解决了这个问题。本体作为一种入与机器、机器与机器之间语义交流的渠道,实际上是一种约定、是语义理解的基石。2.2.1本体的定义本体最早是一个哲学的范畴,是对世界任何领域内的真实存在所做出的客观描述。自90年代以来,人们将本体的概念引入计算机领域,本体被给予了新的定义。最早的定义是1991年Neches等人提出的:“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。后来又有一些人对本体进行了不同的定义,如由斯坦福大学的Gruber于1993年提出的,“本体是概念化的明确的规范说明”。其中最著名并被引用得最为广泛的定义是Studer定义本体为:“共享概念模型的明确的形式化规范说明”126]。2.2.2本体的分类依照领域依赖程度,本体可分为:(1)顶层(top—level)本体:描述的是最普通的概念及概念2.1"1的关系,如空间、时问、事件、行为等,完全独立于特定的问题和领域,其它种类的本体都足该类本体的特例。lO 第二章语义Web基本概念(2)领域(domain)本体:描述的是特定领域中的概念及概念之间的关系。(3)任务(task)本体:描述的是特定任务或行为中的概念及概念之间的关系。(4)应用(application)本体:描述的是依赖于特定领域和任务的概念及概念之间的关系。依照细化程度,本体可分为:(1)参考(reference)本体:详细程度高。(2)共享(shareable)本体:详细程度低。依照形式化程度,本体可分为:(1)高度非形式化本体:用自然语言松散表示的本体。(2)结构非形式化本体:用限制的结构化的自然语言表示的本体。(3)半形式化本体:用半形式化(人工定义的)语言表示的本体。(4)严格形式化本体:所有术语都具有形式化的语义,能在某种程度上证明完全性和合理性的本体。除了上述几种分类方法外,1999年,Perez和Benjamins在分析和研究了各种本体分类法的基础上,归纳出10种本体:知识表示本体、常识本体、顶级本体、元(核心)本体、领域本体、语言本体、任务本体、领域.任务本体、方法本体和应用本体。这种分类法是对Guarino提出的分类方法的扩充和细化,但是这10种本体之fuJ有交叉,层次不够清晰。2.2-3本体的建模元语传统知识库系统(KBS)的开发采用的足概念化建模方法,但这种普通开发KBS的建模方法不能完全适用于本体建模。因为丌发知识本体的目的是用于人类和计算机X,J怯H识的_=}{=享和重用,它是相对稳定的,独立于具体应用。冈此在这种情况下,Perez等研究学者归纳出了用于描述本体建模的5个基本建模原语(ModelingPrimitives)t27】:(1)类(classes)或概念(concepts)指任何事务,如工作描述、功能、行为、策略和推理过程。从语义上讲,它表示的是对象的集合,其定义一般采用框架(frame)结构,包括概念的名称,与其它概念之问的关系的集合,以及用自然语言对概念的描述。(2)关系(relations) 第二章语义Web基本概念在领域中概念之间的交互作用,形式上定义为n维笛卡尔积的子集:R:q×C2×...×e。如子类关系(subclass-00。在语义上关系对应于对象元组的集合。(3)函数(functions)一类特殊的关系。该关系的前n一1个元素可以唯一决定第n个元素。形式化的定义为:F:G×c2×⋯×e-I,专e。如mother-of就是--个函数,mother-of(x,y)表示Y是X的母亲。(4)公L墅(axioms)代表永真断言,如概念乙属于概念甲的范围。(5)实例(instances)代表元素。从语义上讲实例表示的就是对象。2.2.4本体的构造准则和方法自科研人员把本体引入计算机科学领域,本体即被定义为共享概念模型的形式化规范说明。应用本体的主要目的是为了知识共享和复用。科研人员从实际出发提出多种构造本体的标准,其中最有影响的是T.R.Gruber提出的5个准则【28】:(1)清晰性、明确性和客观性:即必须有效地说明所定义属于的意思,而且,当定义可以用逻辑公理表达时,它应该是形式化的。(2)一致性:即支持与其定义相一致的推理,不会产生矛盾。(3)完全性:即给出的定义是完整的,完全能表达所描述的术语的含义。(4)最大单调可扩展性:即支持在已有的概念基础上定义新术语。(5)最小承诺:即本体约定应该最小,对待建模对象应给出尽可能少的约束。在实际构造本体的过程中,根据各自问题域和具体工程的不同,形成了各种各样创建本体的方法。如:IDEF一5方法;SkeletalMethodology骨架法;TOVE企qk建模法;Methodology方法;循环获取法;Uschold方法等。2.2.5语义Web与本体的关系在语义Web的体系结构中,本体处于核心的地位。本体为语义Web提供了相关领域的共同理解,确定了该领域内共同认可的概念的明确定义,通过概念12 第二章语义Web基本概念之间的关系描述了概念的语义,是解决语义层次上Web信息共享和交换的基础。这使得人们与机器之间能准确地交互,为将本体应用于信息检索中,实现基于语义上而不仅仅是基于语法上检索提供支持。基于本体的方法是基于知识的、语义上的匹配,在查准率和杏全率上有更好的保证,对于面向Web信息的知识检索必将起到关键性的作用【291。2.2.6本体在信息检索中的应用目前信息检索技术的分类和对他们的描述如表2.1所示:表2.I信息检索技术的分类及描述分类特点缺点全文检索(Text把用户的杏询请求和全文中的每虽然可以保证杏全率,但是查准retrieval)一个词进行比较,不考虑杏询请求率人人降低。和文什语义上的匹配。数据检索(Data查询要求和信息系统中的数据都性能取决丁所使用的字段标识retrieval)遵循一定的格式,具有一定的结方法和用户对方法的理解,具有构,允许对特定字段检索。需要有很人的局限性,支持语义匹配的标识字段的方法。能力较筹。知识检索基丁.知识的、语义上的匹配,在奄(Knowledge准率和夯全率上有更好的保证。是retrieval)信息检索的重点,特别是面向Web信息的知识检索的重点。本体具有良好的概念层次结构和对逻辑推理的支持,在知识检索中有广泛应用。基于本体的信息检索的摹本思想如下:(1)在领域专家的帮助下,建立相关领域的本体;(2)收集信息源中的数据,并参照已建立的本体把收集来的数据按规定格式存储在元数据库(RDB,KDB等)中;(3)对用,、检索界面获取的查询请求,查询转换器按照本体把查询请求转换成规定的格式,在本体的帮助下从元数据库中匹配出符合条件的数据集合;(4)检索的结果经过定制处理返pl给用户。13 第二章语义Web基本概念第三节本体描述语言本体经常被视作一个高层次的描述方法,这个描述方法由一些概念组成,而这些概念被认为组成了知识库的上层结构。本体中的概念更主要的是为机器服务,机器并不能像人类一样理解自然语言中表达的语义,目前的计算机也只能把文本看成字符串进行处理。因此,在计算机领域讨论本体,就要讨论如何实现本体的具体表示,也就是概念的形式化问题。这就涉及到本体的描述语言。本体语言使得用户为领域模型编写清晰的、形式化的概念描述,因此它应该满足以下要求:(1)良好定义的语法(awell.definedsyntaX)(2)良好定义的语义(awell.definedsemantics)(3)有效的推理支持(efficientreasoningsupport)(4)充分的表达能力(sufficientexpressivepower)(5)表达的方便。|生(convenienceofexpression)大量的研究丁:作者活跃在该领域,冈此诞生了多种本体描述语言,例如:RDF和RDFS、OIL、DAML、DAML+OIL、OWL、KIF、SHOE、XOL、OCMLOntolingua、CYCL等。他们当中有基于一阶逻辑的,也有基于描述逻辑的;有基于HTML的,也有基于XML的;有与具体系统相关的,也有与W曲相关的。对于Web上的应用程序而言,需要一个通用的功能强大的标准语言来表示本体,以避免在不同规格的描述语言之问的转换。在W3C的本体语言栈(图2.2)中,OWL位于最上层,它是从一种结合性的描述语言DAML+OIL发展起来的,是W3C推荐的语义Web中本体描述语言的标准。OWL的基本思想是在表达力和推理复杂度之问取得平衡,既要满足表达Web上信息的要求,又要控制推理复杂度,方便应用的丌发。14 第二章语义Web基本概念o;程X}。AML—s1ffD~AML-R}DAML+OIL纩NlDAML—O.nt;I眦1俞zDCPICSRDFschemaXOLTopicMapsSMILRDFH嗍,XML+NameSpace+XMLschemaU撕codeU砒图2.2W3C本体语言栈2.3.1RDF语言(ResourceDescriptionFramework)RDF(资源描述框架)t30]能够将数据打散并分布开来。RDF模型可以很容易地合并在一起,而且序列化的RDF也可以简单地通过HTTP交换。应用程序可以通过web松散地耦合到多个RDF数据源上。RDF基本的数据模型包括3种对象类型(如图2.3所示),分别为资源、属性和声明。(1)资源(Resource)RDF表达式中描述的所有事物都称之为资源。一个资源可能是一个网页,也可能是网页的一部分,比如文档中特定的HTML或者XML元素;资源也可以是一些网页的集合,比如整个网站中所有特定的网页;资源甚至可以是不能直接通过Web访问的对象,比如打印的书籍。资源的命名和标识方法是通过一个URI加上一个可选的定位lD字符串来表示的。URI本身的扩展性允许表示任何可以想象的实体。(2)属。I生(Property)属性是用来描述资源的具体方面、特性或者相互的关系等。每个属性有特定的含义,规定了其允许的值,定义能够描述的资源类型以及和其它资源的关15 第二章语义Web基本概念系。(3)声明(Statement)RDF的一个声明用来描述一个有属性及属性值的特定资源。每个声明有三个部分:主体(Subject)、谓词(Predicate)、客体(Objecto主体表示资源,谓词代表规定了名称的属性,而客体则是属性的具体值。声明的客体可以是另外一个资源,也可以是直接的字面(1iteral)表示,即可以是用URI规定的资源或简单的用一个字符串或者是由XML定义的其它原始类型。Literal//\\‘]P,oC口》h_o誊2器|霎山&2.山弋\/7Resource鋈≤Ifu酣l『司飞缓编旒筋缓笏磁貔荔滋、—。’——●‘—‘一————一——’—_—‘——————Propertyif;;画叵I⋯valu墨e:}·:Statement图2.3RDF基本数据模硝2.3.2OWL语言(WebOntologyLanguage)OWL[3¨是W3C丌发的一种网络本体语言,用于对本体进行语义描述。由于OWL是针对各种需求、在DAML+OIL的基础上改进而开发的,所以一方面要保持对DAML+oIL/RDFS的兼容性,另一方面又要保证更加强大的语义表达能力,同时还要保证描述逻辑(DL,DescriptionLogic)的可判定推理,因此,W3C组织针对各类特征的需求制定了三种相应的OWL的子语言,即OWL—Lite、16 第二章语义Web基本概念OWL—DL和OWL-Full,而且各子语言的表达能力是递增的。(1)OWL.Lite:OWL.Lite是表达能力最弱的子语言。它是OWL.DL的一个子集,当用户本体中类的层次结构比较简单,并且只有简单的约束时,适合使用它来描述本体。例如,在需要把一个已存在的辞典移植到另一个差不多简单的概念层次时,OWL.Lite可以做得又好又快。(2)OWL—DL:与OWL.Lite相比,OWL—DL的表达能力要丰富许多,它的基础是描述逻辑(DL)。因此它就能够提供描述逻辑的推理功能,计算机从而可以知道本体中的分类层次,以及本体中的各种概念是否一致。(3)OWL—Full:OWL—Full是OWL的三种子语言中表达能力最强的一个,适合在那些需要非常强的表达能力,而不用太关心可判定性或是计算完全性的场合下使用。不过也正是由于表达能力太强这个原因,用OWL.Full表示的本体是不能保证可判定推理的。这三种子语言之间的关系是:(1)每个合法的OWL.Lite都是一个合法的OWL.DL;(2)每个合法的OWL.DL都是一个合法的OWL.Full;(3)每个有效的OWL.Lite结论都是一个有效的OWL—DL结论;(4)每个有效的OWL.DL结论都是一个有效的OWL.Full结论。用户在选择使用哪种语言时主要考虑的是:(1)选择OWL.Lite还是OWL.DL主要取决于用户需要整个语言在多大程度上给出约束的可表达性;(2)选择OWL—DL还是OWL.Full主要取决于用户在多大程度上需要RDF的元模型机制(如定义类型的类型以及为类型赋予属性);(3)在使用OWL—Full而不足OWL.DL时,推理的支持不可预测,因为目前还没有完全的OWL.Full的实现。2.3.3OWL基本元素(BasicElements)一个OWL本体中的大部分元素是与类(class)、属性(property)、类的实例(instance)以及这些实例问的关系有关的。本节给出应用这些元素所必需的语言成分。(1)简单的具名类17 第二章语义Web基本概念~个领域中的最基本概念应分别对应于各个分类层次树的根。OWL中的所有个体都是类owl:Thing的成员。因此,各个用户自定义的类都隐含的是owl:Thing的一个子类。要定义特定领域的根类,只需将它们声明为一个具名类(namedclass)即可。OWL也可以定义空类,owl:Nothing。(2)个体除了描述类,我们还希望能够描述类的成员。我们通常认为类的成员是我们所关心的范畴中的一个个体(而不是另一个类或属性)。要引入一个个体(individual),只需将它们声明为某个类的成员。(3)属性一个属性是一个二元关系。有两种类型的属性:●数据类型属性(datatypeproperties),类实例与RDF文字或XMLSchema数据类型I、RJ的关系。·对象属性(objectproperties),两个类的实例间的关系。(4)属性特征·传递属性(TransitiveProperty):如果一个属性P被声明为传递属性,那么对于任意的x,Y和z:P(x,y)与P(y,z)蕴含P(x,z)·对称属性(SymmetricProperty):如果一个属性P被声明为对称属性,那么对于任意的x和y:P(x,y)当且仅当P(y’x)·函数型属性(FunctionalProperty):如果一个属性P被标记为函数型属性,那么对于所有的X,y,和z:P(x,y)与P(x,z)蕴含),=z·逆属性(inverseOf):如果一个属性P1被标记为属性P2的逆属性(owl:inverseOf),那么对于所有的X和y:PI(x,y)当且仅当P2(y,X)·反函数型属性(InverseFunctionalProperty):如果一个属性P被标记为反函数型的,那么于所有的X,Y和z:P(y,x)与P(z,x)蕴含y=z(5)属性限制·allValuesFrom:对于每一个有指定属性实例的类实例,该属性的值必须是由owl:allValuesFrom从句指定的类的成员。◆someValuesFrom:对于每一个有指定属性实例的类实例,该属性的值至少有一个是由owl:someValuesFrom从旬指定的类的成员。●Cardinality(基数限制):这一约束允许对一个关系中的元素数目做出精确限制。18 第二章语义Web基本概念·hasValue:使得我们能够根据“特定的”属性值的存在来标识类。因此,一个个体只要至少有“一个”属性值等于hasValue的资源,这一个体就是该类的成员。(6)类和属性之间的等价关系(equivalentClass,equivalentProperty):当我们要把一些本体组合在一起作为另一个新的本体的一部分时,能说明在一个本体中的某个类或者属性与另一个本体中的某个类或者属性是等价的,这往往很有用。但实际应用中我们需要小心,因为如果要组合的那些本体是互相矛盾的(例如“所有A都是B”,与“A并不全是B"),那么在组合得到的结果中就不会有满足条件的扩展(没有满足条件的个体或关系)了。(7)个体间的同一性(sameAs)描述个体之间相同的机制与描述类之间的相同的机制类似,仅仅只要将两个个体声明成一致的就可以了。(8)不同的个体(differentFrom,AllDifferent)这一机制提供了与sameAs相反的效果。(9)复杂类OWL另外还提供了一些用于构建类的构造子。这些构造子被用于创建所谓的类表达式。OWL支持基本的集合操作,即交、并和补运算。它们分别被命名为owl:intersectionOf,owl:unionOf,禾lowl:complementOfo此外,类还可以是枚举的。类的外延可以使用oneOf构造子来显式地声明。同时,也可以声明类的外延必须是互不相交(disjoint)的。2.3.4本体构造编辑工具目前,用于开发本体的环境和工具有很多,但较为成熟、知名度较高、较为常用的工具不超过1O种,!tlOntolingua、OntoSaurus、Protege、WebODE、OntoEdit等。判断一种工具是否具有较高的使用效率和是否便于用户使用,主要有以下几个标准:(1)是否可以供用户免费使用、下载,或者可以在线使用。(2)提供免费软件下载的官方网站是否有英文版本。(3)编辑工具的使用是否支持Unicode字符集。(4)最后一次版本更新的时l'白J。19 筇二章语义Web基本概念r51编辑工具在使州中,其输入和输出格式是舌支持XML,或语法基十XML的本体标记语言,以及W3C、ISO或IEEE等国际权威组织的推荐标准。(6)编辑丁只是否提供可视化的本体表达视图。f7谋种:[具的名称是否经常出现在相关文献、网页-p作为被引用的实例,或者介绍它的文献和网页经常成为文档中的参考引文。奉文中采片j九扫荚田斯坦稿大学研制丌发的protege。利用protege的原冈是:它是基于Java的"发工具,并日=Jl=放源码,提供了较好的本体和知识库的,r发环境,支持而向对象方式的奉体构建,与目前的整个发展方向更能够融合,而且它使用较为简单,可以很快的构造、修改本体。protege有OWL可视化插件,虽然暂时还没有中文版本,但是却支持中文输入浊。所以,利用protege可以比较方便的构建本体和知静{库。protege界丽如图2.4所示。幽2.4protege编辑界而 第二章语义Web基本概念第四节本章小结本章介绍了语义Web的概念以及本体的基本知识,包括语义Web的起因、发展,本体的定义、分类、构建、描述语言、构建工具、在语义Web中的地位以及在信息检索领域的研究和应用。21 第三章语义检索技术第一节语义检索概述对于语义检索的定义,[33]认为语义检索是一种在获得了被检索的数据或信息的语义的基础上,通过对语义进行明确的表示和处理来使得结果在意义上,而不仅仅是在语法或结构上满足检索需求的系统或方法。[34]认为:语义检索是对检索条件、信息组织以及检索结果显式赋予了一定的语义成分的一种新的检索方式。从这两个定义上我们可以看出,语义检索本身还是信息检索,但它更加强调“语义",这是与传统关键词检索的区别。传统的信息检索无论是采用元数据还是采用文本,其基础都是文本字符串匹配,自然语言的不确定性极大限制了检索的查全率和查准率。语义检索关注信息资源的真实含义,不仅仅停留在文字表面,从而保证了信息检索的质量。语义检索赋予检索条件语义,对于用户各种形式的输入,通过加入特定的背景信息或者语义关系,使得计算机能够更好理解用户输入,用户和计算机在对检索入口的理解上达到更大的一致;语义检索赋予信息组织语义,是指在建立索引时,不再局限于以词作为索引入口,而是以语义实体、语义属性和语义关系作为切入点,使信息检索具有更强的推理分析能力;语义检索赋二i;检索结果语义,是指检索的结果将不再是纯粹的文本,而可能是语义实体、语义属性和语义关联,从而拓展了语义检索的应用空问。除此之外,语义检索通常使用本体描述语言来描述语义实体、属性和关系,本体描述语言的推理能力为查询中进行推理分析提供了条件。一类非常典型的推理应用就是:在本体知识库已经建屯的情况下,用户可以使用类和属性的继承关系对查询进行扩展,提高查全率。例如,查询与“水果”相关的文档,在知识库中,由于“节果”是“水果”的子类,所以,可以将“={i}:果”在后台作扩展后再进行检索。语义检索在国外的研究也才刚刚起步。目前所见的语义检索系统在检索过程和模式上既引入了新的元素,又在很大程度类似于传统的检索系统。以检索模型[351为例,其检索流程人致如图3.1所示:用户通过检索界面以关键词或文本形式输入检索条件,系统首先对检索条件进行一定的解析,转化为本体检索语22 第三章语义检索技术言(例如RDQL或SPARQL等),在语义信息库中找到符合条件的三元组(本体实例),最后,再在文档库中找出与这些三元组相匹配的文档,并把它提供给用户。这种检索方式,存在着一个缺陷,即在知识库不完备的情况下,查全率会受到很大的影响。假定,对于用户输入的检索词,在知识库中没有找到相应的本体实例,则以这种检索方式,检索到的文档数为零,而如果直接利用关键词在文档中进行查找反而能够找到检索结果。在这种情况下,本体的引入在一定程度上反而降低了查全率。而事实上,建立完备的知识库又是一件相当困难的事情。KBBase图3.1基丁.本体的语义检索系统流程示例第二节语义Web开发工具Jena为了实现语义检索,我们要对本体进行操作,将本体持久化到数据库中,再以三元组形式读取数据,最后还要用到本体查洵语言查询结果。这样,我们就需要语义Web丌发工具的支持。Jena是由HPLabs(http://www.hpl.hp.corn)开发的Java丌发工具包,用于语义web中的应用程序开发。Jana是开源的,它的框架主要包括:23 第二章语义检索技术(1)以RDF/XML、三元组形式读写RDF:Jena文档中有一部分详细介绍了RDF和JenaRDFAPI,其内容包括对JenaRDF包的介绍、RDF模型的创建、读写、查询等操作,以及RDF容器等的讨论。(2)支持RDFS、OWL、DAML+OIL等本体的操作:Jena框架包含一个本体子系统(OntologySubsystem),它提供的API允许处理RDF文件格式的本体数据,也就是浇,它支持OWL、DAML+OIL和RDFS。本体API与推理子系统结合可以从特定本体中提取信息,Jena还提供文档管理(OntDocumentManager)以支持对导入本体的文档进行管理。(3)利用数据库持久化数据:Jena允许将数据持久化到硬盘中,或者是OWL文件中,或者是关系数据库中。本文中处理的本体就是利用Jena持久化后存储在mySQL数据库中的。(4)查询模块:Jena提供了ARQ查询引擎,它实现SPARQL查询语言,从而支持对模型的查询。另外,查询引擎与关系数据库相关联,这使得查询存储在关系数据库中的本体时能够达到更高的效率。(5)基于规则的推理:Jena支持基于规则的简单推理,其推理机制支持将推理机(inferencereasoner)导入Jena,创建模型时将推理机与模型关联以实现推理。第三节SPARQL查询语言简介3.3.1SPARQL简介随着网络的发展,会有越来越多的数据使用RDF格式保存,因此一种新的需求产生了,即要求用一种简单方法在RDF数据中查找特定信息。SPARQLt36】这个功能强大的新查询语言填补了这个空白。SPARQL是W3C的RDF数据工作组设计的一种查询语言和协议,用于RDF数据的奄询。Berners.Lee指出,SRARQL查询语言作为“分层蛋糕图表”的最后一层的最后一步,如果没有它,那么可以说这一“蛋糕"是不完整的,最后的这一步也可以况是最大的一步,因为它能够连接现有的Web和语义w曲。利用SRARQL服务器,可以将大量的现有数据提供给语义Web使用。SPARQL为开发者和终端用户提供写入和使用跨越多方面信息(如个人资料、社会网络和数码物件等的冗数据)搜寻结果的途径。SPARQL办提供方法整合异质资料来源。24 第三章语义检索技术SPARQL构建在以前的RDF查询语言(例如rdfDB、RDQL和SeRQL)基础之上,它实际上包括3个独立的部分:查询语言规范、SPARQL数据访问协议以及查询结果XML格式。下面将简单介绍SRARQL如何用于查询信息。SRARQL为语义Web用户提供查询语言,就如同SQL为相关数据库用户提供查询语言。比较SPARQL查询语言与数据库中的SQL查询语言,都包括SELECT部分和WHERE部分。其中的不同点主要有:(1)SPARQL所使用的元素都是URI具体实体(Entity)。(2)SPARQL里面的WHERE部分主要足三元组以及三元组之间的关系,同时三元组里面可以有变量,所有变量以问号开始。(3)SPARQL旱面的操作比较简单,没有SQL罩面Max,Min之类的操作。例如,想查询ChenQiushuang老师指导的学生写的论文。在本体持久化到mySQL数据库(以三元组形式存储)后,可以利用如下SPARQL语句进行查询:select?paperWhere{Chen_Qiushuanginstruct?student.?studenthas-paper?paper.)用关系代数表示如图3.2所示:丌l枷per//冈\\\兀Chen—Qiushuang-->?subject?student-->?objectIO?predicate=instructlH?student-->?subject?paper--->?objectlO?predicate=has—paperl图3.2SPARQL查询关系代数图25 第三章语义检索技术3.3.2在Jena中使用SPARQL在Jena中使用SRARQL目前可以通过叫做ARQ的模块得以实现。ARQ是一个属于Jena的支持RDF查询语言SPARQL的查询引擎。ARQ有如下特点:(1)支持多种查询语言:·支持SPARQL查淘●支持RDQL查询·支持ARQ查询(ARQ查询引擎自身的查询语言)(2)支持多种查询引擎:·普通目的引擎(Generalpurposeengine)●远程登录引擎(Remoteaccessengines)·重写入SQL(RewritertoSQL)ARQ的开发很活跃,但它还不是标准Jena发行版本中的一部分。但是,可以从Jena的CVS仓库或者自包含的下载文件中获得它。Java应用程序也可以直接调用Jena的SPARQL功能。第四节语义检索研究及实现一般的语义检索问题都可以归结为找一组由一定关系和限制连接的数据的|、uJ题。在本体中,一个语义检索就相当于一个带有受限制的目标节点和属性弧的查询图。由此可以得出这样的结论:关键词检索转化到形式化检索的问题可以简化为由关键词检索来构建等价的查询图的』、uJ题【3171。首先给出以下定义。定义1(知识库):D=(己,,R)称为一个知谚{库,其中,U≠o称为论域,尺是U上的一簇等价关系。本体也是一个知谚{库。在本文中为了便于定义本体知识库内元素之间的联系,定义本体知识库D为有向图Go=。其中:C表示类集合,尺表示关系集合,,表示实例集合,£表示常量集合,函数f:(CU,)×(LU1UC)_R定义了在D中的所有三元组。本体中的类、属性或实例统称为本体中的元素。元素集合可以包含一个元素、多个元素或者为空。定义2:特征资源集合{el:{CURUIU£’表示所有的类、关系、实例以及常量(在本文中将常量当作实例)。表3.1列出了特征资源和知识库的区别。左边一列是一个关于汽车的简单本体的特征资源,右边一列是一个描述语26 第三章语义检索技术句集。也就是况,知识库不但包括本体中的类集合、关系集合(即属性集合)、实例集合以及常量集合,还包括决定三元组的函数集合。定义3:检索关键词(Keyword)K是一个术语(term)包。我们假设一般用户可能不知道关于本体的任何信息并且可以输入任意的关键词。定义4(形式化查询关系路径):形式化查询关系路径F是包含于G。的有向图G,=。其中:y表示变量节点的集合,通过关系连接到其它的节点,函数f:(八JCUy)×(八JCUVU三)专R表示在F中的所有三元组。,由这些三元组的交构成:F=‘nLr、⋯一nf。。定义5(关系路径的链):关系路径,的一条链(chain)是,中由查询节点开始到一个叶节点结束的一段路径。构成关系路径F的链的数目等于F的叶节点数。链的长度为构成一条链的三元组的个数(即连接的属性个数)。表3.1本体特征资源和知识库的I又:别特征资源知识库isA(Car,Vehicle)Car(e1),hasType(SportsCar,c1),hasLuxury(Cabriolet,e1)isA(Motorbike,Vehicle)Car(c2),hasType(SportsCar,c2),hasLuxury(Metallic,c2)isA(Luxury,Feature)Car(c3),hasType(SportsCar,c3),hasLuxury(Metallic,c3)isA(Type,Feature)Car(c4),hasType(SportsCar,c4),hasLuxury(Metallic,c4)hasLuxury(Luxury,Vehicle)Car(c5),hasType(FamilyCar,c5),hasLuxury(GPS,c5)hasType(Type,Vehicle)Car(c6),hasType(FamilyCar,e6),hasLuxury(Automatic,c6)isA(Cabriolet,Luxury)Car(c7),hasType(FamilyCar,c7),hasLuxury(Automatic,c7)isA(Metallic,Luxury)Car(c8),hasType(FamilyCar,c8),hasLuxury(Automatic,c8)isA(Automatic,Luxury)Car(c9),hasType(FamilyCar,c9),hasLuxury(Automatic,c9)isA(GPS,Luxury)Car(el0),hasType(FamilyCar,c10),hasLuxury(Metallic,clO)isA(SportsCar,Type)Car(el1),hasType(FamilyCar,c11),hasLuxury(Metallic,cl1)isA(FamilyCar,Type)Car(el2),hasType(FamilyCar,c12),hasLuxury(Metallic,C12)Car(e1)Car(c2)Car(c3)Car(e13),hasType(FamilyCar,c13),hasLuxury(Metallic,c13)Car(c4)Car(c5)Car(c6)Car(e14),hasType(FamilyCar,c14),hasLuxury(Automatic,C14)Car(c7)Car(c8)Car(c9)Car(e10)Car(el1)Car(e12)Car(c13)Car(e14)3.4.1语义检索过程概要当用户输入检索关键词时,概念扩展模块将通过扩展方法将用户输入的关键27 第三章语义榆索技术训扩展成知识库内相对应的木体资源,并计算出用户输入的关键词与本体内的资源的相似度,输出相似度大于某一个值的本体概念,使得,tit,、输入的关键词与本体语言更为接近,以指导用户查询。然后由关系路径告咖模块列举出己扩展的不同意义的苁键刊资源构建的查询罔。在这个过程中,}|_!有可能发现‘些在关键词榆索中缺少的关系或者概念。再后找到荚键词在本体库中的关系路径.并将这些关系路径返同给用户,然后用户可以浏览这些路径并确队最介适的路径,再通过语义奁询模块查询出相关的实例。最后将这些候选的形式化查嘶挂jr排序,对这个排序问题我们将从两个方而进行研究:关键ld检索模型(KQM)种知识库检索模型(KBM)。至此系统将返吲个已经按语义排序的列表,用户叮以使用其中任意一个形式化查询。图33形象地表示了系统实现语义检索的概要过程。下面将详细介绍概念扩展、语义词典WordNet、查询图构建以及查询语上J排序等功能。3.42概念扩展降『33宜现语义{盘采概要过删概念扩展的上要目的是为了使得榆索关键涧叶]的何一个术语扩展为知识席中牛H应的本体资源(像类、属性、实例、常量等)并得到奉体资源的名称以及标签。在系统中我们使用了三种扩展方法:(11直接扩展:就是将用户输入的关键词中的术语不做加上(字符大小写的改变除外)直糍扩展到知识库中。r21语义扩展:主监是应用语义中典WordNet米找与其语义相关的词(像同一皋◆』。一、M,M要|耋|m笆㈣№誊|∑哼吟舢踅懿熏 第三章语义检索技术义词、父类词等)。(3)语形扩展:该方法使用了字符串比较技术(例如字符串填充,字符串截减等方法)来找出语形相似的词。这种方法主要适用于实例、常量。采用以下步骤(如图3.4)来实现概念扩展:r直,V圈匝困直语义扩展展或’。展是——!一一,匿匝困足图3.4概念扩展实现步骤29 第三章语义检索技术第一步:先将关键词检索中的每个术语直接扩展到本体库中(如果是扩展到类的集合就直接扩展,如果扩展到实例集合除了可以直接扩展外还可以使用语形扩展)。第二步:如果在完成第一步后发现在本体库中没有对应到相应的本体资源,我们在语义词典WordNet中查找与这个关键词语义相关的词(语义扩展),再执行一次第一步。第三步:如果在步骤第二步之后仍没有扩展到相应的本体资源则退出,把这个关键词列入普通的关键词进行全文搜索。在概念扩展过程中,检索关键词中的每一个术语都会扩展到知识库D中,并且用P(eIf)(尸(PIf)∈(0,1】)来表示每一个扩展方法的先验概率值,即扩展质量,其中:t代表关键词中的术语,e代表知识库D中的资源。由于关键词中的每个术语的概念扩展是基于知识库的,所以在扩展之后的词语不再是简单的字符串,而是代表了用户想要的一系列的资源。3.4.3WordNet概述WordNet是目前一个比较成熟的语义词典。它足在Princeton大学认知科学实验室的GMiller教授指导下开发的,实际工作始于1985年。作为心理语言学家的实验品,WordNet的最初设计并不是受计算语言学的影响或直接为自然语言处理服务的。80年代术,由于语义计算的需要,计算语言学家发现了WordNet并将之应用于自然语言处理中涉及语义分析的诸多领域。WordNet的基本思想简单明确,它的形式化做得很彻底。目前,WordNet已经成为一个事实上的国际标准,从发展的事实不难看出,WordNet框架的合理性已被词汇语义学界和计算词典学界所公认。WordNet的独特之处在于它是依据词义而不是依据词形来组织词汇信息。WordNet使用同义词集合(Synset)代表概念(Concept),词汇关系在词语之问体现,语义关系在概念之fbJ体现。WordNet构造的核心是如何表示词汇概念节点,以及在这些概念节点之间建立起各种语义关系。WordNet将英语词汇组织为一个同义词集合,每个集合标明一个词汇概念;同时力图在概念l’HJ建立不同的指针,表达上下位、同义反义等不同的语义关系。这样就构成了一个比较完整的词汇语义网络系统。经过这样的过程,原本抽象的概念就被形式化了,变得具体而且30 第三章语义检索技术可以通过词汇意义加以操作,概念之间还可以建立多种语义关系的联系和推理。这是在传统的义素分析法外简单而有效地表达词汇语义的另一种新的方式和途径。WordNet现在已经发布了很多版本,本文中的系统是基于WordNet2.0版本进行的。WordNet主要包括名词、动词、形容词和副词四类实词,虚词不予考察。在上述四类实词中,WordNet着重描写的是名词和动词。WordNet中词汇概念的语义关系主要包括:上下位、同义、反义、整体和部分、蕴含、属性、致使等。JWNL是一个访问WordNet的软件包,它除了能够访问数据之外,还提供关系发现和词法的处理功能。3.4.4查询图构建查询图构建是将已扩展的本体资源构建成所有侯选的查洵图(如图3.5)。我们将根据以下三个规则来构建查询图:(1)由检索关键词扩展得到的或者在构建查洵图的过程中得到的资源类(class)都将作为变量节点;(2)资源实例(instance)和常量(1iteral)作为叶节点;(3)资源属性(property)作为查询图的边(弧)。关键词扩展后得到的资源之间并没有表达出明确的联系,但在构建查询图的过程中,可以得到关系属性,使得扩展后得到的资源之间有了明确的含义。所以我们利用这种特点得到最终的查询图。如果一个已经构建好的查询图包含了查询集合F的所有资源,我们亩接将它作为它候选的查询图;否则我们取包含最大的组分的查询图作为候选查洵图。由于SPARQL语言本身就是一个基于图形化的查询语言,所以查询图可以直接被转化为相应的SPARQL形式化查洵语句。31 第三章语义检索技术本体巾的资源图3.5查询图构建过祥3.4.5查询语句排序值计算查淘图构建在做完以上步骤之后,最初用户输入的检索关键词己转化为多个形式化查询语句,接下来如何为终端用户输出他最想要的形式化查询语句成为一个重要问题。我们定义概率P(FID,K)为:在知谚{库D中,由检索关键词K构建成一个形式化查询F的可能性(日U概率)。而这种町能性就代表着用户对形式化查询,语句的期望程度(即排序值),这样我们就把查询语句排序值计算J、U】题转化为求条件概率问题。现在问题是如何得到这个概率,根据Bayes公式有:曩FID㈣=等篙铲(3.1)其中P(F)是形式化查询F的先验概率;P(D,KIF)足由已构建的形式化查32 第三章语义检索技术询Jf’产生知识库D利天键倒K阴戳翠。找1IJl阪定争仟知识庠D利争仟天键例K是相互独立事件,因此P(D,KIF)可以分成两部分:P(D,KlF)=P(DIF)P(Kl,)(3.2)因此P(FlD,K)可以化为P(F[D,K):丝雩罢磐(3.3)尸(D)尸(K)、然后再根据Bayes公式:P(DIF):—P(—FIiD)-P(D)(3.4)P(,)、7P(KIF):—P—(F—IiKi)P_(一K)(3.5)、7P(F)、7可得到:尸(,I。,K)=!型型斧ocp(FIO)尸(FIK)(3.6)、’。7爿F1、、。7(3.6)其中P(FfD)表示在已确定知识库D的情况下,形式化查询,出现的概率;P(FK)表示在已确定关键词K的情况下,形式化查洵F出现的概率;尸(F)表示事件F的先验概率。在本文中,我们假定所有形式化查询事件都符合均匀分布,且概率尸(F)在所有候选的形式化查询中都相等。因此,形式化查询排序模型可以很自然地分成两个概率模型:基于检索关键词概率模型KQM(P(FK))和基于知识库概率模型KBM(P(FID))。(1)基于检索关键词概率模型(KQM)基于检索关键词概率模型表示由事件检索关键词产生一个形式化查询事件的概率。一般来说,这个模型又可以看成检索关键词的扩展相似度和关联度这两个比较直观的部纠38】。①检索关键词的扩展相似度对于在检索关键词中的每一个术语t,术语匹配相似度表示f,与知识库中资33 第二章语义检索技术源e的相似程度,记为p(乞If)。检索关键词的扩展相似度记为proximity(F,K),该值由关键词扩展时术语匹配相似度P(eIt)决定,与形式化查询,和用户输入的术语成正相关关系。可根据公式3.7得到:proXimity(嘲=瞥(3.7)如果一个形式化查询语句的扩展相似度越高,它与用户的查询意图就越接近,在排序时也应该越靠前。很明显排序函数要包含检索关键词中术语的扩展相似度。②检索关键词的关联度检索关键词的关联度记为relevance(F,K),该值由检索关键词K和形式化查询F共同拥有的资源比决定。对于检索关键词K来说,共同拥有的资源比是指由检索关键词K中的术语直接扩展到形式化查询F中的本体资源的个数与检索关键词K中术语个数的比值。相应的,对形式化查询F而言,共同拥有的资源比是指在形式化查询F中由检索关键词K扩展得到的本体资源个数与形式化查询F中本体资源个数的比值。可根据公式3.8得到:relevance(F,K)=-!鱼!兰!Q!丛!!12三壁!!×l生三兰!Q!丛!!.尘三旦!i(3.8)lt∈Kle∈F、7如果某些形式化查询与用户输入的关键词的关联度很高,在排序时这些形式化查询语句就应该排在靠前。也就是说,在组成形式化语句的本体资源中拥有用户输入的术语越多,检索关键词的关联度就越高。因此,基于关键词概率模型(KQM)可以表示为:P(FIK)芘proximity(F,X)×relevance(F,K)(3.9)(2)基于知识库的概率模型(KBM)基于知谚{库概率模型表示每一个形式化查询所包含的信息型39】。在信息理论中,一个事件包含的信息量是由该事件发生概率的负对数来表示的。也即如果X是一个离散的随机变量,其出现可能结果‘,恐,⋯,_的概率分别是P。,P2,⋯,Pn,也即P(X=誓)=B,其中层≥0且∑只=l,一个事件包含的信息量可以由公式f=l34 第三章语义检索技术3.10表示:l(X=xi)=一Inpi(3.10)当对所有f=l,2,⋯,n,B=l/n时,∑I(x=xi)最大,也即事件x=xi所包含的信息量最大。”‘考虑到我们所使用的是查询图,我们用查询图形模式来确定其所含信息量。以图3.6和图3.7所示的查询图为例,图3.7中的查询图的结构比图3.6中的查询图的要复杂些。因此,图3.7中的查询图查询结果中包含的信息多于图3.6中对应值。园has.paperTripleChain《C至hen_垂Qiush匦uangD一!⋯⋯-一锾,劲一二⋯⋯』⋯图3.6简单查询图(—pape~r▲j)haS.paperTriple<9-ChaininstructTriple@叵垂垂D:⋯⋯I一图37穷搪杏商图在查询图%中,查询节点是以整体事件来考虑的,从它开始到结束的路径被看作一个事件串。每一个事件都足一个三元组,而且我们假定各个三元组r’都35A少霹T矿‰ 第三章语义检索技术是相互独立的事件。选择某一个关系可能性越小,r’包含的信息量也就越多。假设有一个资源拥有一个关系集合{尺’},选择关系,’∈{R‘}来构建三元组f’的概率就被认为是事件f’的概率。为了确定每个关系属性的权值,我们将关系r’在知识库D中出现的频率(记为frq(r‘))作为选择这个关系的概率。这个频率反应了这个关系在知识库中重要性,如果越多的三元组共享这个关系,那么这个关系就越重要。因此,事件f’的概率可以表示为:即卜焉尚(3.11)假设从查询节点到叶子节点中有一个带有三元组的事件串(f’∈chain),我们就将事件串中拥有最小概率的三元组的概率当作该事件串的概率,其表达式为:P(chain)=min{P(r)}.。.(3.12)对于在形式化查询中拥有多个事件串的情况,由查淘结果节点连接的事件的概率由各个独立事件串的概率共同决定的,也即:月P(Event,)21--IP(chaini)(3.I3)j-I凶此事件所含的信息量可山公式3.14计算:I旷)2一ln(P(EventF))2-In订。h。in.。FP(chaini)(3.14)然后我们用si舯oid函数对上面得到的结果进行矫jF【40】:1尸(尸lD)oCI口一南l(3.15)为了更好地计算出某个事件的信息量,用户可以根据经验适时的调整参数口(口∈(O,iX》。最后,根据公式(3.6),(3.9)和(3.15)得到P(FlD,K)的值:尸(,lD,K)oCproximity(F,K)xrelevanceq(FⅨ)×I口一南I(3.161)查询语句排序模块根据P(FD,K)值将候选的形式化查询语句排序并输出结果。第五节本章小结语义检索是当前信息检索领域中的一个研究热点,近些年来,这方面的工36 第三章语义检索技术作也取得了一定的进展。本章首先介绍了语义检索的基本概念、语义Web开发工具Jena以及三元组查询语言SPARQL。在此基础上,介绍了一种将关键词检索转化为形式化检索的语义检索方法并将检索结果进行排序。37 第四章多本体语义检索第一节多本体的基本概念几乎所有的基于本体的信息检索方法中本体都是用来明确描述数据源的语义的。但是应用本体的方式有所不同,通常有三种不同的方式:单一本体方式、多本体方式和混合本体方式。(1)单一本体方式单一本体方式使用一个全局本体为语义规范提供一个共享词库,所有数据源关联到这个全局本体(如图4.1)。全局本体也可以是若干专用本体的组合。通过导入其它的本体模块,使得若干单一本体组合在一起。使用单一本体方式,如果一个数据源提供这个领域的不同的视图,比如具有不同的粒度级别,那么找到最小的本体关联就非常困难。另外,单一本体方式易受到数据源变化的影响。数据源的变化使得全局本体发生变化,进而影响到其它数据源的映射发生变化。这些不足导致了多本体方式的产生。一。_。—。。。●。。。——一●●——GlobalOntology~⋯一:·一、。-j,,-,-,|<刍p=)|芦习图4.1单一本体方式示意图(2)多本体方式每一个数据源由它自己的本体来描述(如图4.2)。在这种方式下,每个资源本体可以单独歼发,没有必要建立和所有数据源一致的共同本体。但是实际上,缺乏一个共同的本体来进行不同资源本体的比较。为了解决这个问题,需要一个额外的表示方式来定义本体之间的映射。(3)混合方式为了克服单一本体方式和多本体方式的不足,出现了混合本体方式。和多本体方式类似,每个数据源的语义信息由它自己的本体来描述。但是为了使资38 第四章多本体语义检索源本体之间可以比较,建立了一个全局共享本体(如图4.3)。回巨⋯f习白图4.2多本体方式示意图,,,,GlobalOntology///,,\、、\\\..1r—Ontolo斟2}.1。nt。-。gy3图4.3混合本体方式示意图第二节多本体语义检索的提出随着语义Web中信息量的增多,本体的数量也越来越多。由于Web环境的分御性和开放性,本体是在并发环境下开发的,这就必然会导致在已有可重用本体的情况下,人们还会继续重新开发新的本体,致使在同一个领域内存在众多重复本体。可以预见在不远的将来,描述相似领域的本体数量也会呈指数级增长。这些本体的概念分类可能不同,概念间的关系也町能不同,并且相同的概念可能用不同的术语来表示。另外,本体的构造是一个非常费时费力的过程,而建立完备的本体知识库是一件相当困难的事情,在知识库不完备的情况下,语义查询的查全率可能会受到很大的影响,在许多场合,单个本体不能充分完成目标任务,必须联合多个本体来完成。在对某领域的信息进行语义检索时,如果基于同一领域中多个39 第四章多本体语义检索本体协同进行,则可能避免应用单一本体信息不完备的情况,获得更全面的结果。因此在本文中,我们在基于语义Web的本体检索的基础上,提出了一种基于多个同领域本体协同的语义检索方法,该方法流程如图4.4所示。厩稿斓l关键词|{计算关键词与;L奎竺塑查堡i臣固l本体持久化到iI数据库巾;脚隆圉●l嚣:一关鬻}l谍型I,忸哥广¨一,]l输出语义检i索结果图4.4多本体语义检索流释图该方法首先根据用户输入的检索关键词计算与对应本体的相关度,根据相关度选择本体并把本体持久化到数据库中;同时根据检索关键词进行概念扩展以及查询语句的构建,并计算查询语句的排序值;将持久化到数据库中的本体利用本体映射工具进行映射;根据本体映射结果以及构建的查询语句查找关系 第四章多本体语义检索路径问的关联;根据这些关联对关系路径进行分组;再利用分组结果以及查询语句的排序值计算分组的排序值;最终利用SPARQL语言查询出对应的结果。在以下几节中,我们将分别介绍本体排序、本体映射、关系路径间关联以及关系路径分组排序。第三节应用检索关键词对本体排序Web上存在众多的同领域本体,可以用Web上的多个本体作为基础,分别在每个本体上对用户输入的关键词进行概念扩展,寻找查询路径,并对查询结果进行排序。但是Web上的领域本体可能与用户查询的关键词非常相关,也可能与用户查询的关键词毫不相关,因此需要考虑选择哪些作为操作的本体。对一个给定领域进行语义检索,假设事先已经存在一些该领域的本体,可能还会从Web上搜索得到更多该领域相关本体,这时就需要计算用户输入的关键词与这些本体的相关度,根据相关度对本体排序,以决定应用哪些本体进行语义检索。4.3.1关键词与本体的相关度计算本体排序计算模块可根据用户输入的关键词从Swoogle中搜索相关本体,判断这些本体是否已经存储在数据库中,若没有记录则应用JenaT具将其加入到数据库中。排序计算模块接下来根据用户输入的检索关键词计算这些数据库中的本体与关键词的相关度,选择相关度较高的本体应用于语义检索【411。根据以下步骤计算输入关键词与本体的相关度:(1)类匹配指标CMM(ClassMatchMeasure)类匹配指标反映本体中概念类的类名对输入关键词的匹配和包含程度,可以根据公式(4.1)计算:CMM[o]-口IE[o,T】I+∥IP[o,T】l(4.1)其中口>∥,我们这里设定口=0.6,∥=0.4。E[o,T】=∑∑I(c,t)(4.2)41 第四章多本体语义检索,,。、f1:iflable(c)=tI(c’t)2恼flable(c)≠t(4.3)e[o,T】=∑∑J(c,t)(4.4)ceC[o】tET(4.5)其中C【o】代表本体O中类的集合,T代表检索关键词集合,E(o,T)代表本体中类名与检索关键词相同的类集合,P(o,T)代表本体中类名包含检索关键词的类集合。(2)中心性指标CEM(CentralityMeasure)中心性指标反映一个类在本体中的代表性,可以根据公式(4.6)(4.7)计算:D[c】一掣c锄[c】-1一I—面产I(4·6)2观M[0】2吉善cem[c](4-)其中cem[c】代表本体中单个类的中心性指标值,CEM[o]代表本体中所有扩展类的中心性指标值。H[c]=maxp。P{root。—bbotton。)(4.8)D[c】-maxp∈P{root。—bc>(4.9)其中,H【c】代表包含概念C的从本体根节点到叶节点的路径的长度,D[c】代表包含概念C的从本体根节点到c节点的路径的长度,C∈E[o,T】,P[o,T】,n=IE[o,T】l+}P[o,T】l。(3)密度指标DEM(DensityMeasure)密度指标反映一个类在本体中与其它类或实例的关联程度,可以根据公式(4.10)(4.11)计算:6dem[c]=∑qIS;l(4.10)42o疵咖删咖似勰汀汀嚣 第四章多本体语义检索DEM【o】』n喜d呻】百(4.11)其中dem[c】代表本体中单个类的密度指标值,DEM[o】代表本体中所有扩展类的密度指标值。S是类c的实例、父类、子类、兄弟类、直接关系、间接关系组成的集合。其中c∈E[o,T】,P[o,T】;n=IE[o,T]『+IP[o,T】I。(4)语义距离指标SSM(SemanticSimilarityMeasure)语义距离指标反映本体中候选类之间的相互距离,可以根据公式(4.13)(4.14)计算:l⋯.ssm(ci,ej):{面面面磊#i丽“1引(4.13)10ifi=jssM[。]2而.J‰11-1芝㈦ssm(ci,cj)(4.14)其中,ssm(c;,cj)代表本体中两个类之间的语义距离指标值,SSM[o]代表本体中所有扩展类之fHJ的语义距离指标值,Cicj∈E[o,T],P[o,T],c;山ci代表Ci,Cj问的路径。综上结果,检索关键词对本体的相关度记为score[o],可根据公式(4.15)-得到:4score[o]=∑corM[i](4.15)f=l其中M={CMM,CEM,DEM,SSM},@为对应的权值。4.3.2根据关键词与本体的相关度选择本体由以上方法对相关本体评估,假设关键词K对n个本体O.,o:⋯一O。的相关43劲@器.mM乱.吼nM=吐娜州酬砒踮M池.莹岬饵bIlk跗|lA协§mA&洚 第四审多本体语义检索度计算结果分别为:且,R,,R。则基于关键训K到本体O、检索的可能性为n:———!L—f_1,2,,n叫焉+咒+⋯+R(416)换句话说,由关键词K构建的查询关系路径F到知谚{库q,皿Dn相匹配事件(D/K)服从如下分巾:fqD2Dn、lnnJ从巾选出m(msn)个相关度最大的本体O.,o:O,t再在这m个本体P进行关系路径构建。44.1本体映射定义第四节本体映射本体映射指对十奉体A中的每一个实体(e曲‘y.包括概念、属性、实例等)t在奉体BL}l找到与其语义相同或最为相似的对等实体的过程。通常返对等关系是通过一对一函数柬表示的,映射对建市在分析实体柏似度的基础之土。映射过程并不会改变小体A和B,H是产生映射对集合作为输出,图4s给出了奉体映射的实质。H45率体映射实质△_A含▲ 第四章多本体语义检索我们给出本体映射形式上的定义如下:定义6(本体映射):本体映射(OntologyMapping)是指对两个存在语义级概念关联的本体,通过基于语法、概念实例、概念定义、概念结构、语义字典等方法找到两个本体间语义的联系,实现将源本体的元素映射到目标本体元素上的过程。本文中,将本体映射关系定义为如下函数:Map({eil),{ei2),Ol,02)其中:O。为源本体,O:为目标本体,{ei。)和{ei:)分别为本体O。,O:的元素集合。若两个元素问存在映射关系,则记为Map(ei。)=ei:,其中ei。∈O。,ei:∈O:。4.4.2本体映射基本方法目前,按本体定义模型,本体映射方法可以分为:(1)基于语法的方法:指进行概念相似度计算时没有考虑概念语义的映射方法;(2)基于概念实例的方法:指在进行本体映射时利用概念的实例作为计算概念相似度的依据;(3)基于概念定义的方法:指进行映射时主要参考本体中概念的名称、描述、关系、约束等概念定义;(4)基于概念结构的方法:指在映射时参考了概念fHJ的层次结构,如节点问关系(如兄弟、父子关系等)。若按照映射技术分类,现有的方法可分为:(1)基于规则的方法:指在映射过程中定义了一些启发式舰则;(2)基于统计学的方法:指在映射过程中采用了统计学中的方法;(3)基于机器学习的方法:指在映射过程中采用了机器学习技术;(4)综合方法:在一个映射发现系统中同时采用多种寻找本体映射的方法。4.4-3本体映射过程一个本体映射的过程包括以下步骤:(1)范化:即把待映射的本体用同一语言表示;(2)相似度的计算:计算概念之间的语义相似度;(3)根据概念问的相似度,按照一定策略确定映射关系;45 第四章多本体语义检索(4)领域专家根据领域约束对映射结果进行修正。一个完全自动化的本体映射过程可以没有人工的参与,即在上面的第(4)步中,系统可以通过机器学习或者其它的技术实现对结果的自动修正和完善,这也是本体映射研究的难点和重点。4.4.4本体映射衡量指标首先需要通过手动建立两个本体的映射关系【421,作为评估的标准。假设利用相应的本体映射工具找到各自正确的映射数量记为I,找到的错误映射数量记为F,没有找到的正确映射数量记为M。则本体映射质量可以采用如下公式进行评估:Precision=I/(I+F)(4.17)Recall=I/(I+M)Overall=1-(F+M)/(I+M)=(I—F)/(I+M)(4.18)(4.19)F。measure=(b×b+1)×Precision×Recall/(b×b×Precision+Recall)(4.20)其中Precision(查准率)表示映射的可靠程度;Recall(查全率)表明找到的映射在真『F映射中的所占比例;Overall表示该工具的综合映射能力,其中Precision和Recall源于信息检索领域,已经被引用到其它的映射学习中。值碍注意的是,Precision署IRecall都不能很精确的评估映射的质量。Recall可以通过返回所有可能的映射牺牲Precision的方法得到最大限度的提高。同样的Precision可以通过只返回几个正确的映射牺牲Recall的方法得到最大限的提高。Overall依赖于Precision_;}lRecall,所以它代表了一个单一的合适的度量映射质量尺度。不同于Precision和Recall,如果映射中错误的映射多于正确的映射,t[JPrecision<0.5,那么Overall就出现了负值。F.measure也是综合Precision和Recall的一个参数,其中b是非负实数。4.4.5本体映射方法和工具目前已经出现多种本体映射方法和工具,在这罩对它们进行简要的介绍。GLUE是华盛顿大学的AnHainDoan等提出了一种在语义Web环境下进行本 第四章多本体语义检索体映射的方法。GLUE系统通过机器学习对概念的实例进行分类,然后利用实例在概念中出现的联合分布概率来计算概念问的相似度并结合领域约束和启发知识确定映射关系。S.Match算法是基于模式的匹配系统,它基于WordNet矢I识库,采用SAT(propositionalsatisfiability)方法,处理树型结构的映射,分解图(树)匹配问题为结点集合匹配问题,通过匹配具有相似语义的概念,返回语义关系。Cupid方法是微软研究院J.Madhavan等人实现的一个通用的模式匹配方法,该方法结合了语言和结构方面的模式匹配技术,输入的模式首先表示为一个图,然后自顶向下和自底向上相结合进行遍历该图。整个过程分为三个阶段,分别为语言相似度计算、结构相似性计算和映射生成。SF方法通过对输入图的结点使用字符串匹配,然后进行迭代计算,直至达到一个收敛点。该算法仅仅覆盖了部分的本体定义,不能处理循坏定义的本体。COMA是一个合成的模式匹配工具,和Cupid相比具有更复杂的结构,而且处理过程中有可能反复运算。COMA与GLUE和SF系统相比具有绝对优势。此外,COMA还提供一个可扩展的简单和混合匹配算法库,并支持一个强大的框架来实现映射结果的组合。QOM采取COMA中的合成匹配算法,是基于舰则元素的匹配,但改善了匹配算法的有效性,从而能够实现快速匹配相似元素,是最注重效率的算法。Anchor-PRoMPT是本体合成和本体装配的工具,采用了复杂的敏捷机制匹配可能的元素。它是混合的装配算法,输入足两个本体(内部表示为图)及其相关词汇的关系配对集合(可以用编辑距离算法束识别),通过分析输入本体的内部路径,从而决定词汇在相似路径上相似位置的出现频率。最后基于频率和用户反馈决定匹配候选集。Falcon.AO[43】是一个用来进行本体自动化映射的工具,应用了两个对比的方法,一个是语言学上的对比,叫做LMO,另一个是图形上的对比,叫做GMO。GMO将LMO映射得到的输出结果当作外部输入,然后GMO产生额外的映射结果,因此透过LMo和GMo,可以获得可靠的映射结果。Falcon—AO用Java实现。整个系统的过程如下所示:(1)输入两个本体;(2)执行LMO,得到匹配的组合对;(3)计算语言上和结构上的相似性;47 第四章多本体语义检索f41如果语占上的相似性非常低,低于某一指定的值,而且结构上的相似性也很低,就判定两本体无映射,离丌F出con—AO;(5)将LMOJ“生的匹配的组台对作为额外的实体,输入到GMO;(6)执行GMO,获得本体问的映射:(7)州下列的j个舰则整合LMO和GMO产生的映射;规则1:肖语南上的相似性稍微比结构上的相似性商,则LMO产生的结粜总是H以被Falcon-AO接受。规则2:当晤占上的相似性很高,而且结构上的相似性很低,则只有GMO产牛的商相似性的映射·u以被FalCon—AO所信赖和接受。规则3:盘u果语言上的相似性很低,则所有GMO产生的映射都可以被Falcon.AO所接受。(8鹚i束并输出映射结果。图46为用Falcon.AO对两个本体进行映射的结果。剀46FalconAO映射结枭 第四章多本体语义检索第五节不同本体中关系路径间的关联用户输入的关键词经过概念扩展后对应到多个同领域本体中的资源。由于不同本体可能是由不同的人建立的,描述同一概念使用的术语可能相同,也可能不同,因此不同本体中的关系路径之间就存在了一系列关联。首先给定关系路径的一些定义:定义7(子关系路径):关系路径F=‘nLn⋯一L中的一部分三元组构成的形式化查询关系路径F’-Z"klr、%r、⋯一厂、气。(1m);若曩与最的子关系路径Ekt⋯nf:mn⋯.n『2;+m存在关系路径映射Map(5)鸪’,则称关系路径互与关系路径E存在多链包含(结果包含)关系,记作互c互。即关系路径E与关系路径E的一个子关系路径E’存在关系路径映射。此外互比互多出一些链,这样互比鼻多出一些限定条件,结果包含的范围就要小。(2)不同的关系路径问存在多点包含关系(如图4.11所示)若关系路径E与关系路径E的链数目相同,具有相同的叶节点,但链的长度不同,则称作关系路径互与关系路径E存在多点包含关系,记作Ec互FlF2岛缫霉阑一一~、has—paperL~J罕E一夕v▲/一一L一~、has-papcrL\pap_er——夕@面囝南(:面i)has—paper《薹毽垂圆图4.10荚系路径间存在彩锌旬.含5l 第四章多本体语义检索FlF2o▲(画≥≮P望e三—夕▲has—paper瞅iCheniQ。i—ush,.uan移Z一一⋯⋯一—”—⋯1”12k图4.11关系路径间存在多点包含第六节关系路径排序输出4.6.1关系路径排序值计算关键词K构建的查询关系路径F与本体知识库D(i=1,2,⋯,m)匹配时,匹配可能性为:聃郴,=等学=型鼍产㈡2,,=尸(口IK)以FlK,口)在确定了口的情况下,事件口可以看作与事件K无关,因此:P(Fp,K):—P(Di,KI—F)P(F):—P(FD,.)—P(FIK)。⋯7P(D,K)P(,)∞P(Fl皿)尸(FK)(4.22)由公式(4.21)(4.22)和(4.16),可以得出:P(FlD,,K)oCp,P(Fl口)尸(FK)(4.23)其中P(FK),P(FI口)分别由摹于检索关键词概率模型和基于知识库概率模型计算。对每个查询关系路径F,由(4.23)式可汁算相应的排序值。52甲9罢一▲~|9磊~证 第四章多本体语义检索4.6.2关系路径排序结果分组经过上小节关系路径排序值计算,得到了用户输入的关键词检索转化到语义检索的关系路径的相关排序值,根据这些数值的大小,可以确定相应关系路径对应的检索结果的重要度。由于是对于同领域的多个本体进行的语义检索,因此不同关系路径问可能出现本章第四节中列举的多种情况。为了更加便于用户对结果的观察选取,可以对关系路径排序的结果进行以下分类。(1)当关系路径节点完全映射时,检索的关键词扩展到的资源相同。其中当属性不完全映射时,这些资源通过不同属性连接起来;当属性也完全映射时,这些资源通过有映射关系的属性连接起来,这样关系路径问就存在映射。由于检索的结果为同一概念的内容,可以将不同本体中关系路径节点完全映射的情况合并成一大组,大组内的各个小组为存在映射关系的关系路径集合,或一个单独的节点完全映射的关系路径。各小组关系路径集合的排序值由公式(4.24)得到【45】:,竹(x)=疗∑w口?i=1Zw,活l0≠0,af>0,W>O)(4.24)其中用小(x)作为各小组的排序值,ai为每个关系路径F的排序值,w为相应的权值,X为阶数,n为小组内的关系路径数。当阶数发生变化时m(x)值满足:m(+oo)_lim.所(x)=max{al,a2,..刀。)X--'1'+∞聊(一00)=limm(x)=min{aI,口2,⋯%)(4.25)(4.26)由于存在映射的关系路径检索的结果为相同意义的内容,若相同的关系路径在较多本体中出现,则说明检索的内容具有普遍性,或者说用户更希望得到这样的检索内容。因此小组的排序值应大于小组内的平均排序值,向组内最大排序值逼近,所以J可以取小组内所有关系路径个数X=刀。因为存在映射关系的关系路径小组内关系路径的权值相等,所以小组排序值为:53 第四章多本体语义检索埘(x)=(,2>1)(4.27)单独节点相映射的关系路径X=n=l,所以作为只有单独一条关系路径的小组排序值就为拂(功=ai。大组内的各个小组间按照小组排序值进行排序。大组的排序值可用如下公式(4.28)计算:M(x)=刘i=1N=∑w聊玎l—I∑wIf_lJJv∑w科f=IⅣywj—lf=I(4,28)其中优,为每个小组的排序值,w为相应小组的权值(w或wb),N为大组内的小组数。存在映射的关系路径的权值Ⅵ大于单独的关系路径的权值w^。(2)当不同本体中得到的关系路径存在多链包含关系时,说明关系路径之间存在结果包含,可以将这种情况下的关系路径合并成一大组。大组内可能存在有映射关系的关系路径,将这些关系路径合并成小组,小组排序值可按公式(4.27)计算。其它单独的关系路径每个作为--d,组。存在映射的关系路径的权值为Ⅵ,译独的火系路径的权值为W^。大组内的各个小组按照得到的小组排序值进行排序。大组的排序值可用如下公式(4.29)计算:M(工)=Ⅳ∑w孵f=lⅣ∑wi=1@=const≠O)(4.29)其中聊i为每个小组的排序值,w为相应小组的权值(w或),x为固定ow常数的阶数,Ⅳ为大组内的小组数。(3)当不同本体中得到的关系路径存在多点包含关系时,这些关系路径问存在某些联系,可以将这种情况下的关系路径也合并成一大组。大组内可能存在有映射关系的关系路径,将这些关系路径合并成小组,小组排序值可按公式(4.27)计算。其它单独的关系路径每个作为--d,组。存在映射的关系路径的权值为M,单独的关系路径的权值为嵋。大组内的各个小组按照得到的小组排序值进行排 第四章多本体语义检索序。大组的排序值可由公式(4.29)量t算。(4)除以上情况外,其它关系路径被分别单独划分。第七节本章小结本章首先介绍了多本体的基本概念,将同一领域中多个本体应用于语义检索,可获得更全面的检索结果。然后利用上一章介绍的语义检索方法得到检索关键词的形式化查询关系路径,并利用本体映射技术获得各个本体的形式化查询关系路径间的联系。根据这些关系路径间的联系对它们进行分组排序,获得用户期望的检索结果。55 第五章多本体语义检索系统实现本文根据第四章提出的多本体语义检索技术,丌发了一个多本体语义检索系统,用于对教育领域的信息进行语义检索。第一节系统开发环境在系统丌发过程中,开发工具涉及到程序语言、丌发平台、开发环境、服务器、本体工具以及其它资源,其具体信息如表5.1所示:表5.1系统信息程序开发语言Java系统开发平台WindowsXP程序开发环境Eclipse3.2+JDKl.6+SWT存储服务器mySQL本体编辑工具protege3.2本体映射.L具Falcon-AO其它开发资源WbrdNet、Jena、J、VNL第二节功能模块及系统流程多本体语义检索系统包含以下功能模块:(1)本体排序模块:计算用户输入的关键词与本体的相关度,进行本体选择。(2)本体映射模块:利用本体映射工具找出本体问的映射关系。(3)关键词扩展模块:将用户输入的关键词扩展成本体中的资源。(4)关系路径构建模块:构建关系路径并计算排序值。(5)关系路径映射模块:利用已得到的本体映射关系找出关系路径I’日J的关联。(6)关系路径分组排序模块:对关系路径分组并计算分组排序值。(7)语义查询模块:利用SPARQL查询关系路径的结果并输出。系统模块|、日J运行流程如图5.1所示:56 第五章多本体语义检索系统实现图5.1系统模块问运行流科图第三节教育系统领域相关本体的建立教育领域相关本体中包括人员、组织、出版社、学科、地理位置、文章等概念,以及连接这些概念问的属性以及概念的一些具体实例等。根据系统测试需要,我们用支持OWL的本体编辑工具protege建立了两个相近似的教育领域本体AcaOnt01.owl、AcaOnt02.owl以及一个只拥有几个概念的简单本体simple.owl。另外从Swoogle上搜索到了教育领域本体EducationTechnology.owl,57 第五章多本体语义检索系统实现该本体参照《中国图书资料分类法》中G4教育类建立,本体包含:113个概念类,28个对象属性,8个数据类型属性。我们自己构造的三个教育领域相关本体的框架结构如图5.2—5.4所示:图5.2simple.owl结构第四节系统的实现与结果为了便于对上节建立的教育领域本体用SPARQL进行语义检索、加快检索速度以及更方便地存储,我们利用Jena对以上本体进行持久化处理后存储在mySQL数据库中。一般情况下用户利用搜索引擎进行检索时,习惯输入要查询的名词,而省略连接名词的动词。例如用户想查询ChenQiushuang老师指导的学生写的论文,可能输入关键词集合“ChenQiushuangstudentpaper”,而省略“instruct、has.paper”。首先根据用户输入的关键词计算与存储于数据库中本体的相关度,以决定选用哪些本体。用关键词集合“ChenQiushuangstudentpaper”对以上四个本体进行相关度计算得到结果如表5.2所示:表5.2本体相关度结果检索关键词Chen_Qiushuangstudentpaper本体相关度AcaOnto1.OWl0.369AcaOnt02.OWl0.354simple.owlO.536EducationTechnology.owl0.11258 第五章多本体语义检索系统实现图5.3AcaOnt01.owl结构59图5.4AcaOnt02.owl结构 第五章多本体语义检索系统实现本体AcaOnt01.owl与本体AcaOnt02.owl结构相似,因此相关度值也较为接近;本体simple.owl因为只有很少概念,因此当查询概念“studentpaper"时具有较高的相关度;本体EducationTechnology.owl为一个较大本体,拥有较多概念,而且不包含查洵关键词“paper”,因此相关度较小。在此我们选择相关度较高的前三个本体进行语义检索。在进行语义检索前我们对选择的本体进行本体映射,找出存在映射关系的概念、属性等(见表5.3)。表5.3三个教育领域本体间的映射关系AcaOnto1.owlAcaOnt02.OWl映射概念documentpaperconference__paperconference_paperjournal_paperorgamzatmnorganizationpublishing_companypresssch001schoolpeoplepersonoffieel"Officialteacherstudentdoctoratestudentdoctorgraduate_studentundergraduate_studentundergraduateresearchareascientific_disciplinehardwaresoftware映射属性publishing-bypublish—byinstructed—byhold··a--post-·inteach—inhas-paperstudy—inauthorhas.authorinstruct.studenthas—student60 第五章多本体语义检索系统实现续表5.3AcaOnto1.OWlsimple.owl映射概念paperpeoplestudentteacher映射属性instructed-byinstructed—byinstruct.studentinstruct—studentauthorhas—authorhas·paperhas—paperAcaOnt02.owlsimple.owl映射概念paperpersonpeoplestudentteacher映射属性instructed—byhas.studentinstruct—studenthas.authorhas—authorhas-paperhas—paper最后,根据多个本体|’IJJ白勺映射关系,得到的最终查询结果如图5.5所示。 第五章多本体语义检索系统实现诘输^查渴关睦闯chen』lu!h姐gstudent"r圜查诲结果“i湍鳟器:。g-。Ci;::高i5搿:盘磊::;;j:;=;;名您:二一。】ch。[M“u且rs“15h姐rm矿5‘”d。砒】>““dent—m一哪。)一却”““i船;::荨0;::0i:器::::j::}”’“。’”“’’4”。!j;i|_陆f絮芸?严¨叶掣h哪r““h0十“h““!“舻““。‘”’⋯“q”“““““。“““‘chi怒茹嚣蕊岫计⋯’岫Ⅳm盯“h0小““““-降I55检豢爿i粜I’我们在检索系统中输入两个人名“YanKFanWanKWenbin”和一个概念“paper”作为天键词时,由丁在个奉体巾不存舟实例“YanEFan”,在,j一个本体中不存在实例“WangWenbin”,剩下个奉体包龠这两个实例。于是,第二个奉体的关系路径为前两个本体关系路径的交集,即第二个本体的关系路径多链包含前两个本体的关系蹿稃,最终查询结果如图56所1c。’我们去掉奉体simpleowl叶]的概念student,再次检索“ChenQiushuangstudentpaper”的时候,由丁本体simpleowl不再包岔概念student,因此“ChenQiushuang”直接与“paper”联系,这样在小同本体中就存在了多点包含关系的关系路径,舟瑚结果如图j7所不。 第五章多本体语义检索系统实现;酗献壹询关建词盥竺!J粤脚5』enbl“paper圈查询结果“7喘孑“””’一08”“””“一“””’“⋯’≈薪‰嚣硝”’。⋯。"钾gJ自曲L旷m一⋯r]_却8p。r[M"s,⋯∞t”“]√酬56检索结果2诘输^查询关键词chen』1ush⋯tuaeat㈣r圜查询结果Chert』lushuw-m—student)一)student—m8ⅢP8r】_却"。r【MUPS]“i:0;?;::;0;:;::矗j:璺::::三::}“’4一⋯“。””Chengiushu蛆fmas—P"。r)一专"47【P9p。r』2㈣9r_03】chen_日⋯‰rmas一8r)b4一(驯thor)>studen‘[Long_Leilchen』⋯h~mas—er)b8P—m⋯uth。r)>nud。ntⅢ“‘』enbin] 第五章多本体语义检索系统实现第五节本章小结本章根据上一章提出的多本体语义检索技术,开发了一个多本体语义检索系统,用于对教育领域的信息进行语义检索。首先介绍了在系统开发过程中涉及到的开发环境及开发工具,接下来介绍了教育领域本体的建立以及根据用户需求选择本体的过程。然后通过本体映射技术获得各个本体间的映射关系,用于得到查询关系路径间的联系。最后根据用户不同的输入,展示了系统的检索结果。 第六章总结和展望随着全球信息化时代的到来,各类信息急剧增长。人们一方面面临海量信息,另一方面又很难找到自己需要的信息。现有的信息检索系统普遍存在这样一个问题:参与匹配的只是关键词的外在表现形式而非它们所表达的概念,所以经常返回大量的无关信息;另外,用户很难简单地用关键词或关键词串来准确地表达真正需要检索的内容,有时对同一个概念,不同的用户可能使用不同的关键词来查询,检索效果不尽如人意。语义Web的发展和本体的应用为语义检索的研究和发展提供了一个新的途径和机遇。由于Web环境的分布性和开放性,本体是在并发环境下开发的,本体异构问题及本体重复问题就不可避免。对于同领域的多个本体,可以进行本体的合并,得到一个完备的领域本体,这样有利于语义检索获得更理想的结果。但很多情况下,由于同领域的多个本体结构、规模、内容相差较大,难以获得理想的合并结果。本文提出了一种基于多本体的语义检索方法,该方法将用户输入的检索关键、词进行概念扩展以匹配到多个本体中的资源;把检索问题转化为生成形式化查询关系路径的问题;根据检索关键词进行领域本体的选择;再利用本体映射技术找出不同形式化检索关系路径问的关联;最终返回给用户检索结果。根据以上多本体语义检索方法,我们丌发了一个多本体语义检索系统,用于对教育领域的信息进行语义检索。根据用户输入的不同检索关键词,系统返回经过多本体语义检索的结果。相比较对单一本体进行语义检索的结果,经过多本体语义检索的结果更加全面。系统由于需要对所选择的本体进行本体间映射,在本体数量增长时,本体映射表成几何级增长。因此,根据用户输入的关键词进行本体选择时,我们只选择相关度最大的若干个本体进行语义检索。从某种意义上说,本文只涉及了语义检索研究的部分环节,文中还存在着许多不足和需要改进的地方,为了能够真正实现可以实际应用的语义检索系统,还需要在以下方面做出努力:(1)建立更全面、科学的本体。本体的建设需要很多专家的共同参与。想要提高语义检索的查准率和查全率,必须要依赖于全面并且合理的本体。(2)添加个性化的检索方案。除了检索到用户需求之外,还应该可以允许用65 第六章总结和展望户对搜索结果进行添加、删除、调整等操作,以及标识用户的喜好。(3)自然语言处理。自然语言处理不仅在于概念的抽取,更高层次上还应该可以理解自然语言的语义,使得根据自然语言的语义能够检索出更精确的结果。(4)更加准确客观的语义映射系统,可以使得本体间协作更加流畅。(5)更友好的检索过程和反馈界面。良好的检索过程和用户界面,能使用户获得更加清晰的检索信息。 致谢时光如梭,在南开三年的学习与生活行将结束,收获良多,回忆良多,感慨良多!回首这一段令我最难忘的时光和走过的道路,我首先要向我的导师饶一梅老师致以最真挚的谢意。在这三年中我取得的每一分进步都浸透着饶老师的心血和汗水。她严谨求实、一丝不苟的作风也永远是我今后学习的榜样;她循循善诱的教导和不拘一格的思路给予我无尽的启迪;她不仅授我以文,而且教我做人,给我以终生受益无穷之道。在此向饶老师致以最衷心的感谢和最诚挚的祝福!在这三年的学习与生活中,陈秋双老师和王秀峰老师也给予了我无微不至的教导和帮助,在此对两位老师致以我最衷心的感谢!同时感谢同届的王文斌同学,王文斌是我学习科研中与生活中的益友,给予了我无私的帮助;他认真负责的工作态度和求真的科研精神是我学习的榜样。祝愿他在今后的学习、工作和生活中能取得更加骄人的成绩。也要感谢实验室里所有老师和同学,与他们共同学习,共同进步,在课余时间共同娱乐的时光都将成为我最美好的记忆。感谢一起渡过三年美好时光的全系同学,是同学之间友谊为我的生活增添了许多色彩,这将是我最美好的网忆。感谢系罩所有的老师,感谢你们在学习和生活上给我的无尽帮助,是你们一路引领、一路教海,帮我打下了深厚的专业基础。你们兢兢业业的工作态度,诲人不倦的教风是我学习的榜样。最后,衷心感谢本论文的所有评阅专家和老师,感谢你们提出的宝贵建议。67 参考文献【1】http://news.netcrafl.com/archives/2009/01/16/january_2009_web_server_survey.html【2】中国且联网络信息中心.第23次中国互联网络发展状况统计报告.http://www.cnnic.net.cn/uploadfiles/pdf/2009/1/13/92458.pdf【3】Bemers—LeeT’eta1.TheSemanticW曲.ScientificAmerican,2001:28—37【4】LDing,TFinin,AJoshi,eta1.Swoogle:ASemanticWebsearchandmetadataengine,Proc.13thACMConf.onInformationandKnowledgeManagement,2004一ids.snu.ac.kr【5】http://www.powerset.corn/【6】http://archive.intellidimension.tom/【7】GuarinoN,MasoloC,VeterGOntoseek:Content—basedAccesstotheWeb.IEEE.IntelligentSystems,1999,14(3):70—80【8】ArpirezJC,Gomez—PerezA,LozanoA,eta1.(ONTO)2Agent:AnOntology—basedWWWbrokertoselectontologies.In:Gomez—PerezA,BenjaminsRV(eds)ECAI’98WorkshoponApplicationsofOntologiesandProblem-SolvingMethods.Brighton,UnitedKingdom,1998:16—24.【9】http://ontobroker.semanticweb.org/【10】http://www.ontoweb.org/【ll】http://www.ontoknowledge.org/f12]http:Hwww.cyc,corn/【13】ScalableKnowledgeComposition(SKC).retrievedApril10,2008,fromhttp://www.db.stanford.edu/SKC.[14]http://www.foaf-project.ore./【15】http://www.aiai.ed.ac.uk/-entprise/enterprise/[16】廖明宏.本体论与信息检索.计算机.J:程,2000,26,(2):56.58【17】韩毅.基丁检索相关性转移的本体论检索系统.图j}S情报f:作,2003,20,(2):194.197【18】董慧.基于本体论和数字图15馆的信息检索.情报学报,2003,(6):648—652【19】多种语言农业术语汇编.RetrievedA.pril15,2005,fromhttp://www,fao.org/agfis/Magazine/News_Items/Agrovoc_Zh.htm/【20】徐振!j。,朱阔益,张维明等.李由.基丁.本体的语义信息奁洵系统的研究与实现.计算机.[样,2002,28f12):6.8【2l】万捷,滕至f;fI.本体论在基于内容信息检索中的应jf!j.计算机一I:样,2003,29,(4):122.123,152【22】李景.本体理论在文献检索系统中的应川研究..匕京图忙馆⋯版社,2005,3【23】http://iws.seu.edu.cn/services/falcons/objectsearch/index.jsp【24】TBemers—Lee.SemanticWebRoadmap.citeseerx.ist.psu.edu,1998【25】TBerners—Lee.TheSemanticWeb.LCSSeminar.TechnicalReport,MIT:MITLCS,2002 参考文献【26】SmderR,eta1.Knowledgeengineering:principlesandmethods,Dataandknowledgeengineering25.1998:161—197.【27】PerezAGBenjiaminsVR.OverviewofKnowledgeSharingandReuseComponents:OntologiesandProblem-SolvingMethods.WorkshoponOntologiesandProblem·SolvingMethods:LessonsLearnedandFutureTrends(IJCAl99),deAgosto,Estocolmo,1999:1—15【28】袁媛.领域本体建设的方法论和T具研究冲国人民大学硕+学位论文,2004.6【29】贾君枝,陈幼华.汉语框架网络知识本体构建研究.中国图书馆学报,2007,33,(2):56—64【30】ResourceDescriptionFr踟ework(RDF).http://www.w3.org/RDF/【31】OWLWeb本体语言指南http://www.w3.org/TR/2004/REC-owl-guide一2004021O/【32】MatthewHorridge,HolgerKnublauch,AlanRectorl,eta1.APracticalGuidetoBuildingOWLOntologiesUsingTheProtege—OWLPlug·inandCO-ODEToolsEdition1.0.TheUniversityOfManchester2004【331张雷.语义搜索的模型和应用.博士论文,上海交通大学,2005【34】余传明.基于本体的语义信息系统研究一理论分析与系统实现.博十论文,武汉大学,2005【35】ValletD,eta1.AnOntology—BasedInformationRetrievalModel.fromhttp://nets.ii.uam.es/publication/eswc05.pdf【36】SPARQLQueryLanguageforRDFW3CRecommendationl5January2008.fromhttp://www.w3.org/TR/rdf-sparql-query/【37】QZhou,CWang,MXiong,eta1.SPARK:AdaptingKeywordQuerytoSemanticsearch.LectureNotesinComputerScience,2007-Springer[38】NenadStojanovic,LjiljanaStojanovic.ALogic—basedApproachforQueryRefinementinOntology-basedInformationRetrievalSystems,2004【39]Anyanwu,K.,Maduko,A.,Sheth,A~SemRank:rankingcomplexrelationshipsearchresultsontheSemanticWeb.In:ProceedingsofWWW2005,Chiba,Japan,ll7-127.ACMPress,NewYork,2005【40】StojanovicN.,Stojanovic,L.,ALogic-basedApproachforQueryRefinementinOntology·basedInformationRetrievalSystems.In:Proceedingsofthe16thIEEEInt.Conf.onToolswithArtificalIntelligence,IllinoisUSA,IEEEComputerSocietyPress,Los.Alamitos,2004【4l】HAlani,CBrewster.Ontologyrankingbasedontheanalysisofconceptstructures.Proceedingsofthe3rdinternationalconferenceonKnowledge,2005-portal.acln.org【42】PavelShvaiko,JeromeEuzenat.ASurveyofSchema—BasedMatchingApproaches.JournalonDataSemanticsIV,LNCS3730,PP.146·171.2005.[43】WHu,YQu.Falcon—AO:Apracticalontologymatchingsystem.WebSemantics:Science,ServicesandAgentsontheWorld,2008一Elsevier【44】NJian,WHu,GCheng,eta1.Falcon—ao:Aligningontologieswithfalcon.IntegratingOntologiesWorkshopProceedings—oaei.inrialpes.fr,2005【45】毕燕丽.加权幂平均函数的单调性及其应用.曲卑师范人学学报(白然科学版),Journalof69 参考文献QufuNormalUniversity(NaturalScience).编辑部邮箱,2008年02期【46】田田.信息检索中多本体及智能人机交互的研究.山东大学硕士论文,2006[47】宋炜,张铭.语义网简明教程.高等教育出版社.2004年6月【48】陆建江、导长亚非、苗壮等.语义网原理与技术.北京:科学出版社.2007年3月:5—31.【49】Ontology存在论.本体论.1956http://hi.baidu.com/msingle/blog/item/abfff013f4d840d5f6039e7c.html70 个人简历姓名:杨帆性别:男出生日期:1983年7月28日民族:汉籍贯:北京市毕业学校:南开大学专业:控制理论与控制工程个人情况:学习经历:200I/09—2005/06:南开大学信息技术科学学院白动化系学习2005/06获T学学士学位2006/09—2009/06:南开人学信息技术科学学院控制理论与控制j1:程专业攻读硕士在学期间发表的学术论文:《基于判别规则的最小不一致知识子集识别》,东南人学学报英文版,2008年3期71

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭