基于显式语义研究本体概念匹配算法

基于显式语义研究本体概念匹配算法

ID:5187992

大小:29.50 KB

页数:7页

时间:2017-12-05

基于显式语义研究本体概念匹配算法_第1页
基于显式语义研究本体概念匹配算法_第2页
基于显式语义研究本体概念匹配算法_第3页
基于显式语义研究本体概念匹配算法_第4页
基于显式语义研究本体概念匹配算法_第5页
资源描述:

《基于显式语义研究本体概念匹配算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于显式语义研究本体概念匹配算法  摘要本体相似度计算是本体领域的研究热点。本体相似度计算可以利用本体概念匹配算法进行衡量。本文针对本体合并工具prompt中本体概念匹配算法在计算本体概念相似度方面的不足,将基于维基百科的显式语义分析方法应用于本体概念相似度计算中,有效提升本体相似度计算的准确性和效率。【关键词】本体概念匹配Prompt显式语义分析维基百科近年来,本体已经被广泛的应用到知识工程、语义Web、人工智能、数据集成、信息检索等研究领域。关于本体相似度计算也随之成为了研究热点。为了计算本体之间

2、的相似度,可以利用本体概念匹配算法进行衡量。通过本体概念的相似度描述本体之间的相似度,进而完成本体映射和本体其他相关计算。本文首先分析了当前主要的本体合并工具中的本体概念匹配算法,针对本体概念匹配算法在计算本体概念相似度方面的不足,将基于维基百科的显式语义分析方法应用于本体概念相似度计算中,以此来有效的提升本体相似度计算的准确性和效率。1显式语义分析7为了克服本体合并工具prompt在本体概念匹配中忽略了概念的语义信息这个缺陷,采用显式语义分析取代字符匹配来提高本体概念匹配的准确性和效率。显式语义分析

3、(ExplicitSemanticAnalysis,简称ESA)是一种类似于广泛应用与信息获取领域的向量空间模型的方法。EvgeniyGabrilovich和ShaulMarkovitch提出了基于维基百科的ESA算法,它不是通过比较词的权重向量来比较查询的词和文档之间的相关性,而是通过比较与词相关的维基文档的权重向量来计算相似度。每个维基概念都是由出现在这个文章中的词向量来表示,向量的矢量是通过TFIDF模型得出的权值,这些权值表明了词和概念之间联系的紧密度。由于这个方法使用的维基概念都是人们所认识

4、的、所熟知的概念,而不是像LSA方法中通过纯粹的统计方法得出来的潜在概念,所以被称为显示语义分析。基于维基百科的ESA算法相对于其它语义分析方法取得了更好的性能表现,表3给出了不同计算方法间的性能比较。基于维基百科的ESA算法将维基百科数据集中每篇文档对应于一个词条,利用文档中的词语解释词条的语义内涵,词语的权值通过TFIDF计算,每个词条就表示为一个带权向量。然后按照词语建立倒排索引,每个词语可以表示为词条集对应多维空间中的向量,词语之间的语义相关性就可以通过向量距离进行计算,见表3。7文档T={w

5、i}表示输入文档,表示与{wi}相对应的TF》IDF向量;用表示词语wi的倒排索引向量,其中kj为词语wi相对于词条cj(cj∈{c1,c2,…,cN})的倒排权值,N为维基百科中所有词条的数目;文档T对应为长度为N的语义解释向量V,其第i纬度词条cj对应的词条权重为∑wi∈Tvi·kj;文档Ti和Tj之间的语义相似度可以用其对应向量Vi和Vj夹角的余弦值表示,词语wi和wj之间的语义相似度可以用对应向量Ki和Kj夹角的余弦值表示:EvgeniyGabrilovich和ShaulMarkovitch提

6、出的基于维基百科的ESA算法是针对西文文本的,中文文本与西文文本相比,词与词之间并非用空格分开,需要借助相关技术将词从词条的正文中抽取出来,这一过程称为分词。本文使用的是中科院的ictclas分词工具,在此向作者表示感谢。由于中科院的分词工具分词粒度过细,造成中文词语间相似度没有预期理想,对基于维基百科的ESA算法进行了改进,在分词的基础上加入了维基百科词条的正文中词条链接信息,以提高中文词语间相似度的准确性。2实验研究7基于维基百科的ESA算法的编程实现分为两部分:预处理中文维基百科数据生成词向量和

7、根据词向量对两个中文词语语义相似度进行计算。预处理的具体步骤为:先解析2.9G的中文维基百科的XML文件,对解析后的内容进行繁体转简体处理、分词处理和链接信息提取,然后建立每个条目的属性向量,共有800751个词条,接下来对属性向量进行倒排索引建立词向量,共2239226个词向量,最后进行压缩词向量和标准化词向量。改进后的基于维基百科的ESA算法在中文词语语义相似度计算上准确性接近了ESA算法在西文词语语义相似度计算上的准确率,计算效率4ms左右,相比传统的潜在语义分析方法在准确性和效率上都有显著提高

8、。将改进后的基于维基百科的ESA算法替代Prompt的原有本体概念匹配算法,即用基于维基百科的ESA算法的计算部分代码替换Prompt中进行概念匹配的源代码。基于维基百科的ESA算法的计算部分代码如下:protectedstaticdoubleComputeSemanticRelatedness(stringFirstText,stringSecondText,CompressedTVectorListTVList){CompressedTVectorF

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。