语义相似性测度方法研究综述_黄世国.pdf

语义相似性测度方法研究综述_黄世国.pdf

ID:52947711

大小:379.83 KB

页数:3页

时间:2020-04-02

语义相似性测度方法研究综述_黄世国.pdf_第1页
语义相似性测度方法研究综述_黄世国.pdf_第2页
语义相似性测度方法研究综述_黄世国.pdf_第3页
资源描述:

《语义相似性测度方法研究综述_黄世国.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第25卷第2期计算机应用与软件Vol125No.22008年2月ComputerApplicationsandSoftwareFeb.2008语义相似性测度方法研究综述1,22黄世国耿国华1(西北大学信息科学与技术学院陕西西安710069)2(福建农林大学计算机与信息学院福建福州350002)摘要语义相似性测度是信息检索中的关键技术。回顾了基于距离的、基于信息内容的、综合了距离和信息内容的、基于图的语义相似性测度算法,认为基于图的语义相似性测度算法是今后研究的方向。关键词语义相似性基于树基于图THESURVEYONSEMANTICSIMILARITYMETRIC

2、1,22HuangShiguoGengGuohua1(CollegeofInformationScienceandTechnology,NorthwestUniversity,Xipan710069,Shaanxi,China)2(CollegeofComputerandInformation,FujianAgricultureandForestryUniversity,Fuzhou350002,Fujian,China)AbstractSemanticsimilaritymetricisakeytechniqueininformationretrieva.lT

3、healgorithmsofsemanticsimilaritymetricbasedondis-tance,informationcontent,thecombinationofdistanceandinformationcontent,andgrapharereviewed,anditispointedoutthatgraph-basedsemanticsimilaritymetricalgorithmisthetrendinfutureresearch.KeywordsSemanticsimilarityTree-basedGraph-based的,可以在

4、该语义网中首先找到包含待比较词的那些概念。在0引言此情况下,w1和w2之间的语义相似性可以用连接这两个概念[1]之间的最短路径来表示。例如,图1是取自Wordnet本体中语义相似性测度多年来一直是自然语言处理和信息检索研的一小部分[2]。boy和girl之间的最短路径是boy-male-person-究的重要组成部分,是计算语言学和人工智能应用中亟待解决female-gir,l最小路径长度为4。而teacher和boy之间的最小路的问题。特别是近几十年来Internet技术的高速发展,网络上出径长度为6。因此,girl比teacher在语义上更接近于boy。该测

5、现了大量共享的文献资料,如何使用户高效且准确地找到所需度算法在医学语义网中获得了很好的测度结果。但是在一般的的信息是基于WEB信息检索的研究热点。该研究涉及到两个语义网中如Wordnet,则较难获得很好的结果。如图1中animal方面:一是如何发现相关的WEB;二是存在相关WEB情况下如和boy的最小路径长度也为4,因此就得出了一个错误的结论,何进行排序。上述问题的解决途径是找到比较好的WEB间语即animal比teacher在语义上更接近于boy。其原因在于自然语义相似性测度算法。传统的相似性测度往往以手工的方式进言的分类中边不是等长的,随着深度的增加,边的长

6、度变小。行。这种方法费时费力且效率不高,无法解决网页快速增长、内容不同一性的问题。因此,需要有语义相似性的自动测度算法。目前语义相似性的自动测度算法主要分为两类:一是基于树的语义相似性测度算法,二是基于图的语义相似性测度算法。1基于树的语义相似性研究基于树的语义相似性计算一般适用于/is-a0的体系结构,这类算法大体上分为两种:一是基于距离的语义相似性测度;二是基于信息内容的语义相似性测度。1.1基于距离的语义相似性测度图1树状语义知识库1.1.1边作为距离如果树状语义网中所有的边即树的分支是等长的,那么边的数目可以作为距离的测度。假定要确定词w1和w2之间的语

7、收稿日期:2006-04-25。国家自然科学基金(60573179)。黄世义相似性,在语义网中词是与/is-a0树状结构中的概念相对应国,讲师,主研领域:智能信息处理等。38计算机应用与软件2008年1.1.2其它类型的距离假设式(1)可写成三个独立的函数,即:在Wordnet、Roget等诸多自然语言本体中,边是不等长的,s(c1,c2)=f(f1(l),f2(h),f3(d))(2)因此最小路径长度测度算法不再适用。为此,许多学者对基于f1、f2、f3分别是路径长度、层次深度和局部语义密度的传递边的相似性测度方法进行修改,引进了亚层次密度、层次深度、函数。连

8、接类型、结点信息内容等多

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。