xml关键字搜索技术

xml关键字搜索技术

ID:4140336

大小:223.56 KB

页数:4页

时间:2017-11-29

xml关键字搜索技术_第1页
xml关键字搜索技术_第2页
xml关键字搜索技术_第3页
xml关键字搜索技术_第4页
资源描述:

《xml关键字搜索技术》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、山西大学学报(自然科学版)32(S1):26~29,2009JournalofShanxiUniversity(Nat.Sci.Ed.)文章编号:02532395(2009)S1—0026—04XML关键字搜索技术王星军,李振芳(山西大学计算机与信息技术学院,山西太原030006)摘要:xMI已经成为Web应用中数据表示和数据交换的事实标准.随着XMI数据的大量增加,如何从xML数据中获取有用的信息是当前数据库和信息检索领域研究的一个热点.关键字搜索是现今最流行的信息获取方法,因为用户只需使用若干关键字来表达自己的信息需求,而不需要学习任何

2、复杂的查询语言,也不需要了解底层数据的结构.文章介绍了XML关键字搜索技术的主要研究内容,分析、比较了两种主要的XML关键字搜索方法.关键词:XML,关键字搜索,文档树中图分类号:TP3¨文献标识码:A0引言关键字搜索(KeywordSearch)作为当前最流行的信息检索方法,在信息检索、搜索引擎等领域得到了广泛应用,因为用户不需要学习任何复杂的查询语言,也不需要了解底层数据的结构,只需要使用若干关键字来表达自己的信息需求即可.目前,主流的Web搜索引擎,如www.google.eom;www.baidu.com等向用户提供的均是关键字搜索

3、服务.可扩展标记语言XML(eXtensibleMarkupLanguage)[1]是一套定义语义标记的规范,其目标是定义计算机和人都能方便识别的数据类型.随着网络应用的快速发展,符合XML规范的数据已经大量存在于当前的信息社会,尤其是电子商务、Web服务、数字图书馆等应用的快速发展,使得XML成为Web上数据表示和数据交换的标准.XML出现之前,Web页面均采用超文本标记语言HTML(HypertextMarkupLanguage)进行编码,因此Web关键字搜索的对象是HTML文档集.从标记语言的组成和结构来看,HTML是一种专门为浏览器

4、服务的、非结构化的标记语言.HTML文档中可使用的标签是事先定义好的,且只能使用预定义标签.HT—ML没有严格的语法结构限制,标签可以随意嵌套,开始标签和结束标签可以不匹配.为此,浏览器中很大一部分功能用来判别各种不合规的语法,这使得浏览器变得越来越臃肿.HTML标签不包含任何语义信息,特定标签只是用来告诉浏览器,标签中所封装的信息如何展现给用户,如标签中封装的内容要以“Bold加粗”方式来在Web页面中展现.HTML这种内容和表现形式紧密结合的方式,导致搜索引擎只能采用传统的文本信息检索技术来处理HTML文档,搜索结果精确度不高,用

5、户往往需要在搜索结果的基础上进行二次筛选.随着XML成为当前的主流数据形式,如何从XML数据中提取用户感兴趣的信息成为数据库领域和信息检索领域一个重要的研究方向.XMI区别于HTML的主要特征包括:自描述性、可扩展性,内容和表现形式分离,平台无关性,如何充分利用XMI的特有性质提高搜索的效率和精度,是XML关键字搜索的研究重点.XML关键字搜索与HTML搜索的最大区别在于二者搜索结果的粒度是不同的.因为HTML中的标记无语义信息,搜索结果通常是整篇HTML文档,而XML中的标记包含语义,这样可以仅返回与用户提交的关键字相关的XML文档片段,

6、而不是全文档,搜索结果的精度得到提高.本文通过对大量XML关键字搜索文献的研究,分析、比较了两种主要的XML关键字搜索技术.收稿日期:2009—02—26作者简介:王星军(1973一),男,山西I临县人,硕士研究生,研究方向为XMI数据理论与技术.E—mail:wang~@SXU.edu.王星军等:XML关键字搜索技术1XML文档树模型XML文档可用带标记的有向树T表示,T一(,E,root,L),V—VIeafUV。a『,其中V一VfU,VAleaf为所有的属性节点集合,V为除属性之外的所有叶节点集合,。为所有的叶节点集合,V为所有非叶节

7、点组成的集合,E为所有的边构成的集合,边标识了所有节点间的嵌套关系,L为所有边上的标记集合,root为丁的根节点.对文档树丁中的每个节点,根据其在文档中出现的次序,被赋予一个有效的编码,该编码用来唯一标识该节点和判别节点间的嵌套关系.Dewey编码是一种在信息检索领域广泛使用的编码技术,利用在XML文档树模型中,Dewey编码是一种基于路径的编码规则,其直接将一个节点的双亲节点的编码作为该节点编码的前缀.设XML文档树的一个节点“的Dewey编码为f(“),则节点“的孩子节点的Dewey编码c()===f().,z,其中为节点在节点“的所有

8、孩子节点中的序号.如果节点“和7d是祖孙关系,当且仅当c(“)是c()的前缀.如果节点“和是父子关系,当且仅当c(“)是c()的前缀,且c()较c()少一个层次.在XML关键字搜

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。