中文信息检索系统研究

中文信息检索系统研究

ID:31944637

大小:2.05 MB

页数:49页

时间:2019-01-29

中文信息检索系统研究_第1页
中文信息检索系统研究_第2页
中文信息检索系统研究_第3页
中文信息检索系统研究_第4页
中文信息检索系统研究_第5页
资源描述:

《中文信息检索系统研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、⑨硕士学位论文MASTER’STHESIS“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。垂直搜索引擎具有广阔的市场前景,目前知名的有雅虎、酷讯等等。垂直搜索引擎性能的好坏,很大程度上取决于系统对信息的整合分类,与通用搜索引擎相比,需要花费更多的代价来进行资源重组工作。信息检索的主要困难,一方面来自于用户如何准确地表达自己的查询请求,有效地和信息检索系统交互;另一方面,来自于信息检索系统本身对文档的有序化。这两方面的内容,可以通过对查询和文档的优化来实现。在计算机技术发展的初期,由于系统的运算能力有限,价

2、格昂贵并且可靠性差,信息检索系统不大可能提供优化的方式。随着计算机性能的提高,系统能够用一部分资源来处理查询和文档优化的问题,因此也成为信息检索中的一个研究热点。1.2查询扩展和文档扩展国内外研究现状对于如何提高信息检索系统精确率,关键的因素是信息检索模型,经过相关研究人员近半个世纪的努力,一些有效的信息检索模型陆续提出并应用到相关的系统中。其中影响比较大的检索模型包括:布尔模型、向量空问模型、概率模型以及语言模型等。而作为对向量空问模型的一种扩展,潜在语义索引模型提供一种基于主题的检索方法,由于词与词之间的相互依存性被纳入考虑范围,查询与文档之间即使没有相同的词

3、,也极有可能会非常的相关。随着信息检索技术的不断发展,挖掘更加有效的信息对检索的结果进行优化成为一种有效的手段。Fox,Nunn,Lee⋯曾经提出:有效的将各方面的附加信息融合进信息检索的过程将带来更好的检索效果。该假设在实践中得到了不断证实。1960年,Maron和Kuhns在其发表的文章中提出了用高度相关的词语来扩展用户查询。在1965年,Rocchio应用Sman系统【2J为测试平台研究了在向量空间模型中把查询扩展和词语重新加权相结合的经典技术,并在随后出版发行【31。Ide【4】继承了Rocchio的研究,并提出了词语重新加权公式的变形。1978年,Ha巾

4、er和van砌jsbe唱en【5】使用基于最大生成树的词语一词语聚类技术来选择词语进行概率查询扩展。两年后,他们又提出了一种新的相关加权方案,称为EMM,用于查询扩展技术。1981年Wu和Salton【6J使用相关反馈来给从相关文档中提取出来的词语(用概率公式)重新加权,并用这些词语来扩展查询。实验表明了这些方法能够提高检索的性能。关于自动查询扩展,Lesk【7】在Smart系统中尝试使用了词语一词语聚类的变形,但并没有得出比较好的实验结果。之后,SparckJones和Barb一引,Milll(er,、聃lson和ZimmemlaIll9J也发现了基于词语一词语

5、全局聚2硕士学位论文MASTER’STHESlS类的查询扩展并没有提高检索的性能。这些早期的研究结果给人们留下了这样的印象,即基于全局聚类的查询扩展并没有提高检索的性能。这些早期的研究结果给人们留下了这样的印象,即基于全局分析的查询扩展技术并不是一种很有效的技术。然而,最近的研究结果表明情况并非如此。事实上,Vorhees,Crouch和Y抽g,Qiu&FreilloJ的研究成果表明,基于全局分析技术的查询扩展确实能够提高检索的精度。关于通过局部聚类的查询扩展的讨论是基于Attar和Fraenl(el【11】从1977年来所作的工作,局部上下文分析的思想是最近才由

6、Xu和Cr0R在1996年提出的【12】,而对使用全局相似性叙词表来进行查询扩展的讨论是基于Qiu和Frei的文章【13】。最后使用全局统计叙词表来扩展查询的讨论是基于Crouch和Yang的文章【14】,它主要受Salton、Yang和Yu提出的词语分辨值理论的影响。目前流行的查询优化技术主要有相关反馈(relevallcefeedback)、伪相关反馈(pseudofeedback),伪相关反馈是在相关反馈(relevancefeedback)的基础上发展起来的。相关反馈机制由用户对检索出的文档进行相关性判定,系统根据这些判定生成新的查询,从而提高最终结果的准

7、确率。伪相关反馈不需要与用户交互,它将初次查询的前N篇文档自动认为是相关文档,以此为依据对查询进行扩展。提到相关反馈,由于其效果显著,在信息检索方面的应用和研究比较多,Rocchio在1971年就提出了一种用反馈来改进查询的效果的方法,这种方法就可以同时实现查询的扩充和缩减,其他的很多方法都由此扩展而来。典型的有Ide的IdeRegular方法,IdeDec小i方法等。查询扩展仅仅是查询优化的一个手段,为了达到优化查询的目的,不仅可以扩展查询,还可以消除或削弱查询中不相关的词。相关反馈技术是信息检索中的查询优化的一个非常重要的机制。相关反馈方法通过增加或削减检索到

8、的关键词的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。