《信息检索理论模型》PPT课件

《信息检索理论模型》PPT课件

ID:45182273

大小:256.50 KB

页数:59页

时间:2019-11-10

《信息检索理论模型》PPT课件_第1页
《信息检索理论模型》PPT课件_第2页
《信息检索理论模型》PPT课件_第3页
《信息检索理论模型》PPT课件_第4页
《信息检索理论模型》PPT课件_第5页
资源描述:

《《信息检索理论模型》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第2章信息检索理论模型7/17/20211信息检索过程信息检索过程实际上涉及到三个重要的处理:文档集的逻辑表示查询的表示相似匹配及其排序对上述因素和检索过程建模(抽象描述),产生各种不同的信息检索模型7/17/20212信息检索模型分类信息检索模型检索模型浏览模型内容模型结构模型布尔模型矢量模型概率模型非重叠链表模型邻近节点模型平坦模型结构导向模型超文本模型逻辑模型7/17/20213本章主要内容2.1布尔检索模型2.2向量空间模型2.3概率检索模型2.4信息检索逻辑模型7/17/202142.1布尔检索模型布尔检索模型的理论基础是

2、布尔逻辑和集合理论7/17/202152.1布尔检索模型布尔逻辑主要内容:命题逻辑与谓词逻辑布尔逻辑是数理逻辑的基础部分利用符号来表示逻辑中的各种概念建立了一系列的运算法则,利用代数的方法研究逻辑问题7/17/20216布尔运算布尔逻辑运算符:“与(AND)”、“或(OR)”、“非(NOT)”运算的定义7/17/20217传统布尔检索模型文献表示将文档表示成一个集合,集合中的每个元素都为一个二元变量,取值非“0”即“1”,表示该元素所代表的主题词是否包含在该篇文档之内。若包括在文档中,则元素取值为1,反之则取0。给定一个文献集合D,

3、包含m篇文献,分别用d1,d2,d3……dm表示。再给出一个标引词集合T,包含n个标引词t1,t2,……,tn。假定对文献集D的描述完全是基于该标引词集合的,则文献集D中任意一篇文献di就可以表示为(di1,di2,……,din)7/17/20218传统布尔检索模型查询表示在布尔检索系统中,根据用户提出的检索需求,选取适当的检索标识,与布尔运算符“与”、“或”、“非”共同构成与查询相符的检索提问式,也即相应的布尔表达式例如,布尔提问式q=t1and(t2ornott3)q的主析取范式(t1andt2andt3)or(t1andt2a

4、ndnott3)or(t1andnott2andnott3)q的简化形式qdnf(1,1,1)or(1,1,0)or(1,0,0),其中,(1,1,1)、(1,1,0)和(1,0,0)是qdnf的3个合取子项(合取子项可用符号qcc表示)7/17/20219传统布尔检索模型匹配函数7/17/202110传统布尔检索模型文献D1=(t1,t2,nott3)查询Q=t1andt2andnott37/17/202111传统布尔查询的评价该模型结构简单、容易实现和快速检索。7/17/202112传统布尔查询的评价布尔模型在检索系统的开发与应

5、用中表现出的主要问题有:(1)准确匹配(exactmatching)策略问题。布尔模型采用准确匹配策略,对检索过程中客观存在的一些不确定性情形绝对排斥,认为一篇文献对于某一提问要么是“相关的”,要么是“不相关的”。这种“非此即彼”的二值判断标准严重影响到检索系统的性能改善,并带来其他一些相关问题。(2)布尔逻辑表达用户需求的能力问题。把用户的一个信息需求转换成一个恰当的布尔表达式,在很多情况下并不容易实现。7/17/202113传统布尔查询的评价为了弥补这些缺陷,发展了一些别的检索模型,如向量空间、扩展布尔、概率检索和聚类模型。7/

6、17/2021142.2向量空间模型2.2.1传统向量空间检索2.2.2项的权重模式2.2.3相似度的计算2.2.4潜在语义标引7/17/2021152.2.1传统向量空间检索向量空间模型(Vectorspacemodel)介绍向量空间模型(VSM)的评价7/17/202116向量空间模型介绍1.文献空间(1)文献空间的概念文献集合中的任一文献都可以表示为这个多维空间中的一个向量,这个空间就称为“文献空间”在一个文献空间内,用向量D1来代表某一文献,则该向量在这个文献空间各个轴上的分量就是相应的表述该文献的各个项的权重文献与空间点(

7、2)标引词空间7/17/202117向量空间模型介绍T2T3T1D1={d11,d12,d13}D2={d21,d22,d23}D3={d31,d32,d33}图三维文献空间7/17/202118向量空间模型介绍2.项权重(1)词频越重要的项分配越高的权值可以用词频来作为该项的权重(用tf表示)(2)文献频率假设存在一个文献集合,其中大部分的文献都包含了某一项,则说明该项对某一主题的专指度较差,可能就不太重要在设计项权重时,要考虑逆文献频率(用idf表示)7/17/202119向量空间模型介绍2.项权重(3)权重的规范化处理为了抵消

8、由篇幅带来的不同影响,经常要对项权重进行规范化处理在各种规范化方法中,余弦规范是一种常用、有效的方法:tf×idf权重/文献向量的欧氏长度7/17/202120向量空间模型介绍3.文献向量与查询向量的匹配匹配函数利用向量的内积运算,得

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。