信息管理和信息系统第2章.ppt

信息管理和信息系统第2章.ppt

ID:52384201

大小:1.55 MB

页数:117页

时间:2020-04-05

信息管理和信息系统第2章.ppt_第1页
信息管理和信息系统第2章.ppt_第2页
信息管理和信息系统第2章.ppt_第3页
信息管理和信息系统第2章.ppt_第4页
信息管理和信息系统第2章.ppt_第5页
资源描述:

《信息管理和信息系统第2章.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第二章信息检索模型本章目录第一节引言第二节经典模型第三节集合理论模型第四节代数模型第五节结构化模型2第一节引言任何检索策略都包含3个部分:文档表示、查询表示和匹配函数。文档表示反映文档在系统中的存储形式描述,可用一组关键词或标引词表示;查询表示反映对用户信息需求的描述;匹配函数用于将经过处理的文档表示和查询表示放入系统中进行匹配,以过滤输出结果。信息检索系统的实现首先要对文档集进行索引和归档,以支持信息检索。检索式代表用户的信息需求。检索系统分析查询与文档表示,进行相似性匹配,排序返回查询结果。因此文档信息检索过程实际上

2、涉及文档集的逻辑表示、用户查询表示、相似性匹配及其排序三个重要的处理。3第一节引言信息检索模型主要从两个方面抽象地研究信息检索方法:一是确定在检索模型中如何表示构成检索系统的两个要素,即文档和检索式;二是确定在模型中如何定义和计算文档和检索式之间的关系。检索模型的重要作用主要体现在以下几个方面:更精确地描述出文档与文档、文档与查询间的相关关系,使之能比较和计算;安排更合理、更便于检索的文档存储形式;在此基础上设计出合理的检索方式;除信息检索外,进行一些信息辅助分析工作。传统的信息检索模型(又称经典信息检索模型)包括布尔模

3、型、向量空间模型和概率模型。4第一节引言信息检索模型到底是什么?其描述如下:信息检索模型是一个四元组/D,Q,F,R(qi,dj)/:(1)D是文档集中的一组文档逻辑视图(表示),称为文档的表示;(2)Q是一组用户信息需求的逻辑视图(表示),这种视图(表示)称之为查询;(3)F是一种机制,用于构建文档表示,查询及它们之间关系的模型;(4)R(qi,dj)是排序函数,该函数输出一个与查询qi∈Q和文档表示dj∈D有关的实数,这样就在文档之间根据查询qi定义了一个顺序。5第一节引言基于经典布尔模型的信息检索模型中,文档和查询

4、用标引词集合来表示,都是建立在集合理论的基础之上,因此,我们称该类模型为集合理论模型,包括模糊集合论模型、扩展布尔模型和粗糙集模型等。基于经典向量模型的信息检索模型中,文档和查询用t维空间的向量来表示,都是建立在代数理论的基础之上,则称该类模型为代数模型,包括广义向量模型、潜语义标引模型和神经网络模型等。基于经典概率模型的信息检索模型中,用于构建文档和查询模型的机制是基于概率论的,则称该类模型为概率模型,包括推理网络模型和信任度网络模型等。6第一节引言除经典模型及其改进模式外,较重要的信息检索模型还有结构化模型,主要包括

5、:非重叠链表模型、邻近结点模型、扁平浏览模型、结构导向模型和超文本模型等。在本章中,我们将讨论以上所述的除推理网络模型和信任度网络模型外的各种信息检索模型,推理网络模型和信任度网络模型的知识结构相对较为复杂,有兴趣的同学可利用相关资料进行学习。7第二节经典模型2.2.1布尔模型12.2.2向量模型22.2.3概率模型38第二节经典模型信息检索的经典模型认为,每篇文档可以用一组有代表性的关键词即标引词集合来描述,标引词(indexterm)是文档中的词,其语义可以帮助理解文档的主题;因此,标引词常用于编制索引和概括文档的内

6、容。对于文档中的标引词集合来说,在描述文档内容时它们的作用是不尽相同的,因而应当明确标引词与文档内容的密切程度。9第二节经典模型用ki表示标引词,dj表示文档,wi,j≥0为二元组(ki,dj)的权值(weight),该权值可以用来衡量描述文档语义内容的标引词的重要性。用t表示系统中标引词的数目,K={k1,k2,...,kt}是所有标引词的集合,wi,j>0是文档dj中的标引词ki的权值,对于没有出现在文档文本中的标引词,其权值wi,j=0。文档dj可以用标引词向量dj来表示:dj=(w1,j,w2,j,…,wt,j)

7、。此外,函数gi用以返回任何t维向量中标引词ki的权值,即gi(dj)=wi,j。其中,标引词的权重通常被认为是互相独立的。102.2.1布尔模型布尔模型(BoolenModel)是基于集合理论和布尔代数的一种简单的检索模型,它假定标引词在文档中要么出现,要么不出现。因此,标引词的权值全部被设为二值数据,wi,j∈{0,1},查询q由连接词not、and、or连接起来的多个标引词所组成,如“奥运会”、“奥运会”and“中国”、“奥运会”and(“中国”or(not“体操”))等,通过对标引词与用户给出的检索式进行逻辑比较

8、来检索文本。112.2.1布尔模型设文本集D中某一文本i,该文本可表示为:Di=(t1,t2,...,tm),其中,t1,t2,⋯,tm为标引词,用以反映i的内容。另设用户某一检索式如下:qj=(t1andt2)or(t3nott4)或者qj=(t1∧t2)∨(t3-t4)。对于该检索式,系统响应并输出的一组文本应为

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。