《信息检索系统》PPT课件

《信息检索系统》PPT课件

ID:41127104

大小:839.51 KB

页数:69页

时间:2019-08-17

《信息检索系统》PPT课件_第1页
《信息检索系统》PPT课件_第2页
《信息检索系统》PPT课件_第3页
《信息检索系统》PPT课件_第4页
《信息检索系统》PPT课件_第5页
资源描述:

《《信息检索系统》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、1信息检索系统的类型2信息检索系统的构成3标引处理4数据库的文档结构5倒排文档的检索技术第三章信息检索系统3.1信息检索系统及其类型3.1.1信息检索系统的概念(1)定义:具有信息存储和信息查询功能的一类信息服务设施或者工具(2)构成要素:明确的目标信息资源技术装备方法与措施功能(1)按设备划分书本式检索系统卡片式检索系统穿孔卡片检索系统缩微胶卷检索系统计算机检索系统光盘检索系统多媒体检索系统3.1.2信息检索系统的类型(2)按照功能划分文献检索系统:狭义的信息检索系统数据库管理系统:面向结构化数据自动问答系统:自然语言处理、事实检索管理信息系统:面向管理人员决策支持系统:数据分析3.1.

2、2信息检索系统的类型2021/9/2653.2信息检索系统的构成3.2.1计算机检索系统的物理结构计算机检索系统由计算机硬件、软件、数据库和通讯网络构成。(1)硬件:是包括具有一定性能的主计算机、外围设备以及与数据处理或数据传送有关的其他设备。(2)软件:由系统维护软件与检索软件构成。检索效果。(3)数据库:在计算机存储设备上按一定方式存储的相互关联的数据集合。2021/9/2663.2信息检索系统的构成3.2.2检索系统的逻辑结构信息检索系统的逻辑构成(1)信息源选择与采集子系统。该功能模块的任务主要是根据系统需要,采取人工或者计算机自动方式,从众多信息源中选择和采集符合需要的信息资源。

3、在有些计算机检索系统中,此部分还承担转换数据格式的任务。(2)标引子系统。该功能模块的任务主要是对收集的信息资源进行内外部特征分析,并借助词表系统,对每条数据进行标引。目前,主题标引和分类标引主要是靠人工标引,而抽词标引主要是由计算机完成。8(3)建库子系统。该功能模块的任务是建立和维护可直接用于计算机检索的数据库。主要工作包括数据录入、错误检查与处理、数据格式转换、生成和更新各种文档、建立各种索引数据库等。(4)词表管理子系统。该功能模块的任务是建立和管理维护系统中的主题词表和分类表,并使它们和标引、建库等子系统相连接,支持用户的各种词汇查询操作。该系统可以独立存在,也可以和建库子系统中

4、的词典文档合并在一起。信息检索系统的逻辑构成(5)用户接口子系统。它的全称为“系统-用户接口”(system-userinterface),简称用户接口。它的任务是承担用户与系统之间的通信功能,通常由用户模型、信息显示、命令语言和反馈机制等部分构成。(6)提问处理子系统。该功能模块的任务是负责处理用户输入的提问式,并将它们与数据库存储的数据进行比较运算,然后将运算结果输入给用户。该模块主要由检索程序构成,包括:接收提问、提问校验、提问加工和检索。信息检索系统的逻辑构成3.3标引处理3.3.1基本概念标引:indexing,对信息资源的各种检索特征进行分析并使之显性化。标引深度:衡量标引详尽

5、性,标引词对每条记录各方面内容表达和识别的详尽程度标引专指度:衡量标引词对记录特定内容描述的精细程度。标引方式:人工标引和自动标引抽词标引和赋词标引11DocumentindexingGoal=identifytheimportantmeaningsandcreateaninternalrepresentationFactorstoconsider:Accuracytorepresentmeanings(semantics)Exhaustiveness(coverallthecontents)FacilityforcomputertomanipulateWhatisthebestrepre

6、sentationofcontents?Char.string(charbigrams):notpreciseenoughWord:goodcoverage,notprecisePhrase:poorcoverage,morepreciseConcept:poorcoverage,preciseCoverage(Recall)Accuracy(Precision)StringWordPhraseConcept3.3.2自动标引处理流程图见教材60页。3.3标引处理3.3.3自动标引中的词语加权方案(1)绝对词频法根据每个词在特定文档(集合)中的出现频次来确定该词重要程度的一种方法,最早有卢

7、恩提出。基本原理给定一个由N篇文档组成的文档集合,计算出每篇文档中每个不同的词的出现次数。把每个不同的词在N篇文档的出现次数相加,得到词K的集合频率。按集合频率递减顺序排列这些词,并确定高频词和低频词的阈值。挑选剩下的中频词作为标引词,并按照他们在相应文档的出现频次确定权重。缺点是什么?3.3标引处理14KeywordselectionandweightingHowtoselectimportantkeywords?Si

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。