信息检索原理及检索技术

信息检索原理及检索技术

ID:34568023

大小:1.42 MB

页数:57页

时间:2019-03-08

信息检索原理及检索技术_第1页
信息检索原理及检索技术_第2页
信息检索原理及检索技术_第3页
信息检索原理及检索技术_第4页
信息检索原理及检索技术_第5页
资源描述:

《信息检索原理及检索技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第2章信息检索原理及检索技术张雅晴主要内容信息检索原理信息检索技术如何选择检索词信息检索原理概念信息检索是指将信息按一定的方式组织起来,并根据信息用户的需求找到相关信息的过程和技术。即信息检索包括两个方面:信息标引和存储过程信息的检索过程信息检索原理类型书目信息检索全文信息检索类型数据信息检索事实信息检索信息检索原理•书目信息检索以标题、作者、原文来源、摘要及收藏地点为检索对象的一类检索称之为书目信息检索。特点:检索结果是与课题相关的一系列书目信息线索,即检索结果不直接解答用户提出的技术问题,只提供有关线索。检索工具:中文科技期刊数据库、中国期刊全文数据库、E

2、I、SCI等。例:检索四川大学图书馆赵宏铭老师2003-2012年发表的文章。信息检索原理信息检索原理•全文信息检索以全文为检索对象的一类检索叫做全文信息检索。特点:是在书目信息检索基础上更深层次的内容检索。检索工具:中国期刊全文数据库、外文全文数据库查看该篇文章全文信息检索原理信息检索原理•数据信息检索以具有数量性质并以数值形式表示的数据为检索对象的一类检索。检索的结果是经过测试和评价过的各种数据,如物理化学常数、统计数据、市场行情等,可用于比较分析和定量分析。它是一种确定性检索。完成数据型信息检索主要借助于参考工具书及数据型数据库(中国年鉴全文数据库、中国资讯行情等)

3、。信息检索原理•事实信息检索事实检索是查找某一问题的具体答案,如词语的解释、人物生平、历史事件、机构概况等,完成事实检索主要借助于参考工具书及事实型数据库(百科全书、年鉴、百度、谷歌等)信息检索原理信息检索效率信息检索效率是评价一个检索系统性能优劣的质量标准,它贯穿于信息的存储和检索的全过程。检索效率评价指标查准率(Precision)查准率(精度)是系统进行检索式,检出的相关文献与检出的全部文献的百分比。检出相关信息量查准率(P)=×100%检出信息总量例:在某一数据库中检索出的120篇文献中,有60篇是相关文献,那么查准率=60÷120×100%=50%信息检索原

4、理查全率(Recall)查全率,是衡量某一检索系统从文献集合中检出相关文献成功度的一项指标,即检出的相关文献与全部相关文献的百分比。检出相关信息量查全率(R)=×100%系统内所有相关信息量漏检率漏检率=1-查全率误检率误检率=1-查准率信息检索原理查全率和查准率的关系查全率和查准率之间具有互逆的关系。在同一检索系统中,提高查全率,查准率则会降低,反之,查准率提高,查全率则会下降。在实际检索中,查全率和查准率是不可能达到100%的。应尽量通过各种途径达到查全率和查准率的最佳配比,做到既在尽量准确的基础上,做到全面,或在尽量全面的基础上,做到准确。相互制约兼顾查全与查

5、准信息检索原理•检索字段检索字段(又称检索入口或检索项)可分为基本检索字段和辅助检索字段。基本检索字段是指反应文献内容特征的字段。如题名、文摘、主题词等。辅助字段是指反应文献外部特征的字段,如作者机构、来源出版物、出版年等。检索字段信息检索原理基本检索字段信息检索原理辅助字段信息检索技术布尔逻辑检索词位检索(邻位检索,字段检索*)截词检索字段检索……信息检索技术布尔逻辑检索布尔检索逻辑与逻辑非逻辑或信息检索原理•逻辑与概念:逻辑与是一种具有概念交叉或概念限定关系的组配。算符:“*”或“AND”特点:增强了专指度,提高了查准率。举例:“微波”AND“通信”

6、,表示两个概念应同时包含在一条记录中。AB信息检索技术同时包含两个词汇信息检索技术•逻辑或1、概念:逻辑或是一种具有概念并列关系的组配。2、算符:“+”或“OR”3、特点:扩大检索范围,提高了查全率。4、举例:“废水”OR“污水”,表示这两个并列的同义概念分别在一条记录中出现或同时在一条记录中出现。AB信息检索技术两者都包含信息检索技术•逻辑非逻辑非是一种具有概念排除关系的组配。算符:“-”或“NOT”特点:提高查准率,影响查全率。举例:“通信技术”NOT“微波”,表示检索出的记录中排除含有“微波通信”的记录。AB信息检索技术去除掉一部分内容信息检索技术词位检索

7、词位检索具有限定检索词的词与词之间位置关系的功能。可弥补布尔逻辑算符只是定性规定检索词的范围,以提高检准率。常用的词位检索有:邻位检索和字段检索。信息检索技术•邻位检索(W)与(nW)特点:词序不能颠倒。gas(w)chromatograph结果是gaschromatographlaser(1w)printer结果是(1)laserprinter(2)lasercolourprinter(3)laserandprinter(1w表示两词之前插入的词不超过1个)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。