关于网络信息检索文献综述

关于网络信息检索文献综述

ID:39081560

大小:40.50 KB

页数:5页

时间:2019-06-24

关于网络信息检索文献综述_第1页
关于网络信息检索文献综述_第2页
关于网络信息检索文献综述_第3页
关于网络信息检索文献综述_第4页
关于网络信息检索文献综述_第5页
资源描述:

《关于网络信息检索文献综述》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、关于信息检索文献综述作者:蒋亚宾摘要:本文通过对信息检索的历史发展、现状分析以及发展趋势做出总结与分析,已达到对信息检索的更深层次的认识,并希望在信息检索方面对读者有所帮助。关键词:信息检索、历史发展、搜索引擎、发展趋势1、前言信息检索(informationretrieval)是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。所以,它的全称又叫信息存储与检索(informationstorageandretrieval),这是广义的信息检索。狭义的信息检索则仅指该过程的后一步,即从信息

2、集合中找出所需要信息的过程。相当于我们所说的信息查询(informationsearch)。根据检索手段的不同,分为手工检索、计算机检索(光盘检索、联机检索和网络检索);根据检索对象、形式的不同,分为文献型信息检索、数据型信息检索、事实型信息检索。本文通过对以往关于信息检索的文献进行综述,并从中总结出观点,达到对信息检索更深层次的认识。2、历史发展1950年,莫尔斯(CalvinN.Mooers)首次提出信息检索(InformationRetrieval)一词。其后,随着信息检索理论和实践的更新发展,人们对信息检索

3、的认识也在不断深入。主要存在三种角度的认识:时间性通讯、信息处理和文献查找。从时间性通讯角度来看,通过信息检索得到了一些文献,从而使得著者与读者(信息检索的用户)之间建立起了一种通讯。从信息处理角度,信息检索的基本问题,是如何处理信息和信息的结构。从文献查找角度看,信息检索就是查找出含有用户所需信息的文献的过程。在信息检索领域,这是一种传统的主流观点。从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索已成为图书馆独立的工具和用户服务项目。最初的信息检索系统面向小型的科学文摘数据库、法律和商业文档。检索模型

4、为基本的布尔模型和向量空间模型。CornellUniversity的Prof.Salton成为这个领域的先驱,著名的IR向量空间模型的创始人,开发了著名的SMART向量空间模型IR系统,并免费开放源代码,大大促进了IR的发展。80年代,IR技术出现在大型文档数据库中。90年代,可以在互联网上利用Archie对FTP服务器上的文档进行搜索。Archie第5页共5页是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。1994年4月,Stanford两名

5、博士生,美籍华人JerryYang(杨致远)和DavidFilo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。1995年发布AltaVista,它是网上最早的爬行搜索引擎。AltaVista搜索技术从纯文本搜索技术开始,到1997年,其搜索能力扩展到25种语言搜索;1999年开始多媒体文件的搜索;2001年首次推出网上免费新闻搜索,2003年AltaVista被Overture收购。以雅虎初期为代表的第一代搜索引擎以人工目录分类为基础的网站搜索开辟了一个时代。第一代搜索

6、引擎指主要依靠人工分拣的分类目录搜索,这种方式是被动的搜索,更新慢、搜索能力不足。3、现状分析如今最主要的信息检索是网络信息检索。网页是因特网的最主要的组成部份,也是人们获取网络信息的最主要的来源,为了方便人们在大量繁杂的网页中找寻自己需要的信息,这类检索工具发展的最快。一般认为,基于网页的信息检索工具主要有网页搜索引擎和网络分类目录两种。网页搜索引擎是通过“网络蜘蛛”等网页自动搜寻软件搜索到网页,然后自动给网页上的某些或全部字符做上索引,形成目标摘要格式文件以及网络可访问的数据库,供人们检索网络信息的检索工具。网

7、络目录则是和搜索引擎完全不同,它不会将整个网络中每个网站的所有页面都放进去,而是由专业人员谨慎地选择网站的首页,将其放入相应的类目中。网络目录的信息量要比搜索引擎少得多,再加上不同的网络目录分类标准有些混乱,不便人们使用,因此虽然它标引质量比较高,利用它的人还是要比利用搜索引擎的人少的多。但是由于网络信息的复杂性和网络检索技术的限制,这类检索工具也有着明显的不足。(1)随着网页数量的迅猛增加,人工无法对其进行有效的分类、索引和利用。网络用户面对的是数量巨大的未组织信息,简单的关键词搜索,返回的信息数量之大,让用户无

8、法承受。(2)信息有用性评价困难。一些站点在网页中大量重复某些关键字,使得容易被某些著名的搜索引擎选中,以期借此提高站点的地位,但事实上却可能没有提供任何对用户有价值的信息。(3)网络信息日新月异的变更,人们总是期望挑出最新的信息。然而网络信息时刻变动,实时搜索几乎不可能,就是刚刚浏览过的网页,也随时都有更新、过期、删除的可能。第5页共5页随着网上信息资源的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。