搜索信息的利器-搜索引擎

搜索信息的利器-搜索引擎

ID:14111358

大小:893.50 KB

页数:7页

时间:2018-07-26

搜索信息的利器-搜索引擎_第1页
搜索信息的利器-搜索引擎_第2页
搜索信息的利器-搜索引擎_第3页
搜索信息的利器-搜索引擎_第4页
搜索信息的利器-搜索引擎_第5页
资源描述:

《搜索信息的利器-搜索引擎》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、搜索信息的利器-搜索引擎互联网出现到现今,信息量可以说成幂指数的增长,大量信息就像Google的原本含义“1的后面跟着100个0”一样,这个数比宇宙所有的基本粒子的数量总和还要大。我们喜爱在信息的海洋中自由遨游,正是因为它有无尽的信息资源可供浏览查询,可有时候当我们去寻找所需要的信息时,却如同大海捞针一样难。如何才能在这浩如烟海的信息中找到自己需要的信息呢?——搜索引擎就像一只神奇的手,帮助我们从杂乱的信息中抽出一条清晰的检索路径。定义:搜索引擎(SearchEngine)是指根据一定的策略、运用特定

2、的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。起源:1990年,加拿大麦吉尔大学(UniversityofMcGill)计算机学院的师生开发出Archie。当时,万维网(WorldWideWeb)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的

3、信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。最早现代意义上的搜索引擎出现于1994年7月。当时MichaelMauldin将JohnLeavitt的蜘蛛程序电脑“机器人”(ComputerRobot)是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。接入到其索引程

4、序中,创建了大家现在熟知的Lycos。同年4月,斯坦福大学的两名博士生,美籍华人杨致远(GerryYang)和美国人DavidFilo,共同创办了雅虎(Yahoo),并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。(视频:搜索引擎的发展历史)组成:搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成,各自功能如下:①搜索器:在互联网中漫游,发现和搜集信息;②索引器:理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;③检索器:根据用户的查询在索引库中

5、快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;④用户接口:接纳用户查询、显示查询结果、提供个性化查询项。工作原理:搜索引擎通常收集了互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立了索引数据库。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜索出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。搜索引擎的原理,可以看做三步:从互联网上抓取网页→建立索引数据库→等待用户

6、提出搜索请求,根据关键词在索引数据库中搜索排序。搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。(图解)超链超链超链超链超链(1)抓取网页(搜索器)每个独立的搜索引擎都有自己的网页抓取程序(Spider)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。(2)处理网页(索引器)  搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提

7、取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。任务:下图是中国2010年上海世博会官方网站的源代码截图,请注意其中关键词部分的内容。(3)提供检索服务(检索器、用户接口)用户输入关键词关键词就是您输入搜索框中的文字,也就是您命令搜索引擎寻找的东西。无庸至疑,选择正确的关键词是一切的开始。学会从复杂搜索意图中提练出最具代表性和指示性的关键词对提高信息查询效率至关重要,这方面的技巧(或者说经验)是所有搜索技巧之母。进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了

8、用户便于判断,除了网页标题和URL外,还会提供网页描述或一段来自网页的摘要、网页快照网页快照是搜索引擎抓捕下来缓存在服务器上的网页。它有三个作用:第一,如果原地址打开很慢,那么可以直接查看搜索引擎的缓存页面,因为通常搜索引擎的服务器速度极快。第二,如果原链接已经死掉或者因为网络的原因暂时链接不通,那么可以通过网页快照看到该页面信息。当然,快照内容不是该页最新页面。第三,如果打开的页面信息量巨大,一下子找不到关键词所在位置,那么可以通过网页快照,因为快照中

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。