《搜索引擎工作原理》PPT课件

《搜索引擎工作原理》PPT课件

ID:36900195

大小:483.10 KB

页数:186页

时间:2019-05-10

《搜索引擎工作原理》PPT课件_第1页
《搜索引擎工作原理》PPT课件_第2页
《搜索引擎工作原理》PPT课件_第3页
《搜索引擎工作原理》PPT课件_第4页
《搜索引擎工作原理》PPT课件_第5页
资源描述:

《《搜索引擎工作原理》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第九章搜索引擎工作原理第一节搜索引擎和信息检索第二节搜索引擎的概念第三节搜索引擎的历史第四节搜索引擎的工作原理第一节搜索引擎和信息检索对大多数人来说,在Web上搜索信息是一项日常活动。目前,计算机最普遍的应用是--、--。(搜索和通信)许多人试图改进搜索引擎,其实都是在信息检索领域工作。信息检索一词的含义非常宽泛。信息检索如何定义?从20世纪50年代,该领域的主要焦点是--、---。(text和textdocumant,文本和文本形式的文档)网页、电子邮件、学术论文、图书和新闻报道只是文档类型中的一部分。所有这些文档都有一定的结构,例如与科技期刊论文的内容相关联的标题、作者、日期和摘要信息等

2、。当用于数据库记录时,这些结构由属性或域组成。文档和典型的数据记录(如银行账号记录)最重要的区别是?。文档中的大部分信息以文本形式存放,文本是没有结构。账号记录中包含两个典型属性:账号和当前余额。无论在格式上,还是意义上,这两个属性都被非常精确的定义。要比较这些属性的值非常容易。因此可以直接实现某个算法,识别出满足某个查询条件的记录,例如:“找出账号为321456账户”或者“找出余额大于5万美金的账户”文本的比较容易?定义一个词、句子、段落或者整个新闻报道的意义,比定义一个账号要难得多。对人们比较文本的过程进行理解和建模,并设计计算机算法以便精确地执行这种比较,是信息检索的核心。信息检索的应

3、用逐步扩展到带有结构的多媒体文档、有意义的文本内容和其他媒体。垂直搜索、企业搜索、桌面搜索。Verticalsearch:是网络搜索的特殊形式,搜索被限制在特殊的主题上。enterprisesearch:是在散布在企业内部网中的大量计算机文件中查找所需信息。信息检索不仅仅研究基于用户查询的搜索(有时被称为特殊搜索),还包括过滤、分类和问答。信息检索的关键问题之一是相关性。相关性—检索模型。之二是评价问题。之三是注重用户和他们的信息需求。目前人们从网上获取信息的主要工具是浏览器。通过浏览器得到信息通常有三种方式:①直接向浏览器输入一个关心的网址(URL),浏览器返回所请求的网页,根据该网页的内

4、容及其包含的超链接文字的引导,获得所需的内容。此种方式最有针对性。②登录到某知名网站,根据该网站提供的分类目录和相关链接,逐步寻找自己感兴趣的信息。此种方式类似于读报。③登录到某搜索引擎网站,输入代表自己所关心信息的关键词或者短语,依据所返回的相关信息列表、摘要和超链接引导,寻找需要的信息。此种方式适用于用户需求较明确,但不知信息所在位置,所以搜索引擎给出一些相关内容的网址及其相关内容的列表,供用户选择。URL(uniformresourcelocator)用来定义互联网上信息资源的一种协议(或者说描述规范),网页的定位通常是以形如http://host/path/file.html的URL

5、来描述的,而FTP资源则以形如ftp://host/path/file的URL来描述。第二节搜索引擎概念搜索引擎指的是一种在Web上应用的软件系统,它以一定的策略在Web上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。呈现在使用者面前的是一个网页界面,使其通过浏览器提交一个词语或者短语,然后很快返回一个可能和用户输入内容相关的信息列表。(注意:在系统内部搜索得到,而不是在Web上搜索)列表中的每一条目代表一篇网页,每个条目至少有三个元素:标题:以某种方式得到的网页标题。最简单的方式就是从网页的标签中提取的内容。URL:该网页对应的访问网

6、址。有经验的用户往往通过这个元素对网页内容的权威性进行判断。(注意:链接的是网页的原始出处)摘要:以某种方式得到的网页内容的摘要。最简单的一种方式就是将网页内容的头若干字节截取下来作为摘要。所以,从理论上搜索引擎并不保证用户在返回结果列表上看到的标题和摘要内容与其点击URL所看到的内容一致,甚至不保证那个网页存在。(这是搜索引擎和传统信息检索的一个重要区别)。为了弥补这种差别,现代搜索引擎都保存网页搜集过程中得到的网页全文,并在返回结果列表中提供“网页快照”或者“历史网页”链接,保证用户能看到和摘要信息一致的内容。第三节搜索引擎的发展历史在Web出现以前,互联网上就已经存在许多旨在让人们共享

7、的信息资源。此时的信息资源主要存在于各种可以匿名访问的FTP站点,内容以学术技术报告、研究性软件居多。它们以计算机文件的形式存在,文字材料的编码通常是PostScript或者纯文本(当时还没有HTML)1990年,加拿大UniversityofMcGill计算机学院的师生开发软件--Archie,被认为现代搜索引擎的鼻祖。Archie通过定期搜集并分析FTP系统中存在的文件名信息,提供查找分布在各个FTP主机

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。