第10章 发现与搜索引擎技术ppt课件.ppt

第10章 发现与搜索引擎技术ppt课件.ppt

ID:58715380

大小:1.17 MB

页数:113页

时间:2020-10-04

第10章 发现与搜索引擎技术ppt课件.ppt_第1页
第10章 发现与搜索引擎技术ppt课件.ppt_第2页
第10章 发现与搜索引擎技术ppt课件.ppt_第3页
第10章 发现与搜索引擎技术ppt课件.ppt_第4页
第10章 发现与搜索引擎技术ppt课件.ppt_第5页
资源描述:

《第10章 发现与搜索引擎技术ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第10章发现与搜索引擎 技术学习任务WEB搜索引擎工作原理物联网搜索引擎服务发现技术Clicktoaddtitleinhere123本章主要涉及:10.1搜索引擎技术概述搜索引擎(searchengine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。10.1.1搜索引擎的发展1990年,加拿大麦吉尔大学(UniversityofMcGill)计算机学院的师生想到了开发一个可以用文件名查找文件的系统,开发出Archie。当时,万维网(WorldWid

2、eWeb)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。10.1.1搜索引擎的发展虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。由于Archie深受欢迎,受其启发,1993年又开发了一个Gopher搜索工具。10.1.2搜索引擎分类(1)全文

3、索引全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息,建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果10.1.2搜索引擎分类根据搜索结果来源的不同,全文搜索引擎可分为两类:一类拥有自己的检索程序(Indexer),俗称“爬虫”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。1

4、0.1.2搜索引擎分类(2)目录索引目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的有Yahoo、新浪分类目录搜索。10.1.2搜索引擎分类(3)元搜索引擎元搜索引擎(METASearchEngine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等。10.2WEB搜索引擎工作原理web搜索引擎的原理通常为

5、:首先是用爬虫(Spider)进行全网搜索,自动抓取网页;然后将抓取的网页进行索引,同时也会记录与检索有关的属性,中文搜索引擎中还需要首先对中文进行分词;最后,接受用户查询请求,检索索引文件并按照各种参数进行复杂的计算,产生结果并返回给用户。10.2.1Web搜索引擎的组成搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成:①搜索器:其功能是在互联网中漫游,发现和搜集信息;②索引器:其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;10.2.1Web搜索引擎的组成③检索器:其功能是根据用户的查询在索

6、引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;④用户接口:其作用是接纳用户查询、显示查询结果、提供个性化查询项。10.2.1Web搜索引擎的组成搜索引擎组成10.2.2Web搜索引擎的工作模式①利用网络爬虫获取网络资源。网络爬虫访问资源的过程,是对互联网上信息遍历的过程。在实际的爬虫程序中,为了保证信息收集的全面性,及时性,还有多个爬虫程序的分工和合作问题,往往有复杂的控制机制。10.2.2Web搜索引擎的工作模式基本搜索器流程图10.2.2Web搜索引擎的工作模式②利用索引器从搜索器获取的资源中抽

7、取信息,并建立利于检索的索引表:当用网络爬虫获取资源后后,需要对这些进行加工过滤,去掉网控制代码及无用信息,提取出有用的信息,并把信息用一定的模型表示,使查询结果更为准确。其中信息的表示模型一般有布尔模型,向量模型,概率模型和神经网络模型等。10.2.2Web搜索引擎的工作模式Web上的信息一般表现为网页,对每个网页,须生成一个摘要,此摘要将显示在查询结果的页面中,告诉查询用户各网页的内容概要。模型化的信息将存放在临时数据库中,由于web数据的数据量极为庞大,为了提高检索效率,须按照一定规则建立索引。不同搜索引擎在建立索引时会考虑不同的选项,如

8、是否建立全文索引,是否过滤无用词汇,是否使用meta信息等。10.2.2Web搜索引擎的工作模式索引的建立包括:■分析过程,处理文档中可能的错误;■文

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。