搜索引擎的工作原理.ppt

搜索引擎的工作原理.ppt

ID:51496487

大小:434.00 KB

页数:12页

时间:2020-03-25

搜索引擎的工作原理.ppt_第1页
搜索引擎的工作原理.ppt_第2页
搜索引擎的工作原理.ppt_第3页
搜索引擎的工作原理.ppt_第4页
搜索引擎的工作原理.ppt_第5页
资源描述:

《搜索引擎的工作原理.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、搜索引擎的工作原理韩丽娟目录1、定义2、爬行和抓取3、预处理4、排名定义搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。爬行和抓取预处理排名爬行和抓取一、定义:搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。二、工作流程1、蜘蛛搜索引擎用来爬行和访问的页面的程序成为蜘蛛,也成为机器人。爬行和抓取2、跟踪链接为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬行到另一个页面,就像蜘蛛在蜘蛛网上爬行一样。爬行和抓取3、吸引蜘

2、蛛①页面权重质量高和资格老的网站被认为权重比较高②页面更新度蜘蛛每次爬行都会把页面数据存储起来。第一次和第二次要让蜘蛛爬行不同页面,这样蜘蛛才会光顾你的网站。③导入链接外链、内链、友请链接爬行和抓取4、地址库为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。5、文件库存搜索引擎蜘蛛抓取的数据存入页面数据库。其中页面数据和用户浏览器得到的HTML是完全一样的,每个URL都有一个独特的文件编号。预处理搜索引擎蜘蛛抓取的原始页面,并不能直接用于查询排名处理。搜索引擎数据库的页面数数亿级别以上,用户输入搜索伺

3、候,考排名程序实时对这么多页面分析相关性,计算量太大,不可能一秒钟返回排名结果,因此抓取来的页面必须经过预处理,为最后查询排名做好准备。预处理1、提取文字2、去停止词3、消除噪声4、去重排名经过搜索引擎蜘蛛抓取页面,索引程序计算得到倒排索引以后,搜索引擎就准备好可以随时处理用户搜索了。用户在搜索框填入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程是与用户直接互动的。排名1、搜索词的处理2、相关性计算3、初始子集的选择4、排名过滤及调整谢谢

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。