Web搜索引擎工作原理和体系结构

Web搜索引擎工作原理和体系结构

ID:45079500

大小:331.84 KB

页数:31页

时间:2019-11-09

Web搜索引擎工作原理和体系结构_第1页
Web搜索引擎工作原理和体系结构_第2页
Web搜索引擎工作原理和体系结构_第3页
Web搜索引擎工作原理和体系结构_第4页
Web搜索引擎工作原理和体系结构_第5页
资源描述:

《Web搜索引擎工作原理和体系结构》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第二章Web搜索引擎工作原理和体系结构张宇信息检索研究室计算机科学与技术学院主要内容基本要求网页搜集预处理查询服务体系结构本章小结主要内容基本要求网页搜集预处理查询服务体系结构本章小结基本要求搜索引擎示意图搜索引擎网页数据库q1,q2,q3……L1,L2,L3……qi:用户通过浏览器提交的查询词或者短语Lj:在一个可接受的时间内返回一个和用户查询匹配的网页信息列表基本要求相关概念可以接受的时间即响应时间,通常在“秒”级,是衡量搜索引擎可用性的一个基本指标匹配网页中以某种形式包含有q的内容列表蕴含着一种“序”基

2、本要求搜索引擎三段式工作流程网页搜集预处理查询服务主要内容基本要求网页搜集预处理查询服务体系结构本章小结网页搜集搜索引擎软件系统操作的数据用户查询内容不可预测海量网页数量上动态变化需要系统去抓取网页搜集网页的抓取时机即时抓取用户提交查询的时候即时去网上抓取网页缺点:系统效益不高(重复抓取网页)预先搜集(直接或间接)定期搜集每次搜集替换上一次的内容优点:实现简单缺点:时新性(freshness)不高;重复搜集带来的额外宽带开销增量搜集网页搜集网页的抓取时机(续)增量搜集开始时搜集一批网页,以后只搜集新出现的网页

3、搜集那些在上次搜集后有过改变的网页发现自从上次搜索后已经不再存在了的网页,并从网页库中删除优点:每次搜集的网页量不是很大,可以经常启动搜集过程;时新性比较高缺点:系统实现比较复杂;不仅搜集过程复杂,而且后续创建索引的过程也很复杂网页搜集如何抓取网页爬取Web上的网页集合看成一个有向图搜集过程搜集过程从给定的初始URL集合S(种子)开始沿着网页中的链接,按照先深、先广或者某种遍历策略,不停地从S中移出URL,下载相应的网页解析出网页中的超链接URL,看是否已经被访问过,将未访问过的URL加入集合S网页搜集如何爬

4、取网页(续)方法2系统第一次全面网页搜集后,系统维护相应的URL集合S,以后的搜集基于该集合每搜到一个网页,如果它发生改变并含有新的URL,则将它们对应的网页也抓取回来,并将这些新的URL也放到集合S中如果S中某个URL对应的网页不存在了,则将它从S中删除网页搜集如何爬取网页(续)方法3网站拥有者主动向搜索引擎提交它们的网址(为了达到宣传的目的)系统在一定时间内(两天到数月不等)定向向那些网站派出“蜘蛛”(spider)程序,扫描该网站所有的网页并将有关信息存入数据库中主要内容基本要求网页搜集预处理查询服务体

5、系结构本章小结预处理关键词的提取网页源文件文字内容HTML标记为支持后面的查询服务,需要从网页源文件中提取出能够代表它的内容的一些特征关键词是这种特征最好的代表词典Σ分词软件(切词软件)网页由一组词来表示:p={t1,t2,t3,…tn},ti∈Σ去除停用词(stopwords)预处理重复或转载网页的清除重复网页网页的内容完全相同,未加任何修改转载网页网页的内容基本相同,但有可能有一些额外的编辑信息天网统计结果表明,网页的重复率大约为4(2003)搜集网页时消耗机器时间和网络带宽资源出现在查询结果中,会引起用

6、户的抱怨预处理链接分析传统信息检索仅仅分析正文内容的文字,最多加上词频,TF(termfrequency)文档频率:DF(documentfrequency)引入HTML标记,会有所改善

之间的内容要比

之间的内容重要指向其他文档、网页的链接“北大学报”、“北京大学学报社会科学版”预处理网页重要程度计算搜索引擎返回给用户的是:一个和用户查询相关的结果列表一个网页如何比另一个网页重要?被引用多的就是重要的(Google,PageRank)主要内容基本要求网页搜集预处理查询服务

7、体系结构本章小结查询服务预处理之后得到的结果的内部表示:原始网页文档URL和标题编号所含的重要关键词的集合(以及它们在文档中出现的位置信息)其他一些指标(重要程度、分类代码)查询服务查询服务子系统的功能系统得到一个关键词输入,能迅速给出相关文档编号的集合输出,从“集合”生成“列表”倒排文件的生成(放到预处理阶段更合适)查询服务查询方式和匹配查询方式:用户提交查询的形式利用词或者短语来直接表达用户信息需求代表了大多数的情况实现起来比较简单q0表示用户提交的原始查询q0=“网络与分布式系统实验室”分词:“网络与分

8、布式系统实验室”删除那些没有查询意义或者在每篇文档中都会出现的词最后形成参加匹配的查询词表:q={网络,分布式,系统,实验室}查询服务结果排序给定一个查询结果的集合:R={r1,r2,……rn}列表,就是按照某种评价方式,确定出R中元素的一个顺序确定检索结果和查询之间的相关性的难点不仅和查询词有关,而且和用户背景有关基于词汇出现频度的方法一篇文档中包含的查询中的词越多,该文档就应排在前面一个词在越多

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。