Google搜索引擎工作原理简介

Google搜索引擎工作原理简介

ID:41107899

大小:28.50 KB

页数:4页

时间:2019-08-16

Google搜索引擎工作原理简介_第1页
Google搜索引擎工作原理简介_第2页
Google搜索引擎工作原理简介_第3页
Google搜索引擎工作原理简介_第4页
资源描述:

《Google搜索引擎工作原理简介》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、文章是基于Google创始人LawrencePage和SergeyBrin一篇早期的论文翻译整理简化而成。尽管Google一直在修正不同因素对网页的权重影响以期排除作弊网站对搜索结果的干扰和获得最好的搜索结果,但其核心思路并没有改。  Google采用了两个重要的特性,因此而获取了准确的查询结果:第一,Google利用网页的链接结构计算出每个网页的等级排名,这就是所谓的PageRank;第二,Google利用了链接提供的信息进一步改善搜索结果。  PageRank的计算:  PageRank的基

2、本思路是:如果一个网也被其他网页多次指向,这就说明本网页比较重要或者质量较高。除了考虑网页链接数量之外,Google还要参考链接网页本身的级别,以及这个网页有多少正向链接到其它网页。当然“重要”的网页的链接就会有更高的权重。PageRank的简化计算公式:  PR(A)=(1-d)+d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn))?PR(A):网页A页的PageRank值;?PR(Ti):链接到A页的网页Ti的PageRank值;?C(Ti):网页Ti的出站链接数量;?d:阻尼系数,

3、0  PageRank可以通过结合链接权重的向量矩阵的提归计算而获得(关于PageRank的深入分析,我在方便的时候会另外写一篇文章介绍)。  随机冲浪模型:  PageRank可以被理解为用户的一个行为模型。我们假设一个随机的网站浏览者”randomsurfer”给以一个随机的网页,他会继续点击网页中的链接直到他厌倦了而从新开始浏览一个新的随机的网页。PageRank可以理解为某个网页被随机访问的概率。而阻尼系数d则是随机访客不顺着网页的链接继续浏览下去,而从新开始一个随机冲浪的概率。对有一些

4、网页,可能会人为的改变它的阻尼系数,这样就可以阻止一些作弊网站误导Google而获得较高的PageRank的可能性。  你也可以这样自觉理解PageRank:一个高PageRank的网页是那些有很多网页指向的网页,或者是有一些重要网页指向的网页。Google假定,如果一个网页被很多其他不同的网页引用,就说明这个网也值得一看。另外,如果一个网页为yahoo这样的网站指向,也通常值得一看。  链接描述文本(anchortext)  Google对连接描述文字进行了特殊的处理。大多数的搜索引擎都是把链

5、接文本和它所在的页面相关联,而Google还把链接文本和它指向的文档相关联。这样做的原因是链接描述往往提供了一个对被指向的网页更准确地描述。  除了PageRank和链接描述以外,Google还采用了一些其它的特性:首先,Google记录了所有关键字的位置信息(hits),它在搜索中充分的使用了关键字的相关性分析。其次,Google记录了一些视觉信息,比如字体的大小等等。大字以及加粗的字体比网页中的其它字体有更高的权重。  另外,Google认为,不是直接呈现给访问者的的文本信息都可能被烂用,并

6、用以误导搜索引擎。所以Google对metadata的文本给以较小的重视。  系统结构分析:  Google的整体系统结构如图所示:  先由URLserver发送一系列的URL地址让网站爬虫crawlers去采集。网页采集后交给存储服务器Storeserver。存储服务器压缩网页内容后存放到信息仓库repository。所有的新的网页都被赋予一个docID。索引功能由索引器indexer和排序器sorter来执行完成。Indexer读取repository的文件,并将其转换为一系列的关键字排序,

7、称为命中hits。Hits记录了关键字,出现在文件的位置,字体的相对大小和字母的大小写。Indexer然后将这些hits放到一系列的桶barrels中,建立了部分排序的好了的正向索引。Indexer还分离出网页中的所有链接,将重要的信息存放在Anchors文件之中。这个文件包含的信息可以确定链接的指向和链接的描述文本。  URLresolver读取Anchors文件并将相对URLs转换为绝对URLs,并依次放到docIDs中。它再将链接的描述文本放到正向索引,并将docIDs与链接的描述文本相对

8、应。同时,它也产生一个链接links和docIDs相对应的数据库。这个links数据库将被用于计算所有网页的PageRanks。  然后,排序器sorter从barrels中取得按docID排序的网页,再将其按照wordID产生一个反向索引。Sorter还在反向索引产生一个wordIDs及其偏移的列表。一个叫做DumpLexicon的程序将这个列表结合搜索引擎的词库再产生一个可以被搜索器searcher使用的新的词库Lexicon。由网页服务器构成的搜索引擎Searcher利用这个新的词库配合反

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。