搜索引擎算法的排名系统:爬行、索引和排名

搜索引擎算法的排名系统:爬行、索引和排名

ID:32984030

大小:94.63 KB

页数:3页

时间:2019-02-18

搜索引擎算法的排名系统:爬行、索引和排名_第1页
搜索引擎算法的排名系统:爬行、索引和排名_第2页
搜索引擎算法的排名系统:爬行、索引和排名_第3页
资源描述:

《搜索引擎算法的排名系统:爬行、索引和排名》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于算法的排名系统:爬行、索引和排名理解爬行、索引和排名的工作原理,有助于SEO从业者确定达到目标所需要采取的措施。木节主要介绍Google和必应的运营方式,不一定适用于其他流行搜索引擎,例如,Yandex(俄罗斯)、百度(中国)、Seznam(捷克斯洛伐克)和Naver(韩国)。搜索引擎必须很好地执行几个任务,才能捉供相关的搜索结果。简单地说,可以这样看待这些任务:•爬行和索弓IWeb上的几十亿个文档(网页和文件)。(注意,它们会忽略自己认为是〃无价值〃的网页,这可能是因为它们认为这些网页不能增加新的价值,或者在Web上根

2、木得不到引用。)•提供相关页而的列表响应用户查询。本节从非技术角度介绍这些功能的基础知识,首先讨论搜索引擎如何查找和发现内容。2.2.1爬行与索引为了捉供尽可能好的结果,搜索引擎试图发现万维网上所冇公开的网页,然后显示与用户搜索查询最匹配的结果。这一过程的第一步是Web爬行。搜索引擎从一组众所周知的高质量网站开始,然后访问这些网站每个页面上的链接,以发现其他网页。Web的链接结构将所有公共的网页联系在一起。通过链接,搜索引擎的口动机器人(称作爬行器或者蜘蛛)能够接触到数以亿计相互连接的文档。在图2T0中,你可以看到美国政府官

3、方网站的主页http://www.usa.gov,页面上的链接在图2-10±标出,对这个页面的爬行从加载网页开始,然后分析其内容,接着查看它所链接的其他网页。Fspanol"TjSA.govGovernmentMadeEasyGetE-mailUodatesIChangeTextSizeSEARCH1800FEDINFO(333-4636)GetServicesNewsExploreTopicsFindGovernmentAgenciesContactGovernmentSignUpforConsumer-RelatedAl

4、ertsSIGNUPFORALERTSGetnotifiedaboutthelatestconsumerpubheationsandpromotionsbytextingPUBto872468(USAGOV).You'llreceive2-3textmessagespermonth.POPULARTOPICS1.GovernmentJobs2・A-ZListofAgencims3・Grants,Loans,andFinancialAssistance4.GovemmentAuctions5.UndaimedMorwy□□□1

5、23图2-10爬行美国政府网站然后,搜索引擎加载其他页面并分析其内容。这一个过程不断重复直到爬行过程完成。由于Web巨大而复杂,因此爬行过程的复杂度极高。搜索引擎并不是每天都试图爬行整个Web。实际上,搜索引擎可以发现冇些页而的重要性不足以出现在搜索引擎中,从而不对这些页面进行爬行。下一节将讨论重要性所起的作用。一旦搜索引擎在爬行中读取一个页面,其下一步工作就是解析它们的代码,并将页面中精选的部分存放在大型磁盘阵列里,以便在查询时调用。这一过程的第一步是建立关键词词典。关键词词典是分类搜索引擎爬行得来的每个页而上所冇重要关键

6、词的大型数据库。其他一些数据(如页面链接地图、链接的锚文本、链接是否被当作广告等)也记录在内。存储瞬间内就能访问到的数千亿(甚至万亿)个网页的信息是极其繁重的任务,为此搜索引擎建立了许多大型的数据中心。构建搜索引擎的关键概念Z—是确定从Web的哪个位置开始爬行。尽管从理论上讲,可以从许多不同的地方开始,但是最理想的情况述是从一组信任的网站开始爬行。从已知可信的一组网站开始,搜索引擎就能度量通过爬行过程找到的其他网站的口J信度。2.2.2检索和排名对于大部分搜索者來说,对答案的追求从图2-11中所示的搜索开始。SearchIn

7、eedsomething...图2-11用户搜索请求的开始查询的下一步发生在搜索引擎返冋Web上的相关网页列表时,这一列表按照搜索引擎所认为的用户满意度排序。这一过程要求搜索引擎在它所搜集的几千亿个文档寻找,并进行两项工作:第一,仅返回与搜索者的查询相关的结果,第二,按照重要性(考虑网站相关的可信度和权威性)排序结杲。相关性和重要性都是SEO过程所要影响的因素。相关性(relevance)是搜索返冋文档的内容与用户查询的意图和关键字相匹配的程度。如果页面包含与用户查询相关的关键字,或者指向页面的链接来自相关页面且使用相关的锚

8、文本,文档的相关性也就随之提高。你可以将相关性看做〃游戏〃中的第一步。如果网站与杳询不相关,搜索引擎就不会在该查询的搜索结果屮包含它。2.3节将更详细地讨论如何确定相关性。重要性(importance)指的是相对重要性,通过对匹配用户查询的指定文档的引用(citation,常见于学术和商业

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。