google pagerank排名新算法二

google pagerank排名新算法二

ID:21788307

大小:57.50 KB

页数:8页

时间:2018-10-24

google pagerank排名新算法二_第1页
google pagerank排名新算法二_第2页
google pagerank排名新算法二_第3页
google pagerank排名新算法二_第4页
google pagerank排名新算法二_第5页
资源描述:

《google pagerank排名新算法二》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、GooglePageRank排名新算法二第二部分:探索GooglePageRank新算法2-1.Google的主题性趋向2-1-1.关于页面级别(PageRank)及Google的旧算法出现问题的原因页面级别(PageRank)计算系统所遵循的思路是:通过一个经由互联X的“随机运动”来告诉你哪些站点是最重要的。该系统模拟的是一个随机冲浪者跟进点击某页面上的随机链接,至最深层页面时按“返回”按钮这一过程。页面的等级越高,则随机X络冲浪者发现它的机率亦越高。这种思路其实相当富有创意。一个X页的外部链接越多,则对任意X络冲浪者来说,发现它的机会也就越大。同时,在页面级别算法系统中,页面越流行,则其导

2、入链接就越能从链接中受益—这是由于任意X络冲浪者发现这些链接的机会就越大。在特定领域的研究论文查询方面,页面级别系统几乎无可挑剔。例如,如果用户查询关于素粒子物理学研究方面的论文(或X页)文献集,则对于一个给定条件的查询,页面级别的算法可以很快告诉你,哪些论文才是与该特定查询条件最相关及最重要的论文,其原因就在于这些论文较其它论文的引用次数要多。若互联X上的资源具有同一主题性,那么这种工作可说是尽善尽美了。但正如我们所知道的,互联X上的资源涵盖了上百万甚至更多的主题,而且在人们的实际生活中,查询用户所寻找的往往是一些具有特定主题的信息。所以虽然页面级别系统考虑了所有链接,但却忽视了链接页面的主

3、题性。Google已试图将链接的文本内容计入排名算法来克服这一局限性。但精明的搜索引擎营销商却通过在X络上到处建立充盈关键词的链接来欺骗Google的排名算法。一种新的作坊式行业也随着PageRank应运而生—即有偿交换和交易一些来自较高“页面级别”页的链接。如果X站能够从毫不相关的站点购买或交易导入链接而使X站排名得到提升的话,那么页面级别技术已然无法为绝大多数查询条件提供高质量的搜索结果了。我们有理由相信,当Google这个世界最顶级的搜索引擎一旦发现其搜索结果的质量开始恶化时,它是不会坐视不管的。2-1-2.新技术闪亮登场:主题性页面级别技术(Topic-SensitivePageRan

4、k)2002年,斯坦福大学的一名博士生塔赫尔。哈维利瓦拉(TaherH.Haveliantics公司及其专利技术CIRCAAppliedSemanticsX络广告软件公司是互联X广告方面的专家,于2003年4月份被Google收购。Google此举旨在加强搜索和广告功能。如今该公司的技术已对Google产生了深远的影响。例如在Google的Adantics的AdSense技术。事实上Google在这次收购中获利的还不止AdSense技术,AdSense的后台技术其实就是AppliedSemantics公司所拥有的专利技术CIRCA。CIRCA技术所基于的是一个独立语言并具有高度扩展性的本体论,

5、这个本体论中包含了上百万词语,词语含义及这些词语与其它自然语言中的词语之间的概念性关系。由复杂的搜索技术所支持的本体论是对词语的多样性含义的概念性理解的基础,它能够使计算机对信息进行更加有效的管理和检索,从而为搜索用户更好的提供探索知识的机会。CIRCA技术的作用就在于它可以确定对特定词语或短语的相关概念。该技术目前被用来从众多内容中为广告客户提供相关广告服务,亦可应用于Google的关键词词根还原系统。尤其值得一提的是:CIRCA能够计算“短语A”对“概念B”的相关程度。例如,如果用户查询“Coloradobicycletrips”,CIRCA能够将其与“Colorado”地域,“骑车”,“

6、旅游”等主题概念性地联系起来。这意味着它们能够计算其数据库中不同的概念与用户查询条件之间的“距离”。这一点十分重要。2-1-4.二者的有机结合:主题性搜索引擎的实现现在我们对主题性页面级别和CIRCA都有了一定的了解,那么接下来的问题就是:这二者之间是如何有机联系的?换言之,Google如何结合这些技术来产生一个更好的搜索引擎呢?首先,让我们来设想一下:假如对于大量的(上百直至上千个)主题或概念,Google已然解决了如何计算其主题性页面级别的问题。在Google过去所使用的页面级别系统中,计算结果的精准性是相当重要的。但随着主题性算法的发展,不久我们就可能看到,也许速度快而且效果良好的近似计

7、算结果才是他们所需要的。从上述论文中我们不难看出这一点已然颇具可行性。现在,如果用户再查询的话,则查询条件中的词语将至少与CIRCA数据库中若干主题紧密匹配。Google完全能够基于用户所使用的查询条件及数据库中所包含的主题之间的“距离”来提供“主题性页面级别”得分,从而向用户提供更好的搜索结果。查询与主题的关系越密切,则主题性页面级别得分效果越佳。由于一个给定的搜索查询条件有可能与数据库中的多个

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。