浅析网页搜索引擎的pagerank排序算法

浅析网页搜索引擎的pagerank排序算法

ID:23980984

大小:60.00 KB

页数:3页

时间:2018-11-12

浅析网页搜索引擎的pagerank排序算法_第1页
浅析网页搜索引擎的pagerank排序算法_第2页
浅析网页搜索引擎的pagerank排序算法_第3页
资源描述:

《浅析网页搜索引擎的pagerank排序算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要随着Internet技术的快速普及和迅猛发展,Web上信息总量日益膨胀。用户如何从网页信息中快速获取所需信息变得日益重要。本文对Web结构挖掘算法PageRank算法进行研究学习,分析了其两种算法的基本思想和技术特点o关键词排序PageRank算法随机游走中图分类号:TP393文献标识码:A1PageRank算法概述PageRank(网页级别),2001年9月被授予美国专利,专利人是Google创始人之一拉里?佩奇[1]。它是Google排名运算法则(排名公式)的一部分,是Google用于用来标

2、识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。级别从0到10级:10级为满分。2PageRank算法过程分析PageRank算法所建立的用户浏览模型被称为“随机游走”(randomwalk)模型。用户使用一个特殊的浏览器来浏览网页,这个浏览器没有地址栏、后退按钮

3、,即只能顺着网页链接浏览。同时提供一个“随便逛逛”的功能,可以通过点此按钮随机打开万维网上的一个网页开始浏览。那么,网页A被访问的概率可以用如下公式计算得到:上式右半部分是使用“随便逛逛”功能访问到页面A的概率,而后半部分则是使用超链接访问到页面A的概率,两者相加即为访问到页面A的总概率大小。可知,如果给定参数,页面A的PageRank值事实上是由链接到它的各个页面的PageRank值决定的。1PageRank算法PageRank算法要求G中不存在没有超链接的“死胡同”网页,为解决这一问题,可以采用

4、如下算法:(4)当结果向量收敛时,返回(3)继续循环;当收敛时,算法结束,输出所计算出的G中每一个节点n的PR(n)的结果。4.总结可以看出,与第一种算法相比,第二种算法考虑到没有超链接网页的情况,对这部分网页,“随机游走”的浏览方式则只能点击“随便逛逛”功能进行跳转,而任何G中的网页都可能成为跳转目标。事实上,这相当于先在“死胡同”网页和G中的所有网页两两之间添加了一条虚拟的超链接,之后,再在这个经过修改的链接关系图上进行简化算法。参考文献[1]黄德才,戚华春,钱能.基于主题相似度模型的TS2Pa

5、geRank算法[J].小型微型计算机系统,2007(03).[2]卢开澄.计算机密码学__计算机网络中的数据保密与安全(第3版)[M].清化大学出版社,2002.[3]李凯,赫枫龄,左万利.PageRank2Pro—种改进的网页排序算法[J].吉林大学学报,2003(4).

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。