谈 Page Rank – Google 的民.主表决式网页排名技术
2006年2月27日 上午 08:38:00 转载自Google (谷歌)中国的博客网志发表者: 吴军, Google 工程师
大家可能听说过,Google 革命性的发明是它名为 “Page Rank” 的网页排名算法,这项技术彻底解决了搜索结果排序的问题。其实最先试图给互联网上的众多网站排序的并不是 Google。Yahoo! 公司最初第一个用目录分类的方式让用户通过互联网检索信息,但由于当时计算机容量和速度的限制,当时的 Yahoo! 和同时代的其它搜索引擎都存在一个共同的问题: 收录的网页太少,而且只能对网页中常见内容相关的实际用词进行索引。那时,用户很难找到很相关信息。我记得 1999 年以前查找一篇论文,要换好几个搜索引擎。后来 DEC 公司开发了 AltaVista 搜索引擎,只用一台 ALPHA 服务器,却收录了比以往引擎都多的网页,而且对里面的每个词进行索引。AltaVista 虽然让用户搜索到大量结果,但大部分结果却与查询不太相关,有时找想看的网页需要翻好几页。所以最初的 AltaVista 在一定程度上解决了覆盖率的问题,但不能很好地对结果进行排序。
Google 的 “Page Rank” (网页排名)是怎么回事呢?其实简单说就是Demokratie表决。打个比方,假如我们要找李开复博士,有一百个人举手说自己是李开复。那么谁是真的呢?也许有好几个真的,但即使如此谁又是大家真正想找的呢?:-) 如果大家都说在 Google 公司的那个是真的,那么他就是真的。
在互联网上,如果一个网页被很多其它网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。这就是 Page Rank 的核心思想。 当然 Google 的 Page Rank 算法实际上要复杂得多。比如说,对来自不同网页的链接对待不同,本身网页排名高的链接更可靠,于是给这些链接予较大的权重。Page Rank 考虑了这个因素,可是现在问题又来了,计算搜索结果的网页排名过程中需要用到网页本身的排名,这不成了先有鸡还是先有蛋的问题了吗?
Google 的两个创始人拉里•佩奇 (Larry Page )和谢尔盖•布林 (Sergey Brin) 把这个问题变成了一个二维矩阵相乘的问题,并且用迭代的方法解决了这个问题。他们先假定所有网页的排名是相同的,并且根据这个初始值,算出各个网页的第一次迭代排名,然后再根据第一次迭代排名算出第二次的排名。他们两人从理论上证明了不论初始值如何选取,这种算法都保证了网页排名的估计值能收敛到他们的真实值。值得一提的事,这种算法是完全没有任何人工干预的。
理论问题解决了,又遇到实际问题。因为互联网上网页的数量是巨大的,上面提到的二维矩阵从理论上讲有网页数目平方之多个元素。如果我们假定有十亿个网页,那么这个矩阵 就有一百亿亿个元素。这样大的矩阵相乘,计算量是非常大的。拉里和谢尔盖两人利用稀疏矩阵计算的技巧,大大的简化了计算量,并实现了这个网页排名算法。今天 Google 的工程师把这个算法移植到并行的计算机中,进一步缩短了计算时间,使网页更新的周期比以前短了许多。
我来 Google 后,拉里 (Larry) 在和我们几个新员工座谈时,讲起他当年和谢尔盖(Sergey) 是怎么想到网页排名算法的。他说:"当时我们觉得整个互联网就像一张大的图 (Graph),每个网站就像一个节点,而每个网页的链接就像一个弧。我想,互联网可以用一个图或者矩阵描述,我也许可以用这个发现做个博士论文。" 他和谢尔盖就这样发明了 Page Rank 的算法。
网页排名的高明之处在于它把整个互联网当作了一个整体对待。它无意识中符合了系统论的观点。相比之下,以前的信息检索大多把每一个网页当作独.立的个体对待,很多人当初只注意了网页内容和查询语句的相关性,忽略了网页之间的关系。
今天,Google 搜索引擎比最初复杂、完善了许多。但是网页排名在 Google 所有算法中依然是至关重要的。在学术界, 这个算法被公认为是文献检索中最大的贡献之一,并且被很多大学引入了信息检索课程 (Information Retrieval) 的教程。 Google网页级别PR - 他们没告诉你的
作者:ZAC 文章来源:搜索引擎优化排名SEO每天一贴
相信对搜索引擎优化感兴趣的人,都听说过Google网页级别。英文是Page Rank,缩写是PR。
所谓网页级别,是由 Google的两位创始人Larry Page 和 Sergey Brin 在斯坦福大学开发的衡量网页重要性的一个指标。简单的说,你的网页导入链接越多,你的网页级别就越高。实际上网页A链接到网页B时,Google就认为网页A投了网页B一票。网页B所得的票数越多,网页级别也就越高,也就是在Google眼里,网页B就越重要。
Google的工程师吴军在Google中文博客(他们取名叫黑板报)写了一篇关于Google PR的文章。
下面主要谈谈他们不会告诉大家的个人观察。
Google在排列搜索结果的时候,网页级别是排名算法当中很重要的一个因素。当然,随着技术的改进,网页级别的重要性在一点一点的下降。
想要提高网页级别,只有一个方法,就是获得更多的导入链接。同时要注意两点:一是链接到你的网页的网页A本身的网页级别有多高。网页A本身的网页级别越高,当然他所投的票的价值就越高,网页B所能获得的级别也才越高。
二是在网页A上一共有多少导出链接。导出链接的数目会稀释所投票的价值。也就是说如果网页A链接到你,而网页A本身网页级别很高,而且它只链接到你的网页B,那么你的网页B就会得到最高的网页级别价值。 要想查看网页级别,你可以到Google的网站上,下载Google工具栏。Google工具栏的绿色显示条,指示的就是你的网页级别。
网页级别是从0至10,0是最低级别,10是最高级别。只有最重要的几个网站达到了网页级别10,比如Google本身。
如果PR条当中完全是白色的,那么你的网页级别就是0。如果是灰色的,那么你的这个网页还没有被Google所收录,或者这个网站是被惩罚或已被删除的。一般来说,PR5应该被认为是不错的网页级别。要想达到6,7以上是很困难的。
真正Google PR的计算和更新是动态的不间断的过程。我们在工具栏看到的PR值只是”可见的PR值”,大致三个月更新一次。所以你现在看到的PR值很可能是几个月以前的数据了。真正的当前的被用来计算排名的网页级别我们是无法知道的。因此,想判断PR和排名之间的直接数量关系是没什么意义的。
网页级别是以网页为单位的,而不是整个网站,所以每一个网页本身都有它自己的网页级别。很可能你的主页是PR5,但是里面的内容页就会降为PR4,PR3,甚至PR0。
对网页级别PR一个很大的误解是网页级别的名称来源。实际上在英文当中,网页级别原译应该是佩奇级别。这个名字来源于它的创始人拉里佩奇Larry Page,是以创始人本人的名字来命名的。这一点Google内部的人已经澄清过很多次。但巧合的是,在英文中Page (佩奇)与网页是同一个词。所以在翻译成中文的时候,似乎绝大部分站长都直接翻译成网页级别。虽然意思对,但实际上不符合Google的原意。
那么网页级别在Google的搜索引擎排名当中的重要性又如何呢?应该说网页级别到目前为止还是Google排名算法的基石。当其他因素相同的时候,你的网页级别就成了一个最关键的因素。
但是我们也经常看到,PR值低的网页比PR值高很多的网页要排的更靠前。这种现象现在越来越明显,也就是说PR值在排名当中所占的比重越来越低了。或者说Google排名算法越来越复杂了。
在考虑PR值的同时,Google会考虑与链接相关的很多其他因素。比如说链接页本身的年龄,链接页内容更改的频率,链接文字前后的上下文,链接页 还连向其他哪些页等等,等等。Google所考虑的与链接有关的因素,就不下二,三十项。相应的,网页级别PR的重要性也就相对降低了。
因为PR本身是一个很硬性的数值,只要你有更多的链接,你的PR值就会增长。但是,随着作弊的人越来越多,网页级别高有时候并不能说明你的网页与关键词相关,甚至有时候并不代表你的网页有多重要。
现在越来越多的人认为PR已经不重要了。我个人觉得网页级别还是很重要的因素,某种意义上它起着门槛的作用。
Google对买卖PR深恶痛绝。并不是每个网页都能传递网页级别的,有的网页看起来PR很高,但实际上没有投票能力了。这是对买卖PR者的惩罚。 Interesting
页:
[1]