将链接作为衡量网站重要程度的方法这一理念,第一次流行是由于谷歌实施其PR值算法(其他公司之前也写过使用链接作为排名因素,但谷歌快速增长的用户群使其变得备受瞩目)。简单来说,网页得到的链接是对这个网页的投票,但不能单纯地认为“得到最多投票的那个页面获得胜利”。链接和链接到的页面并不完全等同。
一些页面通过谷歌的PR值算法会得到比其他页面更重要的权重。
这一概念的关键在于,链接代表了对一个网上文件的“自愿背书”。搜索引擎严重依赖于自愿投票。然而,随着内容发布商了解到了链接的作用,一些发布商开始用各种方法操控链接。这种情况下链接的含义在本质上不再是自发的,所以致使人们对很多算法进行了改进。
为了帮助你了解链接算法的起源,即至今仍在使用的逻辑基础,让我们一起学习原始PR值算法的细节。
原始PR值算法
PR值算法的建立是基于Sergey Brin及Larry Page在斯坦福大学读博士时所写的原始PR值算法论文。
用最简单的话说,论文认为指向一个网页的每一个链接都是对这个页面的投票。不过,如之前所说,投票并不具有相同的权重。为了更好地理解PR值是如何计算的,我们将会在较高水平上诠释PR值算法。首先,所有的页面都被赋予了一个与生俱来但值很小的PR值,如图
每个页面都pr值
然后页面可以通过从其他页面获得链接来提升自身的PR值,如图7-2所示。
页面通过链接来获得更多PR值
一个页面可以通过链接向其他页面传递多少PR值呢?结果比这个页面本身的PR值要少。如图7-3所示,显示为f(x)。也就是说可传递的PR值是总PR值x的函数。2009年Matt Cutts写过一篇文章,认为一个页面可以传递其自身PR值的85%~90%。
一个页面PR值的一部分传递到其他的页面
如果这个页面仅仅链接向一个其他页面,它就将自身所有的PR值传递到那个页面,如图7-4所示,页面B得到页面A所有可传递的PR值。
通过链接传递PR值
不过实际情况更复杂些,因为页面会链接向不止一个其他页面。在这种情况下,可以传递的PR值在得到链接的所有页面之间分配。如图7-5所示,页面B和页面C各得到页面A可传递PR值的一半。
通过链接传递PR值
在PR值原始计算公式中,链接权重在页面上所有链接之间平均分配。但是在今天已经不是这样了,但它对于理解原始意图还是有价值的。现在来看图7-6所表述的一个更加复杂的例子,PR值在两个相互链接的页面之间来回流转。
页面之间交叉链接
交叉链接使PR值计算变得更加复杂。在图7-6中,页面B链接回页面A,同时也传递一些PR值f(y)回页面A。图7-7应该使你能更好地理解这是如何影响所有页面的PR值的。
迭代PR值计算
需要注意的关键点是页面B链接向页面A时,使得链接成为双向的。页面A的PR值x变得依赖于f(y),即页面B可传递的PR值,而这个数值又恰巧依赖于f(x)!而且,页面A传递向页面C的PR值也受到页面B指向页面A的链接的影响。这就使情况变得非常复杂。网上每个页面的PR值计算必须通过递归分析才能确定。
为了说明这点,我们定义新的参数:q,代表页面B由于来自页面A的链接所增加的PR值(所有的迭代计算完成之后);z,代表页面A由于页面B的链接而增加的PR值(同理,所有的迭代计算完成之后)。