Google 的秘密- PageRank 彻底解说

来源：中国网络传播网　　文章作者：佚名

415i
0.00000 + 0.00000i 0.00000 + 0.00000i 0.00000 + 0.00000i
0.00000 + 0.00000i 0.00000 + 0.00000i 0.00000 + 0.00000i
0.00000 + 0.00000i 0.00000 + 0.00000i 0.00000 + 0.00000i
0.00000 + 0.00000i 0.00000 + 0.00000i 0.00000 + 0.00000i
Columns 4 through 6:
0.00000 + 0.00000i 0.00000 + 0.00000i 0.00000 + 0.00000i
0.00000 + 0.00000i 0.00000 + 0.00000i 0.00000 + 0.00000i
0.00000 + 0.00000i 0.00000 + 0.00000i 0.00000 + 0.00000i
0.02731 + 0.31430i 0.00000 + 0.00000i 0.00000 + 0.00000i
0.00000 + 0.00000i 0.02731 - 0.31430i 0.00000 + 0.00000i
0.00000 + 0.00000i 0.00000 + 0.00000i -0.16595 + 0.00000i
0.00000 + 0.00000i 0.00000 + 0.00000i 0.00000 + 0.00000i
Column 7:
0.00000 + 0.00000i
0.00000 + 0.00000i
0.00000 + 0.00000i
0.00000 + 0.00000i
0.00000 + 0.00000i
0.00000 + 0.00000i
-0.00000 + 0.00000i
EigenVector =
0.69946
0.38286
0.32396
0.24297
0.41231
0.10308
0.13989
PageRank =
0.303514
0.166134
0.140575
0.105431
0.178914
0.044728
0.060703
elapsed_time = 0.063995

Octave 的输出中，特性值被表示为对角行列 D 的对角成分，各个特性值相对应的固有矢量被表示为行列 V 对应列的列矢量。也就是说 M * V = D * M 成立。如果包含复数特性值的话这里的特性值有7个,其中绝对价值最大的特性值 λ 是λ=1。与之相对应的固有矢量为实矢量：

EigenVector =
0.69946
0.38286
0.32396
0.24297
0.41231
0.10308
0.13989

即行列 V 的第1列。请注意，这个求得的固有矢量中概率矢量(要素的和等于1的 N 次元非负矢量)没有被标准化，只是矢量的「大小」等于 1。用算式来表达就是，Σpi ≠1 ，Σ(pi)2＝1。在这里，对概率矢量进行标准化

PageRank =
0.303514
0.166134
0.140575
0.105431
0.178914
0.044728
0.060703

PageRank 就是排位了。注意，全部相加的和为 1。计算只用了0.064秒。
求得的 PageRank 的评价

将 PageRank 的评价按顺序排列 (PageRank 小数点3位四舍五入)。

名次 PageRank   文件ID    发出链接ID 被链接ID
1     0.304     1       2,3,4,5,7   2,3,5,6
2     0.179     5       1,3,4,6     1,4,6,7
3     0.166     2       1           1,3,4
4     0.141     3       1,2         1,4,5
5     0.105     4       2,3,5       1,5
6     0.061     7       5           1
7     0.045     6       1,5         5

首先应该关注的是，PageRank 的名次和反向链接的数目是基本一致的。无论链接多少正向链接都几乎不会影响 PageRank，相反地有多少反向链接却是从根本上决定 PageRank 的大小。但是，仅仅这些并不能说明第1位和第2位之间的显著差别(同样地、第3位和第4位，第6位和第7位之间的差别)。总之，绝妙之处在于 PageRank 并不只是通过反向链接数来决定的。

让我们详细地看一下。ID=1 的文件的 PageRank 是0.304，占据全体的三分之一，成为了第1位。特别需要说明的是，起到相当大效果的是从排在第3位的 ID=2 页面中得到了所有的 PageRank(0.166)数。ID=2页面有从3个地方过来的反向链接，而只有面向 ID=1页面的一个链接，因此(面向ID=1页面的)链接就得到了所有的 PageRank 数。不过，就因为 ID=1页面是正向链接和反向链接最多的页面，也可以理解它是最受欢迎的页面吧。

反过来，最后一名的 ID=6 页面只有 ID=1 的15％的微弱评价,这可以理解为是因为没有来自 PageRank 很高的 ID=1 的链接而使其有很大地影响。总之，即使有同样的反向链接的数目，链接源页面评价的高低也影响 PageRank 的高低。

表示页面互相的链接关系的推移图(加入了PageRank)

实际地试着计算一下PageRank的收支。因为λ=1所以计算很简单，只要将自各页的流入量单纯相加即可。譬如 ID=1 的流入量为，

流入量＝(ID=2发出的Rank)+(ID=3发出的Rank)+(ID=5发出的Rank)+(ID=6发出的Rank)
= 0.166+0.141/2+0.179/4+0.045/2
= 0.30375

在误差范围内PageRank的收支相符合。其他页面ID的情况也一样。以上的 PageRank 推移图正表示了这个收支。沿着各自的链接发出的PageRank等于此页面原有的PageRank除以发出链接数的值，而且和各自的页面的PageRank收支相平衡。

不过，这样绝妙均衡的本身，对理解线形代数的人来说当然不会是让人惊讶的事情。因为这正是「特性值和固有矢量的性质」，总之这样被选的数值的组就是固有矢量。但即使是这样，实际试着确认一下的话，已经能够很好地使用PageRank的方法来考虑了。

以上就是 PageRank 的基本原理。 Google 做的就是大规模地处理这样的非常特性值问题。
4.实际应用时的问题

PageRank 的基本考虑方法并不是很难的东西。实用效果中的巨大成分并不是复杂离奇的算法，而是进行简单的线性变换，倒不如都属于简明直观的类别吧。但是，实际使用 Web 超级链接构造来计算 PageRank 的话，不是简单地能够用嘴巴来说明的东西。主要的困难主要有二个。一、由来于纯粹假设的数值模型和现实世界的不同；二，在实际数值计算上(专门技术的)困难。
准备:数学用语(主要概率过程)的解说

推移概率行列和概率过程上的马尔可夫过程存在很深的关系。本章先离开与 PageRank 本身的说明，预先说明几个呈现在概率过程上的数学用语。因为会设计相当难的部分，如果不能够理解也可以跳过这里。(也可能是我的说明方法不好) 同时，请注意这里几乎没有证明就直接使用了。详细的解说请阅读教科书。

从有向图表S的状态 i 出发，将有限时间之后再次回复到状态 i 的概率作为 1 时，也就是说，当沿着(有向)图表的方向前进能够回到原来位置的路径存在的时候，i 就被成为「回归」。不能回归的状态被称为「非回归」。从状态 i 出发，当通过有限次数的推移达到状态 j 的概率非负的时候，我们就说「从状态 i 到达状态 j 是可能的」。当反方向也可能到达的时候，我们称「i 和 j 互相可能到达」。从状态 i 不能到达其他任何状态的时候，称 i 为「吸收状态」。

从邻接行列 A 所决定的图表(graph)的任意顶点出发，指向其他任意的顶点图表的路径能够像箭头那样到达时被称为「强联结」( 也被称为「分解不能」)。强联结，等价于从任意状态到任意状态可以互相到达。邻接行列 A 的成分中有很多 0 时，强联结性就会有问题。注意，如果全部成分都为 aij ≠0 的话，则都属于强联结。因为，对应的马尔可夫链的样本路径表示 S 的任意两点间以正的概率来往通行。

我们可以把全体状态以等价类(或者回归类)来划分。在这里，回归类是指链接所围成的范围。属于一个等价类的状态可以互相到达。从一个类出发以正的概率进入到其他的类的可能性也是存在的。可是很明显，在这种情况下不可能回复到原来的类。不然的话，这两个类就归于等价类了。下图表示了，当 T 作为非回归性的等价类、R 作为回归性等价类时,虽然存在马尔可夫链既不来自回归类，也不来自非回归类的情况，但如果一旦来自前两者的话，就不再会回到非回归类中了。

回归、非回归示意图(修改了小谷(1997)的图11.1)

这个等价关系中只有一个回归类的时候，那个马尔可夫链就被称为「最简」。换句话说，全部的状态之间互相可以到达时就被称为最简。最简时都是强联结。

互相完全没有关联的邻接行列(或推移概率行列)，乘以恰当的置换行列(掉换行和列)以后得到

P = | P1 0 |
| 0 P2 |

这样的关系。这表示回归类 P1 和 P2 间完全不存在直接的链接关系。

回归类、非回归类掺杂在一起的邻接行列(或推移概率行列)，乘以恰当的置换行列后得到，

P = | P1 0 |
| Q P2 |

这样的关系(Q≠0)。此时，P1是非回归类，P2是回归类。

推移概率行列有时也被称作马尔可夫行列。称马尔可夫过程的试验行列的观测结果为马尔可夫链(Markov chain)。当经过相当的时间后马尔可夫链会趋向某种平衡状态。对任意的状态 i, 如果 j 是非回归状态，则 Pij(n)→0。相反，当 i 为非回归、j 为回归时，停留在状态 i 上着的概率是0。如果 i，j 属于同样的非周期性回归类的话，Pij(n)→Pj≥0。

定理:若 P 是有限马尔可夫行列的话，P 的特性值 1 的重复度等于 P 决定的回归类的数目。(证明太长，省略)。

跟随着推移概率行列的有向图表的最大强联结成分(与之对应的状态的集合)被称为Ergodic部分(历遍部分)，此外的强联结成分被称为消散部分。因为无论从怎样的初期状态概率 x(0)开始，经过时间 n 后 x(n) = P(n)x(0)，所以属于消

9 7 3 1 2 3 4 5 4 8 :

·上一篇文章：搜索引擎垃圾技术

·下一篇文章：修改WINDOWS文件查看GOOGLE真正PR值

　　相关新闻

·如何解决Google“这个网站有可能会损害您的计算机”问题？	佚名

·《财富》：Google成长的烦恼	佚名

·Google已成为一种文化	洪波

·收入模式与众不同搜索引擎Google一枝独秀	黄继新

·Google以退为进还是“功能退化”	余建祥

·用GOOGLE轻松制作自己的多国语言网站	佚名

·Google隐藏小秘密，让我悄悄告诉你	佚名

·GOOGLE“实名通”12种语言快速浏览	劳楠

·造成新站在头一两个月内排名不稳定的Google幽灵现象	佚名

·google专业工具	佚名

Google 的秘密- PageRank 彻底解说

Google 的秘密- PageRank 彻底解说

友情链接

友情链接

友情链接