詳細(xì)解析 PageRank算法與PR值傳遞
PageRank算法是Google排名運(yùn)算法則(排名公式)的一部分,是Google用于用來(lái)標(biāo)識(shí)網(wǎng)頁(yè)的等級(jí)/重要性的一種方法,是Google用來(lái)衡量一個(gè)網(wǎng)站的好壞的唯一標(biāo)準(zhǔn)。
這是一篇關(guān)于PageRank算法的純理論性研究文章,前半段闡述了PageRank的基礎(chǔ)理論,在后半段提出了自己的一些發(fā)現(xiàn)。另外先特別強(qiáng)調(diào)下,對(duì)于PageRank算法的這些抽象研究主要是為了更好的構(gòu)建站內(nèi)鏈接而做的,與工具欄PR(就是常說(shuō)的那個(gè)PR。)基本上是沒有關(guān)系的。
還有,理解PageRank算法對(duì)于SEOer而言是很重要的,因?yàn)樗亲罱?jīng)典的鏈接算法之一。盡管博客的讀者可能水平層次不齊,還是想要保證更多人能看懂,所以盡量設(shè)法把文章寫的更容易理解了。我想說(shuō)的是,盡管它很長(zhǎng),但值得一看。
一、PageRank概述
PageRank基于隨機(jī)沖浪模型提出,可以看作是模擬瀏覽者訪問(wèn)網(wǎng)站的情形。當(dāng)一個(gè)網(wǎng)頁(yè)有著更多導(dǎo)入鏈接,且那些鏈接也處于用戶點(diǎn)擊比率比較高的位置(如鏈接緊隨正文后面則效果好,鏈接處于頁(yè)腳則效果差,這些也是很有可能被計(jì)入PageRank算法的)時(shí),它就有更多的機(jī)會(huì)被用戶瀏覽到,所以它在搜索引擎看來(lái)也就會(huì)有更高的權(quán)重。
而PageRank算法的隨機(jī)沖浪模型更多的被比喻作“投票”,因?yàn)檫@樣更好理解。一個(gè)頁(yè)面連接向另一個(gè)頁(yè)面即視為投一次票,票數(shù)多的網(wǎng)頁(yè)權(quán)重就高。另外每個(gè)頁(yè)面的投票權(quán)是不等同的,來(lái)源網(wǎng)頁(yè)本身?yè)碛械臋?quán)重越高,它的投票權(quán)也就越大。所以說(shuō)如果要讓一個(gè)頁(yè)面擁有高權(quán)重的話,它要有足夠多的高質(zhì)量導(dǎo)入鏈接。
PageRank算法的數(shù)學(xué)要求非常高,本文只從(也只能從)最簡(jiǎn)單的角度出發(fā)盡量多寫些實(shí)用的東西。
二、PageRank的生成與傳遞
初始的那些PageRank值是由網(wǎng)頁(yè)生成的,每誕生一個(gè)網(wǎng)頁(yè)就會(huì)附帶一個(gè)很小的PR值。另外搜索引擎也有可能給予第一次發(fā)現(xiàn)的域名的首頁(yè)一個(gè)較小的PR值,在PageRank的改進(jìn)算法里面有一個(gè)有關(guān)于此的。
而PageRank的傳遞是從那些頁(yè)面開始算,大約給出85%的該頁(yè)面PR值,讓該頁(yè)面連向的那些頁(yè)面平分這85%的PR(頁(yè)面本身不會(huì)因此損失PR)。下面通過(guò)圖的方式來(lái)更簡(jiǎn)單的表述一下。
三、PR值傳遞簡(jiǎn)易示意
首先假設(shè)首頁(yè)擁有的PR分值為100,欄目頁(yè)85,內(nèi)頁(yè)72。數(shù)值是隨便取的,主要是為了方便區(qū)分。為了方便理解,這個(gè)示意圖也是非常精簡(jiǎn)的,沒考慮內(nèi)頁(yè)和欄目頁(yè)再連回首頁(yè)等等的問(wèn)題。
圖中第二、第三行分別代表的是兩輪的計(jì)算,實(shí)際上還需要更多次才能達(dá)到數(shù)值的穩(wěn)定,當(dāng)然,這里只是為了說(shuō)明問(wèn)題,兩次就足夠了。
第一輪計(jì)算中,從每個(gè)有出鏈的網(wǎng)頁(yè)開始計(jì)算PR的輸出,此時(shí)欄目頁(yè)和內(nèi)頁(yè)分別得到了一次PageRank值。但是內(nèi)頁(yè)其實(shí)得到的PageRank不應(yīng)該僅僅是這些,因?yàn)榈谝惠営?jì)算的時(shí)候,連向它的欄目頁(yè)得到了更多的PR。此時(shí)就進(jìn)行第二輪的計(jì)算,內(nèi)頁(yè)在此時(shí)得到了更多的PR。
實(shí)際運(yùn)用中,因?yàn)殒溄咏Y(jié)構(gòu)復(fù)雜得多,不太會(huì)出現(xiàn)圖中內(nèi)頁(yè)的總PR還高于首頁(yè)的情況,因?yàn)閮?nèi)頁(yè)還是會(huì)連回首頁(yè)的。當(dāng)多次計(jì)算后數(shù)值趨于平穩(wěn)的時(shí)候,各個(gè)頁(yè)面的分值都已經(jīng)會(huì)很大了,但它們之間的比值是穩(wěn)定的。
四、PageRank算法的猜想
根據(jù)上圖可以發(fā)現(xiàn),PR傳遞中很重要的一點(diǎn),便是“層”的概念(比如三層結(jié)構(gòu)一般由首頁(yè)、欄目頁(yè)和內(nèi)頁(yè)構(gòu)成)。但每一層有多少頁(yè)面在這里沒什么關(guān)系,它們總是分光該層的PR值為止。所以這里可以把一個(gè)層視為一個(gè)節(jié)點(diǎn)。
p.s. 節(jié)點(diǎn)就是一個(gè)點(diǎn),它可以用來(lái)簡(jiǎn)化概念,SEO里面頁(yè)面、索引詞什么的都能視為節(jié)點(diǎn)。比如下面的兩層標(biāo)準(zhǔn)結(jié)構(gòu),可以閉上眼睛,把首頁(yè)和內(nèi)頁(yè)兩類頁(yè)面想象成兩個(gè)點(diǎn),然后當(dāng)中有兩個(gè)箭頭(?。┌阉鼈冞B接起來(lái),代表著首頁(yè)連接內(nèi)頁(yè),內(nèi)頁(yè)連接首頁(yè)。
下面看圖,數(shù)值首先不必太在意,看懂意思就行:
上圖涉及了一些雖然數(shù)學(xué)角度很簡(jiǎn)單,但是挺繞的計(jì)算。計(jì)算方法和第一張圖是一樣的,但是另外還考慮到了內(nèi)頁(yè)連回首頁(yè)的鏈接等等,總共進(jìn)行了三次的計(jì)算(按照大地的說(shuō)法,Google迭代計(jì)算三次,百度只計(jì)算一次。。。)。
可以發(fā)現(xiàn)層數(shù)越多的鏈接結(jié)構(gòu),其總PageRank值越多。但問(wèn)題是多出來(lái)的PageRank大多是在欄目頁(yè)上的,對(duì)于一些類型的網(wǎng)站而言,欄目頁(yè)擁有很高的PR沒多大必要(但大型網(wǎng)站一定要提供欄目頁(yè)足夠多的PR以便爬蟲頻繁抓取)。
層數(shù)多的結(jié)構(gòu)最顯著的一點(diǎn)不利之處是在于內(nèi)頁(yè)一層的總PR上面,當(dāng)層數(shù)多了以后,隨著權(quán)值(二)給予了網(wǎng)站首頁(yè)很多PR(之所以給首頁(yè)P(yáng)R,因?yàn)閷?shí)際情況中首頁(yè)更容易獲取外鏈),它能增加的PageRank值屈指可數(shù)。
如果這個(gè)理論推斷沒有錯(cuò)誤的話,可以得出的結(jié)論是,層數(shù)多的網(wǎng)站的內(nèi)頁(yè)在優(yōu)化力度不強(qiáng)的時(shí)候,排名很可能大半靠的是域名權(quán)重,而極少是網(wǎng)頁(yè)權(quán)重。如果能把網(wǎng)頁(yè)權(quán)重一并利用起來(lái)的話,那些大型網(wǎng)站的流量是有可能得到很大的飛躍的。
而如何提升內(nèi)頁(yè)的網(wǎng)頁(yè)權(quán)重這一點(diǎn),首先可以是按照這個(gè)思路進(jìn)一步嘗試其他鏈接結(jié)構(gòu),另外前面也提到過(guò)鏈接的位置很可能是會(huì)影響權(quán)值的傳遞比例的,把不重要的鏈接放在會(huì)被搜索引擎消噪的噪音區(qū)域,或許就會(huì)好得多。
對(duì)于小型網(wǎng)站而言,也可以發(fā)現(xiàn)的是,很多博客的結(jié)構(gòu)是兩層的,它就可以很方便的把內(nèi)頁(yè)的權(quán)重最大化。當(dāng)然標(biāo)準(zhǔn)的兩層結(jié)構(gòu)還要求博客首頁(yè)顯示更多內(nèi)頁(yè)的鏈接,或許可以參考這個(gè)頁(yè)面的做法:http://sjolzy.cn/Js.html。
五、隨想
盡管通過(guò)理論推斷,簡(jiǎn)單計(jì)算了一些數(shù)據(jù),應(yīng)該有點(diǎn)參考價(jià)值,但可能還是存在問(wèn)題的。首先PageRank的計(jì)算其實(shí)還要復(fù)雜得多,本身這里用的一些計(jì)算方法已經(jīng)是最簡(jiǎn)化的了,可能和完整的算法相比有出入。另外PageRank算法在十多年里面不斷改進(jìn),可能也會(huì)帶來(lái)理論與實(shí)際的不同,比如內(nèi)頁(yè)P(yáng)R在多層鏈接結(jié)構(gòu)之下的劣勢(shì)可能沒這么明顯。
當(dāng)然支持這些猜想的依據(jù)也是有的,不然就沒必要做這么多麻煩事了。比如博客文章的權(quán)重很多人都是覺得比較高的;大型網(wǎng)站的SEO流量也有些很多、有些不濟(jì),差異很大;搜索引擎也經(jīng)常說(shuō)要保證從首頁(yè)到內(nèi)頁(yè)的點(diǎn)擊數(shù)盡量少。
但仍因?yàn)榻Y(jié)論的不確定性,所以它可以作為改進(jìn)網(wǎng)站SEO的參考,但最好不要照搬。
不論這些,還必須注意的一點(diǎn)是,PageRank算法本身在SEO里面占的比重也不算高,不是所有事情都能往“權(quán)重”這兩個(gè)字上面扯的。借用國(guó)平的話說(shuō),SEO里面細(xì)節(jié)的東西懂的越多越好,但真正做的時(shí)候還是要站在整體上面去考慮。
還有此文的思路想法多半是適合于百度的,但最終結(jié)論未必通用。因?yàn)榘俣瓤赡苁侵挥?jì)算一次就決定PR,這時(shí)候數(shù)值還遠(yuǎn)遠(yuǎn)沒穩(wěn)定。也因此,原本就感覺百度更看重的是鏈接數(shù)量而非質(zhì)量,也似乎找到了一些依據(jù)。
文中的計(jì)算方法或許也可以適用于嘗試一些特殊的鏈接結(jié)構(gòu),或許也可以把分頁(yè)之類的問(wèn)題也考慮進(jìn)去,求得更精確的結(jié)果。
理解搜索引擎原理的一個(gè)比較主要的好處就是在于,在同一個(gè)問(wèn)題上,理解的深度可以強(qiáng)得多。同樣是PageRank,一些人知道要注重鏈接的數(shù)量和質(zhì)量就覺得夠了,但其實(shí)是可以很深入的。本文的研究,應(yīng)該不算深的,但是能力所限,也難以進(jìn)一步研究下去。有興趣也有能力的可以參考Google的秘密——PageRank徹底解說(shuō) 中文版(http://www.kreny.com/pagerank_cn.htm)進(jìn)行深入的研究。
【編輯推薦】