探討百度快照的蜘蛛群假想理論問題
對于很多新手站長來說,經(jīng)常有這樣的疑惑,為什么蜘蛛天天爬行,但是網(wǎng)站快照卻不更新。今天冰山一角來給大家分享下一種蜘蛛假想。
蜘蛛群理論:百度每天都靠蜘蛛抓取頁面,蜘蛛不是一只,而是一群。在一群蜘蛛中,它們各自負(fù)責(zé)不同的分工。具體的分工我也還了解不完全,可以知道的是分工可以分為新網(wǎng)頁的爬行和舊網(wǎng)頁的爬行。如123.125.*.*爬行新網(wǎng)頁居多,61.135.*.*以爬行舊網(wǎng)頁居多,百度還有其他ip段的蜘蛛,我對福州現(xiàn)代婦產(chǎn)醫(yī)院網(wǎng)的觀察,這2類比較常見。
網(wǎng)站快照更新最快的當(dāng)屬首頁,不是首頁的話你可能被K了,因為首頁權(quán)重最高,而且都會調(diào)用最新內(nèi)容,也最容易被蜘蛛發(fā)現(xiàn)。剛剛所說的蜘蛛是一群,所以任何一只蜘蛛都是不會在一個網(wǎng)站一直呆著,所以雖然說百度蜘蛛天天呆在你的網(wǎng)站,但不見得群蜘蛛都一直呆在你的網(wǎng)站。
蜘蛛在進(jìn)駐你的網(wǎng)站后,開始各自分配不同的監(jiān)控區(qū)域,有的蜘蛛負(fù)責(zé)head,有的蜘蛛負(fù)責(zé)root,有的負(fù)責(zé)body等等,body里面又有不同的蜘蛛干不同的事。也就是說同一只蜘蛛只負(fù)責(zé)小塊區(qū)域,而且只會在一天的某些時段來過,當(dāng)它發(fā)現(xiàn)你有更新的話,明天再來,如果沒有的話給你個304,,304多了,它就會去減少爬行的頻率,具體頻率長什么樣我也不清楚,理論模型應(yīng)該是正弦曲線。
同理,所有的蜘蛛使用同一規(guī)則的話,就會出現(xiàn)監(jiān)控head、root等區(qū)域的蜘蛛比較懶,body部分的比較勤快,不過,body中間也有懶惰的。
如果你的網(wǎng)站天天更新,那么body更新區(qū)域的都是200,其他的是304.那么百度要考慮給你最新的快照呢還是不給?于是就要投票表決,因為是群蜘蛛嘛,蜘蛛們都有投票權(quán),才顯得公平,但是又有一個問題,蜘蛛的分量不同,如body區(qū)的蜘蛛,工作比較辛苦,head區(qū)就比較輕松,所以蜘蛛投票需要分權(quán),body的蜘蛛權(quán)值高,root區(qū)的權(quán)值低,當(dāng)然中間還有不等的權(quán)值。
經(jīng)加權(quán)后的計算結(jié)果來決定百度給不給該網(wǎng)站最新快照。這就是為什么網(wǎng)站天天更新但是快照不更新的原因之一。
這樣一來的話,我們可以從以下幾個方面入手解決快照慢的問題,一個是讓body的蜘蛛更勤快,提升帶回200蜘蛛的權(quán)值,給投票帶來優(yōu)勢。二是減少監(jiān)控區(qū),監(jiān)控區(qū)域太多,那么無所事事的蜘蛛就越多,和我國的有關(guān)部門一樣,所以我們要做到精簡,那么拉后腿的蜘蛛就要說再見了。
下面來講為什么百度會對改版的網(wǎng)站降權(quán),原因其實很簡單,原先進(jìn)駐網(wǎng)站的蜘蛛因為只是負(fù)責(zé)小區(qū)域,當(dāng)你改版后,它發(fā)現(xiàn)自己的區(qū)域沒了,手足無措,于是百度就將蜘蛛召回,然后重新觀察,放出蜘蛛觀察員,然后再把網(wǎng)站分小塊,改天再派蜘蛛進(jìn)去,重新開始蜘蛛的工作,那么你的站就恢復(fù)正常了。
說了這么多,發(fā)現(xiàn)自己行文的風(fēng)格變了,不過擬人化會更容易理解,希望對你有幫助。
【編輯推薦】