說說瀏覽器份額數(shù)據(jù)兩家打架的原因
目前定期發(fā)布全球?yàn)g覽器市場份額的公司有兩家, StatCounter 和 NetApplications 。它們的統(tǒng)計,都是基于網(wǎng)站服務(wù)器端對瀏覽器訪問記錄的計算。當(dāng)瀏覽器訪問網(wǎng)站時,瀏覽器向服務(wù)器發(fā)送的報文頭部包含著關(guān)于瀏覽器版本的聲明(嚴(yán)格說來,這個聲明也可偽造),服務(wù)器據(jù)此識別訪問 來自哪個瀏覽器。 StatCounter 和 NetApplications 通過向服務(wù)器部署統(tǒng)計工具獲得相應(yīng)統(tǒng)計數(shù)據(jù),然后對數(shù)據(jù)進(jìn)行處理得出結(jié)論。
就像我們反復(fù)看到的,兩種市場份額統(tǒng)計的結(jié)論總是差異巨大。按照 StatCounter 的數(shù)據(jù),到了六月份 Chrome 的市場份額是32%,略高于ie。而按照 NetApplications 的統(tǒng)計, Chrome 只有19%,遠(yuǎn)低于54%的ie。
后文并不準(zhǔn)備討論這兩種市場份額數(shù)據(jù)誰更好的問題,只是單純說說統(tǒng)計差異是怎么產(chǎn)生的:
一、樣本差別
目前 StatCounter 部署統(tǒng)計工具的網(wǎng)站有四百萬左右,而 NetApplications 有三十萬左右, StatCounter 的統(tǒng)計樣本比 NetApplications 大得多,因此理論上說,這對 StatCounter 獲得更接近總體情況的數(shù)據(jù)更有利。不過顯然四十萬網(wǎng)站也已經(jīng)是一個很大的樣本了,已經(jīng)足夠得出相對準(zhǔn)確的結(jié)論。這不會是導(dǎo)致兩者數(shù)據(jù)出現(xiàn)如此巨大差距的重要原因。
二、Chrome 的預(yù)加載問題
Chrome的地址欄輸入使用和Google即時搜索類似的技術(shù),記錄用戶的擊鍵,預(yù)先加載用戶可能會輸入的網(wǎng)址。這項技術(shù)是 Chrome 17開始使用的,顯而易見的,如果預(yù)加載產(chǎn)生的流量在總流量中占有很大份額,那么 Chrome 17推出后, Chrome 瀏覽器的流量份額將會有一個突然性的提升,然而事實(shí)是并沒有,那個月 Chrome 的流量份額提升量也只有1%出頭。即便這1%的提升全是由預(yù)加載產(chǎn)生的,也不會對最終的結(jié)論有很大的影響。所以這也不會是兩種統(tǒng)計口徑差別巨大的原因所在。
三、流量調(diào)整
StatCounter的統(tǒng)計,直接使用服務(wù)器監(jiān)控到的原始流量數(shù)據(jù)。而 NetApplications 則以國家和區(qū)域?yàn)閱挝粚α髁窟M(jìn)行重新調(diào)整, NetApplications 認(rèn)為,由于各國人對網(wǎng)站的偏好不同(以及某些管制性因素,你懂的),導(dǎo)致這些服務(wù)器上監(jiān)控到的流量數(shù)據(jù)并不能代表實(shí)際情況,比如某幾億網(wǎng)民的互聯(lián)網(wǎng)大國,在這些網(wǎng)站上留下的訪問記錄少得可憐。怎么處理呢?加權(quán)調(diào)整。打個比方說,把某互聯(lián)網(wǎng)大國的在服務(wù)器上監(jiān)控到的可憐流量放大十倍,記錄到一個ie或者 Chrome 用戶,就當(dāng)作是十個,以便讓它產(chǎn)生的流量和它的大國身份匹配。
StatCounter和 NetApplications 部署統(tǒng)計工具的服務(wù)器主要在歐美,服務(wù)器記錄下的用戶瀏覽器偏好受歐美用戶影響偏大,而歐美也是 Chrome 普及率很高的區(qū)域。因此進(jìn)行加權(quán)調(diào)整,是有利于ie的。把 StatCounter 的數(shù)據(jù),用同樣方法調(diào)整過后,ie的市場份額上升了近10個百分點(diǎn)。應(yīng)該說這項調(diào)整產(chǎn)生的統(tǒng)計差異是很大的,是兩種統(tǒng)計方法產(chǎn)生的巨大數(shù)據(jù)差異主要來源之一。
四、市場份額計算標(biāo)準(zhǔn)
重復(fù)下前面的話, StatCounter 的統(tǒng)計,是直接使用服務(wù)器監(jiān)控到的原始流量數(shù)據(jù)。 StatCounter 所說的市場份額,就是指不同瀏覽器各自產(chǎn)生的流量數(shù)據(jù)份額。
而netapplication再次采用了比較復(fù)雜的調(diào)整辦法,它比較傾向于以用戶數(shù)量作為市場份額的標(biāo)準(zhǔn)。一個瀏覽器在一天之內(nèi)瀏覽了100個網(wǎng)頁,另一個瀏覽器在一天之內(nèi)只打開了一個網(wǎng)銀頁面,按 NetApplications 的想法兩者市場份額是無區(qū)別的,都是一個用戶。
不過由于服務(wù)器端并不能直接像獲得瀏覽器版本號那樣,獲得一個精確度很高的用戶身份***識別標(biāo)識。所以 NetApplications 的統(tǒng)計還存在復(fù)雜的技術(shù)問題。如何確認(rèn)哪些訪問時來自同一個用戶,哪些不是呢?原則上來說,這只有兩種可行性方案,然而兩種方案都很難說有多準(zhǔn)確:一個方案是追蹤cookies,網(wǎng)站服務(wù)器向?yàn)g覽器cookies里寫入痕跡,使得當(dāng)這個瀏覽器再次訪問它的時候,可以依據(jù)cookies知道它曾經(jīng)到此一游。然而如果用戶中途清空了cookies呢?或者進(jìn)一步的,如果用戶一直開啟著隱私瀏覽模式向服務(wù)器聲明自己不接受cookies寫入的話,那么瀏覽器的每一次訪問,都會產(chǎn)生了一個“新用戶”。這里順便說說,微軟會在ie10中默認(rèn)開啟隱私瀏覽模式,顯然這會在基于cookies追蹤的統(tǒng)計里制造大量ie用戶。cookies之外的另一個方案是追蹤ip,服務(wù)器記錄每一次訪問頁面的ip來源,同一個ip就作為同一個用戶。但是這個方案的缺陷也很顯然,因?yàn)闆]法識別多用戶共用ip的情況,或者一個用戶使用動態(tài)ip的情況??偠灾诮y(tǒng)計層面上依靠網(wǎng)站服務(wù)器來嚴(yán)格識別用戶基本是不可能的,所以 NetApplications 調(diào)整出來的用戶量數(shù)據(jù),跟實(shí)際差別有多大是很難確切說清楚的。
不過拿這個數(shù)據(jù)跟 StatCounter 的數(shù)據(jù)對比差異,刨掉前面說到的以國家為單位加權(quán)調(diào)整流量產(chǎn)生的差異后,ie的市場份額再次上升了10%。這至少能說明,ie用戶的平均網(wǎng)頁訪問量是低于 Chrome 的?;蚋唵蔚恼f,經(jīng)常用瀏覽器的用戶往往更偏好Chrome 。