Google工程總監(jiān)揭示算法改進(jìn)背后的數(shù)字
很多人認(rèn)為Google已經(jīng)解決了搜索的問題,但是在Google看來搜索的發(fā)展才剛剛起步。如果說搜索是一本書,那Google才剛寫完了開篇。10多年來,Google搜索一直在不斷改進(jìn),通過數(shù)據(jù)驅(qū)動和實驗評估等科學(xué)的方法不斷完善搜索引擎。日前,Google工程總監(jiān)斯科特•霍夫曼(Scott Huffman)介紹了Google算法改進(jìn)背后的數(shù)字:Google已解決超過45000億次搜索請求;在2011年進(jìn)行了41931次必要性評估、9250次小規(guī)模試驗、7363項在線實時實驗,最終完成了520多項改進(jìn)。
Google工程總監(jiān)斯科特•霍夫曼(Scott Huffman)
當(dāng)通過Google搜索信息時,用戶并不是在對網(wǎng)頁執(zhí)行操作,而是在Google的網(wǎng)頁索引中進(jìn)行查找。Google旗下龐大的計算機(jī)群統(tǒng)稱“Google機(jī)器人”,它由算法控制,抓取、瀏覽網(wǎng)絡(luò)中的幾十億網(wǎng)頁,并為其中的每一個詞編寫索引。當(dāng)用戶輸入搜索請求后,機(jī)器便會在索引中搜索匹配網(wǎng)頁,并將關(guān)聯(lián)度最高的搜索結(jié)果呈現(xiàn)給用戶。
Google致力于在最短的時間內(nèi)為用戶提供最為相關(guān)的搜索結(jié)果,這也是其對搜索算法不斷改進(jìn)的動力。Google對算法的改進(jìn)通常有三個步驟,首先對每項改進(jìn)做必要性評估,然后在全球不同地區(qū)進(jìn)行小規(guī)模實驗,之后隨機(jī)挑選用戶進(jìn)行在線實時實驗。在特定時間,Google針對搜索功能會進(jìn)行50-200個在線實驗。借助這些精準(zhǔn)有序的科學(xué)方法,一個好的改進(jìn)方案從構(gòu)思到在Google.com上實施操作,最多只需24小時。2011年,Google進(jìn)行了58000多項實驗,并對搜索系統(tǒng)做出520多處改進(jìn)。
通過這些實驗,Google可以不斷提升用戶的搜索體驗,諸如: 在搜索結(jié)果中剔除垃圾信息;根據(jù)用戶需求改變搜索界面呈現(xiàn)的結(jié)果數(shù)量;相同詞在不同地域搜索,呈現(xiàn)的結(jié)果不同。
同時,Google搜索算法進(jìn)行了一系列重大改進(jìn),比如:
-
新鮮度算法調(diào)整:在某些情況下,Google需要為用戶提供最新搜索結(jié)果,比如即時新聞、定期發(fā)生的重大事件以及內(nèi)容頻繁更新的話題等。如果搜索“奧運(yùn)會”,用戶會得到與即將舉辦的倫敦奧運(yùn)會相關(guān)的最新搜索結(jié)果,而非關(guān)于1984年奧運(yùn)會的陳舊信息。
-
優(yōu)質(zhì)網(wǎng)站算法調(diào)整:它對包含原始信息、研究調(diào)查、深度報道、精準(zhǔn)分析等內(nèi)容的高質(zhì)量網(wǎng)站十分有利,提高了它們在搜索結(jié)果中的排名。
-
頁面布局算法調(diào)整:這一改進(jìn)關(guān)注用戶在點擊搜索結(jié)果后所看到的網(wǎng)頁布局,提升網(wǎng)頁信息的豐富程度 ,提高信息容易被搜索到的網(wǎng)頁的排名。
Google搜索背后的數(shù)字
-
Google通常只需0.25秒便可對搜索請求做出回應(yīng),而人平均每眨一次眼睛需要0.1秒
-
自2003年到現(xiàn)在,Google搜索已解決4500億個搜索請求
-
用戶每天搜索的關(guān)鍵詞中,16-20%都是新的
-
平均每個Google搜索關(guān)鍵詞往返于用戶電腦和數(shù)據(jù)中心的單程距離長達(dá)750英里
-
Google對搜索結(jié)果使用了包括“網(wǎng)頁排名”在內(nèi)的200多種排名指標(biāo)
-
Google的索引庫中收錄了幾十億個網(wǎng)頁,數(shù)據(jù)存儲多達(dá)1億GB
-
截止目前,Google在搜索算法開發(fā)上投入的時間超過1000人工年
-
Google搜索覆蓋的語言多達(dá)146種
-
Google搜索全球范圍內(nèi)擁有181個域名