谷歌算法揭秘:一次搜索請(qǐng)求平均往返2400公里
谷歌搜索演進(jìn)
3月 12 日消息,作為全球使用最廣泛的搜索引擎,谷歌算法一直有一層神秘面紗。近日谷歌工程總監(jiān)斯科特·霍夫曼向騰訊科技講述谷歌算法幕后故事,稱(chēng) 2011 年有 520 多項(xiàng)改進(jìn),自 2003 年到現(xiàn)在,Google 搜索已解決 4500 億個(gè)搜索請(qǐng)求。
據(jù)了解,斯科特·霍夫曼加入谷歌已逾 5 年,負(fù)責(zé)領(lǐng)導(dǎo)搜索質(zhì)量評(píng)估和移動(dòng)搜索團(tuán)隊(duì),還撰寫(xiě)數(shù)十篇學(xué)術(shù)論文,內(nèi)容涵蓋信息檢索、機(jī)器學(xué)習(xí)和信息提取領(lǐng)域,專(zhuān)注搜索領(lǐng)域已超過(guò) 15 年,對(duì)谷歌算法有很高發(fā)言權(quán)。
斯科特說(shuō),十年前搜索可能只是針對(duì)于關(guān)鍵詞進(jìn)行意思和上下文匹配,現(xiàn)在谷歌更了解用戶(hù)想干什么,而不是表面字詞匹配。搜索引擎呈現(xiàn)結(jié)果給用戶(hù)看起來(lái)比較簡(jiǎn)單,但實(shí)際背后有一系列復(fù)雜流程,并在 1 秒鐘內(nèi)完成。“谷歌通常只需0.25秒便可對(duì)搜索請(qǐng)求做出回應(yīng),而人平均每眨一次眼睛需0.1秒。”
谷歌算法原理
談及谷歌算法原理,斯科特說(shuō)最基本的概念是索引,即谷歌搜索機(jī)器人掃描或搜索幾十億網(wǎng)頁(yè)后建立索引,再把索引庫(kù)分成幾部分,放在幾千臺(tái)計(jì)算機(jī)上,再?gòu)?fù)制到全球各地?cái)?shù)據(jù)中心去,這樣谷歌就可以在全球各地完成搜索任務(wù)。
谷歌算法的流程是用戶(hù)提交搜索請(qǐng)求,根據(jù)用戶(hù)具體地理位置,谷歌將搜索請(qǐng)求發(fā)送到全球各地?cái)?shù)據(jù)中心,數(shù)據(jù)中心再把需求散發(fā)到幾千個(gè)計(jì)算機(jī)上去,根據(jù)目錄和用戶(hù)提交請(qǐng)求的關(guān)鍵詞匹配,找到正確郵件或網(wǎng)頁(yè)。谷歌從中挑選相關(guān)性最高且最新的一些數(shù)據(jù),或搜索結(jié)果,再把這些搜索結(jié)果根據(jù)不同屬性和指標(biāo)排名,確定最合理搜索引擎結(jié)果相匹配。平均來(lái)說(shuō),谷歌每一個(gè)搜索請(qǐng)求,往返于電腦和數(shù)據(jù)中心單程距離是 750 英里。
谷歌每年會(huì)對(duì)一些新構(gòu)思進(jìn)行必要性評(píng)估,如果評(píng)估后認(rèn)為合理就會(huì)做一些小規(guī)模試驗(yàn),主要是請(qǐng)一些獨(dú)立評(píng)估員,針對(duì)幾百個(gè)搜索請(qǐng)求做兩組結(jié)果來(lái)進(jìn)行對(duì)比,一種是使用普通搜索方法做基本組,另一個(gè)是對(duì)比組,采用新構(gòu)思。比較這兩組搜索結(jié)果哪個(gè)相關(guān)性和搜索質(zhì)量更高。之后在通過(guò)在線(xiàn)實(shí)時(shí)實(shí)驗(yàn)隨機(jī)挑選用戶(hù)參與新構(gòu)思的體驗(yàn)。
“如果你是一個(gè)谷歌用戶(hù),而且經(jīng)常使用谷歌搜索,可能在不知不覺(jué)間,已參與在線(xiàn)實(shí)施的試驗(yàn),你所得到的搜索結(jié)果,也許就是用新構(gòu)思方法得到的搜索結(jié)果。谷歌在任一時(shí)刻都在進(jìn)行 200 多項(xiàng)在線(xiàn)實(shí)時(shí)試驗(yàn)。”
谷歌算法搜索體驗(yàn)提升的三部曲
通過(guò)這些實(shí)驗(yàn),谷歌可以不斷提升用戶(hù)搜索體驗(yàn),諸如在搜索結(jié)果中剔除垃圾信息;根據(jù)用戶(hù)需求改變搜索界面呈現(xiàn)的結(jié)果數(shù)量;相同詞在不同地域搜索,呈現(xiàn)的結(jié)果不同。斯科特透露,谷歌在 2011 年進(jìn)行了 41931 次必要性評(píng)估、9250次小規(guī)模試驗(yàn)、7363項(xiàng)在線(xiàn)實(shí)時(shí)實(shí)驗(yàn),最終完成了 520 多項(xiàng)改進(jìn)。
谷歌搜索排名
斯科特指出,谷歌對(duì)不同搜索請(qǐng)求的衡量指標(biāo)不同,比如查某一個(gè)疾病問(wèn)題,用戶(hù)最重視的是網(wǎng)頁(yè)權(quán)威性有多高,而不是呈現(xiàn)某一個(gè)博客談到這種疾病。在這樣搜索情況下,網(wǎng)頁(yè)權(quán)威性權(quán)重最高。此外,搜索的相關(guān)性還與區(qū)域位置和時(shí)間相關(guān),比如用戶(hù)人在北京,搜索上海餐館的價(jià)值就不大。再如搜索一個(gè)重大事件,會(huì)發(fā)現(xiàn)這個(gè)重大事件發(fā)生的后一天得到的搜索結(jié)果和前一天搜索結(jié)果完全不同。
據(jù)斯科特介紹,谷歌搜索算法進(jìn)行了一系列重大改進(jìn),包括新鮮度算法調(diào)整、優(yōu)質(zhì)網(wǎng)站算法調(diào)整、頁(yè)面布局算法調(diào)整等部分,其中,新鮮度算法調(diào)整是指在某些情況下,Google 需要為用戶(hù)提供最新搜索結(jié)果,比如即時(shí)新聞、定期發(fā)生的重大事件以及內(nèi)容頻繁更新的話(huà)題等。如果搜索“奧運(yùn)會(huì)”,用戶(hù)會(huì)得到與即將舉辦的倫敦奧運(yùn)會(huì)相關(guān)的最新搜索結(jié)果,而非關(guān)于 1984 年奧運(yùn)會(huì)的陳舊信息。
優(yōu)質(zhì)網(wǎng)站算法調(diào)整對(duì)包含原始信息、研究調(diào)查、深度報(bào)道、精準(zhǔn)分析等內(nèi)容的高質(zhì)量網(wǎng)站十分有利,提高了它們?cè)谒阉鹘Y(jié)果中的排名。頁(yè)面布局算法調(diào)整這一改進(jìn)關(guān)注用戶(hù)在點(diǎn)擊搜索結(jié)果后所看到的網(wǎng)頁(yè)布局,提升網(wǎng)頁(yè)信息的豐富程度 ,提高信息容易被搜索到的網(wǎng)頁(yè)的排名。
斯科特稱(chēng),隨著 Facebook、Twitter 這些社交化網(wǎng)站發(fā)展,個(gè)人化的搜索結(jié)果會(huì)越來(lái)越重要。谷歌近年來(lái)推出 Google+ 等產(chǎn)品,在搜索中也融入了社交化的因素。從谷歌來(lái)說(shuō),會(huì)不斷把社交媒體信息整合進(jìn)來(lái)。
原文鏈接:http://tech.qq.com/a/20120312/000083.htm
【編輯推薦】