Google 搜索背后的數(shù)據(jù)

對(duì)于互聯(lián)網(wǎng)用戶來(lái)說(shuō),搜索是一件非常簡(jiǎn)單的事情。在搜索框輸入關(guān)鍵詞,回車(chē)(或點(diǎn)擊搜索框),等待。而對(duì)于搜索公司來(lái)說(shuō),這是一個(gè)復(fù)雜的技術(shù)問(wèn)題。從你開(kāi)始搜索到獲得結(jié)果的短暫時(shí)間里,究竟發(fā)生了什么?從 Google 發(fā)給 Mashable 網(wǎng)站的這幅信息圖里,我們可以了解到一些相關(guān)的數(shù)據(jù)。
搜索之前
在你進(jìn)行搜索之前,Google 的搜索爬蟲(chóng)已經(jīng)走遍了整個(gè)網(wǎng)絡(luò),它們從一個(gè)鏈接跳到另一個(gè)鏈接,將數(shù)據(jù)帶回 Google 的服務(wù)器。網(wǎng)絡(luò)就像是一本書(shū),Google 的工作就是為圖書(shū)建立目錄。
Google 建立的目錄,其容量已經(jīng)超過(guò) 1 億 GB。目前為止,Google 已經(jīng)花費(fèi)了 100 萬(wàn)個(gè)機(jī)器小時(shí)來(lái)構(gòu)建目錄。
搜索之時(shí)
從查詢開(kāi)始到獲得結(jié)果,搜索查詢的平均旅行路程是 1500 公里。在此過(guò)程中,它可能經(jīng)過(guò)全球不同的數(shù)據(jù)中心。根據(jù) Google 的說(shuō)法,1500 是一個(gè)平均數(shù)字,具體到每次搜索產(chǎn)生的路程不會(huì)這么長(zhǎng),因?yàn)?Google 總是會(huì)尋找最近的數(shù)據(jù)中心。在用戶鍵入搜索查詢的時(shí)候,Google 就開(kāi)始提供對(duì)查詢的預(yù)測(cè),以減少鍵入時(shí)間,這就是 Google Instant。
排名
Google 的排序算法會(huì)根據(jù) 200 多個(gè)信號(hào)來(lái)決定相關(guān)結(jié)果。每年,Google 對(duì)排序算法有 500 多項(xiàng)改進(jìn)。這些信號(hào)包括:
網(wǎng)頁(yè)內(nèi)容的新鮮程度;網(wǎng)站內(nèi)容的質(zhì)量;網(wǎng)頁(yè)的地址和標(biāo)題;其它網(wǎng)站對(duì)某特定站點(diǎn)的鏈接,以及這些鏈接的權(quán)威性;最好的搜索結(jié)果是什么,網(wǎng)頁(yè)、圖片、視頻、新聞、個(gè)人結(jié)果等;網(wǎng)頁(yè)上的單詞;拼寫(xiě)檢查;個(gè)性化(與你關(guān)聯(lián)的人推薦的結(jié)果)。
搜索結(jié)果
搜索結(jié)果根據(jù)相關(guān)性排序,同時(shí),Google 還提供了網(wǎng)頁(yè)預(yù)覽功能。
每天在 Google 上產(chǎn)生的搜索超過(guò)億次;網(wǎng)頁(yè)預(yù)覽的平均加載時(shí)間是 1/10 秒;從 2003 年以來(lái),Google 已經(jīng)回答了 4500 億個(gè)新查詢;每天都有 16% 的新查詢出現(xiàn)。

【編輯推薦】