Facebook打破Hadoop最大容量上限
你可能會認為,100拍(petabyte)字節(jié)對于任何公司來說都是非常大的數(shù)據(jù)量級了。但是對于社交網(wǎng)站明星Facebook而言,100拍字節(jié)的數(shù)據(jù)根本不算什么。
由于擁有10億用戶,以及需要每隔30分鐘分析一次105太(terabyte)以上的字節(jié),F(xiàn)acebook對數(shù)據(jù)處理的胃口已經(jīng)堪稱“哥斯拉”級別。為了優(yōu)化產品性能和廣告業(yè)績,臉譜需要關注和分析這些數(shù)據(jù)中的許多內容,其中包括與27億“喜歡”(Like)按鈕功能有關的數(shù)據(jù),以及每天25億被共享的內容項目。Hadoop是Facebook網(wǎng)站使用的一個關鍵工具,其不僅被用于分析,而且還被作為推動Facebook網(wǎng)站內信息傳送等眾多功能的引擎。這一沉重的工作負載迫使Facebook推出了支持地理分布式Hadoop數(shù)據(jù)存儲的Prism項目。
得益于諸如在Hadoop上處理A/B測試結果等技術,F(xiàn)acebook能夠確定針對具體地區(qū),或以性別、年齡、興趣愛好等標準劃分的特定群體推出的功能和廣告的效率。通過這些積極的結果,臉譜能夠改進功能,明確目標市場。
Facebook的業(yè)務分析師正在以各種方式拓展公司的業(yè)務。他們主要依靠的是可讓他們同時使用Hadoop和標準商業(yè)智能工具的Hive,以及由Facebook自主開發(fā)的閉源終端用戶工具HiPal。Hive為一個由Facebook推出的開源項目,其被廣泛地使用在企業(yè)內部的訪問層,以查詢使用SQL子集的Hadoop。為了讓業(yè)務人員更加容易地使用它們,臉譜推出了HiPal。HiPal為一款圖形工具,它能夠與Hive對話,并且具有數(shù)據(jù)發(fā)現(xiàn)、查詢編輯、制圖和儀表盤創(chuàng)建等功能。
在原生Hadoop容量方面,F(xiàn)acebook已經(jīng)達到了它們的***上限。Facebook近期宣布,該公司目前擁有全球***的Hadoop集群,數(shù)據(jù)容量達到了100拍字節(jié)。不過,F(xiàn)acebook也表示這還不夠大。Prism項目將把Hadoop的容量推向一個新高度。
目前的問題是,Hadoop必須將數(shù)據(jù)限制在一個物理數(shù)據(jù)中心。盡管Hadoop為批處理系統(tǒng),但是它們還是被緊密耦合在一起。同時,在Hadoop集群的服務器中,它們無法接受超過數(shù)毫秒的延遲。通過Prism,系統(tǒng)增加了一個邏輯抽象層,因此Hadoop集群能夠跨多個數(shù)據(jù)中心運行,從而有效地提升了容量方面的限制量級。
Facebook表示,他們很快將會把Prism變成一個開源項目。對于企業(yè)界而言,這無疑將成為一個可與2006年雅虎公開Hadoop源代碼相媲美的壯舉。雖然目前還不清楚Prism對其他公司具有多大的實用性,但是對于其他大型企業(yè)來說,他們剛剛也在Hadoop和NoSQL方面遇到了與Facebook相同的問題。
Facebook技術研發(fā)的背后是該公司業(yè)績未達到華爾街預期的緊迫感。不過,近期Facebook移動業(yè)務盈收方面的好消息稍微緩解了華爾街對其的失望情緒。事實上,無論Facebook是否能夠持續(xù)從移動業(yè)務中獲得盈利,還是從免費服務中產生充足的營收,增加廣告宣傳是一個日益緊迫的問題。無論采取哪種模式,基于Hadoop的分析方式將成為Facebook的大數(shù)據(jù)技術選擇。Prism等新項目則讓幾年前看似無法逾越的限制正在被打破。