在Facebook身上找到的大數(shù)據(jù)靈感
要想預(yù)測大數(shù)據(jù)的走勢,明確自己的關(guān)注點,F(xiàn)acebook是不二之選,因為它收集的數(shù)據(jù)可謂海量(100PB,也即102400TB)。而要想處理這些數(shù)據(jù),Cassandra NoSQL數(shù)據(jù)存儲+Hive查詢語言+Hadoop分布式數(shù)據(jù)庫是***拍檔。此文談到了大數(shù)據(jù)初創(chuàng)企業(yè)應(yīng)該如何從Facebook身上學(xué)習(xí)自己的突破方向。
機遇之一:Hadoop大眾化
通過Hadoop和NoSQL進行基礎(chǔ)設(shè)施層創(chuàng)新是機遇一。
Facebook幾乎把Hadoop運用到了方方面面,從朋友推薦到定向廣告乃至于數(shù)據(jù)中心分析,不一而足,大數(shù)據(jù)被分割成了字節(jié)大小的碎片。不過,要服務(wù)好這一切意味著需要確保其各部門的用戶都能夠以一種有意義的方式跟Hadoop交互。
定制化的工具、接口及虛擬層為這個問題的解決提供了幫助。技術(shù)門檻降低以后,F(xiàn)acebook的非技術(shù)用戶也能夠利用Hadoop生成報表、查看分析了。幫助創(chuàng)建了Hive的幾位前Facebook員工還推出了云版的Hive —Qubole,可以通過Hive的簽名SQL接口提供對Hadoop的請求式訪問。Facebook希望創(chuàng)建出有助于降低Hadoop使用難度的工具,把大數(shù)據(jù)的應(yīng)用效率提高上去。
機遇之二:超越Hadoop
但是有時候跳出已有的框架(如Hadoop和NoSQL存儲)也許也能夠闖出一片新天地。這一切都取決于需求。大家用Hadoop是因為它是免費的、開源的。但是,要想實現(xiàn)自己的需求往往需要在Hadoop上面做大量工作。有很多大數(shù)據(jù)的問題跟Hadoop是無關(guān)的,所以另起爐灶也許不失為一種解決之道。Facebook的圖譜數(shù)據(jù)庫用的是MySQL,其開發(fā)TimeLine和Newsfeed的后臺用的也是它,一切均應(yīng)根據(jù)需要來選擇。
不過對于初創(chuàng)企業(yè)來說,在選擇應(yīng)用開發(fā)平臺的時候還是要有所權(quán)衡。Accel Partners的Ping Li的忠告是,夠好是偉大的敵人。要想成就偉大,也許就得突破Hadoop。
機遇之三:做大,像數(shù)據(jù)中心那么大
Facebook今年8月推出了數(shù)據(jù)中心的一項深度存儲新戰(zhàn)略,打算從頭設(shè)計數(shù)據(jù)中心,以期可以處理長期較少被訪問的數(shù)據(jù)存儲,而非比較穩(wěn)定的web事務(wù)流。
這種變化絕非遞進式的變化,跟過去的數(shù)據(jù)中心相比有著很大的不同。這種能源集約型的數(shù)據(jù)中心力圖將計算節(jié)省下來的每一度電都分配給對電力需求要少得多的處理上,但是這些處理還是需要把數(shù)據(jù)交付給用戶和分析引擎。這是一個巨大的挑戰(zhàn),因為越來越多的企業(yè)已經(jīng)意識到歷史數(shù)據(jù)的重要性。
Facebook打算通過Open Compute項目將其設(shè)計開放,其中已有部分管理工作在Apache Hadoop項目中實現(xiàn),這對于初創(chuàng)企業(yè)來說是個好消息,他們只需要做剩下的事情就行了。