開源破解大數(shù)據(jù)困局 Hadoop非唯一選擇
曾幾何時,社交網(wǎng)絡(luò)正悄然成長起來,并逐漸成為人們工作和生活中不可或缺的一部分。如今,社交網(wǎng)絡(luò)發(fā)展得如火如荼,F(xiàn)acebook就是其中的一個典型代表。Facebook作為社交網(wǎng)站的領(lǐng)頭羊,最初只是為了方便大學(xué)宿舍成員之間的溝通,后來發(fā)展成用戶數(shù)超過9億、全球排名第一的社交網(wǎng)絡(luò)。據(jù)IDC統(tǒng)計,在Facebook上每20分鐘就有100萬個新鏈接被分享,1000萬條用戶評論被發(fā)布。Facebook基礎(chǔ)設(shè)施技術(shù)部門副總裁杰伊·帕里克(Jay Parikh)近期表示,該網(wǎng)站每天處理的數(shù)據(jù)超過500TB,這其中包括3億張照片和其他非結(jié)構(gòu)化數(shù)據(jù)。社交網(wǎng)站及其他互聯(lián)網(wǎng)應(yīng)用,已經(jīng)逐漸變成了整個數(shù)據(jù)采集、分析、處理、增值的數(shù)據(jù)架構(gòu)。
社交網(wǎng)絡(luò)在中國的發(fā)展同樣勢不可擋。中國擁有全球第一的人口數(shù)量,以及全球最大的PC和智能手機(jī)出貨量,也就造就了全球最多互聯(lián)網(wǎng)用戶和移動互聯(lián)網(wǎng)用戶,創(chuàng)造數(shù)據(jù)的規(guī)模遠(yuǎn)遠(yuǎn)超過全球其他國家。新浪微博最新公布的數(shù)據(jù)顯示,微博用戶每天平均在線時長為60分鐘,活躍用戶中有60%通過移動終端登錄,所有來自移動終端的原創(chuàng)內(nèi)容中,有40%的微博分享照片。由此產(chǎn)生的大數(shù)據(jù)具有高容量、類型多樣化、持續(xù)性不斷更新,以及為用戶帶來最終價值等特點(diǎn),早已不是傳統(tǒng)技術(shù)手段所能夠處理的。
開源技術(shù)破解大數(shù)據(jù)困局
大數(shù)據(jù)不僅影響著人們生活的方方面面,更重要的是它給企業(yè)帶來的改變。據(jù)Gartner預(yù)測,企業(yè)數(shù)據(jù)將在五年內(nèi)增加800%,其中80%是非結(jié)構(gòu)化數(shù)據(jù),大部分來自團(tuán)體、社區(qū),以及社交網(wǎng)絡(luò)的非業(yè)務(wù)數(shù)據(jù)。面對如此規(guī)模的數(shù)據(jù),對于有準(zhǔn)備的企業(yè)來說這無疑是一座信息金礦,如何將大數(shù)據(jù)轉(zhuǎn)換為有價值的信息將成為未來企業(yè)的決勝法寶。
大數(shù)據(jù)蘊(yùn)藏的商業(yè)價值不可小覷。對于當(dāng)今的企業(yè)而言,數(shù)據(jù)就是一種重要的戰(zhàn)略資產(chǎn),如果能夠看清其商業(yè)價值并且迅速行動起來,將會在未來的競爭中占得先機(jī)。然而,傳統(tǒng)關(guān)系型數(shù)據(jù)庫技術(shù)擅長處理結(jié)構(gòu)化數(shù)據(jù),對于未來企業(yè)中占絕大多數(shù)的非結(jié)構(gòu)化數(shù)據(jù)卻無從下手。此時,大量新技術(shù)應(yīng)運(yùn)而生。
大數(shù)據(jù)自誕生之日起,就表現(xiàn)出“開源”的基因。閉源、專有和整體硬件存儲解決方案還沒有完善起來幫助企業(yè)用戶應(yīng)對這種非結(jié)構(gòu)化數(shù)據(jù)暴增的沖擊,而開源軟件能夠降低大數(shù)據(jù)帶來的種種風(fēng)險。開源解決方案允許用戶利用成百上千的PC服務(wù)器,在數(shù)秒的時間內(nèi)實(shí)現(xiàn)大數(shù)據(jù)各種應(yīng)用服務(wù),而用戶只需要支付使用資源的小部分成本。
以Hadoop為代表的一系列開源技術(shù),成為大數(shù)據(jù)存儲、處理和分析的主力軍。各大IT巨頭瞄準(zhǔn)開源技術(shù),紛紛推出各自的大數(shù)據(jù)戰(zhàn)略。Hadoop作為其中的最受關(guān)注的技術(shù),已逐漸走向商業(yè)化的道路,面向企業(yè)提供商用版本,就像紅帽對Linux的做法一樣。
挑戰(zhàn)大數(shù)據(jù) Hadoop并非唯一選擇
一提到大數(shù)據(jù),往往會與Hadoop聯(lián)系起來。不可否認(rèn),Hadoop的確是一款非常出色的處理大數(shù)據(jù)的開源工具。除了Hadoop之外,還有很多優(yōu)秀的技術(shù)和工具如雨后春筍般成長起來,包括開源語言R、NoSQL數(shù)據(jù)庫和非結(jié)構(gòu)化數(shù)據(jù)存儲解決方案等,也理應(yīng)成為大數(shù)據(jù)舞臺上不可或缺的成員。這其中不得不提2012年6月27日全球上市的Red Hat Storage Server 2.0。
Red Hat Storage Server 2.0是一款可向外擴(kuò)容的開源存儲軟件解決方案,主要用于非結(jié)構(gòu)化數(shù)據(jù)的管理,是行業(yè)中首個能和對象存儲輕松整合在一起的文件存儲解決方案,有效擴(kuò)展以滿足非結(jié)構(gòu)化數(shù)據(jù)暴增的需求。它可以配置在預(yù)設(shè)平臺中,也可以配置在私有云、公有云或者混合云環(huán)境中,用來優(yōu)化存儲密集型企業(yè)級工作負(fù)載。
紅帽公司作為全球最大的開源技術(shù)廠商,駕馭開源的能力不可小視。紅帽于2011年10月以1.36億美元收購了開源存儲軟件提供商Gluster,自此加快了布局大數(shù)據(jù)市場的腳步。Linux是管理大數(shù)據(jù)最好的平臺,紅帽利用自身優(yōu)勢,將Red Hat Storage Server 2.0構(gòu)建在Red Hat Enterprise Linux操作系統(tǒng)上,用戶在無需犧牲擴(kuò)展能力或者性能的前提下就可以配置經(jīng)濟(jì)劃算的、可擴(kuò)展的、高可用性的存儲軟件。
紅帽也看到了Hadoop對于大數(shù)據(jù)的價值。Red Hat Storage Server 2.0能夠兼容Apache Hadoop為用戶提供Hadoop配置的最新存儲選擇。它既可以Hadoop HDFS整合在一起,也可以作為HDFS的替代產(chǎn)品,實(shí)現(xiàn)更加快速的文件訪問。
此外,Red Hat Storage Server 2.0還可以兼容超過50種主流硬件廠商的雙路X86服務(wù)器,并且支持業(yè)界領(lǐng)先的文件訪問協(xié)議,包括通用互聯(lián)網(wǎng)文件系統(tǒng)(簡稱CIFS)、網(wǎng)絡(luò)文件系統(tǒng)(簡稱NFS)、HTTP和OpenStack Swift等。
總結(jié)
大數(shù)據(jù)的影響仍在繼續(xù),它體現(xiàn)的不只是商業(yè)價值,還有企業(yè)IT架構(gòu)和技術(shù)的顛覆性變革。正如紅帽公司負(fù)責(zé)存儲的副總裁兼總經(jīng)理Ranga Rangachari所說,在未來幾年里,開源存儲解決方案和大規(guī)模X86服務(wù)器將會以Linux和大規(guī)模X86服務(wù)器改變服務(wù)器市場同樣的方式改變存儲市場。