Hadoop目前只是“窮人的ETL”
雖然企業(yè)部署Hadoop大數(shù)據(jù)系統(tǒng)的最終目的是進(jìn)行“性感”的分析應(yīng)用,但是大多數(shù)企業(yè)距離這一目標(biāo)還很遠(yuǎn)很遠(yuǎn)。
根據(jù)IDC發(fā)布的Hadoop-MapReduce軟件生態(tài)系統(tǒng)預(yù)測(cè)報(bào)告,Hadoop市場(chǎng)正在以60%的年復(fù)合增長(zhǎng)率高速擴(kuò)張。但是該報(bào)告也揭示了一個(gè)讓人吃驚的事實(shí),作為大數(shù)據(jù)分析應(yīng)用的代名詞,Hadoop的流行其實(shí)與數(shù)據(jù)分析無(wú)關(guān)。實(shí)際上大多數(shù)采用Hadoop的公司都沒(méi)有將Hadoop用于大數(shù)據(jù)分析,而是把Hadoop作為一種廉價(jià)的海量存儲(chǔ)和ETL(抽取、轉(zhuǎn)換、加載)系統(tǒng)。
窮人的ETL

雖然被打上了“大數(shù)據(jù)分析工具”的標(biāo)簽,但在大多數(shù)企業(yè)眼里,Hadoop是“窮人的ETL”。目前確實(shí)有個(gè)別企業(yè)將Hadoop用于運(yùn)行激動(dòng)人心的分析工作,但這只是個(gè)案。Cloudera曾提出Hadoop的三大應(yīng)用模式:Transform、Active Archive和Exploration,但是業(yè)內(nèi)人士分析,目前至少有75%的部署Hadoop的企業(yè)還都只是停留在前兩個(gè)模式中:將Hadoop作為廉價(jià)的ETL方案,或者用作垃圾數(shù)據(jù)填埋場(chǎng)(編者注:離線歷史數(shù)據(jù)倉(cāng)庫(kù),存儲(chǔ)海量的價(jià)值較低的歷史數(shù)據(jù),例如淘寶光棍節(jié)的交易數(shù)據(jù))。
Hadoop之路
Hadoop誕生已經(jīng)7年了,但是Hadoop在企業(yè)中的應(yīng)用還有很長(zhǎng)的路要走。451研究所的分析師Matt Aslett在Hadoop峰會(huì)上的演講指出,企業(yè)采用Hadoop需要經(jīng)歷三個(gè)發(fā)展階段,從一開(kāi)始用來(lái)存儲(chǔ)海量數(shù)據(jù),到對(duì)數(shù)據(jù)進(jìn)行處理和轉(zhuǎn)換,到最終開(kāi)始分析這些數(shù)據(jù)。我們還處于Hadoop市場(chǎng)和技術(shù)生命周期的早期階段,Rainstor的調(diào)查顯示,即使是***級(jí)的Hadoop用戶,也認(rèn)為Hadoop***的挑戰(zhàn)是時(shí)間(26%)和編程(25%)。根據(jù)Gartner的調(diào)查,目前只有6%的企業(yè)開(kāi)始部署大數(shù)據(jù)項(xiàng)目,企業(yè)還需要更多成功案例指路,同時(shí)也需要更多時(shí)間消化相關(guān)技術(shù)。
原文鏈接:http://www.ctocio.com/ccnews/12345.html