部署標(biāo)準化的大數(shù)據(jù)軟件堆棧尚需時日
譯文【51CTO經(jīng)典譯文】近日,幾位專家在參加科技博客網(wǎng)站GigaOm主辦的一次虛擬專題小組討論會時得出結(jié)論,盡管許多企業(yè)對大數(shù)據(jù)平臺的興趣日漸濃厚,但是可能需要一段時間以后才能部署標(biāo)準化的大數(shù)據(jù)軟件堆棧(software stack)。
專題討論小組的成員們一致認為,一整套標(biāo)準化的大數(shù)據(jù)分析軟件有望讓用戶更容易開發(fā)大規(guī)模的數(shù)據(jù)分析系統(tǒng),正如開源LAMP堆棧在過去的十年間帶來了一整批Web 2.0服務(wù)那樣。專題討論小組的成員們表示,但是使用Hadoop等軟件的方式大不一樣,以至于可能很難選定某一套核心技術(shù)。
LAMP是指協(xié)同運行起來非常順暢的一套軟件程序的縮寫:Linux、Apache Web服務(wù)器、MySQL數(shù)據(jù)庫和一套編程語言:Perl、Python和PHP。
獨立顧問Paul Miller主持了這次名為《為大數(shù)據(jù)而設(shè)計:新的架構(gòu)堆?!返膶n}小組討論會,他說:LAMP“提供了一種通用框架,大家可以在此基礎(chǔ)上進行開發(fā)。它可供免費使用,而且通俗易懂。它可以在幾乎任何平臺上運行。它建立了一代新興公司得以成長起來的堅實基礎(chǔ)。”
Miller問道:“隨著我們開始看到用戶對大數(shù)據(jù)的興趣迅速濃厚起來,我們是否需要一種同樣無所不在的堆棧?我們在大數(shù)據(jù)方面是否需要LAMP堆棧那樣的堆棧?”大家一致認為,沒有一套標(biāo)準化的堆棧減慢了部署大數(shù)據(jù)系統(tǒng)的步伐。市場研究公司GigaOm Pro分析報道云計算技術(shù)的研究主任Jo Maitland說:“現(xiàn)在沒有一套標(biāo)準堆棧,大家不清楚哪些部分最適合處理某種工作負載?,F(xiàn)在處于反復(fù)嘗試的階段。”
Canonical公司Ubuntu服務(wù)器產(chǎn)品經(jīng)理Mark Baker指出,LAMP之所以大受歡迎,一個原因就是,其用戶都有著類似的要求,都立足于把服務(wù)放到網(wǎng)上。他特別指出,另一方面,分析方面的要求往往因企業(yè)的不同而不同,而且經(jīng)常變化。
Dragon Slayer咨詢公司的總裁Mark Staimer表示,像電子港灣和推特這些使用Hadoop的大型Web服務(wù)公司采用了“連續(xù)改進”的運作模式;它們雇用了大量技術(shù)嫻熟的員工,以適應(yīng)不斷變化的步伐。
Staimer說:“擁有一套不斷完善的平臺和堆棧對它們來說是好事。它們在公司內(nèi)部擁有管理這套平臺和堆棧的流程和文化。”他補充說,比較傳統(tǒng)的“實體”公司“則要保守得多。它們喜歡看到完全成熟的解決方案。”
考慮到目前現(xiàn)有的技術(shù)種類多樣,加上在不同配置的環(huán)境下把它們連接起來本身存在相當(dāng)大的難度,要獲得這樣一套堆棧可能很難。
Maitland說:“現(xiàn)在我們有大量不同的部分,你可以相互接通。單單在數(shù)據(jù)庫領(lǐng)域,就有MongoDB、Cassandra和HSpace。”所有這些選擇“給人們增添了難度。我們現(xiàn)處于所有這些不同組件混搭的情形。”
Baker表示,出現(xiàn)這樣的多樣性是為了滿足廣大用戶當(dāng)中不同的要求。比如說,MySQL在讀取數(shù)據(jù)方面速度超快;而另一方面,Cassandra數(shù)據(jù)存儲區(qū)可以更迅速地寫入數(shù)據(jù)。Baker特別指出,制作英國電視節(jié)目《英國達人》的那家公司之所以使用Cassandra數(shù)據(jù)庫來記錄觀眾評選最喜愛選手的票數(shù),是因為該數(shù)據(jù)庫能同時處理眾多的寫入操作。
許多公司已發(fā)布了商業(yè)Hadoop發(fā)行版,比如Cloudera、Hortonworks和MapR;在這些Hadoop發(fā)行版中,所有軟件組件都集成起來。Maitland認為,但是連Hadoop本身都并非適合處理所有任務(wù)。它如同處理批任務(wù)那樣來處理數(shù)據(jù),這意味著整個數(shù)據(jù)集必須先寫入到文件中,之后才能進行分析。不過,許多任務(wù)需要分析持續(xù)更新的數(shù)據(jù),比如點擊流或推特消息。
Maitland表示,此外,堆棧還需要得到不止一家公司的支持,那樣才能成為一項行業(yè)標(biāo)準。他說:“如果將來有一種堆棧,它需要由開源組織來管理,未必是由某一家公司來管理。”
沒有一套標(biāo)準化堆棧的另一個問題是,這增加了聘請專家來管理和使用大數(shù)據(jù)系統(tǒng)的成本。眼下,爭奪專家的競爭很激烈。
Baker說:“設(shè)法構(gòu)建一套大數(shù)據(jù)系統(tǒng)需要知識和技能。把那些系統(tǒng)接入到你的基礎(chǔ)架構(gòu)中需要花費時間和資金?,F(xiàn)在沒有標(biāo)準的路線圖——這是個不斷摸索的過程。把各部分都拼湊起來并非易事。”
Maitland說:“你別指望這個行業(yè)會迎來爆炸式發(fā)展,因為目前需要大量的專業(yè)知識。”
Staimer補充說:“普通的業(yè)務(wù)分析人員無法編寫針對Hadoop的查詢語句。”