Hadoop并非大數據處理的一切
云計算的偉大之處就在于在進行大數據處理時不必再向以往一樣購買大量的服務器集群,租用服務器處理大數據更加利用控制成本。Hadoop作為一個重量級的分布式處理開源框架已經在大數據處理領域有所作為,企業(yè)希望利用Hadoop來規(guī)劃其自身未來數據處理的藍圖。從EMC、Oracle到Microsoft,幾乎所有高科技廠商都在過去幾個月中宣布了自己以Hadoop為基礎的大數據戰(zhàn)略?,F今Hadoop已經成為IT商場吸引客戶的熱點詞匯。
Hadoop的成長得到了個人開發(fā)者、初創(chuàng)公司和大企業(yè)的支持。這也給予用戶長時間使用Hadoop提供了潛在的信心。但是由于不同廠商對代碼的持續(xù)改善也帶來產品相互無法操作的問題。Hadoop目前的狀況和Android極其類似。
大多數企業(yè)并未真正了解大數據
“大數據”的優(yōu)勢并不只是規(guī)模,還在于性能,無論數據集合的維數有多少。這對于直接分析非常重要,例如評估某位客戶在網站上的行為來更好地了解他們需要什么支持或尋找什么產品,或者搞清當前天氣和其他條件對于送貨路線和時間安排的影響。這正是服務器集群、高性能文件系統(tǒng)和并行處理的用武之地。過去,這些技術過于昂貴,只能為大企業(yè)所采用。今天,虛擬化和商用硬件大大降低了使用這些技術的成本,從而使“大數據”可為中小企業(yè)所用。
那些較小的企業(yè)還有另一條利用“大數據”分析的途徑——云。“大數據”云服務開始出現,提供迅速、高效執(zhí)行分析的平臺和工具。
Capgemini的CTO Joe Coyle就表示大數據將成為未來趨勢,但許多企業(yè)還不明白這其中的含義??蛻粼儐栕疃嗟木褪窃朴嬎愫痛髷祿@兩個概念現今在Hadoop技術大熱的同時業(yè)界也發(fā)出了不同的聲音。一些廠商指出企業(yè)有些過于熱炒Hadoop的相關概念了。搭建和維護Hadoop集群的復雜性需要相關從業(yè)人員專業(yè)知識的支持,而雇傭相關人員的代價是昂貴的。JP摩根大通總經理Larry Feinsmith日前曾表示,他們不僅愿意聘用合格的專業(yè)人士,還會提供比業(yè)界高出10%的優(yōu)厚待遇。
并不是所有行業(yè)都應部署Hadoop
制造業(yè)務本身以及產品生命周期管理通常會給制造業(yè)的ERP和庫存系統(tǒng)制造大量的關系和非關系數據。企業(yè)都希望擁有一個完美的大數據收集和分析解決方案,但是并不是所有企業(yè)都一定要即刻轉換到Hadoop。
通用電氣智能平臺部門已經構建了檢測軟件以收集從復雜制造業(yè)中產生的各種數據。這一舉措也推動了其自身Proficy Historian 4.5軟件更快的發(fā)展。Proficy Historian承諾其提供的方法可比使用Hadoop更可靠。通用公司企業(yè)數據管理部的Brian Courtney表示公司現成的解決方案可提供一個媲美Hadoop的環(huán)境,同時比Hadoop更具優(yōu)勢的是他們的成本更低,同時要比Hadoop更好駕馭。
通用電氣擁有大量的歷史數據,這些歷史數據大多來自生產和測試階段。Proficy Historian用來處理像波形一樣源源不斷的由產品制造和測試產生的關系和非關系數據,并可善加利用以便預測可能會發(fā)生的問題。
舉例來說,當渦輪發(fā)動機啟動時,Proficy Historian可檢測并查看相應的電子簽名。在正常啟動并進行負載測試時如果有異常會發(fā)生怎樣的狀況?之前有類似的狀況嗎?當發(fā)現有和以往類似的系統(tǒng)故障時還可以查看解決此故障在以往所花費的時間,以便制造商選擇他們排除錯誤的優(yōu)先級。Proficy Historian還可以通過和以往的歷史數據進行對比,以探究過往是否有類似的問題,并提前生成未來可能發(fā)生那些其他異常的報告。Brian Courtney說到。
Proficy軟件的新版本旨在處理更多大數據。Proficy的早期版本支持200萬個標簽,現今Proficy已支持多達1500萬個標簽。
亞馬遜部署HPCC在其云計算平臺
亞馬遜已經將其云計算平臺上的運行軟件調整為HPCC。HPCC是LexisNexis公司推出的一款開源的數據處理方案。這一舉措也讓HPCC系統(tǒng)替代現今流行的Hadoop想法又更進一步。
HPCC系統(tǒng)的CTO Armando Escalante在9月曾表示盡管HPCC現今還不能像Hadoop那樣吸引大型企業(yè)和政府,但這也促使HPCC的開發(fā)者生態(tài)環(huán)境的發(fā)展,就好象當年Hadoop一樣。
現今也有一些分析人士看好HPCC系統(tǒng),不過HPCC社區(qū)要想成為像Hadoop社區(qū)那樣充滿活力還需要很長的一段路要走?,F今Amazon已經為HPCC在AWS或云中運行帶來了一個良好的范例,HPCC支持AWS的Elastic MapReduce。Amazon表示未來將帶來更多的驚喜。
從技術角度看,現今Amazon Web Services只運行了HPCC的處理大數據的部分方式——Thor Data Refinery Cluster。該平臺還包括另一種處理數據的方式Roxy Rapid Data Delivery Cluster。Roxy作為數據倉庫和數據查詢層起到的作用類似于Apache的Hive和HBase。
Hadoop項目中的HBase和Hive都擁有自己的語言。而HPCC系統(tǒng)平臺則全部采用被稱之為ECL(Enterprise Control Language)的語言。