Storm獲東風(fēng),Hortonworks計劃將其整合到Hadoop企業(yè)版
在YARN發(fā)布后,Hadoop擁有了同集群運行不同技術(shù)的可能,類似的技術(shù)還有加州大學(xué)伯克利分校建立的Mesos。然而將開源技術(shù)商用卻并不是件簡單的事情,據(jù)Gigaom的一則消息,Hortonworks正在致力Storm到Hadoop的商用整合。
以下為譯文
在收到大量的客戶請求后,Hortonworks決定開始 Sotrm流處理引擎整合到該公司的Hadoop產(chǎn)品中。考慮到Hadoop的批處理設(shè)計,這項工作確實有著重要的意義。
幾年前,Backtype公司建立了流處理引擎Sotrm,期望彌補Hadoop一些流數(shù)據(jù)(比如傳感器數(shù)據(jù))的實時處理能力。 Twitter于2011年收購了Backtype,從此引領(lǐng)著Storm開發(fā)。然而當(dāng)這個開源項目在網(wǎng)站開發(fā)上得到廣泛認(rèn)可時,一些革新陸續(xù)出現(xiàn),其中就包括了 與Hadoop的整合或者 在Hadoop上運行。
在Hortonworks客戶發(fā)現(xiàn)Storm走進Twitter及Yahoo!這些知名企業(yè)后,他們也想使用這個技術(shù)來處理自己的流數(shù)據(jù),從事geofencing、網(wǎng)頁行為及從醫(yī)用傳感器的實時分析等業(yè)務(wù)。Hortonworks營銷副總裁Dave McJannet說道:
我們看到許多早期用戶對這個功能的渴望,同時也看到越來越多企業(yè)對實時處理的關(guān)心。
Hortonworks產(chǎn)品副總裁Bob Page說道:“ Storm在近日成為Apache軟件基金會的孵化項目后,已然值得Hortonworks投資。”該公司之前聚焦的通常是 將Hadoop相關(guān)開源技術(shù)整合到旗下Hortonworks Data Platform產(chǎn)品,整合Storm這樣的流處理框架完全是出于用戶的需求。Hortonworks一直認(rèn)為,在缺少強大的社區(qū)支持下,將一些遠(yuǎn)離Hadoop主干代碼的技術(shù)整合到其產(chǎn)品將產(chǎn)生相當(dāng)大的風(fēng)險。
通過McJannet了解到,這個工作的主要挑戰(zhàn)就在于如何整合成一個企業(yè)級產(chǎn)品,并且滿足許多主流需求。

Page強調(diào),Hortonworks的計劃是在今年底完成基礎(chǔ)等級整合,并在不久的將來為其注入企業(yè)級元素,大概會耗時1年左右的時間。他還補充說,并不會到所有特性完成后才會給用戶發(fā)布。
在數(shù)據(jù)處理時間和方式上,Storm與Hadoop MapReduce基本上是兩個對立面,而這兩個技術(shù)具備整合可能性極大程度該歸結(jié)于 YARN這個集群管理層。Hortonworks當(dāng)下正在致力于通過新型處理框架Tez 來 提高Hive的速度,同時YARN還允許Hadoop用戶 運行Spark內(nèi)存處理框架。同時, 微軟也在使用YARN讓Hadoop更加適合機器學(xué)習(xí)用例。
此外,通過YARN,同集群上同時運行HBase、 Giraph等不同技術(shù)也成為可能。此外,集群管理技術(shù)Mesos(加州大學(xué)伯克利分校出品,現(xiàn)已成為Apache項目) 同樣支持了類似YARN功能,盡管其不是像YARN這樣與HDFS捆綁。
更多技術(shù)的整合預(yù)示Hadoop這個大數(shù)據(jù)處理平臺絕不是曇花一現(xiàn),同時也會讓Hadoop在大數(shù)據(jù)應(yīng)用程序領(lǐng)域獲得更高的統(tǒng)治力。