Facebook與Yahoo“火花”:系統(tǒng)間實(shí)時數(shù)據(jù)流管理工具
據(jù)Gigaom消息,F(xiàn)acebook與Yahoo!于上周公開了多系統(tǒng)間實(shí)時數(shù)據(jù)流管理工具的一些細(xì)節(jié)。其中Yahoo!公布的Storm-YARN已經(jīng)開源,其基于YARN(Hadoop 2.0)與Storm,實(shí)現(xiàn)了Storm與Hadoop集群間更緊密的集合——在需要時甚至可以通過Storm來借用Hadoop批處理集群的能力。Wormhole則集成了監(jiān)視系統(tǒng),執(zhí)行自動修復(fù),支持容量計劃,自動化配置等眾多特性,遺憾的是Wormhole并未開源。
以下為譯文:
6月11日, Yahoo!開源了人氣流處理框架Storm的內(nèi)部定制版——Storm-YARN,用于Hadoop集群中。接著在14號, Facebook公開了名為Wormhole系統(tǒng)的細(xì)節(jié),用于多個應(yīng)用間的通信,當(dāng)一個系統(tǒng)中的數(shù)據(jù)發(fā)生發(fā)變化時,可以自動同步到其它相關(guān)系統(tǒng),以保證數(shù)據(jù)的實(shí)時更新。
Yahoo!:Storm-YARN
流處理框架的實(shí)時性廣受大數(shù)據(jù)分析者的喜愛,其價值更是毋庸置疑,比如說Twitter的成功就證明了Storm的價值。Twitter使用Storm來處理tweet,讓用戶的Timelines就可以保持實(shí)時更新,Twitter還使用Storm做類似實(shí)時分析及新趨勢的發(fā)現(xiàn)。事實(shí)上Twitter通過購買Storm建立者Backtype確實(shí)獲得了技術(shù)和人才上的雙豐收。

提交并執(zhí)行Storm拓?fù)?/strong>
從2011年Storm開源之后,其就作為Hadoop的流處理組件在網(wǎng)絡(luò)公司中流行了起來。而現(xiàn)在Yahoo!讓Storm和Hadoop的集合更加緊密,甚至已經(jīng)達(dá)到Storm在需要時可以借用批處理節(jié)點(diǎn)能力的程度。這是個非常有價值的特性——而在上周Facebook Analytics @ Web Scale會議的一個演講上,Twitter的工程師Krishna Gade還惋惜過Storm自動擴(kuò)展的局限性。

發(fā)布Storm集群和Hadoop YARN
Storm-ARN的實(shí)現(xiàn)還獲益于YARN的一個重要特性,也是Hadoop 2.0版本一處重大更新——允許Hadoop同時運(yùn)行多個處理框架。 Twitter曾使用開源資源管理器Mesos達(dá)到相同的功能,但是Gade的同事Dmitriy Ryaboy曾申明當(dāng)Hadoop更新到2.0版本時,該公司將把大數(shù)據(jù)作業(yè)轉(zhuǎn)移到Y(jié)ARN上,并將更多的社區(qū)努力放到它的持續(xù)改進(jìn)上,同時還將為其構(gòu)建更多的應(yīng)用程序。
Facebook:Wormhole
遺憾的是Facebook的Wormhole迄今并未開源,但是其經(jīng)驗(yàn)是仍然值得借鑒的(而LinkedIn已經(jīng)開源了類似的技術(shù)Kafka以及Databus)。Wormhole應(yīng)歸屬于發(fā)布-訂閱系統(tǒng),在Facebook,Wormhole給Facebook主用戶數(shù)據(jù)庫發(fā)送新內(nèi)容進(jìn)行圖搜索,從而以最快的速度得到搜索結(jié)果,同樣Wormhole還可以給其Hadoop環(huán)境發(fā)送數(shù)據(jù),讓分析作業(yè)使用的數(shù)據(jù)保持最新。

就像Facebook之前的作品一樣(比如新交互式查詢引擎Presto),Wormhole具備著很好的擴(kuò)展性。通過Laurent Demailly的tweet了解到,其延時完全控制在毫秒級:
Wormhole每天處理超過1萬億的信息,每秒1000萬條以上。Wormhole被用以處理各組件的故障,具備以下幾個特性:集成了監(jiān)視系統(tǒng),執(zhí)行自動修復(fù),支持容量計劃,自動化配置及突變處理支持。
最后
雖然Storm-YARN 與Wormhole分別由不同的公司開發(fā),但是顯然他們將掀起Hadoop與Storm領(lǐng)域的一場颶風(fēng)。隨著網(wǎng)絡(luò)公司業(yè)務(wù)的延伸,應(yīng)用程序也擴(kuò)展到多應(yīng)用與服務(wù)混合類型,所以一場針對基礎(chǔ)設(shè)施的運(yùn)動也如火如荼的進(jìn)行著?;跀?shù)據(jù)層系統(tǒng)的不同需求,這些公司不得不放棄他們最初的架構(gòu),轉(zhuǎn)至建設(shè)類似Storm以及Wormhole去管理不同系統(tǒng)之間的數(shù)據(jù)流。