Netflix開源數(shù)據(jù)流管理器Suro
Netflix近日開源了一個叫做Suro的工具,公司可以利用它來做數(shù)據(jù)源主機(jī)到目標(biāo)主機(jī)的實時定向。它不只在Netflix的數(shù)據(jù)管道上扮演重要角色,大規(guī)模下的應(yīng)用場景同樣令人印象深刻。
Netflix各種應(yīng)用程序每天生成數(shù)百億的事件,Suro可以在數(shù)據(jù)被發(fā)送之前收集到它們,然后部分經(jīng)過Amazon S3給Hadoop批處理,另一部分經(jīng)過Apache Kafka給Druid 和 ElasticSearch做實時分析。從Netflix博客了解到,公司也在考慮如何讓Suro支持Storm或Samza這樣的實時處理引擎去執(zhí)行事件數(shù)據(jù)的機(jī)器學(xué)習(xí)。

熟悉大數(shù)據(jù)領(lǐng)域的人們都知道,很多技術(shù)都與公司掛鉤,例如Netflix 創(chuàng)建了Suro, LinkedIn 創(chuàng)建了Kafka 和 Samza , Twitter創(chuàng)建了Storm,Metamarkets 創(chuàng)建了Druid 。Suro博客也承認(rèn)它是基于Apache Chukwa項目,類似 Apache的Flume , Facebook的Scribe 。誠然,這些項目中最顯著的無疑是Hadoop。
公司為什么要建立自己的技術(shù)一直是爭議的熱點,因為他們的需求,一般都會被創(chuàng)建,就像在生活中的很多東西,不過,這個問題的答案還得具體問題具體分析。例如Storm,正在成為一個非常受歡迎的流處理工具,但LinkedIn覺得它需要不同的東西,因此創(chuàng)建Samza。取代使用一些已有的技術(shù),Netflix創(chuàng)建了Suro,主要因為該公司雖然是一個重度的云服務(wù)用戶(主要基于AWS),但也有一些非AWS業(yè)務(wù),包括Apache Cassandra數(shù)據(jù)庫。

這場技術(shù)創(chuàng)新最終贏家必然歸結(jié)于采用這些主流技術(shù)的用戶,無需在公司內(nèi)部招聘專業(yè)人士,就可讓公司從這些開源技術(shù)中獲益。例如,我們已經(jīng)看到Hadoop供應(yīng)商試圖讓Storm和Spark框架用于其企業(yè)客戶。同時,我們也相信Hadoop絕對不是最后一個這樣的技術(shù)。AWS有非常多的用戶,畢竟他們希望Suro這樣技術(shù)提供的能力,而不是被AWS推出的服務(wù)綁定。