“夫妻檔”初創(chuàng)公司百萬美元打造實時Hadoop系統(tǒng)
總部位于舊金山的初創(chuàng)公司 HStreaming,近期接受了它的第一筆創(chuàng)業(yè)投資——來自阿特拉斯風險投資公司的100萬美元,這筆資金將用于打造一個實時的Hadoop系統(tǒng)。這家僅僅有三個人的公司卻已經(jīng)運營了兩年左右。
如果問及任何Hadoop的有關(guān)人士, Hadoop如何超越目前的批量處理平臺,那么“實時”無疑是其中最主要的一個答案。事實上,這也是下個月“ Structure: Data”的一個討論主題,企業(yè)希望Hadoop成為一個 可操作的數(shù)據(jù)庫以及具有 各種類型的OLAP引擎。
目前,HStreaming公司嘗試為他們的Hadoop環(huán)境添加一個實時的組件,當數(shù)據(jù)提交到系統(tǒng),在存儲到磁盤之前就會進行數(shù)據(jù)的處理,就像開源的技術(shù) Storm和 Kafka。當然這不是一項簡單的工作,Uhlig認為現(xiàn)在的開源版本只是處在初級階段(就像Storm,能夠完美的對觸及到的數(shù)據(jù)塊進行分類),但是在分析能力上還有不足。
另一個方面,HStreaming,已經(jīng)建立了一個完整的系統(tǒng),該系統(tǒng)能夠利用實時的引擎來處理視頻、服務器、傳感器以及其他機器上生成的數(shù)據(jù)流。而且它也完全兼容Hadoop作為一個歸檔和批量處理系統(tǒng)。Uhlig也表示,它同時添加了很多現(xiàn)有的BI工具用于數(shù)據(jù)的分析。

更奇妙的是,對于Hadoop的用戶來說,不需要進行任何的改變。HStreaming能夠通過利用相同的MapReduce算法和用戶已經(jīng)編寫好的Pig 腳本進行流處理。在實際的操作過程中,Uhlig表示,用戶幾天之內(nèi)就可以從一個僅僅只能進行批處理的系統(tǒng)轉(zhuǎn)移到該實時系統(tǒng)。
她表示,截至目前為止,公司目前的收益主要來源于政府(尤其是視頻分析,HStreaming可以實時處理數(shù)以千計的攝像頭圖像),電信運營商以及廣告。公司計劃未來把目標放在公共基礎(chǔ)設(shè)備和金融服務領(lǐng)域。
HStreaming看起來絕對具備這些技術(shù)實力。Uhlig是公司的CEO,而公司的CTO是Volkmar Uhlig(她老公),首席軟件架構(gòu)師是Jan Stoess,他們兩人都擁有計算機科學博士學位。Volkmar還是L4微內(nèi)核的首席架構(gòu)師,他已經(jīng)建立了一個高頻的交易系統(tǒng),曾經(jīng)在IBM的TJ Watson研究中心工作了五年,期間正是研究流處理技術(shù)。