基于流的數(shù)據(jù)處理可以使Hadoop運(yùn)行更快嗎?
Apache Hadoop分布式文件處理系統(tǒng)是有好處的,而且它正在獲得注意力。然而,它也有壞處。有些組織發(fā)現(xiàn)從Hadoop開始的話需要重新思考軟件架構(gòu),而且它所需要的數(shù)據(jù)技能也是必要的。
對(duì)于一些人來說,Hadoop的批處理模型的一個(gè)問題是,它估計(jì)在突增數(shù)據(jù)采集之間的進(jìn)行批處理時(shí)會(huì)有宕機(jī)的時(shí)間。這是許多企業(yè)都的情況,當(dāng)他們?cè)诒镜夭僮?,或者在白天有大量事?wù),但很少在晚上(如果有的話)。如果夜間窗口足夠大可以處理前一天積累的數(shù)據(jù),那么一切都會(huì)順利。雖然對(duì)于一些企業(yè),窗口的停機(jī)時(shí)間是小或不存在的,甚至使用Hadoop的高性能的處理,他們?nèi)匀辉谝惶靸?nèi)得到的數(shù)據(jù)比他們可以在24內(nèi)小時(shí)處理的要多。
對(duì)于可接受小窗口的組織,添加基于數(shù)據(jù)處理組件的方法可能有幫助,GigaSpaces的***技術(shù)官Nati Shalom在最近的一篇關(guān)于使用Hadoop更快的博客中寫到。通過不斷地處理傳入的數(shù)據(jù)轉(zhuǎn)化成有用的包和刪除那些不需要企業(yè)處理(或再加工)的靜態(tài)數(shù)據(jù),可以顯著加速他們的大數(shù)據(jù)的批處理過程。