大數據統(tǒng)一的批處理和流處理標準 Apache Beam
Apache Beam 是 Apache 軟件基金會越來越多的數據流項目中***增添的成員,是 Google 在2016年2月份貢獻給 Apache 基金會的孵化項目。
這個項目的名稱表明了設計:結合了批處理(Batch)模式和數據流(Stream)處理模式。它基于一種統(tǒng)一模式,用于定義和執(zhí)行數據并行處理管道(pipeline),這些管理隨帶一套針對特定語言的SDK用于構建管道,以及針對特定運行時環(huán)境的Runner用于執(zhí)行管道。
Apache Beam 的主要目標是統(tǒng)一批處理和流處理的編程范式,為***,亂序,web-scale的數據集處理提供簡單靈活,功能豐富以及表達能力十分強大的SDK。Apache Beam項目重點在于數據處理的編程范式和接口定義,并不涉及具體執(zhí)行引擎的實現(xiàn),Apache Beam希望基于Beam開發(fā)的數據處理程序可以執(zhí)行在任意的分布式計算引擎上。