微軟開源大數(shù)據(jù)框架REEF
在本周一的國際知識挖掘與數(shù)據(jù)發(fā)現(xiàn)大會上,微軟信息服務(wù)首席技術(shù)官Raghu Ramakrishnan透露微軟計劃近期內(nèi)開放其大數(shù)據(jù)框架REEF(Retainable Evaluator Execution Framework)。REEF被設(shè)計運行于下一代Hadoop資源管理器YARN之上,非常適合運行機器學(xué)習(xí)任務(wù)。
資源管理器YARN是Apache hadoop項目的一部分,可以讓用戶在同一物理集群上運行和管理多種任務(wù)(例如批處理MapReduce、用Storm進行流處理或圖形處理包)。 YARN不但能幫企業(yè)整合多個需要管理的系統(tǒng),還能在同一數(shù)據(jù)和地點運行多種分析任務(wù)。有些情況下,整個工作流都能在單一集群上完成。
但Ramakrishnan指出,有些類型的任務(wù),例如機器學(xué)習(xí),對數(shù)據(jù)移動、任務(wù)監(jiān)控有特殊要求,而且經(jīng)常需要能夠在之前的結(jié)果中回滾,并不適合YARN這樣的框架。而運行在YARN紙上的REEF能夠解決這些問題。
根據(jù)Ramakrishnan的演講稿,REEF分為兩個主要部分(上圖):
一個是求值器Evaluators,是用來承載REEF服務(wù)的容器,另一個是活動代碼Activities,是在求值器內(nèi)部運行的用戶代碼。
總的來說,REEF是一個很有意義的技術(shù),解決了一些公司長期遺留的難題。值得注意的是,REEF的開源標(biāo)志著微軟對Hadoop(主要通過YARN)及開源社區(qū)的戰(zhàn)略投入,微軟正融入Hadoop開源社區(qū),并試圖通過回報社區(qū)讓自己在開發(fā)者眼中變得“性感”起來。
總體來看,微軟大數(shù)據(jù)戰(zhàn)略的核心 是在Azure上提供Hadoop、機器學(xué)習(xí)、高性能計算和數(shù)據(jù)分析服務(wù)。因此,微軟在大數(shù)據(jù)技術(shù)方面的動作也絕不僅限于與Hortonworks在 Hadoop平臺上的合作,正如微軟技術(shù)研究員Dave Campbell所言:“Hadoop只是微軟信息生產(chǎn)線邁出的第一步。”而REEF的開源,正是微軟打造機器學(xué)習(xí)業(yè)務(wù)生態(tài)環(huán)境的第一步。