阿帕奇軟件基金會公布Hadoop 2最新版本
阿帕奇軟件基金會(Apache Software Foundation)在周三公布了其最新版本的開源數(shù)據(jù)處理程序Hadoop 2。新版本可同時運行多個程序,以便用戶能夠以超級計算速度迅捷高效地用多種方式處理數(shù)據(jù)。
阿帕奇Hadoop為一種架構(gòu),允許在計算機集群間使用簡單的編程模型分布式處理大型數(shù)據(jù)集。這一架構(gòu)使得企業(yè)能夠以更為高效、更為合理的費效比存儲、處理、管理和分析每天新生成的和所收集到的數(shù)據(jù)。
目前Hadoop已經(jīng)部署至全球眾多公司當(dāng)中,其中包括亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)、AOL、蘋果、易趣、Facebook、Netflix和惠普等知名公司。
在周三推出的該平臺最新版本增加了大量的新組件,歷時四年多打造。其中最值得關(guān)注的是,新增了YARN。YARN(Yet Another Resource Negotiator,另一種資源協(xié)調(diào)者)為Hadoop中的MapReduce的后繼產(chǎn)品。新版本將主要功能分成兩個獨立的守護進程中,其中一個負(fù)責(zé)資源管理,另一個負(fù)責(zé)任務(wù)安排和監(jiān)控。
阿帕奇軟件基金會在發(fā)布會上稱,YARN位于HDFS(Hadoop分布式文件系統(tǒng))的頂層,作為針對大數(shù)據(jù)應(yīng)用的大型分布式操作系統(tǒng),以便能夠同時運行多個應(yīng)用,使其在整個生命周期中更為高效地為數(shù)據(jù)提供支持。Hadoop 2和YARN使用戶能夠在穩(wěn)定的Hadoop生態(tài)系統(tǒng)基礎(chǔ)部分中混合批處理、交互和實時工作負(fù)載。
該基金會還表示,YARN為MapReduce的第二版(Version 2),其API保持了與上一版本的兼容。針對MapReduce 編寫的應(yīng)用也可在YARN上運行,無需重新編譯。
阿帕奇軟件基金會稱,目前有超過12個阿帕奇項目整合了Hadoop,未來還將有十多個項目將整合Hadoop。
Hadoop 2通用版(GA)與阿帕奇軟件基金會在6月份推出的預(yù)發(fā)行版一致,其中也包括了YARN。阿帕奇Hadoop 2將會根據(jù)阿帕奇許可證v2.0版推出