VMware為Serengeti虛擬化方案加入Hadoop支持
毫無疑問,VMware公司希望所有企業(yè)用戶都以虛擬化而非裸機方式運行一切。而且在過去幾年中,該公司也一直在推動Hadoop堆棧的虛擬化概念,旨在使整套堆棧運行更順暢、管理更簡便。為了達成這一目標,VMware推出了Serengeti項目,目前此項目已經(jīng)獲得一部分功能性調(diào)整,欲吸引更多大數(shù)據(jù)集群制造商加以嘗試。
在本周二公布的Serengeti 0.8.0中,這款專為Hadoop虛擬化打造的開源工具已經(jīng)能夠支持數(shù)個Hadoop發(fā)行版,外加多項能夠簡化Hadoop之上HBase數(shù)據(jù)倉儲設(shè)置流程的功能。
此次Seregenti版本更新發(fā)布在Richard McDougall的一篇博文中,他是虛擬化巨頭VMware公司CTO辦公室的***工程師。“大多數(shù)大數(shù)據(jù)環(huán)境中包含著混合工作負載,”McDougall解釋道。“Serengeti的任務(wù)是讓盡可能多的大數(shù)據(jù)類工作負載在同一套通用共享型平臺上進行運作。”
通過對集群的虛擬化,大家得以在共享硬件中運行各種大數(shù)據(jù)處理工具的多項功能,根據(jù)需要與運行著每種工作負載的虛擬機進行撥號連接,并以可逆方式使其與其它工作負載協(xié)同運作。
這一切的核心在于彈性縮放,用戶需要為此交納虛擬化性能稅。由于很多工作負載都要求在服務(wù)器中塞入大量運算核心,因此這筆開銷還是可以接受的。
VMware希望在其ESXi服務(wù)器虛擬化之上部署大數(shù)據(jù)工具層
大多數(shù)企業(yè)可能還沒有想過通過這種方式處理自己的Hadoop集群,也很可能對這種機制的具體功能及表現(xiàn)抱懷疑態(tài)度。更令他們擔心的是,批量作業(yè)、查詢及其它依賴于此類結(jié)果的應(yīng)用程序在周轉(zhuǎn)時間方面是否可能受到影響。他們顯然不希望由于虛擬化的介入而在性能方面做出犧牲。
但VMware公司則始終抱持著一往無前的態(tài)度,堅信虛擬化將成為足以應(yīng)所有大數(shù)據(jù)任務(wù)的服務(wù)器集群混合模式。有鑒于此,Pivotal公司已經(jīng)有計劃將Serengeti與Cloud Foundry平臺云、EMC的Greenplum數(shù)據(jù)倉儲以及Hadoop發(fā)行版加以整合,在今年晚些時候為用戶帶來全能型Pivotal產(chǎn)品。
隨著Serengeti 0.8.0版本的發(fā)布,Cloudera的CDH4與MapR Technologies的M5 Hadoop發(fā)行版如今也已經(jīng)獲得在虛擬機容器中運行的必要支持。開源Apache 1.0發(fā)行版此前已經(jīng)獲得支持,同樣可運行于虛擬機中的還有EMC的Greenplum HD 1.2、Cloudera CDH 3以及Hortonworks Data Platform 1.0。
在CHD4發(fā)行版的輔助下,Serengeti已經(jīng)能夠識別出我們所使用的HDFS1或HDFS2文件系統(tǒng),同時也能識別到Cloudera內(nèi)置在其Hadoop發(fā)行版中的聯(lián)合NameNode支持,甚至能夠?qū)x項進行配置。
而在MapR發(fā)行版的輔助下,Serengeti則獲得了對NFS類文件系統(tǒng)中容器位置數(shù)據(jù)庫(簡稱CLDB)的識別能力,這是因為MapR將NFS作為HDFS的替代方案。其它新增識別對象包括FileServer、JobTracker以及MapR堆棧中的TaskTracker元素。Serengeti甚至能夠?qū)⒁陨蠈ο蟠虬胩摂M機當中并通過復(fù)制副本進行性能擴展。
如果大家正打算設(shè)置一套HBase數(shù)據(jù)倉儲系統(tǒng),那么請注意Serengeti 0.8.0發(fā)行版中的備注:這款VMware工具能夠創(chuàng)建采用底層HDFS文件系統(tǒng)的HBase集群,并將其與MapReduce數(shù)據(jù)處理機制對接,同時利用Thrift與RESTful API對HBase加以管理。
Serengeti還懂得如何為數(shù)據(jù)倉儲系統(tǒng)配置主動及使用頻率較高的HMaster節(jié)點副本,并能夠在數(shù)據(jù)倉儲在HDFS基礎(chǔ)上設(shè)置完畢后實現(xiàn)HBase RegionalServers擴展。HBase能夠在Serengeti的幫助下部署在以Apache Hadoop、Cloudera、Hortonworks或Greenplum發(fā)行版為基礎(chǔ)的虛擬化方案之中。(但出于某種原因, MapR發(fā)行版并未包含在內(nèi))
大家現(xiàn)在已經(jīng)可以在VMware官方網(wǎng)站中下載采用Serengeti 0.8.0的虛擬機方案,而且是免費使用。