微軟和OpenStack成亞馬遜Hadoop即服務(wù)新對手
作者:佚名
HDInsight通過使用微軟和Apache工具讓W(xué)indows Azure用戶可以訪問Hadoop。OpenStack的Savanna項(xiàng)目為開源提供商提供了一個選擇,但是作為一個不斷發(fā)展的項(xiàng)目,用戶還無法期望得到一個完整的交鑰匙解決方案。
Hadoop是數(shù)據(jù)分析中越來越流行的一種工具,但是管理一個Hadoop集群的系統(tǒng)管理費(fèi)用卻令人怯步。為了幫助期望使用Hadoop的企業(yè)免去這部分費(fèi)用,亞馬遜率先實(shí)現(xiàn)了Hadoop即服務(wù)部署,稱之為Elastic MapReduce (EMR)。Elastic MapReduce對于亞馬遜Web服務(wù)的客戶是一種很好的選擇,但是對于Windows Azure和OpenStack的用戶也有了類似的選擇,當(dāng)然也有自身的優(yōu)點(diǎn)和缺點(diǎn)。
HDInsight通過使用微軟和Apache工具讓W(xué)indows Azure用戶可以訪問Hadoop。
OpenStack的Savanna項(xiàng)目為開源提供商提供了一個選擇,但是作為一個不斷發(fā)展的項(xiàng)目,用戶還無法期望得到一個完整的交鑰匙解決方案。
Windows Azure HDInsight
微軟同Hadoop企業(yè)開商Hortonworks公司合作,提供了針對Windows Azure用戶的Hortonworks Data Platform (HDP)訪問。HDP可以讓用戶在Windows和Linux服務(wù)器上部署Hadoop集群。雖然對于系統(tǒng)管理員來說,底層操作系統(tǒng)的一個選擇很重要,但是對于開發(fā)者而言,可能對于包含HDP的工具更讓人感興趣。
微軟能夠整合自身的產(chǎn)品,Windows Azure的Apache Hadoop實(shí)現(xiàn),即HDInsight,這一點(diǎn)上我們毫不意外。系統(tǒng)管理員可以利用PowerShell和.NET管理Hadoop工作。HDInsight也能夠讓用戶用Excel使用微軟BI工具,比如PowerPivot、Power View和Power Query。
除了微軟工具和應(yīng)用,HDInsight包括大量Apache項(xiàng)目工具,從而促進(jìn)數(shù)據(jù)管理和分析。Pig是一種高級數(shù)據(jù)分析語言,可用于替代編寫MapReduce代碼,而且對于用Java編碼的分析師格外有價值。Hive是另一個Apache項(xiàng)目,這是一個管理大型數(shù)據(jù)集的數(shù)據(jù)倉庫系統(tǒng),通過類SQL語言HiveQL進(jìn)行查詢。這些都可以同Hadoop和關(guān)系型數(shù)據(jù)庫合作,Apache Sqoop對于Hadoop和關(guān)系型數(shù)據(jù)庫之間的批量數(shù)據(jù)傳輸很有效。
Hadoop即服務(wù)同微軟和Apache工具的混合的結(jié)合可以讓Hadoop集成到現(xiàn)有的數(shù)據(jù)管理基礎(chǔ)架構(gòu)時變得更加順暢。
Hadoop用戶在使用HDFS或者Windows Azure Blob存儲上可以進(jìn)行選擇。這一點(diǎn)類似于亞馬遜EMR中使用HDFS或者亞馬遜簡單對象存儲服務(wù)(S3)。HDFS是一種針對Hadoop的內(nèi)置存儲格式,但是由于HDInsight集群并非持久的,來自HDFS的數(shù)據(jù)必須復(fù)制到Blob存儲或者其他持久的存儲,從而為其他Hadoop工作進(jìn)行保持。
HDInsight價格基于集群中所使用的服務(wù)器數(shù)量和付款方式類型。所有的HDInsight集群都包括頭節(jié)點(diǎn)、安全網(wǎng)關(guān)節(jié)點(diǎn)和一個或者多個計算節(jié)點(diǎn)。在按需付費(fèi)計劃下,頭節(jié)點(diǎn)為每小時0.64美元,計算節(jié)點(diǎn)為每小時每一個大型實(shí)例(S3)0.32美元。兩個計劃中安全網(wǎng)關(guān)節(jié)點(diǎn)都不收費(fèi)。在半年和按年的計劃中,頭節(jié)點(diǎn)的費(fèi)用范圍為:每小時0.44美元到0.51美元,計算節(jié)點(diǎn)的范圍為:每小時0.22美元到0.26美元。精確的價格由其他因素決定,比如承諾的時間以及客戶是否預(yù)先支付或者按月支付。
OpenStack Savanna項(xiàng)目
OpenStack是一個開源云計算系統(tǒng),用于私有云和公有基礎(chǔ)架構(gòu)即服務(wù)實(shí)現(xiàn),比如Rackspace。就像其他的Hadoop即服務(wù)產(chǎn)品一樣,Savanna項(xiàng)目的目標(biāo)就是自動化在云端部署Hadoop集群。Savanna是一個模塊化組件,旨在能在OpenStack環(huán)境內(nèi)工作,同時整合了關(guān)鍵OpenStack組件,包括針對管理的Horizon、用于用戶認(rèn)證的Keystone、虛擬機(jī)分配的Nova、鏡像存儲的Glance和數(shù)據(jù)存儲的Swift。Savanna也支持整合其他廠商的工具,比如Cloudera Manager Admin Console。
盡管亞馬遜EMR和Windows AzureHDInsight用戶可以相當(dāng)輕松的開始Hadoop集群,但是Savanna用戶期望同系統(tǒng)管理員的工作要類似于Hadoop配置,這就可能減少了一些優(yōu)勢。Savanna使用模板來指定服務(wù)器配置、文件系統(tǒng)參數(shù)和Hadoop分布式具體參數(shù)。
Savanna還處于活躍開發(fā)階段;0.3版本最近發(fā)布了。目前可用的功能包括基礎(chǔ)的集群分配、集群配置模板,管理應(yīng)用程序接口和用Pig和Hive進(jìn)行特殊查詢。2014年第二季度支持Hadoop第二版。
責(zé)任編輯:鳶瑋
來源:
TechTarget中國編譯