VMware王蔚東:Hadoop虛擬化大有可為
近日,IT168記者有幸采訪到了VMware高級(jí)經(jīng)理王蔚東先生,其2012年加入VMware公司,負(fù)責(zé)虛擬化和云計(jì)算領(lǐng)域中數(shù)據(jù)存儲(chǔ)、管理及利用的咨詢和解決方案。在數(shù)據(jù)倉庫、大數(shù)據(jù)及數(shù)據(jù)分析有多年的經(jīng)驗(yàn)。
▲VMware高級(jí)經(jīng)理王蔚東
Hadoop在國內(nèi)發(fā)展進(jìn)入快速增長(zhǎng)期
Hadoop是一項(xiàng)開源技術(shù),目前網(wǎng)絡(luò)上大概有上千個(gè)論壇、社區(qū),技術(shù)門檻也比較低。據(jù)王蔚東介紹,從2008年開始,很多國外的互聯(lián)網(wǎng)企業(yè)就開始采用Hadoop,目前,也有很多傳統(tǒng)企業(yè)開始部署Hadoop, 比如AT&T、沃爾瑪?shù)取?/p>
“目前在國內(nèi),我們知道像淘寶、京東等很多企業(yè)已經(jīng)開始使用Hadoop,而更多的企業(yè)也已經(jīng)開始嘗試使用。由于企業(yè)對(duì)數(shù)據(jù)的重視度不斷提高,市場(chǎng)競(jìng)爭(zhēng)的加劇,也由于Hadoop及相關(guān)大數(shù)據(jù)技術(shù)有了很大的完善,Hadoop服務(wù)提供商越來越多,國內(nèi)的電信、電銷、物流等行業(yè)的需求非常強(qiáng)烈,Hadoop在國內(nèi)的的應(yīng)用會(huì)進(jìn)入到一個(gè)快速增長(zhǎng)期。”
VMware助力Hadoop與虛擬化結(jié)合
傳統(tǒng)虛擬化給企業(yè)帶來好處已經(jīng)眾所周知,無論是叢IT系統(tǒng)構(gòu)建,還是從運(yùn)行維護(hù),乃至運(yùn)營(yíng)管理,我們都實(shí)實(shí)在在地感受到它的好處。“Hadoop被用來解決企業(yè)大數(shù)據(jù)的問題,我過去看到,大多數(shù)的應(yīng)用場(chǎng)景是單獨(dú)建立一個(gè)x86服務(wù)器的集群來跑map/reduce任務(wù),隨著數(shù)據(jù)量和數(shù)據(jù)查詢分析任務(wù)的增加,服務(wù)器的數(shù)量也要不斷增加。這時(shí),就帶來了一系列新的問題,首先這個(gè)Hadoop集群需要有IT人員來專門維護(hù)和管理,其次,我們知道日常Hadoop任務(wù)是會(huì)有波峰波谷的分布,往往是某一時(shí)段,任務(wù)會(huì)比較密集,機(jī)器的CPU、IO和存儲(chǔ)會(huì)非常繁忙,而其它時(shí)間,機(jī)器就比較空閑,存在資源浪費(fèi)的情況。”王蔚東表示。
由此,很多使用和嘗試Hadoop的企業(yè),就希望能夠把這樣一個(gè)越來越大的Hadoop集群放到自己的云平臺(tái)里,能夠統(tǒng)一管理和使用。除此之外,我們知道,Hadoop本身是一項(xiàng)開源的技術(shù),雖然入門容易,但是要大規(guī)模企業(yè)級(jí)應(yīng)用,還存在非常多的困難。比如安裝部署、Fix Bug、升級(jí)等等,即使目前有一些Hadoop的商用版,可以提供部分的現(xiàn)場(chǎng)服務(wù),但是也會(huì)導(dǎo)致使用者的整體擁有成本大大增加。
據(jù)王蔚東介紹,目前VMware就是要解決這個(gè)問題。據(jù)了解,從2012年初, VMware就與Apache Hadoop社區(qū)展開合作,開始推廣一個(gè)開源項(xiàng)目—Serengeti,通過把Apache Hadoop節(jié)點(diǎn)從底層物理基礎(chǔ)架構(gòu)剝離,VMware可以將云基礎(chǔ)架構(gòu)的優(yōu)勢(shì)帶給Hadoop,包括快速部署、高可用性、最佳資源利用率、靈活和安全多租戶。
“事實(shí)上,很多Hadoop發(fā)行版的廠家,都曾提出來Hadoop不適合在虛擬化平臺(tái)上運(yùn)行,理由是Hadoop的特點(diǎn)是在本地磁盤上運(yùn)行,而虛擬化都是在共享磁盤上;而且虛擬機(jī)增加了額外開銷,在虛擬機(jī)上運(yùn)行Hadoop性能會(huì)變慢。”但Serengeti推出后,徹底改變了這些看法。多數(shù)人知道Vsphere的工作模式是將數(shù)據(jù)存儲(chǔ)到共享磁盤,其實(shí)Vsphere也支持本地磁盤,這完全取決于用戶的應(yīng)用場(chǎng)景。
目前,Serengeti被大量下載和試用,并獲得了廣泛的認(rèn)可。 “VMware決定把它嵌入到Vsphere里,也就是說任何購買Vsphere5.5的用戶, 都可以免費(fèi)獲得一個(gè)組件,它可以用來部署和管理Hadoop.這個(gè)組件叫作 Vsphere Big Data Extension,簡(jiǎn)稱BDE。BDE作為商用軟件,在可靠性,性能方面,要遠(yuǎn)遠(yuǎn)高于Serengeti。同時(shí),它還支持多數(shù)市場(chǎng)上主流的Hadoop發(fā)行版, 如MP/R,Cloudera,Pivotal HD,Intel等等。”王蔚東介紹說。
事實(shí)上,盡管Hadoop被證明可以與虛擬化進(jìn)行結(jié)合,但人們不得不擔(dān)心性能問題。王蔚東表示,由于安裝了虛擬機(jī),會(huì)占用服務(wù)器的一部分內(nèi)存和CPU,會(huì)導(dǎo)致系統(tǒng)整理性能有所下降,把Hadoop裝到虛擬機(jī)上,肯定會(huì)帶來部分性能的下降,關(guān)鍵是下降幅度有多大。“比如,我們正在為國內(nèi)一家比較大的企業(yè)做POC,他們是VMware的老用戶,對(duì)虛擬化的了解程度很深,我們?cè)谙蛩麄兺扑]我們的解決方案時(shí),開門見山地提出對(duì)性能的擔(dān)憂,提出了十多項(xiàng)性能測(cè)試指標(biāo),包括Terasort、K-means性能等。與物理環(huán)境的Hadoop比,整體測(cè)試結(jié)果表明,性能損失基本保持在15%的范圍內(nèi),一些指標(biāo)如NoSQL并發(fā)、訪問、數(shù)據(jù)的吞吐能力、HIVE處理能力等,都與物理環(huán)境的Hadoop十分接近。”
致力于降低Hadoop使用門檻
據(jù)王蔚東介紹說,其工作大部分都與云計(jì)算相關(guān),BDE是其工作中比較重要的一部分。“我們的CEO Pat Gelsinger提出了三個(gè)戰(zhàn)略即軟件定義的數(shù)據(jù)中心、混合云和終端用戶計(jì)算,在這三個(gè)方面,都與大數(shù)據(jù)有直接的關(guān)系。比如軟件定義的數(shù)據(jù)中心,針對(duì)于不同的應(yīng)用場(chǎng)景,我的團(tuán)隊(duì)就要提供方案,快速部署和全面管理Hadoop集群。同時(shí)我們也在嘗試把Hadoop作為一項(xiàng)服務(wù),部署到PAAS層,以降低它的使用門檻,為企業(yè)中各類使用者提供靈活可控的大數(shù)據(jù)服務(wù)。”
Hadoop作為一項(xiàng)技術(shù),目前確實(shí)非常流行。王蔚東老師介紹說,國內(nèi)的開發(fā)者和試用的企業(yè)已經(jīng)有了很多了解,搞的比較好的發(fā)行版有MP/R, Cloudera;Horntworks;常去他們的網(wǎng)站會(huì)得到比較新的知識(shí),另外大家也都別忘了Apache Hadoop社區(qū),上面有最新的進(jìn)展。目前,國內(nèi)的開發(fā)者和企業(yè), 早已不滿足Hadoop的知識(shí)學(xué)習(xí)和研究,更關(guān)注Hadoop的具體應(yīng)用。
“我們的團(tuán)隊(duì),也在最近推出了自己的博客(http://vbigdata.blog.51cto.com/),里面有我們提出Hadoop虛擬化的概念,技術(shù)架構(gòu)和細(xì)節(jié),圍繞著Hadoop虛擬化會(huì)出現(xiàn)的各種問題,也會(huì)有Hadoop虛擬化的應(yīng)用實(shí)踐。這里,我歡迎大家到我們的博客上進(jìn)行交流,在大數(shù)據(jù)領(lǐng)域和我們共同成長(zhǎng)。”
關(guān)于Hadoop中國技術(shù)峰會(huì),王蔚東老師表示幾乎每屆都會(huì)參加,“前幾年主要是Hadoop技術(shù)的介紹和推廣,更偏重純技術(shù),但是這個(gè)峰會(huì)對(duì)國內(nèi)普及Hadoop為主的大數(shù)據(jù)相關(guān)技術(shù)產(chǎn)生了巨大的推動(dòng)作用。近一、兩年,會(huì)議的重心產(chǎn)生了些變化,即由純技術(shù)+學(xué)術(shù)轉(zhuǎn)變到技術(shù)+應(yīng)用,我認(rèn)為這是一個(gè)可喜的變化,證明Hadoop終于開始在國內(nèi)廣泛應(yīng)用了,同時(shí)也催生了一些新的角色,如Data Scientist,Data Governor。”
這些變化,也直接證明了國內(nèi),大家真正開始重視數(shù)據(jù),逐漸把數(shù)據(jù)作為一種潛在的資源進(jìn)行保護(hù)和利用。Hadoop是一項(xiàng)開源技術(shù),隨著這項(xiàng)技術(shù)逐漸成熟,勢(shì)必會(huì)有更廣泛的應(yīng)用,但是應(yīng)用的深度和廣度,需要眾多的解決方案提供商,Hadoop專家,數(shù)據(jù)管理專家,成熟的企業(yè)應(yīng)用需求,類似一套完整的生態(tài)系統(tǒng)保證,同時(shí),我們也希望這次峰會(huì)能提供契機(jī), 幫助國內(nèi)Hadoop領(lǐng)域開始建立這樣的一套生態(tài)系統(tǒng)。
據(jù)悉,在本次大會(huì)上,王蔚東老師將會(huì)為大家介紹VMware在虛擬Hadoop技術(shù)方面的最新進(jìn)展,如對(duì)YARN 的支持,如何做到對(duì)Hadoop集群的靈活控制。在應(yīng)用方面,會(huì)介紹如何解決傳統(tǒng)物理Hadoop集群數(shù)據(jù)安全性的問題。“同時(shí)我也非常樂意把我們?cè)趪鴥?nèi)外的一些最新的成功案例介紹給大家,還包括我們從著手開始一個(gè)項(xiàng)目到方案落地的一整套實(shí)施模式。另外, 也會(huì)和大家一起探討未來Hadoop的發(fā)展方向,聽聽大家對(duì)Hadoop在虛擬平臺(tái)上的看法;把Hadoop技術(shù)引入BI系統(tǒng),是否可以取代現(xiàn)在的一體機(jī)等等。”