Hadoop的過去、現(xiàn)在和未來
Hadoop是目前大數(shù)據(jù)分析領(lǐng)域中應(yīng)用最廣泛的一種分布式架構(gòu),而經(jīng)過相當(dāng)長時(shí)間的發(fā)展,Hadoop在功能上也越來越成熟。不過,在這個(gè)星球上,你找不到擁有11年Hadoop經(jīng)驗(yàn)的人。因?yàn)槟壳霸贖adoop領(lǐng)域經(jīng)驗(yàn)最豐富的人是Doug Cutting,他在Hadoop方面擁有的經(jīng)驗(yàn)是10年零7個(gè)月。而這位Doug Cutting正是Hadoop之父,Cloudera公司首席架構(gòu)師。
作為處理海量數(shù)據(jù)最常用的方法,Hadoop的核心是Map和Reduce,也就是將一個(gè)龐大的任務(wù)進(jìn)行分解,然后再將結(jié)果進(jìn)行匯總。但經(jīng)過10年發(fā)展,Hadoop的功能早已不是MapReduce這么簡單。今天的Hadoop是分布式計(jì)算所涉及的計(jì)算、存儲(chǔ)、文件系統(tǒng)、網(wǎng)絡(luò)、安全、負(fù)載均衡、管理等一系列軟件方法的合集。也正是由于其完整性和成熟度,今天的Hadoop雖然面臨Spark等新興技術(shù)的競爭,卻仍是分布式計(jì)算領(lǐng)域不可或缺的基礎(chǔ)和前提。
作為一個(gè)開源項(xiàng)目,Hadoop目前仍在告訴發(fā)展、快速更新;作為開源軟件服務(wù)的成功踐行者,Cloudera的Hadoop發(fā)行版本正在成為越來越多企業(yè)在部署分布式計(jì)算系統(tǒng)時(shí)的首選。
開源與商業(yè),過去和未來;身為Hadoop之父、Cloudera公司首席架構(gòu)師、Apache基金會(huì)前主席,Doug Cutting確實(shí)有話要說。
Hadoop成功的基礎(chǔ)
Hadoop無疑是Apache基金會(huì)中最引人注目和最龐大的頂級(jí)項(xiàng)目之一。由于Hadoop定義了分布式計(jì)算的方方面面,因此日常的代碼提交量也非常巨大。而在海量的代碼見決定Hadoop未來走向的則是一個(gè)接近百人的評(píng)審委員會(huì)。
Doug Cutting表示:評(píng)審委員會(huì)的成員來自各個(gè)領(lǐng)域,他們有IT企業(yè)中的技術(shù)達(dá)人、有相關(guān)學(xué)科的大學(xué)教授、有應(yīng)用專家、更有單純的技術(shù)愛好者。而在這個(gè)龐大的評(píng)審委員會(huì)中,所有成員均擁有“一票否決權(quán)”。雖然委員們各自有不同的背景甚至公司利益,但在委員會(huì)中,所有人的投票都是相當(dāng)慎重的。投票所考慮的核心因素只有一個(gè),那就是Hadoop未來的發(fā)展。而任何否決票的出現(xiàn)也必須給出技術(shù)上的合理解釋。
可以說,Hadoop與Apache基金會(huì)的其他項(xiàng)目一樣,是一個(gè)“人人為我、我為人人”的開放環(huán)境。
由于有越來越多Cloudera這樣的開源企業(yè)源源不斷的將自己的創(chuàng)新和Debug回饋給整個(gè)社區(qū)以及優(yōu)秀的委員會(huì)機(jī)制,Hadoop在今天仍保持著相當(dāng)旺盛的生命力。
總結(jié)Hadoop過去的成功無非兩點(diǎn):一是從技術(shù)上開創(chuàng)了分布式計(jì)算時(shí)代,二是Apache基金會(huì)和Hadoop項(xiàng)目開放、合作、共享的管理理念。
Hadoop如何保持成功
任何一項(xiàng)技術(shù)都有其自身的發(fā)展路徑。而作為一項(xiàng)非常有潛力的技術(shù),Hadoop的未來發(fā)展的根基仍然要依靠廣泛的應(yīng)用基礎(chǔ)。
Cloudera是目前眾多Hadoop發(fā)行版中最流行的一個(gè),而Cloudera回饋社區(qū)的方式也并不只是簡單的貢獻(xiàn)代碼。
日前,Cloudera與清華大學(xué)聯(lián)合發(fā)布BASE (Big Analytics Skill Enablement)倡議,旨在幫助清華大學(xué)數(shù)據(jù)科學(xué)研究院培養(yǎng)更多大數(shù)據(jù)分析專業(yè)人才,以填補(bǔ)國內(nèi)大數(shù)據(jù)領(lǐng)域人才匱乏的現(xiàn)狀。
換句話說,Cloudera將幫助清華大學(xué)數(shù)據(jù)科學(xué)研究院培養(yǎng)更多Hadoop使用者和開發(fā)者。這樣做一方面能夠緩解國內(nèi)大數(shù)據(jù)人才緊缺的現(xiàn)狀,讓大數(shù)據(jù)技術(shù)能夠進(jìn)入更多企業(yè)和行業(yè);另一方面也為Hadoop項(xiàng)目在未來能夠持續(xù)發(fā)展創(chuàng)造條件,畢竟對(duì)于一向技術(shù)來說,有人用才有未來。
雖然清華大學(xué)是國內(nèi)首家與Cloudera合作的高效,但從全球來看,Cloudera與教育界的合作已經(jīng)開展多年。Doug Cutting表示:Cloudera已經(jīng)與美國、歐洲、新加坡以及亞洲其他國家的高校和研究機(jī)構(gòu)開展了廣泛的合作,為他們提供全套免費(fèi)課程,幫助大學(xué)生和研究人員能夠更好的使用大數(shù)據(jù)技術(shù)。
顯然,Cloudera所執(zhí)行的是一項(xiàng)相當(dāng)長遠(yuǎn)的計(jì)劃,這也說明Cloudera對(duì)Hadoop技術(shù)未來發(fā)展的信心。
面對(duì)競爭,Hadoop的未來是怎樣的?
與商業(yè)領(lǐng)域一樣,技術(shù)同樣面臨競爭。在很多人看來,Hadoop目前最大的競爭對(duì)手正是非?;鸨腟park。
對(duì)此,Doug Cutting表示:Spark的確在MapReduce方面相比Hadoop擁有更大的性能優(yōu)勢(shì)。但Hadoop本身還包括分布式文件系統(tǒng)和任務(wù)調(diào)度、規(guī)劃等眾多功能;而這些則是Spark所沒有的。
作為開源技術(shù),Hadoop和Spark都是模塊化開發(fā)的。這也就意味著他們是可以相互融合,一起使用的。
在未來,我們很可能看到Spark取代了Hadoop中的MapReduce模塊,但分布式計(jì)算系統(tǒng)中的存儲(chǔ)和調(diào)度等功能仍需要Hadoop來實(shí)現(xiàn)。
換句話說,Hadoop與Spark之爭實(shí)際是個(gè)偽命題,同樣是大數(shù)據(jù)分析技術(shù),他們的未來應(yīng)該是融合和協(xié)作。
大數(shù)據(jù)的故事才剛剛開始
從行業(yè)整體的發(fā)展來看,人類只是剛剛意識(shí)到了大數(shù)據(jù)的重要性,而大數(shù)據(jù)技術(shù)本身的發(fā)展和完善仍需要相當(dāng)長的時(shí)間。而對(duì)于像Cloudera這樣在大數(shù)據(jù)領(lǐng)域取得先發(fā)優(yōu)勢(shì)的企業(yè)來說,無論是大數(shù)據(jù)還是開源技術(shù),故事才知是剛剛開始。未來仍舊不可估量。