Hadoop是一個值得信賴的推動引擎
2011年,對Hadoop來說注定是載入史冊的一年:Yahoo!與風險投資公司BenchmarkCapital聯(lián)合建立獨立公司Hortonworks,接手Yahoo!開源軟件平臺ApacheHadoop;Hadoop海量數(shù)據(jù)分析平臺Datameer、Karmasphere和Hadapt分別獲得千萬美元級別投資;一向?qū)﹂_源趨勢不屑一顧的微軟轉(zhuǎn)投Hadoop懷抱;Hadoop之父DougCutting***次蒞臨中國,布道Hadoop0.23……
可以說,Hadoop生態(tài)系統(tǒng)呈現(xiàn)出一派欣欣向榮的景象。近日,記者專門采訪了Hadoop in China的兩位發(fā)起人——Yahoo!北京全球研發(fā)中心高級經(jīng)理韓軼平和中科院計算所副研究員查禮,請他們?yōu)榇蠹以忈孒adoop的現(xiàn)狀。
Hadoop商機無限
2011年關(guān)于Hadoop的眾多投資以及微軟等公司轉(zhuǎn)向Hadoop的事件,昭示了業(yè)內(nèi)感受到了Hadoop中蘊藏的商機。
韓軼平認為:“互聯(lián)網(wǎng)行業(yè)由于擁有深厚的技術(shù)實力,所以Hadoop得以率先在互聯(lián)網(wǎng)行業(yè)得到了蓬勃發(fā)展。但這不意味著其他行業(yè)便沒有商機。因為不是所有企業(yè)都有能力使用Hadoop,但需求又實實在在地擺在那兒,需要很多的技術(shù)支持、定制化產(chǎn)品,這便會最終催生出一個產(chǎn)業(yè),來做這些方面的服務。”
查禮則解釋了傳統(tǒng)IT公司對Hadoop的態(tài)度:“微軟、IBM這些公司擁抱Hadoop,并不是說它們在向Hadoop傾斜,而是將Hadoop作為一個標準來支持,將Hadoop加入到自己的產(chǎn)品體系或者業(yè)務架構(gòu)中,并進而鞏固其在這個市場上的地位。”
通過支持Hadoop,老牌IT廠商用最小的代價加入大數(shù)據(jù)處理這個新興市場,不失為明智之舉。
Haoop技術(shù)熱點
NoSQL
從2010年NoSQL的好處被認識到之后,好像一夜之間在IT業(yè)內(nèi)便已街知巷聞。目前,NoSQL已經(jīng)不再停留在學習概念和坐而論道的階段,而是得到了廣泛應用,HBase、MongoDB、Redis等深入人心。應該說Facebook在這中間起到了領(lǐng)頭羊的作用,率先采用了一些開源NoSQL系統(tǒng)來支持其大數(shù)據(jù)應用,而國內(nèi)互聯(lián)網(wǎng)企業(yè)也看到了這個趨勢,并積極跟進,不斷進行深入的交流和實踐。
實時處理
據(jù)韓軼平介紹,現(xiàn)在包括Facebook和Yahoo!在內(nèi)的越來越多的公司都在向“實時處理”這個方向發(fā)展,而且會有更多的公司來關(guān)注怎樣真正地讓數(shù)據(jù)處理和分析能夠越來越實時,因為處理接近實時之后,會對業(yè)務產(chǎn)生深遠的影響。例如對在線廣告系統(tǒng),如果處理時間從十分鐘、一小時減少到一分鐘,廣告收益會有本質(zhì)的區(qū)別。查禮認為,在解決了實時處理這個“快”的問題之后,“準”的問題就迫在眉睫了。而Hadoop/NoSQL就能解決“準”的問題,從而實現(xiàn)精準營銷,達到高利潤、低成本的目標。
此外,Namenode、Scalability(可擴展性)、HDFS Performance這些存在已久的問題,仍然是Hadoop的技術(shù)熱點。
應用需求或者業(yè)務需求,說到底是要為企業(yè)賺錢。企業(yè)對經(jīng)營模式、盈利模式的追求,***導致業(yè)務追求,這種業(yè)務追求就反映到對系統(tǒng)的追求上,所以這些追求決定了有哪些問題要解決。例如,High Availability(高可靠性)對電商來說至關(guān)重要,如果在圣誕節(jié)宕機一小時,損失可想而知。
兩位Hadoop in china發(fā)起人暢談Hadoop熱點(左為韓軼平,右為查禮)
Hadoop應用場景
可能是長久苦于大數(shù)據(jù)處理手段有限的緣故,隨著Hadoop應用的不斷拓展,使很多人陷入了對它的盲目崇拜中,認為它能解決一切問題。
對此,韓軼平說:“在我們研發(fā)中心的每次Hadoop訓練班開學時,我都會告誡學員務必記住‘Hadoop不是***的’。在做具體工作時,首先要考量它是否適合使用Hadoop。”這正如Doug Cutting所說:“如果一個小任務用一個節(jié)點就能完成,為何還多此一舉用Hadoop呢?”但如果任務當前很小,考慮到以后會有暴漲的話,***還是一開始就用Hadoop來實現(xiàn),以便保持將來良好的可擴展性。因此,在動手做之前,這些問題都應該要想清楚,如果沒有把握的話,可以多參加一些社區(qū)討論和交流活動,看看哪些人、哪些公司在做類似的事情、有哪些經(jīng)驗教訓,參考過后,再去做選型:技術(shù)到底怎樣構(gòu)架、應用怎樣來組合這些技術(shù)??傊龅讲幻孕?、不盲從。
從狹義上來說,Hadoop就是MapReduce+HDFS,也就是一種離線處理或者批處理的模式。一方面,如果需求是對在線請求馬上得到結(jié)果,Hadoop肯定不適合;另一方面,MapReduce是一個簡化的并行模型,假設硬件總是要壞的,所以它中間所有的交互模式都做得很可靠、簡單。這樣一來,Hadoop能夠處理的負載或者應用,就會相對較窄。
而互聯(lián)網(wǎng)應用模式是一種簡單模式,傳統(tǒng)IT行業(yè)則復雜得多,路數(shù)與互聯(lián)網(wǎng)企業(yè)完全不同,正因如此,Hadoop率先在互聯(lián)網(wǎng)企業(yè)獲得成功。但以后Hadoop極可能應用到傳統(tǒng)IT行業(yè),比如MIS或者ERP。在傳統(tǒng)IT行業(yè)中,Hadoop是否保持原樣,繼續(xù)是專用系統(tǒng),還是慢慢演化成為通用系統(tǒng),現(xiàn)在尚未可知,但已經(jīng)顯露出這樣的苗頭。因此,查禮斷言,Hadoop就像早期的操作系統(tǒng)一樣,剛推出時是個專用系統(tǒng),經(jīng)過多年的發(fā)展,才成為通用系統(tǒng)。這也符合計算機行業(yè)中從專用到通用的螺旋上升趨勢。
雖然目前Hadoop在大企業(yè),特別是互聯(lián)網(wǎng)大企業(yè)中應用較多,但韓軼平認為這并不是因為存在技術(shù)門檻的緣故,而是一方面要看企業(yè)是否需要做Hadoop,另一方面則是因為像Facebook、Google、Yahoo!這樣的公司得到了較多的媒體曝光,為人所熟知,而更多的小公司,不管是國內(nèi)還是國外,都在用Hadoop,可能規(guī)模較小、業(yè)務相對簡單。而數(shù)據(jù)的膨脹,也讓我們很難定義何為“小”公司了:硅谷一家創(chuàng)業(yè)公司,員工只有13人,但在Amazon租用了1400臺機器跑它的一個搜索業(yè)務。
Hadoop主力誰屬
Doug Cutting曾說:“Apache軟件基金會的初衷是不希望始終有企業(yè)在某一個項目里面一家獨大,我們希望有更多的人參與進來,希望有更多的交流和碰撞。”因此,盡管目前Yhaoo!在Hadoop中的貢獻還是***,但其占比一直在下降,這在韓軼平看來是件好事,因為現(xiàn)在有更多的公司在為Hadoop做貢獻,Hadoop生態(tài)系統(tǒng)也日益完善。
目前看來,對Yahoo!老大地位形成挑戰(zhàn)的幾家勢頭較猛的公司是Cloudera、Facebook、Hortonworks,還包括國內(nèi)的企業(yè),比如華為的增長就很快。盡管華為此前從不開源,但現(xiàn)在還能夠往Hadoop社區(qū)里面做貢獻,也著實讓人感到驚訝。韓軼平點評道:“這也從側(cè)面反映了開源在中國慢慢得到認可了。”查禮則認為:“我覺得還是Hadoop給它帶來了好處,或者至少沒有什么壞處。”
MapR在特定應用場景下做出了貢獻
2011年5月,MapR公司推出分布式文件系統(tǒng)和MapReduce引擎——MapR Distribution for Apache Hadoop,號稱比開源版本的Hadoop性能高數(shù)倍。
對此,韓軼平解釋道:“在今年的Hadoop Summit上,我了解到MapR確實在某些特定的應用場景和特定的問題規(guī)模下,起到了一定的效果。這樣的優(yōu)化對業(yè)界和整個社區(qū)絕對是件好事,因為總體上能夠推進技術(shù)的發(fā)展。但我又不認為它能夠完全解決問題,因為要把Hadoop做成一個通用系統(tǒng),把所有問題都解決,還有很漫長的路要走。我很欣賞針對一類具體的問題,去提供一類的優(yōu)化解決方案,這是絕對可能的,因為當整個產(chǎn)業(yè)擴大了以后,必然會出現(xiàn)某種程度上的分化或者定制化。但我不覺得它已經(jīng)本質(zhì)性地改變了Hadoop。而對于它公布出來的成績,我也不懷疑,因為它是針對某些限定條件而得出的。”
查禮也表示認同:“既然MapR要兼容Hadoop,那么它的模式肯定沒有創(chuàng)造性或者顛覆性的變化。Hadoop本身有很多能夠優(yōu)化的地方,在某個Benchmark上完全可以做到比Hadoop快很多。做系統(tǒng)其實就是在平衡,舍棄一些特性,就像CAP理論一樣,總是有舍有得,不可能設計出一個***的系統(tǒng)。”
2012年Hadoop暢想
2011年,可以看作是Hadoop蓄勢待發(fā)的準備年,那么2012年,Hadoop又會怎樣呢?
韓軼平講出了他的Hadoop愿景:“***,完善Hadoop生態(tài)系統(tǒng),而不僅僅局限于Hadoop本身的持續(xù)開發(fā)、新特征加入和改進。第二,希望進一步根據(jù)不同的應用場景、專業(yè)領(lǐng)域和應用邏輯,出現(xiàn)更多的中間件和解決方案,因為它們能夠幫助Hadoop走出互聯(lián)網(wǎng)公司,走進更多的公司和行業(yè),從而真正推動整個信息產(chǎn)業(yè)和行業(yè)的發(fā)展。”
查禮也暢想道:“2012年應該是Hadoop向傳統(tǒng)信息領(lǐng)域進軍的一年。在這個領(lǐng)域,海量數(shù)據(jù)的問題早就存在,只是沒有辦法解決或者解決的成本太高,再加之那種‘反正這樣的問題同行們也都解決不了’的心態(tài),所以就先擱置?;ヂ?lián)網(wǎng)企業(yè)已經(jīng)為Hadoop的應用做出了表率,明年完全有理由期待它在傳統(tǒng)信息領(lǐng)域得到更多的應用。”
眾所周知,傳統(tǒng)行業(yè)手中握有非常多的數(shù)據(jù),但苦于沒有好的方法充分利用起來。通過像Hadoop這樣的大數(shù)據(jù)處理技術(shù),完全可以幫助傳統(tǒng)行業(yè)創(chuàng)造出更新的價值:一方面可以使其傳統(tǒng)業(yè)務邏輯得到更有效的實現(xiàn),另一方面也能夠培養(yǎng)出一種思維和方法,使其慢慢從中發(fā)現(xiàn)更多的價值,并進而延伸出更多的價值。此外,Hadoop還可能催生很多其他行業(yè),例如可以將高鐵網(wǎng)絡上的所有運行數(shù)據(jù)、軌道數(shù)據(jù)采集處理以后,進行優(yōu)化,就會對交通運輸?shù)膬r格體系和物流體系產(chǎn)生深遠影響。
社會總是要前進,需要有更新的產(chǎn)業(yè)出現(xiàn),Hadoop是一個值得信賴的推動引擎。