Hadoop:全球熱戀
Hadoop似乎火了。150家各種規(guī)模的企業(yè)都在使用Hadoop,包括大公司摩根大通、谷歌和雅虎等,相信這個開源大數(shù)據(jù)管理系統(tǒng)很快將出現(xiàn)在你的公司里。
但是在使用Hadoop前,你***先全面了解Hadoop的相關(guān)信息??蛻艉蜆I(yè)內(nèi)分析師表示,需要經(jīng)過專門的培訓和具備一定的分析能力才能使用Hadoop。然而,并非所有公司都符合這個條件。這仍然是一個非常年輕的市場,很多Hadoop供應商都爭相推出各種應用產(chǎn)品,包括云端產(chǎn)品。
最重要的一點:不要聽信炒作。Forrester分析師James Kobielus指出,只有1%的美國企業(yè)在生產(chǎn)環(huán)境中使用Hadoop。他預計,“在未來一年中,這個數(shù)字將翻一番或者兩番。”但是對于所有極富潛力的技術(shù),我們都應該謹慎。
可以肯定的是,相比于傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng),Hadoop具有更多優(yōu)勢,特別是處理結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù))和非結(jié)構(gòu)化數(shù)據(jù)(如視頻)的能力。而且Hadoop可以在保持對系統(tǒng)最小干擾度的情況下進行擴展。eBay公司體驗、搜索和平臺副總裁Hugh Williams表示,eBay面對著9PB來自Terabyte集群上的結(jié)構(gòu)化數(shù)據(jù)以及在“成千上萬”節(jié)點上運行的Hadoop集群上的非結(jié)構(gòu)化數(shù)據(jù)。
他表示:“Hadoop真的幫了我們大忙。”
“你可以在相同硬件上運行很多不同類型的不同工作。而在Hadoop出現(xiàn)之前的世界就顯得非常呆板,”Williams說,“你可以采用與之前不同的方式來充分使用集群。它允許你大膽創(chuàng)新,并且門檻很低,非常強大。”
擴展,再擴展
Hadoop早期使用者銷售視頻流系統(tǒng)的Concurrent公司同樣需要為其客戶存儲和分析大量視頻數(shù)據(jù),為了更好地處理有增無減的數(shù)據(jù)量,Concurrent公司兩年前開始使用Cloudera公司的Hadoop CDH。
Concurrent公司工程總監(jiān)William Lazzaro
“Hadoop是我們用來解決大數(shù)據(jù)問題的‘鐵榔頭’,”Concurrent公司工程總監(jiān)William Lazzaro表示,“它讓我們在很短時間內(nèi)能夠處理大量數(shù)據(jù)。”
Concurrent公司的一個部門負責收集和存儲關(guān)于視頻的客戶統(tǒng)計數(shù)據(jù),這也是Hadoop發(fā)揮作用的地方,Lazzaro表示:“我們現(xiàn)在有一個客戶一個月要生成和保存30億數(shù)據(jù)記錄,我們預計在接下來的三個月,這個數(shù)字將達到一個月100億數(shù)據(jù)記錄。”
過去,Concurrent公司面對的兩個主要局限是:傳統(tǒng)關(guān)系型數(shù)據(jù)庫無法處理非結(jié)構(gòu)化數(shù)據(jù)(如視頻),并且需要處理和存儲的數(shù)據(jù)量成倍增長。“我的客戶想要保存數(shù)據(jù)四到五年,”Lazzaro說道,“當他們每天產(chǎn)生1PB數(shù)據(jù)時,這將是一個大數(shù)據(jù)問題。”
有了Hadoop,Concurrent公司工程師發(fā)現(xiàn)他們能夠滿足其客戶日益增長的需求,Lazzaro 表示,“在測試過程中,他們嘗試為該客戶每天處理20億條記錄,通過向節(jié)點加入另一臺服務器后,我們發(fā)現(xiàn)完全能夠滿足他們的需求,并且能夠迅速擴展。”
為了對比,該公司使用傳統(tǒng)數(shù)據(jù)庫進行了相同的測試,發(fā)現(xiàn)Hadoop的主要優(yōu)勢之一在于它可以方便快捷地根據(jù)需要增加額外的硬件,而不需要額外的授權(quán)費用,因為它是開源產(chǎn)品。
生命科學和基因組公司NextBio公司是另一個Hadoop用戶,該公司主要負責涉及龐大的關(guān)于人類基因測序數(shù)據(jù)集的項目以及相關(guān)科研工作。
NextBio公司工程副總裁Satnam Alag
“我們引入各種基因組數(shù)據(jù),然后使用Hadoop對數(shù)據(jù)進行處理,并與其他數(shù)據(jù)集進行比較,”NextBio公司工程副總裁Satnam Alag表示,“Hadoop讓我們可以根據(jù)客戶需要對大量公共數(shù)據(jù)進行分析,我們的客戶范圍包括制藥公司到學術(shù)研究人員。”NextBio使用的是來自MapR的Hadoop產(chǎn)品。
一個典型的完整基因組序列可以包含120GB到150GB壓縮數(shù)據(jù),需要0.5TB的存儲容量以進行處理。在過去,該公司需要花費三天來分析這些數(shù)據(jù),但現(xiàn)在通過30到40臺運行Hadoop的機器,NextBio的工作人員只需要三到四個小時就可以完成工作。Alag表示:“對于任何需要利用這些數(shù)據(jù)的應用程序,Hadoop都帶來了很大的變化。”
Hadoop的另一大優(yōu)勢是它可以簡單地通過增加更多節(jié)點來按需擴展系統(tǒng)。他表示:“如果沒有Hadoop,擴展將是***挑戰(zhàn)性和昂貴的工作。”這種所謂的橫向擴展(增加更多商品硬件節(jié)點到Hadoop集群)是非常具有成本效益的系統(tǒng)方式。Hadoop框架“會自動處理集群中失效的節(jié)點”。
這極大地改變了該公司擴大其計算能力以滿足其需求的方式。他表示:“我們不想在基礎(chǔ)設(shè)施上花費太多錢,我們并沒有那么多資金。”#p#
新類型應用層出不窮
Hadoop的一個巨大優(yōu)勢在于它能夠?qū)Υ罅繑?shù)據(jù)集進行分析并迅速發(fā)現(xiàn)趨勢。對于一家大型零售商,這可能意味著分析Facebook或者Twitter用戶數(shù)據(jù)以了解上一季流行什么顏色的圍巾,將分析結(jié)果與現(xiàn)在的熱門顏色流行趨勢相比較就能夠幫助確定本季度銷售什么顏色的圍巾。
“它讓你能夠從過去的數(shù)據(jù)中尋求新的銷售機會,”Lazzaro說道。Concurrent公司就曾為一家汽車經(jīng)銷商分析商業(yè)廣告數(shù)據(jù),“我們可以從數(shù)據(jù)看出哪些人查看了商業(yè)廣告,然后就可以確定消費群。”
傳統(tǒng)數(shù)據(jù)庫能夠滿足很多數(shù)據(jù)分類和分析需要,但對于超大規(guī)模數(shù)據(jù)集,Hadoop能夠更有效地找出信息,Lazzaro表示:“Hadoop就是為了這個目的而設(shè)計的。”
對于eBay來說,eBay的工程師“喜歡和非結(jié)構(gòu)化數(shù)據(jù)打交道,以及迅速為eBay建立新產(chǎn)品,”Williams表示,eBay工程師可以訪問該公司的3億份清單、歷史資料和大量相關(guān)信息,“這讓我們能夠更好地了解客戶,并建立他們想要的用戶體驗。”這并不是結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之爭,而是,“我們的工程師現(xiàn)在可以以***的方式與數(shù)據(jù)打交道”。
Williams表示,在過去一年中,eBay使用Hadoop完成了一些非常了不起的事情,包括對商品陳列、用戶體驗和用戶使用網(wǎng)站的方式的改善等。
例如,eBay工作人員可以看到客戶什么時候開始搜索萬圣節(jié)和圣誕節(jié)產(chǎn)品。“我還能告訴你人們在尋找的產(chǎn)品,而在五年以前,我們根本不理解這些數(shù)據(jù)。”#p#
制定策略須謹慎
雖然Hadoop非常強大,但是也有一些注意事項。首先,“不要完全僅將目光放在一個供應商上”,因為這仍然是一個十分“動蕩”的市場,F(xiàn)orrester公司的Kobielus表示,“供應商們都正在快速發(fā)展,另一方面來看,這確實創(chuàng)建了一個充滿活力的生態(tài)系統(tǒng)。”
Gartner研究所分析師Marcus Collins表示:“這主要取決于企業(yè),獲取必要的專業(yè)知識來***化Hadoop的優(yōu)勢。運用Hadoop需要一定水平的分析能力,而現(xiàn)在很多企業(yè)還不具備這樣的能力。你需要對員工進行培訓,并對分析能力進行投資,這將讓你充分利用這項技術(shù)的優(yōu)勢。”
eBay交易市場搜索平臺和體驗部門副總裁Hugh Williams
另一個重要考慮因素:大多數(shù)企業(yè)將需要聘請Hadoop專家,而這種人才目前供不應求,或者需要培養(yǎng)內(nèi)部專家。eBay的Williams表示:“我們安排了很多培訓,讓我們的工程師學習如何使用Hadoop和編寫代碼。你還需要對開發(fā)人員和項目經(jīng)理進行培訓,讓他們也成為熟練的使用者。不要低估了這一點的作用。”
如果將開源系統(tǒng)應用于關(guān)鍵任務應用程序,還要準備組織學習曲線。***讓你的管理層了解開源的優(yōu)勢。
Collins的另一個秘訣就是“密切參與”項目以確保按計劃進行,“不要將你的問題歸咎于Hadoop供應商,”他表示,“畢竟是你在運行Hadoop。”
此外,Kobielus解釋說,Hadoop的***做法仍然在不斷發(fā)展中,所以***想辦法從Hadoop獲得一些短期優(yōu)勢,而不要好高騖遠。隨著你的專業(yè)知識的增加,你會發(fā)現(xiàn)更多Hadoop的優(yōu)勢。然而,早期使用者為建立系統(tǒng)和擴展集群而采用的方法范圍完全取決于董事會。#p#
Hadoop只會錦上添花 不會喧賓奪主
大多數(shù)客戶使用Hadoop添加到其他類型的軟件上,而不是取代其他軟件。例如,eBay仍然在使用關(guān)系型數(shù)據(jù)庫,并需要處理大量自定義(數(shù)據(jù)庫)工作,Williams說道:“在eBay,我們發(fā)現(xiàn)了使用多種技術(shù)來處理數(shù)據(jù)的價值。Hadoop對于某些目的而言,是一個非常好的選擇,而對于其他目的,其他技術(shù)更加適用。”
例如,當涉及交易時,他表示,“當然應該使用關(guān)系型數(shù)據(jù)庫系統(tǒng)。我們的總體想法是靈活的選擇適合的技術(shù),并不存在一個‘包治百病’的技術(shù)。”
Concurrent公司同樣是如此。Hadoop并沒有取代該公司的傳統(tǒng)關(guān)系型數(shù)據(jù)庫,包括MySQL、PostgreSQL和Oracle。“這是一個綜合解決方案,”Lazzaro表示,“我們使用Hadoop來完成繁重的工作,例如大規(guī)模數(shù)據(jù)處理。然后我們會使用Hadoop內(nèi)的Map/Reduce來創(chuàng)建匯總數(shù)據(jù),這種數(shù)據(jù)能夠通過傳統(tǒng)RDBMS來查看。”
關(guān)系型數(shù)據(jù)庫的發(fā)展趨勢是,當系統(tǒng)變得太大時,例如2.5億條記錄一天,數(shù)據(jù)庫就無法響應數(shù)據(jù)查詢。然而,他表示,“面對這么龐大的數(shù)據(jù),Hadoop仍然不費吹灰之力。Hadoop可以存儲50億條數(shù)據(jù),通過Map/Reduce我們可以創(chuàng)建數(shù)據(jù)匯總,并將其插入到標準RDBMS以提供快速查看。”
在一般情況下,Williams表示,“我并不會過多考慮Hadoop的局限性,而是會考慮機會。你可以通過開源社區(qū)迅速找出解決任何問題的解決方案。雖然有些人對于Hadoop有著這樣那樣的抱怨,但它畢竟屬于新技術(shù),就好像早在1993年或1994年的Linux一樣。”
“我們確實看到獨特的技術(shù)挑戰(zhàn),”Williams表示,包括架構(gòu)數(shù)據(jù)中心、設(shè)計支持Hadoop的網(wǎng)絡(luò)和選擇正確的硬件。
總體而言,Hadoop一直是eBay的良好戰(zhàn)略,Williams說道:“對于我們而言,Hadoop真的幫了大忙,我們的工程師都對它贊不絕口,它幫助我們成為真正的數(shù)據(jù)驅(qū)動型企業(yè)。”#p#
相關(guān)鏈接
企業(yè)級Hadoop供應商 vendors
免費開源應用程序Apache Hadoop可供企業(yè)IT部門下載、使用和根據(jù)其需要進行改變。
但對于很多企業(yè)用戶而言,Hadoop對支持和技術(shù)技能的需要在很大程度上掩蓋了這個免費DIY應用程序的光芒。
而受支持的企業(yè)版本Hadoop則是更好更實際的選擇。
以下是一些Hadoop主要供應商,這些供應商可以幫助你的公司開始享受Hadoop的優(yōu)勢,有些供應商還提供內(nèi)部部署軟件包,有些供應商還銷售云端Hadoop,還有剛剛出現(xiàn)的Hadoop數(shù)據(jù)庫設(shè)備,包括最近宣布合作的Oracle和Cloudera。
● Amazon提供的Amazon Elastic MapReduce,運行在Amazon的彈性云以及Simple Storage服務中的托管Hadoop框架
● Cloudera公司的Enterprise訂閱服務
● 使用Hadoop的Datameer Analytics Solution
● DataStax Enterprise Hadoop軟件
● EMC分公司Greenplum公司提供的Greenplum HD Enterprise-Ready Apache Hadoop
● Hortonworks數(shù)據(jù)平臺
● BigInsights,基于Hadoop的來自IBM的非結(jié)構(gòu)化數(shù)據(jù)云服務
● Karmasphere Analyst, 使用Hadoop幫助生成數(shù)據(jù)的工具包
● MapR提供的企業(yè)級Hadoop軟件M5版本
以上只是列出了一些提供企業(yè)級Hadoop產(chǎn)品和服務的供應商,隨著Hadoop在數(shù)據(jù)市場上關(guān)注度的提升,供應商的數(shù)量還將增加。#p#
技術(shù)小貼士
eBay的Williams為大家提供了以下秘訣:
通過學習Hadoop的組織結(jié)構(gòu)來學習如何有效管理Hadoop。 “如果你的企業(yè)有很多人在使用Hadoop集群,他們可能會嘗試一次性做很多相同的事情,”Williams表示,“這意味著他們可能會產(chǎn)生相同的中間數(shù)據(jù),這是一種浪費。”
他建議,一天運行一次通用數(shù)據(jù)查詢,并將結(jié)果保存在一個地方,讓需要的人可以使用,這樣做可以節(jié)省大量處理時間和相關(guān)資源,“仔細想想哪些數(shù)據(jù)集對于你的用戶是很有用的,然后創(chuàng)建這些數(shù)據(jù)集。”
清理你的Hadoop集群是關(guān)鍵的維護工作。 “這真的非常重要,”Williams表示,“你可能需要運行大量Hadoop工作,創(chuàng)建大量數(shù)據(jù),通常情況下,通過文件來處理工作的用戶會一走了之,這對于用戶很常見,如果你這樣做的話,你最終將會面對大量額外的Hadoop文件。”
“所以你需要制定一個策略以保持Hadoop集群的整潔,這樣就不會超出磁盤空間。讓用戶清理出他們不需要的東西。如果你有一個大型Hadoop集群,定期清理是非常重要的。”