Hadoop成功部署案例之eBay篇
譯文【前言】有不少人非??春卯?dāng)下熱議的Hadoop,但是成功應(yīng)用Hadoop的超大環(huán)境又有哪些?本文是一系列文章,為大家介紹成功部署Hadoop的超大環(huán)境。
【51CTO精選譯文】據(jù)估計(jì),到2015年,全世界一半以上的數(shù)據(jù)將涉及Hadoop——圍繞這個(gè)開源平臺的生態(tài)系統(tǒng)日益龐大,這有力地印證了這個(gè)驚人的數(shù)字。
然而,有些人表示,雖然Hadoop是眼下熱鬧非凡的大數(shù)據(jù)領(lǐng)域最熱話題,但它肯定不是可以解決數(shù)據(jù)中心和數(shù)據(jù)管理方面所有難題的靈丹妙藥。考慮到這一點(diǎn),我們暫且不想猜測這個(gè)平臺未來會如何,也不想猜測徹底改變各種數(shù)據(jù)密集型解決方案的開源技術(shù)未來會如何,而是關(guān)注讓Hadoop越來越火的實(shí)際應(yīng)用案例。
毫無疑問,現(xiàn)在有幾個(gè)出眾的例子,表明Hadoop及相關(guān)開源技術(shù)(Hive和HBase等)在如何重塑大數(shù)據(jù)公司考慮基礎(chǔ)設(shè)施的角度。
雖然我們會通過在今年Hadoop World大會之前撰寫的一系列文章,繼續(xù)專門介紹Hadoop并非解決之道的應(yīng)用案例,但是不妨闡明幾個(gè)引人注目的、大規(guī)模Hadoop部署案例,它們在重塑依賴大數(shù)據(jù)的公司,這些公司從事社交媒體、旅游和一般商品和服務(wù)等行業(yè)。
先來介紹你在電子商務(wù)興起時(shí)期最先開始聽到的一家公司:電子港灣(eBay)。
電子港灣的Hadoop環(huán)境
電子港灣公司分析平臺開發(fā)小組的Anil Madan討論了這家拍賣行業(yè)的巨擘在如何充分發(fā)揮Hadoop平臺的強(qiáng)大功能,充分利用每天潮水般涌入的8TB至10TB數(shù)據(jù)。
雖然電子港灣只是幾年前才開始向生產(chǎn)型Hadoop環(huán)境轉(zhuǎn)移,但它卻是早在2007年就率先開始試用Hadoop的大規(guī)?;ヂ?lián)網(wǎng)公司之一,當(dāng)時(shí)它使用一個(gè)小型集群來處理機(jī)器學(xué)習(xí)和搜索相關(guān)性方面的問題。
這些涉及的是少量數(shù)據(jù);Madan表示,但是就這個(gè)試驗(yàn)項(xiàng)目而言很有用;不過隨著數(shù)據(jù)日益增加、用戶活動日益頻繁,電子港灣想充分利用幾個(gè)部門和整個(gè)用戶群當(dāng)中的數(shù)據(jù)。
電子港灣的第一個(gè)大型Hadoop集群是500個(gè)節(jié)點(diǎn)組成的Athena,這個(gè)專門建造的生產(chǎn)型平臺可以滿足電子港灣內(nèi)部幾個(gè)部門的要求。該集群只用了不到三個(gè)月就建成了,開始高速處理預(yù)測模型、解決實(shí)時(shí)問題;后來不斷擴(kuò)大規(guī)模,以滿足其他要求。
Madan表示,該集群現(xiàn)由電子港灣的許多小組使用,既用于日常生產(chǎn)作業(yè),又用于一次性作業(yè)。小組使用Hadoop的公平調(diào)度器(Fair Scheduler)來管理資源分配、為各小組定義作業(yè)池、賦予權(quán)重、限制每個(gè)用戶和小組的并行作業(yè),并且設(shè)定搶占超時(shí)和延遲調(diào)度。
雖然Madan經(jīng)常在臺上暢談Hadoop具有的實(shí)際價(jià)值,他也經(jīng)常提到工作小組在擴(kuò)建電子港灣基礎(chǔ)設(shè)施時(shí)面臨、繼續(xù)竭力克服的幾個(gè)主要挑戰(zhàn)。
下面列出了與Hadoop有關(guān)的一系列挑戰(zhàn):
•可擴(kuò)展性
就現(xiàn)有版本而言,主服務(wù)器NameNode存在可擴(kuò)展性問題。由于集群的文件系統(tǒng)不斷擴(kuò)大,它占用的內(nèi)存空間也隨之?dāng)U大,因?yàn)樗颜麄€(gè)元數(shù)據(jù)保存在內(nèi)存中。1PB的存儲容量大概需要1GB的內(nèi)存容量。幾種切實(shí)可行的解決方案是分層命名空間分區(qū),或者結(jié)合使用Zookeeper和HBase,實(shí)現(xiàn)元數(shù)據(jù)管理。
•可用性
NameNode的可用性對生產(chǎn)型工作負(fù)載來說至關(guān)重要。開源社區(qū)正致力于冷備份(cold standby)、暖備份(warm standby)和熱備份(hot standby)這幾個(gè)選項(xiàng),比如檢查點(diǎn)(Checkpoint)節(jié)點(diǎn)和備份(Backup)節(jié)點(diǎn);從輔助NameNode切換avatar的Avatar節(jié)點(diǎn);以及日志元數(shù)據(jù)復(fù)制技術(shù)。我們正在評估這些方案,以建立我們的生產(chǎn)型集群。
•數(shù)據(jù)發(fā)現(xiàn)
在天生不支持?jǐn)?shù)據(jù)結(jié)構(gòu)的系統(tǒng)上支持?jǐn)?shù)據(jù)監(jiān)管、發(fā)現(xiàn)和模式管理。一個(gè)新項(xiàng)目準(zhǔn)備把Hive的元數(shù)據(jù)存儲區(qū)和Owl合并成一個(gè)新系統(tǒng),名為Howl。我們旨在努力把該系統(tǒng)連接到我們的分析平臺中,那樣我們的用戶很容易跨不同的數(shù)據(jù)系統(tǒng)發(fā)現(xiàn)數(shù)據(jù)。
•數(shù)據(jù)移動
我們正在努力開發(fā)發(fā)布/訂閱數(shù)據(jù)移動工具,以便跨我們不同的子系統(tǒng),如數(shù)據(jù)倉庫和Hadoop分布式文件系統(tǒng)(HDFS),支持?jǐn)?shù)據(jù)拷貝和調(diào)和。
•策略
通過配額(目前的Hadoop配額需要做一些改進(jìn))進(jìn)行存儲容量管理,能夠制定良好的保留、歸檔和備份等策略。我們正根據(jù)集群的工作負(fù)載和特點(diǎn),跨不同的集群努力定義這些策略。
•度量指標(biāo)、度量指標(biāo)、度量指標(biāo)
我們正在開發(fā)成熟可靠的工具,以便生成度量指標(biāo),用于度量數(shù)據(jù)來源、使用情況、預(yù)算編制和利用率。一些Hadoop企業(yè)服務(wù)器體現(xiàn)的現(xiàn)有度量指標(biāo)有的不夠全面,有的只是臨時(shí)的,很難看清楚集群使用模式。
【編輯推薦】