自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Hadoop成功部署案例之eBay篇

譯文
系統(tǒng) Hadoop
據(jù)估計(jì),到2015年,全世界一半以上的數(shù)據(jù)將涉及Hadoop——圍繞這個(gè)開源平臺的生態(tài)系統(tǒng)日益龐大,這有力地印證了這個(gè)驚人的數(shù)字。然而,有些人表示,雖然Hadoop是眼下熱鬧非凡的大數(shù)據(jù)領(lǐng)域最熱話題,但它肯定不是可以解決數(shù)據(jù)中心和數(shù)據(jù)管理方面所有難題的靈丹妙藥。考慮到這一點(diǎn),我們暫且不想猜測這個(gè)平臺未來會如何,也不想猜測徹底改變各種數(shù)據(jù)密集型解決方案的開源技術(shù)未來會如何,而是關(guān)注讓Hadoop越來越火的實(shí)際應(yīng)用案例。

【前言】有不少人非??春卯?dāng)下熱議的Hadoop,但是成功應(yīng)用Hadoop的超大環(huán)境又有哪些?本文是一系列文章,為大家介紹成功部署Hadoop的超大環(huán)境。

【51CTO精選譯文】據(jù)估計(jì),到2015年,全世界一半以上的數(shù)據(jù)將涉及Hadoop——圍繞這個(gè)開源平臺的生態(tài)系統(tǒng)日益龐大,這有力地印證了這個(gè)驚人的數(shù)字。

然而,有些人表示,雖然Hadoop是眼下熱鬧非凡的大數(shù)據(jù)領(lǐng)域最熱話題,但它肯定不是可以解決數(shù)據(jù)中心和數(shù)據(jù)管理方面所有難題的靈丹妙藥。考慮到這一點(diǎn),我們暫且不想猜測這個(gè)平臺未來會如何,也不想猜測徹底改變各種數(shù)據(jù)密集型解決方案的開源技術(shù)未來會如何,而是關(guān)注讓Hadoop越來越火的實(shí)際應(yīng)用案例。

毫無疑問,現(xiàn)在有幾個(gè)出眾的例子,表明Hadoop及相關(guān)開源技術(shù)(Hive和HBase等)在如何重塑大數(shù)據(jù)公司考慮基礎(chǔ)設(shè)施的角度。

雖然我們會通過在今年Hadoop World大會之前撰寫的一系列文章,繼續(xù)專門介紹Hadoop并非解決之道的應(yīng)用案例,但是不妨闡明幾個(gè)引人注目的、大規(guī)模Hadoop部署案例,它們在重塑依賴大數(shù)據(jù)的公司,這些公司從事社交媒體、旅游和一般商品和服務(wù)等行業(yè)。

先來介紹你在電子商務(wù)興起時(shí)期最先開始聽到的一家公司:電子港灣(eBay)。

電子港灣的Hadoop環(huán)境

電子港灣公司分析平臺開發(fā)小組的Anil Madan討論了這家拍賣行業(yè)的巨擘在如何充分發(fā)揮Hadoop平臺的強(qiáng)大功能,充分利用每天潮水般涌入的8TB至10TB數(shù)據(jù)。

[[93923]]

雖然電子港灣只是幾年前才開始向生產(chǎn)型Hadoop環(huán)境轉(zhuǎn)移,但它卻是早在2007年就率先開始試用Hadoop的大規(guī)?;ヂ?lián)網(wǎng)公司之一,當(dāng)時(shí)它使用一個(gè)小型集群來處理機(jī)器學(xué)習(xí)和搜索相關(guān)性方面的問題。

這些涉及的是少量數(shù)據(jù);Madan表示,但是就這個(gè)試驗(yàn)項(xiàng)目而言很有用;不過隨著數(shù)據(jù)日益增加、用戶活動日益頻繁,電子港灣想充分利用幾個(gè)部門和整個(gè)用戶群當(dāng)中的數(shù)據(jù)。

電子港灣的第一個(gè)大型Hadoop集群是500個(gè)節(jié)點(diǎn)組成的Athena,這個(gè)專門建造的生產(chǎn)型平臺可以滿足電子港灣內(nèi)部幾個(gè)部門的要求。該集群只用了不到三個(gè)月就建成了,開始高速處理預(yù)測模型、解決實(shí)時(shí)問題;后來不斷擴(kuò)大規(guī)模,以滿足其他要求。

Madan表示,該集群現(xiàn)由電子港灣的許多小組使用,既用于日常生產(chǎn)作業(yè),又用于一次性作業(yè)。小組使用Hadoop的公平調(diào)度器(Fair Scheduler)來管理資源分配、為各小組定義作業(yè)池、賦予權(quán)重、限制每個(gè)用戶和小組的并行作業(yè),并且設(shè)定搶占超時(shí)和延遲調(diào)度。

 

雖然Madan經(jīng)常在臺上暢談Hadoop具有的實(shí)際價(jià)值,他也經(jīng)常提到工作小組在擴(kuò)建電子港灣基礎(chǔ)設(shè)施時(shí)面臨、繼續(xù)竭力克服的幾個(gè)主要挑戰(zhàn)。

下面列出了與Hadoop有關(guān)的一系列挑戰(zhàn):

•可擴(kuò)展性

就現(xiàn)有版本而言,主服務(wù)器NameNode存在可擴(kuò)展性問題。由于集群的文件系統(tǒng)不斷擴(kuò)大,它占用的內(nèi)存空間也隨之?dāng)U大,因?yàn)樗颜麄€(gè)元數(shù)據(jù)保存在內(nèi)存中。1PB的存儲容量大概需要1GB的內(nèi)存容量。幾種切實(shí)可行的解決方案是分層命名空間分區(qū),或者結(jié)合使用Zookeeper和HBase,實(shí)現(xiàn)元數(shù)據(jù)管理。

•可用性

NameNode的可用性對生產(chǎn)型工作負(fù)載來說至關(guān)重要。開源社區(qū)正致力于冷備份(cold standby)、暖備份(warm standby)和熱備份(hot standby)這幾個(gè)選項(xiàng),比如檢查點(diǎn)(Checkpoint)節(jié)點(diǎn)和備份(Backup)節(jié)點(diǎn);從輔助NameNode切換avatar的Avatar節(jié)點(diǎn);以及日志元數(shù)據(jù)復(fù)制技術(shù)。我們正在評估這些方案,以建立我們的生產(chǎn)型集群。

•數(shù)據(jù)發(fā)現(xiàn)

在天生不支持?jǐn)?shù)據(jù)結(jié)構(gòu)的系統(tǒng)上支持?jǐn)?shù)據(jù)監(jiān)管、發(fā)現(xiàn)和模式管理。一個(gè)新項(xiàng)目準(zhǔn)備把Hive的元數(shù)據(jù)存儲區(qū)和Owl合并成一個(gè)新系統(tǒng),名為Howl。我們旨在努力把該系統(tǒng)連接到我們的分析平臺中,那樣我們的用戶很容易跨不同的數(shù)據(jù)系統(tǒng)發(fā)現(xiàn)數(shù)據(jù)。

•數(shù)據(jù)移動

我們正在努力開發(fā)發(fā)布/訂閱數(shù)據(jù)移動工具,以便跨我們不同的子系統(tǒng),如數(shù)據(jù)倉庫和Hadoop分布式文件系統(tǒng)(HDFS),支持?jǐn)?shù)據(jù)拷貝和調(diào)和。

•策略

通過配額(目前的Hadoop配額需要做一些改進(jìn))進(jìn)行存儲容量管理,能夠制定良好的保留、歸檔和備份等策略。我們正根據(jù)集群的工作負(fù)載和特點(diǎn),跨不同的集群努力定義這些策略。

•度量指標(biāo)、度量指標(biāo)、度量指標(biāo)

我們正在開發(fā)成熟可靠的工具,以便生成度量指標(biāo),用于度量數(shù)據(jù)來源、使用情況、預(yù)算編制和利用率。一些Hadoop企業(yè)服務(wù)器體現(xiàn)的現(xiàn)有度量指標(biāo)有的不夠全面,有的只是臨時(shí)的,很難看清楚集群使用模式。

【編輯推薦】

  1. 運(yùn)維經(jīng)驗(yàn)分享:Hadoop管理員的十個(gè)最佳實(shí)踐
  2. Hadoop管理員的十個(gè)最佳實(shí)踐
  3. 開源八預(yù)言:桌面linux必亡、Hadoop要火
  4. Hadoop的十大應(yīng)用場景
  5. Hadoop架構(gòu)中的HDFS和NameNode
責(zé)任編輯:張浩 來源: 51CTO.com
相關(guān)推薦

2012-09-18 13:19:45

Hadoop

2012-09-11 09:57:09

Hadoop部署方案

2021-11-11 06:57:01

Splunk部署數(shù)據(jù)

2023-07-10 07:22:16

2023-07-11 07:12:21

Hadoop部署mysql

2009-05-05 12:00:32

虛擬化部署應(yīng)用

2010-06-04 10:01:26

Hadoop安裝

2015-07-29 13:29:10

CalamariCentos7.1部署案例

2010-07-20 17:00:25

2018-02-02 16:15:02

Hadoop數(shù)據(jù)遷移集群

2012-06-26 13:39:08

云計(jì)算案例

2010-07-20 17:04:22

2009-01-27 20:57:00

服務(wù)器Server 2003案例

2016-12-20 18:21:29

Hadoop大數(shù)據(jù)面試

2014-07-29 10:38:25

大數(shù)據(jù)Hadoop

2016-01-06 10:22:18

開源eBayHadoop

2011-04-06 08:54:38

游標(biāo)腳本性能問題

2009-01-16 22:19:55

Panasas存儲集群石油

2009-11-13 19:48:52

IBM業(yè)務(wù)分析案例

2010-05-06 21:27:33

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號