自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Hadoop,有所為而有所不為

譯文
系統(tǒng) 新聞 Hadoop
但是盡管Hadoop頗具吸引力,想了解Hadoop能夠?yàn)槠髽I(yè)扮演什么角色、如何最有效地部署它,仍要面臨一條很陡的學(xué)習(xí)曲線。換句話說,學(xué)起來(lái)很費(fèi)勁。只有明白了Hadoop的有所為而有所不為,你才能更清楚地了解如何才能最有效地把它部署到你自己的數(shù)據(jù)中心或云環(huán)境。然后,才可以為部署的Hadoop落實(shí)最佳實(shí)踐。

【51CTO專稿】使用大數(shù)據(jù)技術(shù)有著強(qiáng)烈的吸引力,而如今沒有比Apache Hadoop更誘人的大數(shù)據(jù)技術(shù)了,這種可擴(kuò)展的數(shù)據(jù)存儲(chǔ)平臺(tái)是許多大數(shù)據(jù)解決方案的核心。

[[79727]]

但是盡管Hadoop頗具吸引力,想了解Hadoop能夠?yàn)槠髽I(yè)扮演什么角色、如何最有效地部署它,仍要面臨一條很陡的學(xué)習(xí)曲線。換句話說,學(xué)起來(lái)很費(fèi)勁。

只有明白了Hadoop的有所為而有所不為,你才能更清楚地了解如何才能最有效地把它部署到你自己的數(shù)據(jù)中心或云環(huán)境。然后,才可以為部署的Hadoop落實(shí)最佳實(shí)踐。

Hadoop的有所不為

我們不打算花大量的時(shí)間來(lái)解釋何謂Hadoop,因?yàn)樵S多技術(shù)文檔和媒體報(bào)道已對(duì)此作了深入介紹。一言以蔽之,知道Hadoop的兩個(gè)主要組件很重要:一個(gè)是用于存儲(chǔ)的Hadoop分布式文件系統(tǒng)(HDFS),另一個(gè)是MapReduce框架,讓你可以對(duì)Hadoop里面存儲(chǔ)的任何數(shù)據(jù)執(zhí)行批量分析任務(wù)。值得一提的是,這種數(shù)據(jù)不一定是結(jié)構(gòu)化數(shù)據(jù),這使得Hadoop非常適合分析和處理來(lái)自社交媒體、文檔和圖形等來(lái)源的數(shù)據(jù):即并不容易適用于行和列的任何數(shù)據(jù)。

這倒不是說,你無(wú)法將Hadoop用于結(jié)構(gòu)化數(shù)據(jù)。實(shí)際上,市面上有許多解決方案可以充分利用Hadoop的這個(gè)優(yōu)點(diǎn):每TB比較低的存儲(chǔ)開支,以便將結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在Hadoop中,以取代關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)(RDBMS)。但是如果你的存儲(chǔ)需求不是那么大,那么在Hadoop和RDBMS之間來(lái)回轉(zhuǎn)移數(shù)據(jù)毫無(wú)必要。

你不想使用Hadoop的一個(gè)方面是事務(wù)型數(shù)據(jù)。顧名思義,事務(wù)型數(shù)據(jù)異常復(fù)雜,因?yàn)殡娮由虅?wù)網(wǎng)站上的交易事務(wù)會(huì)生成許多步驟,而這些步驟都必須迅速加以實(shí)現(xiàn)。這種場(chǎng)景根本就不適合使用Hadoop。

Hadoop也不適合用于要求延遲時(shí)間極短的結(jié)構(gòu)化數(shù)據(jù)集,比如當(dāng)網(wǎng)頁(yè)由典型的LAMP堆棧中的MySQL數(shù)據(jù)庫(kù)來(lái)呈現(xiàn)時(shí)。這需要速度快,而Hadoop很難滿足這樣的要求。

Hadoop的有所為

由于批量處理功能,Hadoop應(yīng)該部署在這些場(chǎng)合:索引編制、模式識(shí)別、推薦引擎建立和情緒分析;在所有這些場(chǎng)合下,數(shù)據(jù)大量生成,存儲(chǔ)在Hadoop中,然后最終使用MapReduce函數(shù)來(lái)進(jìn)行查詢。

但是這并不意味著,Hadoop會(huì)取代你數(shù)據(jù)中心里面目前的組件。恰恰相反,Hadoop會(huì)集成到你現(xiàn)有的IT基礎(chǔ)設(shè)施里面,以便充分利用進(jìn)入到貴企業(yè)的海量數(shù)據(jù)。

比如說,設(shè)想一個(gè)相當(dāng)?shù)湫偷姆荋adoop企業(yè)網(wǎng)站在處理商業(yè)交易。據(jù)Cloudera的教育服務(wù)主管Sarah Sproehnle聲稱,來(lái)自其一個(gè)客戶的流行網(wǎng)站的日志每天晚上都要經(jīng)歷抽取、轉(zhuǎn)換和加載(ETL)的過程——這個(gè)過程可能最多耗時(shí)3小時(shí),然后把數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中。這時(shí),存儲(chǔ)過程將被啟動(dòng),另外過兩小時(shí)后,被清理的數(shù)據(jù)將駐留在數(shù)據(jù)倉(cāng)庫(kù)中。不過,最終的數(shù)據(jù)集將只有原始大小的五分之一——這意味著,就算可以從整個(gè)原始數(shù)據(jù)集獲取什么價(jià)值,現(xiàn)在這個(gè)價(jià)值也蕩然無(wú)存了。

Hadoop集成到這家企業(yè)后,情況大為改觀:節(jié)省了時(shí)間和精力。來(lái)自Web服務(wù)器的日志數(shù)據(jù)不用經(jīng)歷ETL操作,而是直接被完整地發(fā)送到了Hadoop里面的HDFS。然后,對(duì)日志數(shù)據(jù)執(zhí)行同樣的清理過程,現(xiàn)在只使用MapReduce任務(wù)。一旦數(shù)據(jù)清理完畢,隨后被發(fā)送到數(shù)據(jù)倉(cāng)庫(kù)。但是這個(gè)操作要迅速得多,這歸因于省去了ETL這一步,加上MapReduce操作速度快。而且,所有數(shù)據(jù)仍然保存在Hadoop里面,準(zhǔn)備回答網(wǎng)站操作人員之后可能提出來(lái)的任何額外問題。

想了解Hadoop,有必要明白這個(gè)重要的一點(diǎn):千萬(wàn)不要把它看作是取代你現(xiàn)有的基礎(chǔ)設(shè)施,而是補(bǔ)充數(shù)據(jù)管理和存儲(chǔ)功能的一種工具。使用Apache Flume或Apache Sqoop之類的工具,你就能把現(xiàn)有系統(tǒng)與Hadoop聯(lián)系起來(lái),并且對(duì)你的數(shù)據(jù)進(jìn)行處理——不管數(shù)據(jù)有多大。Apache Flume可以將數(shù)據(jù)從RDBMS獲取到Hadoop,并將數(shù)據(jù)從Hadoop獲取到RDBMS;Apache Sqoop則可以將系統(tǒng)日志實(shí)時(shí)抽取到Hadoop。你只要為Hadoop添加節(jié)點(diǎn),就可以執(zhí)行數(shù)據(jù)存儲(chǔ)和處理任務(wù)。

所需的硬件和成本

那么,我們又需要多少的硬件呢?

估計(jì)Hadoop所需的硬件有點(diǎn)不一樣,這取決于你是在問哪家廠商。Cloudera的清單詳細(xì)地列出了Hadoop的典型從屬節(jié)點(diǎn)應(yīng)該有怎樣的硬件配置:

中檔處理器

4GB至32 GB內(nèi)存

每個(gè)節(jié)點(diǎn)連接至千兆以太網(wǎng),并配備一只萬(wàn)兆以太網(wǎng)架頂式交換機(jī)

專用的交換基礎(chǔ)設(shè)施,以避免Hadoop擁塞網(wǎng)絡(luò)

每個(gè)機(jī)器4至12個(gè)驅(qū)動(dòng)器,非RAID配置方式

另一家Hadoop經(jīng)銷商Hortonworks的硬件規(guī)格大同小異,不過網(wǎng)絡(luò)方面的信息來(lái)得模糊一點(diǎn),那是由于任何某家企業(yè)添加到Hadoop實(shí)例的工作負(fù)載可能不一樣。

Hortonworks的首席技術(shù)官Eric Baldeschwieler寫道:“一條經(jīng)驗(yàn)法則就是,要關(guān)注網(wǎng)絡(luò)成本與計(jì)算機(jī)成本之比,網(wǎng)絡(luò)成本盡量控制在總成本的20%左右。網(wǎng)絡(luò)成本應(yīng)包括你的整個(gè)網(wǎng)絡(luò)、核心交換機(jī)、機(jī)架交換機(jī)和所需的任何網(wǎng)卡等。”

至于Cloudera,它估計(jì)每個(gè)節(jié)點(diǎn)所需的成本在3000美元至7000美元之間,具體取決于你確定每個(gè)節(jié)點(diǎn)有什么樣的硬件規(guī)格。

Sproehnle也概述了一條很容易遵守的經(jīng)驗(yàn)法則,幫助你規(guī)劃Hadoop容量。由于Hadoop具有線性擴(kuò)展的特性,你只要添加一個(gè)節(jié)點(diǎn),就可以增加存儲(chǔ)和處理能力。這使得規(guī)劃起來(lái)簡(jiǎn)單直觀。

比如說,要是你的數(shù)據(jù)每個(gè)月增加1TB,那么規(guī)劃方法如下:Hadoop將數(shù)據(jù)復(fù)制三次,所以你需要3TB的原始存儲(chǔ)空間才能容納新增加的1TB數(shù)據(jù)。留出一點(diǎn)額外空間(Sproehnle估計(jì)要預(yù)留30%),以便處理數(shù)據(jù)操作;這樣一來(lái),每個(gè)月實(shí)際需要的存儲(chǔ)空間是4TB。如果你使用4個(gè)1 TB驅(qū)動(dòng)器的機(jī)器作為節(jié)點(diǎn),每個(gè)月就需要一個(gè)新的節(jié)點(diǎn)。

好就好在,所有新的節(jié)點(diǎn)一旦連接上,就可以立即投入使用,從而讓你的處理和存儲(chǔ)能力增強(qiáng)X倍,其中X指節(jié)點(diǎn)的數(shù)量。

不過,安裝和管理Hadoop節(jié)點(diǎn)其實(shí)并非易事,但是市面上有許多工具可以助你一臂之力。Cloudera 管理器、Apache Ambari(這是Hortonworks用于其管理系統(tǒng)的工具)和MapR控制系統(tǒng)都是同樣卓有成效的Hadoop集群管理工具。如果你使用一套“純粹”的Apache Hadoop解決方案,還可以關(guān)注Platform Symphony MapReduce、StackIQ Rocks + Big Data和Zettaset Data Platform等第三方Hadoop管理系統(tǒng)。

當(dāng)然,說到為貴企業(yè)部署一款Hadoop解決方案,本文介紹的這些內(nèi)容只是皮毛而已。也許最寶貴的心得在于明白這一點(diǎn):Hadoop并非旨在取代你目前的數(shù)據(jù)基礎(chǔ)設(shè)施,而是只是起到互補(bǔ)作用。

一旦弄清楚了這個(gè)重要的區(qū)別,就比較容易開始考慮Hadoop可以如何幫助貴企業(yè),沒必要對(duì)你現(xiàn)有的數(shù)據(jù)流程進(jìn)行大刀闊斧的改動(dòng)。

 

原文: What Hadoop can, and can't do

 

責(zé)任編輯:yangsai 來(lái)源: 51CTO.com
相關(guān)推薦

2016-11-17 14:49:59

云端試驗(yàn)預(yù)期

2022-06-08 09:46:29

人工智能編程數(shù)據(jù)流程

2018-12-04 20:00:25

Linux超級(jí)用戶用戶權(quán)限

2018-02-23 13:17:21

2010-09-17 14:04:45

大蜘蛛

2016-03-11 10:06:27

CIO時(shí)代網(wǎng)

2011-08-18 17:06:28

金網(wǎng)獎(jiǎng)精準(zhǔn)營(yíng)銷馬天云

2019-09-18 11:23:42

華為

2024-03-15 12:49:23

模型訓(xùn)練

2015-06-29 09:28:08

SDN

2012-12-03 10:17:42

惡意垃圾郵件垃圾郵件惡意郵件

2021-01-26 11:49:35

Python軟件開發(fā)代碼

2010-03-02 16:34:36

WCF線程

2022-04-26 10:11:36

云計(jì)算FinOps云支出

2012-12-24 10:05:53

紅帽VMware

2013-08-16 10:46:20

2009-06-24 17:06:49

Ruby

2014-04-08 09:41:26

GoogleAdroid TV智能電視
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)