自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<kbd id="ec5q9"></kbd>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Hadoop，有所為而有所不為

作者：布加迪編譯 2012-06-19 09:28:46

系統(tǒng) 新聞 Hadoop

但是盡管Hadoop頗具吸引力，想了解Hadoop能夠?yàn)槠髽I(yè)扮演什么角色、如何最有效地部署它，仍要面臨一條很陡的學(xué)習(xí)曲線。換句話說，學(xué)起來(lái)很費(fèi)勁。只有明白了Hadoop的有所為而有所不為，你才能更清楚地了解如何才能最有效地把它部署到你自己的數(shù)據(jù)中心或云環(huán)境。然后，才可以為部署的Hadoop落實(shí)最佳實(shí)踐。

【51CTO專稿】使用大數(shù)據(jù)技術(shù)有著強(qiáng)烈的吸引力，而如今沒有比Apache Hadoop更誘人的大數(shù)據(jù)技術(shù)了，這種可擴(kuò)展的數(shù)據(jù)存儲(chǔ)平臺(tái)是許多大數(shù)據(jù)解決方案的核心。

但是盡管Hadoop頗具吸引力，想了解Hadoop能夠?yàn)槠髽I(yè)扮演什么角色、如何最有效地部署它，仍要面臨一條很陡的學(xué)習(xí)曲線。換句話說，學(xué)起來(lái)很費(fèi)勁。

只有明白了Hadoop的有所為而有所不為，你才能更清楚地了解如何才能最有效地把它部署到你自己的數(shù)據(jù)中心或云環(huán)境。然后，才可以為部署的Hadoop落實(shí)最佳實(shí)踐。

Hadoop的有所不為

我們不打算花大量的時(shí)間來(lái)解釋何謂Hadoop，因?yàn)樵S多技術(shù)文檔和媒體報(bào)道已對(duì)此作了深入介紹。一言以蔽之，知道Hadoop的兩個(gè)主要組件很重要：一個(gè)是用于存儲(chǔ)的Hadoop分布式文件系統(tǒng)（HDFS），另一個(gè)是MapReduce框架，讓你可以對(duì)Hadoop里面存儲(chǔ)的任何數(shù)據(jù)執(zhí)行批量分析任務(wù)。值得一提的是，這種數(shù)據(jù)不一定是結(jié)構(gòu)化數(shù)據(jù)，這使得Hadoop非常適合分析和處理來(lái)自社交媒體、文檔和圖形等來(lái)源的數(shù)據(jù)：即并不容易適用于行和列的任何數(shù)據(jù)。

這倒不是說，你無(wú)法將Hadoop用于結(jié)構(gòu)化數(shù)據(jù)。實(shí)際上，市面上有許多解決方案可以充分利用Hadoop的這個(gè)優(yōu)點(diǎn)：每TB比較低的存儲(chǔ)開支，以便將結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在Hadoop中，以取代關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)（RDBMS）。但是如果你的存儲(chǔ)需求不是那么大，那么在Hadoop和RDBMS之間來(lái)回轉(zhuǎn)移數(shù)據(jù)毫無(wú)必要。

你不想使用Hadoop的一個(gè)方面是事務(wù)型數(shù)據(jù)。顧名思義，事務(wù)型數(shù)據(jù)異常復(fù)雜，因?yàn)殡娮由虅?wù)網(wǎng)站上的交易事務(wù)會(huì)生成許多步驟，而這些步驟都必須迅速加以實(shí)現(xiàn)。這種場(chǎng)景根本就不適合使用Hadoop。

Hadoop也不適合用于要求延遲時(shí)間極短的結(jié)構(gòu)化數(shù)據(jù)集，比如當(dāng)網(wǎng)頁(yè)由典型的LAMP堆棧中的MySQL數(shù)據(jù)庫(kù)來(lái)呈現(xiàn)時(shí)。這需要速度快，而Hadoop很難滿足這樣的要求。

Hadoop的有所為

由于批量處理功能，Hadoop應(yīng)該部署在這些場(chǎng)合：索引編制、模式識(shí)別、推薦引擎建立和情緒分析；在所有這些場(chǎng)合下，數(shù)據(jù)大量生成，存儲(chǔ)在Hadoop中，然后最終使用MapReduce函數(shù)來(lái)進(jìn)行查詢。

但是這并不意味著，Hadoop會(huì)取代你數(shù)據(jù)中心里面目前的組件。恰恰相反，Hadoop會(huì)集成到你現(xiàn)有的IT基礎(chǔ)設(shè)施里面，以便充分利用進(jìn)入到貴企業(yè)的海量數(shù)據(jù)。

比如說，設(shè)想一個(gè)相當(dāng)?shù)湫偷姆荋adoop企業(yè)網(wǎng)站在處理商業(yè)交易。據(jù)Cloudera的教育服務(wù)主管Sarah Sproehnle聲稱，來(lái)自其一個(gè)客戶的流行網(wǎng)站的日志每天晚上都要經(jīng)歷抽取、轉(zhuǎn)換和加載（ETL）的過程——這個(gè)過程可能最多耗時(shí)3小時(shí)，然后把數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中。這時(shí)，存儲(chǔ)過程將被啟動(dòng)，另外過兩小時(shí)后，被清理的數(shù)據(jù)將駐留在數(shù)據(jù)倉(cāng)庫(kù)中。不過，最終的數(shù)據(jù)集將只有原始大小的五分之一——這意味著，就算可以從整個(gè)原始數(shù)據(jù)集獲取什么價(jià)值，現(xiàn)在這個(gè)價(jià)值也蕩然無(wú)存了。

Hadoop集成到這家企業(yè)后，情況大為改觀：節(jié)省了時(shí)間和精力。來(lái)自Web服務(wù)器的日志數(shù)據(jù)不用經(jīng)歷ETL操作，而是直接被完整地發(fā)送到了Hadoop里面的HDFS。然后，對(duì)日志數(shù)據(jù)執(zhí)行同樣的清理過程，現(xiàn)在只使用MapReduce任務(wù)。一旦數(shù)據(jù)清理完畢，隨后被發(fā)送到數(shù)據(jù)倉(cāng)庫(kù)。但是這個(gè)操作要迅速得多，這歸因于省去了ETL這一步，加上MapReduce操作速度快。而且，所有數(shù)據(jù)仍然保存在Hadoop里面，準(zhǔn)備回答網(wǎng)站操作人員之后可能提出來(lái)的任何額外問題。

想了解Hadoop，有必要明白這個(gè)重要的一點(diǎn)：千萬(wàn)不要把它看作是取代你現(xiàn)有的基礎(chǔ)設(shè)施，而是補(bǔ)充數(shù)據(jù)管理和存儲(chǔ)功能的一種工具。使用Apache Flume或Apache Sqoop之類的工具，你就能把現(xiàn)有系統(tǒng)與Hadoop聯(lián)系起來(lái)，并且對(duì)你的數(shù)據(jù)進(jìn)行處理——不管數(shù)據(jù)有多大。Apache Flume可以將數(shù)據(jù)從RDBMS獲取到Hadoop，并將數(shù)據(jù)從Hadoop獲取到RDBMS；Apache Sqoop則可以將系統(tǒng)日志實(shí)時(shí)抽取到Hadoop。你只要為Hadoop添加節(jié)點(diǎn)，就可以執(zhí)行數(shù)據(jù)存儲(chǔ)和處理任務(wù)。

所需的硬件和成本

那么，我們又需要多少的硬件呢？

估計(jì)Hadoop所需的硬件有點(diǎn)不一樣，這取決于你是在問哪家廠商。Cloudera的清單詳細(xì)地列出了Hadoop的典型從屬節(jié)點(diǎn)應(yīng)該有怎樣的硬件配置：

•中檔處理器

•4GB至32 GB內(nèi)存

•每個(gè)節(jié)點(diǎn)連接至千兆以太網(wǎng)，并配備一只萬(wàn)兆以太網(wǎng)架頂式交換機(jī)

•專用的交換基礎(chǔ)設(shè)施，以避免Hadoop擁塞網(wǎng)絡(luò)

•每個(gè)機(jī)器4至12個(gè)驅(qū)動(dòng)器，非RAID配置方式

另一家Hadoop經(jīng)銷商Hortonworks的硬件規(guī)格大同小異，不過網(wǎng)絡(luò)方面的信息來(lái)得模糊一點(diǎn)，那是由于任何某家企業(yè)添加到Hadoop實(shí)例的工作負(fù)載可能不一樣。

Hortonworks的首席技術(shù)官Eric Baldeschwieler寫道：“一條經(jīng)驗(yàn)法則就是，要關(guān)注網(wǎng)絡(luò)成本與計(jì)算機(jī)成本之比，網(wǎng)絡(luò)成本盡量控制在總成本的20%左右。網(wǎng)絡(luò)成本應(yīng)包括你的整個(gè)網(wǎng)絡(luò)、核心交換機(jī)、機(jī)架交換機(jī)和所需的任何網(wǎng)卡等。”

至于Cloudera，它估計(jì)每個(gè)節(jié)點(diǎn)所需的成本在3000美元至7000美元之間，具體取決于你確定每個(gè)節(jié)點(diǎn)有什么樣的硬件規(guī)格。

Sproehnle也概述了一條很容易遵守的經(jīng)驗(yàn)法則，幫助你規(guī)劃Hadoop容量。由于Hadoop具有線性擴(kuò)展的特性，你只要添加一個(gè)節(jié)點(diǎn)，就可以增加存儲(chǔ)和處理能力。這使得規(guī)劃起來(lái)簡(jiǎn)單直觀。

比如說，要是你的數(shù)據(jù)每個(gè)月增加1TB，那么規(guī)劃方法如下：Hadoop將數(shù)據(jù)復(fù)制三次，所以你需要3TB的原始存儲(chǔ)空間才能容納新增加的1TB數(shù)據(jù)。留出一點(diǎn)額外空間（Sproehnle估計(jì)要預(yù)留30%），以便處理數(shù)據(jù)操作；這樣一來(lái)，每個(gè)月實(shí)際需要的存儲(chǔ)空間是4TB。如果你使用4個(gè)1 TB驅(qū)動(dòng)器的機(jī)器作為節(jié)點(diǎn)，每個(gè)月就需要一個(gè)新的節(jié)點(diǎn)。

好就好在，所有新的節(jié)點(diǎn)一旦連接上，就可以立即投入使用，從而讓你的處理和存儲(chǔ)能力增強(qiáng)X倍，其中X指節(jié)點(diǎn)的數(shù)量。

不過，安裝和管理Hadoop節(jié)點(diǎn)其實(shí)并非易事，但是市面上有許多工具可以助你一臂之力。Cloudera 管理器、Apache Ambari（這是Hortonworks用于其管理系統(tǒng)的工具）和MapR控制系統(tǒng)都是同樣卓有成效的Hadoop集群管理工具。如果你使用一套“純粹”的Apache Hadoop解決方案，還可以關(guān)注Platform Symphony MapReduce、StackIQ Rocks + Big Data和Zettaset Data Platform等第三方Hadoop管理系統(tǒng)。

當(dāng)然，說到為貴企業(yè)部署一款Hadoop解決方案，本文介紹的這些內(nèi)容只是皮毛而已。也許最寶貴的心得在于明白這一點(diǎn)：Hadoop并非旨在取代你目前的數(shù)據(jù)基礎(chǔ)設(shè)施，而是只是起到互補(bǔ)作用。

一旦弄清楚了這個(gè)重要的區(qū)別，就比較容易開始考慮Hadoop可以如何幫助貴企業(yè)，沒必要對(duì)你現(xiàn)有的數(shù)據(jù)流程進(jìn)行大刀闊斧的改動(dòng)。

原文： What Hadoop can, and can't do

責(zé)任編輯：yangsai 來(lái)源： 51CTO.com

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<p id="7ghib"><li id="7ghib"></li></p>