自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="ofpi1"></sup>

<ruby id="ofpi1"><button id="ofpi1"></button></ruby>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

你需要了解關(guān)于Hadoop與大數(shù)據(jù)的12個(gè)事實(shí)

作者：佚名 2017-11-16 18:48:48

大數(shù)據(jù) Hadoop

人們?cè)谡務(wù)揌adoop的時(shí)候，常常把它當(dāng)做單一產(chǎn)品來(lái)看待，但事實(shí)上它由多個(gè)不同的產(chǎn)品共同組成。而且“千萬(wàn)別以為Hadoop是免費(fèi)的或者很便宜，它背后的隱性開銷你是一下子看不到的。”

事實(shí)1：hadoop是由多個(gè)產(chǎn)品組成的。

人們?cè)谡務(wù)揌adoop的時(shí)候，常常把它當(dāng)做單一產(chǎn)品來(lái)看待，但事實(shí)上它由多個(gè)不同的產(chǎn)品共同組成。

Russom說(shuō)：“Hadoop是一系列開源產(chǎn)品的組合，這些產(chǎn)品都是Apache軟件基金會(huì)的項(xiàng)目。”

一提到Hadoop，人們往往將其與MapReduce放在一起，但其實(shí)HDFS和MapReduce一樣，也是Hadoop的基礎(chǔ)。

事實(shí)2：Apache Hadoop是開源技術(shù)，但專有廠商也提供Hadoop產(chǎn)品。

由于Hadoop屬于開源技術(shù)，可免費(fèi)下載，所以IBM、Cloudera和EMC Greenplum等廠商都可以推出他們各自的Hadoop特別發(fā)行版本。

這些特別發(fā)行版本一般都會(huì)有一些附加特性，比如高級(jí)管理工具及相關(guān)的支持維護(hù)服務(wù)。有人可能對(duì)此嗤之以鼻：既然開源社區(qū)是免費(fèi)的，那么我們?yōu)槭裁催€要為它的服務(wù)付費(fèi)?Russom解釋道，這些版本的HDFS對(duì)一些IT部門更合適，特別是企業(yè)IT系統(tǒng)已經(jīng)相對(duì)成熟的用戶。

事實(shí)3：Hadoop是一個(gè)生態(tài)系統(tǒng)，而非一個(gè)產(chǎn)品。

Hadoop是由開源社區(qū)和各個(gè)廠商共同開發(fā)和推動(dòng)的。具體說(shuō)來(lái)，廠商的Hadoop的產(chǎn)品其結(jié)構(gòu)化和關(guān)系性更強(qiáng)一些。

Russom說(shuō)：“一直以來(lái)報(bào)表平臺(tái)、數(shù)據(jù)集成平臺(tái)在為更新的平臺(tái)提供各種各樣的接口，Hadoop當(dāng)然也不例外。”

事實(shí)4：HDFS是文件系統(tǒng)，而不是數(shù)據(jù)庫(kù)管理系統(tǒng)。

Russom最無(wú)法忍受的，就是人們常常把二者混為一談。能夠?qū)?shù)據(jù)集進(jìn)行管理是數(shù)據(jù)管理系統(tǒng)很重要的特性之一，這一點(diǎn)HDFS是不具備的。

數(shù)據(jù)庫(kù)管理系統(tǒng)中，我們通過(guò)查詢索引可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的隨機(jī)訪問(wèn)，它往往處理的是結(jié)構(gòu)化的數(shù)據(jù)，而在Hadoop中不會(huì)處理這樣的數(shù)據(jù)類型。

事實(shí)5：Hive與SQL類似，卻非標(biāo)準(zhǔn)SQL。

傳統(tǒng)獲取數(shù)據(jù)的業(yè)務(wù)工具大多都是基于SQL的，這比較讓人頭疼，因?yàn)镠adoop使用的是一種類似SQL但不是SQL的語(yǔ)言——Apache Hive和HiveQL。

Russom說(shuō)：“我常聽(tīng)到別人說(shuō)，‘Hive學(xué)起來(lái)非常簡(jiǎn)單，直接學(xué)Hive就行。’但這并不能解決與SQL工具兼容的根本問(wèn)題。”

Russom認(rèn)為兼容性只是一個(gè)短時(shí)間問(wèn)題，但卻阻礙了Hadoop的普及。

事實(shí)6：Hadoop與MapReduce相互關(guān)聯(lián)，但不相互依賴。

MapReduce早在HDFS出現(xiàn)以前就由Google開發(fā)推出。除此之外，諸如MapR一類的廠商一直在宣傳MapReduce功能的多樣性，無(wú)需HDFS支持。

盡管如此，Russom卻認(rèn)為它們具有很好的互補(bǔ)性。HDFS的大部分價(jià)值都體現(xiàn)在可層疊到分布式文件系統(tǒng)的工具上。

事實(shí)7：MapReduce提供的是對(duì)分析的控制，而不是分析本身。

MapReduce是一種通用執(zhí)行驅(qū)動(dòng)引擎，可協(xié)助大數(shù)據(jù)分析。它能讀取手寫代碼數(shù)據(jù)，對(duì)其進(jìn)行并行自動(dòng)處理，并將結(jié)果映射到單一集合中。然而我們需要明確一點(diǎn)，MapReduce自身并不進(jìn)行分析工作。

Russom說(shuō)：“MapReduce可以看作是升級(jí)版的MPP架構(gòu)。你無(wú)論怎樣編寫代碼，它都可以把它們并行化，非常強(qiáng)大。”

事實(shí)8：Hadoop的意義不僅僅在于數(shù)據(jù)量，更在于數(shù)據(jù)的多樣化。

有人把Hadoop歸類為海量數(shù)據(jù)處理技術(shù)，但是Hadoop真正的價(jià)值卻是對(duì)多樣化數(shù)據(jù)處理的能力。

Russom說(shuō)：“Hadoop的處理范圍為大多數(shù)數(shù)據(jù)倉(cāng)庫(kù)所不及，比如針對(duì)半結(jié)構(gòu)化與完全非結(jié)構(gòu)化的數(shù)據(jù)。”

事實(shí)9：Hadoop是數(shù)據(jù)倉(cāng)庫(kù)的補(bǔ)充，不是數(shù)據(jù)倉(cāng)庫(kù)的替代品。

Hadoop對(duì)多樣化數(shù)據(jù)類型進(jìn)行管理的能力使得“數(shù)據(jù)倉(cāng)庫(kù)將死”的言論四起，然而Russom卻進(jìn)行了反駁。

他反問(wèn)道：“在IT領(lǐng)域，人們多久替換一項(xiàng)技術(shù)?幾乎從來(lái)沒(méi)有過(guò)。”

數(shù)據(jù)倉(cāng)庫(kù)在其領(lǐng)域中的性能仍然出色，Hadoop可起到對(duì)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)進(jìn)行補(bǔ)充的作用。數(shù)據(jù)倉(cāng)庫(kù)和其他系統(tǒng)的架構(gòu)越來(lái)越多地開始向分布式靠攏，Hadoop在這里將發(fā)揮其作用。

事實(shí)10：Hadoop不僅僅是Web分析。

Hadoop在互聯(lián)網(wǎng)中的運(yùn)用非常普遍，Russom認(rèn)為Hadoop普及趨勢(shì)的部分原因是因?yàn)樗梢蕴幚砀囝愋偷姆治觥?/p>

Russom舉了鐵路公司、機(jī)器人和零售業(yè)的例子。鐵路公司可使用傳感器對(duì)異常高溫的軌道車輛進(jìn)行探測(cè)，以阻止事故的發(fā)生。

Russom盡管十分看好Hadoop的前景，但同時(shí)認(rèn)為它的普及還需要數(shù)年時(shí)間。

事實(shí)11：大數(shù)據(jù)不一定非Hadoop不可。

別看現(xiàn)在大數(shù)據(jù)和Hadoop已經(jīng)密不可分，Russom卻認(rèn)為Hadoop并不是大數(shù)據(jù)的“唯一”。他提到了許多其他廠商的產(chǎn)品，如Teradata、Sybase IQ(被SAP收購(gòu))和Vertica(被HP收購(gòu))等。

除此之外，在Hadoop沒(méi)有誕生之時(shí)，一些企業(yè)就已經(jīng)開始研究大數(shù)據(jù)了。例如，電信行業(yè)多年以前就有呼叫明細(xì)記錄。

事實(shí)12：Hadoop不是“免費(fèi)午餐”。

雖然Hadoop屬于開源技術(shù)，但是軟件的安裝部署是需要花錢的。Russom稱，由于Hadoop在管理工具與支持服務(wù)方面的不足，企業(yè)在使用過(guò)程中很容易產(chǎn)生額外費(fèi)用。另外，由于它沒(méi)有優(yōu)化程序，我們只能請(qǐng)專業(yè)人士在運(yùn)行環(huán)境中手寫輸入代碼，而這些專業(yè)人士的薪酬價(jià)碼都不菲。

更不用提部署Hadoop集群的硬件和相關(guān)配置的成本。

他說(shuō)：“千萬(wàn)別以為Hadoop是免費(fèi)的或者很便宜，它背后的隱性開銷你是一下子看不到的。”

責(zé)任編輯：未麗燕來(lái)源：大數(shù)據(jù)觀察

Hadoop 數(shù)據(jù)庫(kù)數(shù)據(jù)處理

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<blockquote id="viybe"></blockquote>

<sub id="viybe"><p id="viybe"></p></sub>