自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

為什么Apache Hadoop讓人如此著迷?

云計算 Hadoop
Apache Hadoop是MapReduce計算模型的一個開源實(shí)施。MapReduce是由谷歌公司推廣開的,用于構(gòu)建公司的互聯(lián)網(wǎng)索引。在其最初形式中,MapReduce被當(dāng)做一種系統(tǒng)集群分布式工作的方法,開發(fā)出來。

在云計算世界中,有一個概念最被認(rèn)可,但卻很少有人理解。當(dāng)被問及Apache Hadoop時,絕大部分企業(yè)都會將其看做是***的云計算數(shù)據(jù)模型。但是,大部分人都不知道Hadoop是什么,應(yīng)當(dāng)如何使用它或者它是否對他們有幫助。

Apache Hadoop是MapReduce計算模型的一個開源實(shí)施。MapReduce是由谷歌公司推廣開的,用于構(gòu)建公司的互聯(lián)網(wǎng)索引。在其最初形式中,MapReduce被當(dāng)做一種系統(tǒng)集群分布式工作的方法,開發(fā)出來。在這樣一個集群中,有一個把題(計算任務(wù))分解成小片的“主”節(jié)點(diǎn),而每一小片工作任務(wù)都被發(fā)送至一個“工作”節(jié)點(diǎn)以進(jìn)行下一步處理。這種分割——分發(fā)的模式就是名稱中“map”部分的由來。當(dāng)所有的“工作”節(jié)點(diǎn)都完成了分配到的任務(wù)時,將返回計算結(jié)果并組合或“reduce”以生成***的結(jié)果。

但是,MapReduce和Hadoop引人注目的地方在于把MapReduce的概念應(yīng)用于大數(shù)據(jù)應(yīng)用中,而不只是計算網(wǎng)格中的分布式處理任務(wù)。雖然MapReduce的最初目的和“網(wǎng)格計算”極為相似,不過這個概念也被應(yīng)用于對跨多個系統(tǒng)的數(shù)據(jù)庫的訪問。人們將它看做是大數(shù)據(jù)典型模式,原因有二:出于便利性的考慮,大多數(shù)大數(shù)據(jù)都是在特定環(huán)境中被搜集和存儲的;通常來說,大數(shù)據(jù)都是過于龐大而無法集中在一個單一系統(tǒng)中。

Hadoop的核心組成部分是Hadoop分布式文件系統(tǒng)(HDFS),這是一個專門為跨潛在巨大量分布式服務(wù)器進(jìn)行虛擬化而設(shè)計的文件系統(tǒng)。實(shí)際上,Hadoop使用JobTrackers和TaskTrackers來完成映射和降維任務(wù);使用合適的軟件組件,Hadoop就能夠在結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)上正常運(yùn)行,并且使用幾乎所有的編程語言作為其開發(fā)框架。它適用于絕大多數(shù)的計算平臺,只要能夠正確地組織好版本和工具,你就可以毫不麻煩地在Hadoop中安裝混合平臺。

因?yàn)镠adoop是圍繞著兩個HDFS、一個分布式數(shù)據(jù)模型、JobTrackers / TaskTrackers以及一個分布式編程模式而構(gòu)建的,所以它可以說用于構(gòu)建云計算應(yīng)用程序的***框架。事實(shí)上,你可以將Hadoop看做是唯一真實(shí)、廣泛可用的云計算應(yīng)用程序框架,因?yàn)樗翘貏e為數(shù)據(jù)所在的分布式處理而設(shè)計的,它并不會把數(shù)據(jù)移回至完成處理數(shù)據(jù)的位置。在云計算中,這是一個關(guān)鍵要求,因?yàn)榇笠?guī)模數(shù)據(jù)遷移的成本令人難以置信的高昂,對計算資源的要求也是性能超密集型的??梢灶A(yù)見,隨著時間的推移,真正云計算應(yīng)用程序的開發(fā)一定將從Hadoop發(fā)展而來。

Hadoop“***”框架的另一面

當(dāng)然,Hadoop也有著其挑戰(zhàn)性。任何掩蓋復(fù)雜性數(shù)據(jù)的處理架構(gòu)都會由于濫用而產(chǎn)生開發(fā)低效的風(fēng)險。

 

[[70973]]

 

為什么Apache Hadoop如此讓人著迷

Hadoop***的挑戰(zhàn)是數(shù)據(jù)組織。因?yàn)閿?shù)據(jù)是分離的,所以在數(shù)據(jù)的分布式組件中可能構(gòu)建需要相關(guān)性的請求。例如,設(shè)想有一個電子表格式的結(jié)構(gòu),其中一半容量在一個系統(tǒng)上,而另一半容量在另一個系統(tǒng)上。如果有一個請求要求測試不同系統(tǒng)上的兩組數(shù)據(jù),實(shí)際上必須把整個數(shù)據(jù)庫進(jìn)行遷移,以執(zhí)行這個請求的任務(wù),從而使分布式數(shù)據(jù)和分布式處理的原理失去了作用。對于結(jié)構(gòu)化數(shù)據(jù)來說,設(shè)計應(yīng)用程序以避免這種類型的低效是相對容易的,但是對于非結(jié)構(gòu)化數(shù)據(jù)或商業(yè)智能(BI)請求高度多樣化的應(yīng)用來說,就可能會產(chǎn)生嚴(yán)重的性能問題。

由于這一風(fēng)險,企業(yè)應(yīng)用程序中大數(shù)據(jù)的實(shí)際應(yīng)用程序經(jīng)常會綜合使用Hadoop和傳統(tǒng)工具。有些***型的Hadoop應(yīng)用程序?yàn)镠adoop打造了“前端”以便于處理標(biāo)準(zhǔn)DBMS和數(shù)據(jù)采集應(yīng)用程序至HDFS的信息。他們還在查詢數(shù)據(jù)庫中匯總Hadoop結(jié)果。在匯總數(shù)據(jù)中運(yùn)行BI應(yīng)用程序總是比在原始詳細(xì)大數(shù)據(jù)中運(yùn)行相同的應(yīng)用程序更為高效,而預(yù)處理可確保數(shù)據(jù)分布是***的。

Hadoop的另一個問題是,它往往是集中采用大規(guī)模計算資源的方法而不是通過使用高效處理的方法來解決大數(shù)據(jù)問題。尤其是結(jié)構(gòu)化數(shù)據(jù),有更好的基于DBMS機(jī)制可用于分發(fā)數(shù)據(jù)和請求處理;復(fù)雜任務(wù)可能會占用大量資源,因此作業(yè)調(diào)度是防止BI請求過度使用資源的關(guān)鍵,從而也就確保更多的實(shí)時任務(wù)能夠按計劃完成。在同一集群中混合BI和實(shí)時應(yīng)用程序的大多數(shù)Hadoop用戶要么會調(diào)度作業(yè)以避免資源使用發(fā)生沖突,要么在集群中采用一種分配計算時間的方法以避免大型BI任務(wù)私下占用所有的資源。

Hadoop是一個范式變換,因此由訓(xùn)練有素的專業(yè)團(tuán)隊(duì)通過一系列精心設(shè)計的試運(yùn)行步驟來進(jìn)行具體實(shí)施是絕對至關(guān)重要的。有人認(rèn)為單獨(dú)實(shí)施Hadoop將會把斷開的離散云計算數(shù)據(jù)資源連接成為一個統(tǒng)一的數(shù)據(jù)庫,這種觀點(diǎn)是極其錯誤和危險的。除非在提交生產(chǎn)以前就對替代品(尤其是數(shù)據(jù)分布的替代品)完成了大量周密的測試,否則即便是經(jīng)驗(yàn)豐富的Hadoop開發(fā)人員也很難識別其中的陷阱。

責(zé)任編輯:王程程 來源: TechTarget中國
相關(guān)推薦

2013-03-04 13:55:29

2013-04-19 13:59:00

Apache Hado

2022-07-29 11:02:17

Web3NFT元宇宙

2023-09-12 10:55:35

Kafka數(shù)據(jù)庫服務(wù)器

2010-09-15 14:53:06

Python

2021-01-09 23:00:48

機(jī)器人工程師醫(yī)學(xué)

2020-07-27 09:36:37

IT開發(fā)產(chǎn)品

2024-04-28 09:15:22

人工智能人形機(jī)器人

2012-04-09 13:35:10

Instagram

2019-09-03 09:56:51

2020-08-13 09:49:43

WAF應(yīng)用安全網(wǎng)絡(luò)安全

2017-07-26 10:21:46

DockerLinux容器

2022-06-01 23:27:38

區(qū)塊鏈加密貨幣數(shù)字資產(chǎn)

2020-06-02 19:14:59

Kubernetes容器開發(fā)

2020-11-05 10:50:09

物聯(lián)網(wǎng)數(shù)據(jù)技術(shù)

2022-11-28 09:00:03

編程bug開發(fā)

2020-06-10 16:50:23

抖音算法人工智能

2010-10-15 10:35:18

2023-05-07 07:52:34

系統(tǒng)地址解碼

2021-03-29 16:32:03

軟件代碼程序員
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號