自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Hadoop簡介:Hadoop的應(yīng)用場合及其核心設(shè)計

開發(fā) 架構(gòu) Hadoop
Hadoop相信大家應(yīng)該有所了解,這里向大家介紹一下Hadoop簡介中Hadoop的應(yīng)用場合以及Hadoop框架中最核心的設(shè)計,歡迎大家一起來學(xué)習(xí)有關(guān)Hadoop方面的知識。

本節(jié)向大家描述一下Hadoop簡介,主要包括Hadoop應(yīng)用場合和Hadoop框架中最核心的設(shè)計等內(nèi)容,相信通過本節(jié)的學(xué)習(xí)大家對Hadoop有全面的認(rèn)識,讓我們一起來了解一下Hadoop吧。

Hadoop簡介

1.Hadoop的應(yīng)用場合:

適合海量數(shù)據(jù)的分析,其實Google最早提出MapReduce也就是為了海量數(shù)據(jù)分析。同時HDFS最早是為了搜索引擎實現(xiàn)而開發(fā)的,后來才被用于分布式計算框架中。海量數(shù)據(jù)被分割于多個節(jié)點,然后由每一個節(jié)點并行計算,將得出的結(jié)果歸并到輸出。同時***階段的輸出又可以作為下一階段計算的輸入,因此可以想象到一個樹狀結(jié)構(gòu)的分布式計算圖,在不同階段都有不同產(chǎn)出,同時并行和串行結(jié)合的計算也可以很好地在分布式集群的資源下得以高效的處理。

2.Hadoop框架中最核心的設(shè)計
Hadoop簡介中Hadoop框架中最核心的設(shè)計就是:MapReduce和HDFS,MapReduce的思想是由Google的一篇論文所提及而被廣為流傳的,簡單的一句話解釋MapReduce就是“任務(wù)的分解與結(jié)果的匯總”。HDFS是Hadoop分布式文件系統(tǒng)(HadoopDistributedFileSystem)的縮寫,為分布式計算存儲提供了底層支持。

MapReduce:
名字上來看就大致可以看出個緣由,兩個動詞Map和Reduce,“Map(展開)”就是將一個任務(wù)分解成為多個任務(wù),“Reduce”就是將分解后多任務(wù)處理的結(jié)果匯總起來,得出***的分析結(jié)果。這不是什么新思想,其實在前面提到的多線程,多任務(wù)的設(shè)計就可以找到這種思想的影子。不論是現(xiàn)實社會,還是在程序設(shè)計中,一項工作往往可以被拆分成為多個任務(wù),任務(wù)之間的關(guān)系可以分為兩種:一種是不相關(guān)的任務(wù),可以并行執(zhí)行;另一種是任務(wù)之間有相互的依賴,先后順序不能夠顛倒,這類任務(wù)是無法并行處理的。

上圖就是MapReduce大致的結(jié)構(gòu)圖,在Map前還可能會對輸入的數(shù)據(jù)有Split(分割)的過程,保證任務(wù)并行效率,在Map之后還會有Shuffle(混合)的過程,對于提高Reduce的效率以及減小數(shù)據(jù)傳輸?shù)膲毫τ泻艽蟮膸椭?。后面會具體提及這些部分的細(xì)節(jié)。
Hadoop簡介中的HDFS的工作流程圖:

整個流程圖中有三個重要角色:NameNode、DataNode和Client。NameNode可以看作是分布式文件系統(tǒng)中的管理者,主要負(fù)責(zé)管理文件系統(tǒng)的命名空間、集群配置信息和存儲塊的復(fù)制等。NameNode會將文件系統(tǒng)的Meta-data存儲在內(nèi)存中,這些信息主要包括了文件信息、每一個文件對應(yīng)的文件塊的信息和每一個文件塊在DataNode的信息等。DataNode是文件存儲的基本單元,它將Block存儲在本地文件系統(tǒng)中,保存了Block的Meta-data,同時周期性地將所有存在的Block信息發(fā)送給NameNode。Client就是需要獲取分布式文件系統(tǒng)文件的應(yīng)用程序。這里通過三個操作來說明他們之間的交互關(guān)系。

文件寫入:
1.Client向NameNode發(fā)起文件寫入的請求。
2.NameNode根據(jù)文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息。
3.Client將文件劃分為多個Block,根據(jù)DataNode的地址信息,按順序?qū)懭氲矫恳粋€DataNode塊中。

文件讀?。?br /> 1.Client向NameNode發(fā)起文件讀取的請求。
2.NameNode返回文件存儲的DataNode的信息。
3.Client讀取文件信息。

文件Block復(fù)制:
1.NameNode發(fā)現(xiàn)部分文件的Block不符合最小復(fù)制數(shù)或者部分DataNode失效。
2.通知DataNode相互復(fù)制Block。
3.DataNode開始直接相互復(fù)制。
3.MapReduce和HDFS來看Hadoop的結(jié)構(gòu):

Hadoop結(jié)構(gòu)示意圖

在Hadoop的系統(tǒng)中,會有一臺Master,主要負(fù)責(zé)NameNode的工作以及JobTracker的工作。JobTracker的主要職責(zé)就是啟動、跟蹤和調(diào)度各個Slave的任務(wù)執(zhí)行。還會有多臺Slave,每一臺Slave通常具有DataNode的功能并負(fù)責(zé)TaskTracker的工作。TaskTracker根據(jù)應(yīng)用要求來結(jié)合本地數(shù)據(jù)執(zhí)行Map任務(wù)以及Reduce任務(wù)。本節(jié)關(guān)于Hadoop簡介描述完畢,請關(guān)注本節(jié)其他相關(guān)報道。
 

【編輯推薦】

  1. Hadoop簡介:HDFS和MapReduce的實現(xiàn)
  2. 術(shù)語匯編 Hadoop簡介
  3. Hadoop文件系統(tǒng)如何快速安裝?
  4. Hadoop集群搭建過程中相關(guān)環(huán)境配置詳解
  5. Hadoop完全分布模式安裝實現(xiàn)詳解

 

 

責(zé)任編輯:佚名 來源: csdn.net
相關(guān)推薦

2010-06-13 16:53:15

UML類

2012-07-12 09:41:42

2010-08-16 13:25:06

DIV

2017-01-17 09:38:52

ZooKeeperHadoopHBase

2010-06-04 10:01:26

Hadoop安裝

2010-06-07 13:02:46

Hadoop簡介

2010-06-07 13:35:16

Hadoop簡介

2010-08-19 13:43:07

marginpadding

2012-03-12 10:09:50

Hadoop微軟大數(shù)據(jù)

2017-09-18 17:59:23

Hadoop數(shù)據(jù)分析

2012-09-19 14:09:20

Hadoop開源

2010-06-04 09:43:47

hadoop應(yīng)用

2015-07-29 10:36:05

hadoop數(shù)據(jù)挖掘

2012-07-03 10:57:54

Hadoop核心機(jī)制

2010-06-03 18:32:51

Hadoop

2019-10-31 09:52:02

HadoopJava大數(shù)據(jù)

2019-05-20 10:38:42

UDP協(xié)議場合

2010-06-07 13:23:56

Hadoop 學(xué)習(xí)總結(jié)

2010-06-03 19:58:54

Hadoop

2019-06-18 14:12:07

Hadoop大數(shù)據(jù)數(shù)據(jù)庫
點贊
收藏

51CTO技術(shù)棧公眾號