自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Hadoop簡介:HDFS和MapReduce的實(shí)現(xiàn)

開發(fā) 架構(gòu) Hadoop
Hadoop你是否熟悉,這里就向大家介紹一下Hadoop的概念以及它的結(jié)構(gòu),相信通過本文的學(xué)習(xí)介紹大家對Hadoop有更加深刻的認(rèn)識,歡迎大家一起來學(xué)習(xí)Hadoop方面的知識。

本節(jié)向大家描述一下Hadoop簡介,本節(jié)主要介紹Hadoop中兩個重要的組成部分HDFS和MapReduce,希望通過本節(jié)的介紹大家對Hadoop有初步的認(rèn)識。

Hadoop簡介

Hadoop是一個分布式系統(tǒng)基礎(chǔ)架構(gòu),由Apache基金會開發(fā)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力高速運(yùn)算和存儲。
  簡單地說來,Hadoop是一個可以更容易開發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺。
  Hadoop實(shí)現(xiàn)了一個分布式文件系統(tǒng)(HadoopDistributedFileSystem),簡稱HDFS。HDFS有著高容錯性(fault-tolerent)的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的(low-cost)硬件上。而且它提供高傳輸率(highthroughput)來訪問應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(largedataset)的應(yīng)用程序。HDFS放寬了(relax)POSIX的要求(requirements)這樣可以流的形式訪問(streamingaccess)文件系統(tǒng)中的數(shù)據(jù)。

談到Hadoop就不得不提到Lucene和Nutch。首先,Lucene并不是一個應(yīng)用程序,而是提供了一個純Java的高性能全文索引引擎工具包,它可以方便的嵌入到各種實(shí)際應(yīng)用中實(shí)現(xiàn)全文搜索/索引功能。Nutch是一個應(yīng)用程序,是一個以Lucene為基礎(chǔ)實(shí)現(xiàn)的搜索引擎應(yīng)用,Lucene為Nutch提供了文本搜索和索引的API,Nutch不光有搜索的功能,還有數(shù)據(jù)抓取的功能。在nutch0.8.0版本之前,Hadoop還屬于Nutch的一部分,而從nutch0.8.0開始,將其中實(shí)現(xiàn)的NDFS和MapReduce剝離出來成立一個新的開源項(xiàng)目,這就是Hadoop,而nutch0.8.0版本較之以前的Nutch在架構(gòu)上有了根本性的變化,那就是完全構(gòu)建在Hadoop的基礎(chǔ)之上了。在Hadoop中實(shí)現(xiàn)了Google的GFS和MapReduce算法,使Hadoop成為了一個分布式的計(jì)算平臺。
其實(shí),Hadoop并不僅僅是一個用于存儲的分布式文件系統(tǒng),而是設(shè)計(jì)用來在由通用計(jì)算設(shè)備組成的大型集群上執(zhí)行分布式應(yīng)用的框架。

Hadoop包含兩個部分:

1、HDFS

Hadoop簡介中的HDFS。HDFS即HadoopDistributedFileSystem(Hadoop分布式文件系統(tǒng))
HDFS具有高容錯性,并且可以被部署在低價的硬件設(shè)備之上。HDFS很適合那些有大數(shù)據(jù)集的應(yīng)用,并且提供了對數(shù)據(jù)讀寫的高吞吐率。HDFS是一個master/slave的結(jié)構(gòu),就通常的部署來說,在master上只運(yùn)行一個Namenode,而在每一個slave上運(yùn)行一個Datanode。
HDFS支持傳統(tǒng)的層次文件組織結(jié)構(gòu),同現(xiàn)有的一些文件系統(tǒng)在操作上很類似,比如你可以創(chuàng)建和刪除一個文件,把一個文件從一個目錄移到另一個目錄,重命名等等操作。Namenode管理著整個分布式文件系統(tǒng),對文件系統(tǒng)的操作(如建立、刪除文件和文件夾)都是通過Namenode來控制。

HDFS的結(jié)構(gòu)圖中可以看出,Namenode,Datanode,Client之間的通信都是建立在TCP/IP的基礎(chǔ)之上的。當(dāng)Client要執(zhí)行一個寫入的操作的時候,命令不是馬上就發(fā)送到Namenode,Client首先在本機(jī)上臨時文件夾中緩存這些數(shù)據(jù),當(dāng)臨時文件夾中的數(shù)據(jù)塊達(dá)到了設(shè)定的Block的值(默認(rèn)是64M)時,Client便會通知Namenode,Namenode便響應(yīng)Client的RPC請求,將文件名插入文件系統(tǒng)層次中并且在Datanode中找到一塊存放該數(shù)據(jù)的block,同時將該Datanode及對應(yīng)的數(shù)據(jù)塊信息告訴Client,Client便這些本地臨時文件夾中的數(shù)據(jù)塊寫入指定的數(shù)據(jù)節(jié)點(diǎn)。
HDFS采取了副本策略,其目的是為了提高系統(tǒng)的可靠性,可用性。HDFS的副本放置策略是三個副本,一個放在本節(jié)點(diǎn)上,一個放在同一機(jī)架中的另一個節(jié)點(diǎn)上,還有一個副本放在另一個不同的機(jī)架中的一個節(jié)點(diǎn)上。當(dāng)前版本的hadoop0.12.0中還沒有實(shí)現(xiàn),但是正在進(jìn)行中,相信不久就可以出來了。

2、MapReduce的實(shí)現(xiàn)

Hadoop簡介中MapReduce的實(shí)現(xiàn)。MapReduce是Google的一項(xiàng)重要技術(shù),它是一個編程模型,用以進(jìn)行大數(shù)據(jù)量的計(jì)算。對于大數(shù)據(jù)量的計(jì)算,通常采用的處理手法就是并行計(jì)算。至少現(xiàn)階段而言,對許多開發(fā)人員來說,并行計(jì)算還是一個比較遙遠(yuǎn)的東西。MapReduce就是一種簡化并行計(jì)算的編程模型,它讓那些沒有多少并行計(jì)算經(jīng)驗(yàn)的開發(fā)人員也可以開發(fā)并行應(yīng)用。
MapReduce的名字源于這個模型中的兩項(xiàng)核心操作:Map和Reduce。也許熟悉FunctionalProgramming(函數(shù)式編程)的人見到這兩個詞會倍感親切。簡單的說來,Map是把一組數(shù)據(jù)一對一的映射為另外的一組數(shù)據(jù),其映射的規(guī)則由一個函數(shù)來指定,比如對[1,2,3,4]進(jìn)行乘2的映射就變成了[2,4,6,8]。Reduce是對一組數(shù)據(jù)進(jìn)行歸約,這個歸約的規(guī)則由一個函數(shù)指定,比如對[1,2,3,4]進(jìn)行求和的歸約得到結(jié)果是10,而對它進(jìn)行求積的歸約結(jié)果是24。本節(jié)關(guān)于Hadoop簡介描述完畢。

【編輯推薦】

  1. 術(shù)語匯編 Hadoop簡介
  2. 技術(shù)分享 Hadoop集群搭建方法
  3. Hadoop文件系統(tǒng)如何快速安裝?
  4. Hadoop集群搭建過程中相關(guān)環(huán)境配置詳解
  5. Hadoop完全分布模式安裝實(shí)現(xiàn)詳解

 
 

責(zé)任編輯:佚名 來源: csdn.net
相關(guān)推薦

2019-03-21 11:03:47

HDFSMapReduceHadoop

2019-10-31 09:52:02

HadoopJava大數(shù)據(jù)

2010-06-03 15:13:34

Hadoop Hdfs

2010-06-03 16:18:07

Hadoop MapR

2012-07-11 17:21:23

HadoopHDFS

2017-04-19 11:17:48

SparkHadoopMapReduce

2015-03-24 15:08:21

mapreducehadoop

2012-08-08 09:53:23

HadoopMapReduce

2017-06-08 11:00:09

HDFSHadoopYARN

2010-06-03 16:32:09

Hadoop MapR

2015-04-16 14:24:56

Hadoop云計(jì)算HDFS

2013-04-23 11:17:47

Hadoop

2023-09-27 15:34:48

數(shù)據(jù)編程

2013-11-27 09:21:18

YARNMapReduceHadoop

2013-04-24 10:47:48

Hadoop集群

2013-01-21 13:22:56

IBMdW

2014-11-10 15:02:21

大數(shù)據(jù)云計(jì)算Hadoop

2018-10-09 15:00:43

Hadoop分布式架構(gòu)

2014-10-15 16:32:43

MapReducehadoop

2010-06-07 13:51:59

Hadoop簡介
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號