自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Hadoop分布式文件系統(tǒng)詳解

開(kāi)發(fā) 架構(gòu) 分布式 Hadoop
Hadoop相信大家應(yīng)該有所了解,這里向大家介紹一下Hadoop分布式文件系統(tǒng),相信通過(guò)本文的介紹大家對(duì)Hadoop分布式文件系統(tǒng)有一定的認(rèn)識(shí)。

在學(xué)習(xí)Hadoop的過(guò)程中,你可能遇到Hadoop分布式文件系統(tǒng)方面的內(nèi)容,本節(jié)就向大家介紹一下,歡迎大家一起來(lái)學(xué)習(xí)Hadoop分布式文件系統(tǒng)方面的知識(shí)。下面是具體介紹。

Hadoop分布式文件系統(tǒng)

Hadoop分布式文件系統(tǒng)(HDFS)被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodityhardware)上的分布式文件系統(tǒng)。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點(diǎn)。但同時(shí),它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng),適合部署在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問(wèn),非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS放寬了一部分POSIX約束,來(lái)實(shí)現(xiàn)流式讀取文件系統(tǒng)數(shù)據(jù)的目的。HDFS在最開(kāi)始是作為ApacheNutch搜索引擎項(xiàng)目的基礎(chǔ)架構(gòu)而開(kāi)發(fā)的。HDFS是ApacheHadoopCore項(xiàng)目的一部分。這個(gè)項(xiàng)目的地址是http://hadoop.apache.org/core/。

前提和設(shè)計(jì)目標(biāo)

硬件錯(cuò)誤
硬件錯(cuò)誤是常態(tài)而不是異常。HDFS可能由成百上千的服務(wù)器所構(gòu)成,每個(gè)服務(wù)器上存儲(chǔ)著文件系統(tǒng)的部分?jǐn)?shù)據(jù)。我們面對(duì)的現(xiàn)實(shí)是構(gòu)成系統(tǒng)的組件數(shù)目是巨大的,而且任一組件都有可能失效,這意味著總是有一部分HDFS的組件是不工作的。因此錯(cuò)誤檢測(cè)和快速、自動(dòng)的恢復(fù)是HDFS最核心的架構(gòu)目標(biāo)。

流式數(shù)據(jù)訪問(wèn)
運(yùn)行在HDFS上的應(yīng)用和普通的應(yīng)用不同,需要流式訪問(wèn)它們的數(shù)據(jù)集。HDFS的設(shè)計(jì)中更多的考慮到了數(shù)據(jù)批處理,而不是用戶交互處理。比之?dāng)?shù)據(jù)訪問(wèn)的低延遲問(wèn)題,更關(guān)鍵的在于數(shù)據(jù)訪問(wèn)的高吞吐量。POSIX標(biāo)準(zhǔn)設(shè)置的很多硬性約束對(duì)HDFS應(yīng)用系統(tǒng)不是必需的。為了提高數(shù)據(jù)的吞吐量,在一些關(guān)鍵方面對(duì)POSIX的語(yǔ)義做了一些修改。

大規(guī)模數(shù)據(jù)集
運(yùn)行在Hadoop分布式文件系統(tǒng)HDFS上的應(yīng)用具有很大的數(shù)據(jù)集。HDFS上的一個(gè)典型文件大小一般都在G字節(jié)至T字節(jié)。因此,HDFS被調(diào)節(jié)以支持大文件存儲(chǔ)。它應(yīng)該能提供整體上高的數(shù)據(jù)傳輸帶寬,能在一個(gè)集群里擴(kuò)展到數(shù)百個(gè)節(jié)點(diǎn)。一個(gè)單一的HDFS實(shí)例應(yīng)該能支撐數(shù)以千萬(wàn)計(jì)的文件。

簡(jiǎn)單的一致性模型
HDFS應(yīng)用需要一個(gè)“一次寫(xiě)入多次讀取”的文件訪問(wèn)模型。一個(gè)文件經(jīng)過(guò)創(chuàng)建、寫(xiě)入和關(guān)閉之后就不需要改變。這一假設(shè)簡(jiǎn)化了數(shù)據(jù)一致性問(wèn)題,并且使高吞吐量的數(shù)據(jù)訪問(wèn)成為可能。Map/Reduce應(yīng)用或者網(wǎng)絡(luò)爬蟲(chóng)應(yīng)用都非常適合這個(gè)模型。目前還有計(jì)劃在將來(lái)擴(kuò)充這個(gè)模型,使之支持文件的附加寫(xiě)操作。

“移動(dòng)計(jì)算比移動(dòng)數(shù)據(jù)更劃算”
一個(gè)應(yīng)用請(qǐng)求的計(jì)算,離它操作的數(shù)據(jù)越近就越高效,在數(shù)據(jù)達(dá)到海量級(jí)別的時(shí)候更是如此。因?yàn)檫@樣就能降低網(wǎng)絡(luò)阻塞的影響,提高系統(tǒng)數(shù)據(jù)的吞吐量。將計(jì)算移動(dòng)到數(shù)據(jù)附近,比之將數(shù)據(jù)移動(dòng)到應(yīng)用所在顯然更好。HDFS為應(yīng)用提供了將它們自己移動(dòng)到數(shù)據(jù)附近的接口。

異構(gòu)軟硬件平臺(tái)間的可移植性
HDFS在設(shè)計(jì)的時(shí)候就考慮到平臺(tái)的可移植性。這種特性方便了HDFS作為大規(guī)模數(shù)據(jù)應(yīng)用平臺(tái)的推廣。

Namenode和Datanode
Hadoop分布式文件系統(tǒng)HDFS采用master/slave架構(gòu)。一個(gè)HDFS集群是由一個(gè)Namenode和一定數(shù)目的Datanodes組成。Namenode是一個(gè)中心服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的名字空間(namespace)以及客戶端對(duì)文件的訪問(wèn)。集群中的Datanode一般是一個(gè)節(jié)點(diǎn)一個(gè),負(fù)責(zé)管理它所在節(jié)點(diǎn)上的存儲(chǔ)。HDFS暴露了文件系統(tǒng)的名字空間,用戶能夠以文件的形式在上面存儲(chǔ)數(shù)據(jù)。從內(nèi)部看,一個(gè)文件其實(shí)被分成一個(gè)或多個(gè)數(shù)據(jù)塊,這些塊存儲(chǔ)在一組Datanode上。Namenode執(zhí)行文件系統(tǒng)的名字空間操作,比如打開(kāi)、關(guān)閉、重命名文件或目錄。它也負(fù)責(zé)確定數(shù)據(jù)塊到具體Datanode節(jié)點(diǎn)的映射。Datanode負(fù)責(zé)處理文件系統(tǒng)客戶端的讀寫(xiě)請(qǐng)求。在Namenode的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制。

Namenode和Datanode被設(shè)計(jì)成可以在普通的商用機(jī)器上運(yùn)行。這些機(jī)器一般運(yùn)行著GNU/Linux操作系統(tǒng)(OS)。HDFS采用Java語(yǔ)言開(kāi)發(fā),因此任何支持Java的機(jī)器都可以部署Namenode或Datanode。由于采用了可移植性極強(qiáng)的Java語(yǔ)言,使得HDFS可以部署到多種類型的機(jī)器上。一個(gè)典型的部署場(chǎng)景是一臺(tái)機(jī)器上只運(yùn)行一個(gè)Namenode實(shí)例,而集群中的其它機(jī)器分別運(yùn)行一個(gè)Datanode實(shí)例。這種架構(gòu)并不排斥在一臺(tái)機(jī)器上運(yùn)行多個(gè)Datanode,只不過(guò)這樣的情況比較少見(jiàn)。
集群中單一Namenode的結(jié)構(gòu)大大簡(jiǎn)化了系統(tǒng)的架構(gòu)。Namenode是所有HDFS元數(shù)據(jù)的仲裁者和管理者,這樣,用戶數(shù)據(jù)永遠(yuǎn)不會(huì)流過(guò)Namenode。本節(jié)關(guān)于Hadoop分布式文件系統(tǒng)方面的介紹到這里。
 

【編輯推薦】

  1. Hadoop集群搭建過(guò)程中相關(guān)環(huán)境配置詳解
  2. Hadoop完全分布模式安裝實(shí)現(xiàn)詳解
  3. 專家講解 Hadoop:HBASE松散數(shù)據(jù)存儲(chǔ)設(shè)計(jì)
  4. 兩種模式運(yùn)行Hadoop分布式并行程序
  5. Hadoop應(yīng)用之Hadoop安裝篇

 

 

責(zé)任編輯:佚名 來(lái)源: csdn.net
相關(guān)推薦

2011-07-15 17:48:27

Platform

2010-11-01 05:50:46

分布式文件系統(tǒng)

2018-03-01 16:26:30

HDFSHadoop系統(tǒng)

2018-07-06 09:16:22

HadoopRAID文件系統(tǒng)

2017-10-17 08:33:31

存儲(chǔ)系統(tǒng)分布式

2018-08-14 10:44:58

HadoopHDFS命令

2016-09-14 23:51:23

2010-11-15 13:24:07

分布式文件系統(tǒng)

2013-01-07 10:29:31

大數(shù)據(jù)

2012-08-31 16:04:11

HDFS分布式文件系統(tǒng)

2013-06-18 14:00:59

HDFS分布式文件系統(tǒng)

2012-09-19 13:43:13

OpenAFS分布式文件系統(tǒng)

2012-09-19 15:05:24

MogileFS分布式文件系統(tǒng)

2018-01-18 17:14:58

分布式文件系統(tǒng)FastDFS

2013-05-27 14:46:06

文件系統(tǒng)分布式文件系統(tǒng)

2012-07-20 14:40:22

2022-09-13 07:51:08

JuiceFS分布式文件系統(tǒng)

2020-01-03 08:33:57

Ceph硬件系統(tǒng)

2011-03-16 14:23:38

分布式文件

2012-05-10 15:23:53

分布式文件系統(tǒng)測(cè)試
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)