自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Hadoop集群配置中如何寫入和讀取數(shù)據(jù)?

開(kāi)發(fā) 架構(gòu) Hadoop
Hadoop集群你是否熟悉,本文就像大家介紹一下Hadoop集群性能優(yōu)化中有關(guān)機(jī)架感知配置問(wèn)題,歡迎大家一起來(lái)學(xué)習(xí),希望通過(guò)本文的介紹大家對(duì)機(jī)架感知有所了解。

本節(jié)和大家繼續(xù)學(xué)習(xí)一下有關(guān)Hadoop集群性能優(yōu)化中機(jī)架感知配置方面的內(nèi)容,主要包括寫入數(shù)據(jù)和讀出數(shù)據(jù)兩大部分,希望通過(guò)本節(jié)的介紹大家對(duì)Hadoop集群中機(jī)架感知配置有一定的認(rèn)識(shí)。

Hadoop集群功能測(cè)試

以下是分別就配置了機(jī)架感知信息和沒(méi)有配置機(jī)架感知信息的hadoopHDFS啟動(dòng)instance進(jìn)行的數(shù)據(jù)上傳時(shí)的測(cè)試結(jié)果。

寫入數(shù)據(jù)

當(dāng)沒(méi)有配置機(jī)架信息時(shí),所有的機(jī)器hadoop都默認(rèn)在同一個(gè)默認(rèn)的機(jī)架下,名為“/default-rack”,這種情況下,任何一臺(tái)datanode機(jī)器,不管物理上是否屬于同一個(gè)機(jī)架,都會(huì)被認(rèn)為是在同一個(gè)機(jī)架下,此時(shí),就很容易出現(xiàn)之前提到的增添機(jī)架間網(wǎng)絡(luò)負(fù)載的情況。例如,對(duì)沒(méi)有機(jī)架信息的hadoopHDFS啟動(dòng)instance上傳一個(gè)文件,其block信息如下:
從上圖可以看出,在沒(méi)有機(jī)架信息的情況下,namenode默認(rèn)將所有的slaves機(jī)器全部默認(rèn)為在/default-rack下,根據(jù)hadoop代碼的分析也能知道哦啊,此時(shí)在寫block時(shí),三個(gè)datanode機(jī)器的選擇完全是隨機(jī)的。

而當(dāng)Hadoop集群中配置了機(jī)架感知信息以后,hadoop在選擇三個(gè)datanode時(shí),就會(huì)進(jìn)行相應(yīng)的判斷:

1.如果上傳本機(jī)不是一個(gè)datanode,而是一個(gè)客戶端,那么就從所有slave機(jī)器中隨機(jī)選擇一臺(tái)datanode作為***個(gè)塊的寫入機(jī)器(datanode1)。
a)而此時(shí)如果上傳機(jī)器本身就是一個(gè)datanode(例如mapreduce作業(yè)中task通過(guò)DFSClient向hdfs寫入數(shù)據(jù)的時(shí)候),那么就將該datanode本身作為***個(gè)塊寫入機(jī)器(datanode1)。

2.隨后在datanode1所屬的機(jī)架以外的另外的機(jī)架上,隨機(jī)的選擇一臺(tái),作為第二個(gè)block的寫入datanode機(jī)器(datanode2)。

3.在寫第三個(gè)block前,先判斷是否前兩個(gè)datanode是否是在同一個(gè)機(jī)架上,如果是在同一個(gè)機(jī)架,那么就嘗試在另外一個(gè)機(jī)架上選擇第三個(gè)datanode作為寫入機(jī)器(datanode3)。而如果datanode1和datanode2沒(méi)有在同一個(gè)機(jī)架上,則在datanode2所在的機(jī)架上選擇一臺(tái)datanode作為datanode3。

4.得到3個(gè)datanode的列表以后,從namenode返回該列表到DFSClient之前,會(huì)在namenode端首先根據(jù)該寫入客戶端跟datanode列表中每個(gè)datanode之間的“距離”由近到遠(yuǎn)進(jìn)行一個(gè)排序。如果此時(shí)DFS寫入端不是datanode,則選擇datanode列表中的***個(gè)排在***位。客戶端根據(jù)這個(gè)順序有近到遠(yuǎn)的進(jìn)行數(shù)據(jù)塊的寫入。在此,判斷兩個(gè)datanode之間“距離”的算法就比較關(guān)鍵,hadoop目前實(shí)現(xiàn)如下,以兩個(gè)表示datanode的對(duì)象DatanodeInfo(node1,node2)為例:
a)首先根據(jù)node1和node2對(duì)象分別得出兩個(gè)datanode在整個(gè)hdfs集群中所處的層次。這里的層次概念需要解釋一下:每個(gè)datanode在hdfs集群中所處的層次結(jié)構(gòu)字符串是這樣描述的,假設(shè)hdfs的拓?fù)浣Y(jié)構(gòu)如下:

如上圖所示,每個(gè)datanode都會(huì)對(duì)應(yīng)自己在集群中的位置和層次,如node1的位置信息為“/rack1/datanode1”,那么它所處的層次就為2,其余類推。
b)得到兩個(gè)node的層次后,會(huì)沿著每個(gè)node所處的拓樸樹(shù)中的位置向上查找,如“/rack1/datanode1”的上一級(jí)就是“/rack1”,此時(shí)兩個(gè)節(jié)點(diǎn)之間的距離加1,兩個(gè)node分別同上向上查找,直到找到共同的祖先節(jié)點(diǎn)位置,此時(shí)所得的距離數(shù)就用來(lái)代表兩個(gè)節(jié)點(diǎn)之間的距離。所以,如上圖所示,node1和node2之間的距離就為4.
5.當(dāng)根據(jù)“距離”排好序的datanode節(jié)點(diǎn)列表返回給DFSClient以后,DFSClient便會(huì)創(chuàng)建BlockOutputStream,并想這次block寫入pipeline中的***個(gè)節(jié)點(diǎn)(最近的節(jié)點(diǎn))開(kāi)始寫入block數(shù)據(jù)。
6.寫完***個(gè)block以后,依次按照datanode列表中的次遠(yuǎn)的node進(jìn)行寫入,直到***一個(gè)block寫入成功,DFSClient返回成功,該block寫入操作結(jié)束。
通過(guò)以上策略,namenode在選擇數(shù)據(jù)塊的寫入datanode列表時(shí),就充分考慮到了將block副本分散在不同機(jī)架下,并同時(shí)盡量的避免了之前描述的網(wǎng)絡(luò)多于開(kāi)銷。
對(duì)配置了機(jī)架信息的hadoopHDFS啟動(dòng)instance上傳一個(gè)文件,其block信息如下:
從上圖可以看出,在配置了機(jī)架信息的情況下,為了減少機(jī)架間的網(wǎng)絡(luò)流量,namenode會(huì)將其中兩個(gè)副本寫在同一個(gè)機(jī)架上,并且為了盡量做到容錯(cuò),會(huì)將第三個(gè)block寫道另一個(gè)機(jī)架上的datanode上。

讀取數(shù)據(jù)

我們看一下Hadoop集群配置中如何讀取數(shù)據(jù)。當(dāng)對(duì)某個(gè)文件的某個(gè)block進(jìn)行讀取的時(shí)候,hadoop采取的策略也是一樣:

1.首先得到這個(gè)block所在的datanode的列表,有幾個(gè)副本數(shù)該列表就有幾個(gè)datanode。

2.根據(jù)列表中datanode距離讀取端的距離進(jìn)行從小到大的排序:
a)首先查找本地是否存在該block的副本,如果存在,則將本地datanode作為***個(gè)讀取該block的datanode
b)然后查找本地的同一個(gè)rack下是否有保存了該block副本的datanode
c)***如果都沒(méi)有找到,或者讀取數(shù)據(jù)的node本身不是datanode節(jié)點(diǎn),則返回datanode列表的一個(gè)隨機(jī)順序。本節(jié)關(guān)于Hadoop集群相關(guān)內(nèi)容介紹完畢。
 

【編輯推薦】

  1. 實(shí)現(xiàn)Hadoop集群性能優(yōu)化,Hadoop機(jī)架感知如何配置?
  2. 專家指導(dǎo) 如何實(shí)現(xiàn)Hadoop集群搭建
  3. Hadoop文件系統(tǒng)如何快速安裝?
  4. Hadoop集群搭建過(guò)程中相關(guān)環(huán)境配置詳解
  5. Hadoop完全分布模式安裝實(shí)現(xiàn)詳解

 

 

責(zé)任編輯:佚名 來(lái)源: csdn.net
相關(guān)推薦

2023-01-15 17:11:44

Rust

2019-10-10 08:00:00

LinuxWindows分區(qū)

2023-11-03 11:56:34

2010-06-07 09:14:55

Hadoop集群

2012-06-28 10:52:06

Hadoop集群

2013-05-27 14:13:51

Hadoop 2.0.

2021-08-02 15:02:37

Go Excelize 開(kāi)發(fā)

2010-06-04 17:43:12

Hadoop集群搭建

2012-06-25 10:30:06

Hadoop集群

2010-06-03 14:42:47

Hadoop分布式集群

2010-06-04 10:35:14

2010-06-04 18:17:50

Hadoop集群

2010-06-03 15:39:47

Hadoop配置

2020-12-10 10:46:23

PythonExcel圖片

2012-09-18 09:55:44

Hadoop 2.0

2011-04-21 10:05:35

Hadoop集群lzo

2012-08-31 10:00:12

Hadoop云計(jì)算群集網(wǎng)絡(luò)

2013-07-31 10:04:42

hadoopHadoop集群集群和網(wǎng)絡(luò)

2012-11-08 14:47:52

Hadoop集群

2010-06-04 18:06:22

Hadoop集群搭建
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)