自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Hadoop性能優(yōu)化功能測試詳解

開發(fā) 架構(gòu) Hadoop
Hadoop性能你是否了解,這里就向大家介紹一下hadoop性能優(yōu)化功能測試方面的內(nèi)容,歡迎大家一起來學(xué)習(xí),相信本文的介紹一定會讓你受益。

本節(jié)向大家介紹一下hadoop性能優(yōu)化功能測試方面的內(nèi)容,在學(xué)習(xí)Hadoop的過程中,此類的問題你可能時常會遇到,在這里和大家分享一下,歡迎大家一起來學(xué)習(xí)hadoop性能優(yōu)化的知識。

hadoop性能優(yōu)化功能測試
以下是分別就配置了機架感知信息和沒有配置機架感知信息的hadoopHDFS啟動instance進行的數(shù)據(jù)上傳時的測試結(jié)果。

寫入數(shù)據(jù)

當(dāng)沒有配置機架信息時,所有的機器hadoop都默認在同一個默認的機架下,名為“/default-rack”,這種情況下,任何一臺datanode機器,不管物理上是否屬于同一個機架,都
會被認為是在同一個機架下,此時,就很容易出現(xiàn)之前提到的增添機架間網(wǎng)絡(luò)負載的情況。例如,對沒有機架信息的hadoopHDFS啟動instance上傳一個文件,其block信息如下:
從上圖可以看出,在沒有機架信息的情況下,namenode默認將所有的slaves機器全部默認為在/default-rack下,根據(jù)hadoop代碼的分析也能知道哦啊,此時在寫block時,三個
datanode機器的選擇完全是隨機的。

而hadoop性能優(yōu)化功能測試時當(dāng)配置了機架感知信息以后,hadoop在選擇三個datanode時,就會進行相應(yīng)的判斷:

1.如果上傳本機不是一個datanode,而是一個客戶端,那么就從所有slave機器中隨機選擇一臺datanode作為***個塊的寫入機器(datanode1)。
a)而此時如果上傳機器本身就是一個datanode(例如mapreduce作業(yè)中task通過DFSClient向hdfs寫入數(shù)據(jù)的時候),那么就將該datanode本身作為***個塊寫入機器(datanode1)
。
2.隨后在datanode1所屬的機架以外的另外的機架上,隨機的選擇一臺,作為第二個block的寫入datanode機器(datanode2)。

3.在寫第三個block前,先判斷是否前兩個datanode是否是在同一個機架上,如果是在同一個機架,那么就嘗試在另外一個機架上選擇第三個datanode作為寫入機器(datanode3)。
而如果datanode1和datanode2沒有在同一個機架上,則在datanode2所在的機架上選擇一臺datanode作為datanode3。

4.得到3個datanode的列表以后,從namenode返回該列表到DFSClient之前,會在namenode端首先根據(jù)該寫入客戶端跟datanode列表中每個datanode之間的“距離”由近到遠進行一
個排序。如果此時DFS寫入端不是datanode,則選擇datanode列表中的***個排在***位??蛻舳烁鶕?jù)這個順序有近到遠的進行數(shù)據(jù)塊的寫入。在此,判斷兩個datanode之間“距
離”的算法就比較關(guān)鍵,hadoop目前實現(xiàn)如下,以兩個表示datanode的對象DatanodeInfo(node1,node2)為例:
a)首先根據(jù)node1和node2對象分別得出兩個datanode在整個hdfs集群中所處的層次。這里的層次概念需要解釋一下:每個datanode在hdfs集群中所處的層次結(jié)構(gòu)字符串是這樣描述
的,假設(shè)hdfs的拓撲結(jié)構(gòu)如下:

每個datanode都會對應(yīng)自己在集群中的位置和層次,如node1的位置信息為“/rack1/datanode1”,那么它所處的層次就為2,其余類推。
b)得到兩個node的層次后,會沿著每個node所處的拓樸樹中的位置向上查找,如“/rack1/datanode1”的上一級就是“/rack1”,此時兩個節(jié)點之間的距離加1,兩個node分別同
上向上查找,直到找到共同的祖先節(jié)點位置,此時所得的距離數(shù)就用來代表兩個節(jié)點之間的距離。所以,如上圖所示,node1和node2之間的距離就為4.

5.當(dāng)根據(jù)“距離”排好序的datanode節(jié)點列表返回給DFSClient以后,DFSClient便會創(chuàng)建BlockOutputStream,并想這次block寫入pipeline中的***個節(jié)點(最近的節(jié)點)開始
寫入block數(shù)據(jù)。

6.寫完***個block以后,依次按照datanode列表中的次遠的node進行寫入,直到***一個block寫入成功,DFSClient返回成功,該block寫入操作結(jié)束。
通過以上策略,namenode在選擇數(shù)據(jù)塊的寫入datanode列表時,就充分考慮到了將block副本分散在不同機架下,并同時盡量的避免了之前描述的網(wǎng)絡(luò)多于開銷。
對配置了機架信息的hadoopHDFS啟動instance上傳一個文件,其block信息如下:
從上圖可以看出,在配置了機架信息的情況下,為了減少機架間的網(wǎng)絡(luò)流量,namenode會將其中兩個副本寫在同一個機架上,并且為了盡量做到容錯,會將第三個block寫道另一
個機架上的datanode上??匆幌耯adoop性能優(yōu)化功能測試如何讀取數(shù)據(jù)。

讀取數(shù)據(jù)

當(dāng)對某個文件的某個block進行讀取的時候,hadoop采取的策略也是一樣:
1.首先得到這個block所在的datanode的列表,有幾個副本數(shù)該列表就有幾個datanode。
2.根據(jù)列表中datanode距離讀取端的距離進行從小到大的排序:
a)首先查找本地是否存在該block的副本,如果存在,則將本地datanode作為***個讀取該block的datanode
b)然后查找本地的同一個rack下是否有保存了該block副本的datanode
c)***如果都沒有找到,或者讀取數(shù)據(jù)的node本身不是datanode節(jié)點,則返回datanode列表的一個隨機順序。本節(jié)關(guān)于hadoop性能優(yōu)化功能測試方面的內(nèi)容介紹到這里。

【編輯推薦】

  1. Hadoop性能優(yōu)化及配置如何實現(xiàn)?
  2. Hadoop集群與Hadoop性能優(yōu)化
  3. 專家講解 Hadoop:HBASE松散數(shù)據(jù)存儲設(shè)計
  4. 兩種模式運行Hadoop分布式并行程序
  5. Hadoop概念及其用法專家講解
責(zé)任編輯:佚名 來源: csdn.net
相關(guān)推薦

2010-05-24 14:59:29

Hadoop集群

2010-03-02 09:53:14

MySQL性能優(yōu)化

2024-03-07 11:03:21

ElasticseaES索引

2023-08-31 08:36:52

.NET性能測試開源

2019-08-02 11:28:45

HadoopYARN調(diào)度系統(tǒng)

2009-09-22 17:25:41

優(yōu)化Hibernate

2011-06-20 14:27:57

Qt Embedded

2010-06-04 09:42:47

Linux 測試cpu

2010-06-04 10:48:15

Hadoop性能

2023-07-10 16:18:18

性能優(yōu)化開發(fā)

2023-11-15 16:35:31

SQL數(shù)據(jù)庫

2011-08-01 16:24:04

XCode CodeTimer 測試

2023-07-31 09:13:13

ValidatorGolang

2010-06-07 09:14:55

Hadoop集群

2010-06-03 13:55:38

Hbase和Hadoo

2020-06-04 16:57:07

移動開發(fā)互聯(lián)網(wǎng)實踐

2010-06-04 16:07:09

Linux 性能測試工

2024-06-11 00:00:03

網(wǎng)關(guān)限流算法

2009-11-19 10:55:33

Visual Stud

2010-04-22 17:27:22

Oracle性能
點贊
收藏

51CTO技術(shù)棧公眾號