自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="yspnp"></sub>

<style id="yspnp"><li id="yspnp"></li></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Hadoop集群與Hadoop性能優(yōu)化

作者：佚名 2010-05-24 14:59:29

開發(fā) 架構(gòu) Hadoop

本文講解一下Hadoop集群、Hadoop性能優(yōu)化、Hadoop機(jī)架感知實(shí)現(xiàn)、Hadoop配置等，下面是有關(guān)這些命令的具體介紹。

Hadoop性能優(yōu)化：Hadoop機(jī)架感知實(shí)現(xiàn)及配置：分布式的集群通常包含非常多的機(jī)器，由于受到機(jī)架槽位和交換機(jī)網(wǎng)口的限制，通常大型的分布式集群都會(huì)跨好幾個(gè)機(jī)架，由多個(gè)機(jī)架上的機(jī)器共同組成一個(gè)分布式集群。機(jī)架內(nèi)的機(jī)器之間的網(wǎng)絡(luò)速度通常都會(huì)高于跨機(jī)架機(jī)器之間的網(wǎng)絡(luò)速度，并且機(jī)架之間機(jī)器的網(wǎng)絡(luò)通信通常受到上層交換機(jī)間網(wǎng)絡(luò)帶寬的限制。

具體到Hadoop集群，由于Hadoop的HDFS對(duì)數(shù)據(jù)文件的分布式存放是按照分塊block存儲(chǔ)，每個(gè)block會(huì)有多個(gè)副本(默認(rèn)為3)，并且為了數(shù)據(jù)的安全和高效，所以Hadoop默認(rèn)對(duì)3個(gè)副本的存放策略為：
在本地機(jī)器的hdfs目錄下存儲(chǔ)一個(gè)block
在另外一個(gè)rack的某個(gè)datanode上存儲(chǔ)一個(gè)block
在該機(jī)器的同一個(gè)rack下的某臺(tái)機(jī)器上存儲(chǔ)***一個(gè)block
這樣的策略可以保證對(duì)該block所屬文件的訪問(wèn)能夠優(yōu)先在本rack下找到，如果整個(gè)rack發(fā)生了異常，也可以在另外的rack上找到該block的副本。這樣足夠的高效，并且同時(shí)做到了數(shù)據(jù)的容錯(cuò)。

但是，Hadoop對(duì)機(jī)架的感知并非是自適應(yīng)的，亦即，Hadoop集群分辨某臺(tái)slave機(jī)器是屬于哪個(gè)rack并非是只能的感知的，而是需要Hadoop的管理者人為的告知Hadoop哪臺(tái)機(jī)器屬于哪個(gè)rack，這樣在Hadoop的namenode啟動(dòng)初始化時(shí)，會(huì)將這些機(jī)器與rack的對(duì)應(yīng)信息保存在內(nèi)存中，用來(lái)作為對(duì)接下來(lái)所有的HDFS的寫塊操作分配datanode列表時(shí)（比如3個(gè)block對(duì)應(yīng)三臺(tái)datanode）的選擇datanode策略，做到Hadoop allocate block的策略：盡量將三個(gè)副本分布到不同的rack。

接下來(lái)的問(wèn)題就是：通過(guò)什么方式能夠告知Hadoop namenode哪些slaves機(jī)器屬于哪個(gè)rack？以下是配置步驟。

默認(rèn)情況下，Hadoop的機(jī)架感知是沒(méi)有被啟用的。所以，在通常情況下，Hadoop集群的HDFS在選機(jī)器的時(shí)候，是隨機(jī)選擇的，也就是說(shuō)，很有可能在寫數(shù)據(jù)時(shí)，Hadoop將***塊數(shù)據(jù)block1寫到了rack1上，然后隨機(jī)的選擇下將block2寫入到了rack2下，此時(shí)兩個(gè)rack之間產(chǎn)生了數(shù)據(jù)傳輸?shù)牧髁?，再接下?lái)，在隨機(jī)的情況下，又將block3重新又寫回了rack1，此時(shí)，兩個(gè)rack之間又產(chǎn)生了一次數(shù)據(jù)流量。在job處理的數(shù)據(jù)量非常的大，或者往Hadoop推送的數(shù)據(jù)量非常大的時(shí)候，這種情況會(huì)造成rack之間的網(wǎng)絡(luò)流量成倍的上升，成為性能的瓶頸，進(jìn)而影響作業(yè)的性能以至于整個(gè)集群的服務(wù)。
要將Hadoop機(jī)架感知的功能啟用，配置非常簡(jiǎn)單，在namenode所在機(jī)器的Hadoop-site.xml配置文件中配置一個(gè)選項(xiàng)：
topology.script.file.name
/path/to/script

這個(gè)配置選項(xiàng)的value指定為一個(gè)可執(zhí)行程序，通常為一個(gè)腳本，該腳本接受一個(gè)參數(shù)，輸出一個(gè)值。接受的參數(shù)通常為某臺(tái)datanode機(jī)器的ip地址，而輸出的值通常為該ip地址對(duì)應(yīng)的datanode所在的rack，例如”/rack1”。Namenode啟動(dòng)時(shí)，會(huì)判斷該配置選項(xiàng)是否為空，如果非空，則表示已經(jīng)用機(jī)架感知的配置，此時(shí)namenode會(huì)根據(jù)配置尋找該腳本，并在接收到每一個(gè)datanode的heartbeat時(shí)，將該datanode的ip地址作為參數(shù)傳給該腳本運(yùn)行，并將得到的輸出作為該datanode所屬的機(jī)架，保存到內(nèi)存的一個(gè)map中。
至于腳本的編寫，就需要將真實(shí)的網(wǎng)絡(luò)拓樸和機(jī)架信息了解清楚后，通過(guò)該腳本能夠?qū)C(jī)器的ip地址正確的映射到相應(yīng)的機(jī)架上去。一個(gè)簡(jiǎn)單的實(shí)現(xiàn)如下：
#!/usr/bin/perl -w
use strict;
my $ip = $ARGV[0];
my $rack_num = 3;
my @ip_items = split /\./, $ip;
my $ip_count = 0;
foreach my $i (@ip_items) {
$ip_count += $i;
}
my $rack = "/rack".($ip_count % $rack_num);
print "$rack";

功能測(cè)試

以下是分別就配置了機(jī)架感知信息和沒(méi)有配置機(jī)架感知信息的Hadoop HDFS啟動(dòng)instance進(jìn)行的數(shù)據(jù)上傳時(shí)的測(cè)試結(jié)果。

寫入數(shù)據(jù)

當(dāng)沒(méi)有配置機(jī)架信息時(shí)，所有的機(jī)器Hadoop都默認(rèn)在同一個(gè)默認(rèn)的機(jī)架下，名為 “/default-rack”，這種情況下，任何一臺(tái)datanode機(jī)器，不管物理上是否屬于同一個(gè)機(jī)架，都會(huì)被認(rèn)為是在同一個(gè)機(jī)架下，此時(shí)，就很容易出現(xiàn)之前提到的增添機(jī)架間網(wǎng)絡(luò)負(fù)載的情況。例如，對(duì)沒(méi)有機(jī)架信息的Hadoop HDFS啟動(dòng)instance上傳一個(gè)文件，其block信息如下：

在沒(méi)有機(jī)架信息的情況下，namenode默認(rèn)將所有的slaves機(jī)器全部默認(rèn)為在/default-rack下，根據(jù)Hadoop代碼的分析也能知道哦啊，此時(shí)在寫block時(shí)，三個(gè)datanode機(jī)器的選擇完全是隨機(jī)的。

而當(dāng)配置了機(jī)架感知信息以后，Hadoop在選擇三個(gè)datanode時(shí)，就會(huì)進(jìn)行相應(yīng)的判斷：

1.如果上傳本機(jī)不是一個(gè)datanode，而是一個(gè)客戶端，那么就從所有slave機(jī)器中隨機(jī)選擇一臺(tái)datanode作為***個(gè)塊的寫入機(jī)器(datanode1)。
而此時(shí)如果上傳機(jī)器本身就是一個(gè)datanode（例如mapreduce作業(yè)中task通過(guò)DFSClient向hdfs寫入數(shù)據(jù)的時(shí)候），那么就將該datanode本身作為***個(gè)塊寫入機(jī)器(datanode1)。

2.隨后在datanode1所屬的機(jī)架以外的另外的機(jī)架上，隨機(jī)的選擇一臺(tái)，作為第二個(gè)block的寫入datanode機(jī)器(datanode2)。

3.在寫第三個(gè)block前，先判斷是否前兩個(gè)datanode是否是在同一個(gè)機(jī)架上，如果是在同一個(gè)機(jī)架，那么就嘗試在另外一個(gè)機(jī)架上選擇第三個(gè)datanode作為寫入機(jī)器(datanode3)。而如果datanode1和datanode2沒(méi)有在同一個(gè)機(jī)架上，則在datanode2所在的機(jī)架上選擇一臺(tái)datanode作為datanode3。

4.得到3個(gè)datanode的列表以后，從namenode返回該列表到DFSClient之前，會(huì)在namenode端首先根據(jù)該寫入客戶端跟datanode列表中每個(gè)datanode之間的“距離”由近到遠(yuǎn)進(jìn)行一個(gè)排序。如果此時(shí)DFS寫入端不是datanode，則選擇datanode列表中的***個(gè)排在***位。客戶端根據(jù)這個(gè)順序有近到遠(yuǎn)的進(jìn)行數(shù)據(jù)塊的寫入。在此，判斷兩個(gè)datanode之間“距離”的算法就比較關(guān)鍵，Hadoop目前實(shí)現(xiàn)如下，以兩個(gè)表示datanode的對(duì)象DatanodeInfo(node1,node2)為例:

a)首先根據(jù)node1和node2對(duì)象分別得出兩個(gè)datanode在整個(gè)hdfs集群中所處的層次。這里的層次概念需要解釋一下：每個(gè)datanode在hdfs集群中所處的層次結(jié)構(gòu)字符串是這樣描述的，假設(shè)hdfs的拓?fù)浣Y(jié)構(gòu)如下：

每個(gè)datanode都會(huì)對(duì)應(yīng)自己在集群中的位置和層次，如node1的位置信息為“/rack1/datanode1”,那么它所處的層次就為2，其余類推。

b)得到兩個(gè)node的層次后，會(huì)沿著每個(gè)node所處的拓樸樹中的位置向上查找，如“/rack1/datanode1”的上一級(jí)就是“/rack1”，此時(shí)兩個(gè)節(jié)點(diǎn)之間的距離加1，兩個(gè)node分別同上向上查找，直到找到共同的祖先節(jié)點(diǎn)位置，此時(shí)所得的距離數(shù)就用來(lái)代表兩個(gè)節(jié)點(diǎn)之間的距離。所以，如上圖所示，node1和node2之間的距離就為4.

5.當(dāng)根據(jù)“距離”排好序的datanode節(jié)點(diǎn)列表返回給DFSClient以后，DFSClient便會(huì)創(chuàng)建Block OutputStream，并想這次block寫入pipeline中的***個(gè)節(jié)點(diǎn)（最近的節(jié)點(diǎn)）開始寫入block數(shù)據(jù)。

6.寫完***個(gè)block以后，依次按照datanode列表中的次遠(yuǎn)的node進(jìn)行寫入，直到***一個(gè)block寫入成功，DFSClient返回成功，該block寫入操作結(jié)束。
通過(guò)以上策略，namenode在選擇數(shù)據(jù)塊的寫入datanode列表時(shí)，就充分考慮到了將block副本分散在不同機(jī)架下，并同時(shí)盡量的避免了之前描述的網(wǎng)絡(luò)多于開銷。
對(duì)配置了機(jī)架信息的Hadoop HDFS啟動(dòng)instance上傳一個(gè)文件，其block信息如下：
在配置了機(jī)架信息的情況下，為了減少機(jī)架間的網(wǎng)絡(luò)流量，namenode會(huì)將其中兩個(gè)副本寫在同一個(gè)機(jī)架上，并且為了盡量做到容錯(cuò)，會(huì)將第三個(gè)block寫道另一個(gè)機(jī)架上的datanode上。以上介紹Hadoop集群。

【編輯推薦】

Hadoop 從Yahoo向Google的技術(shù)轉(zhuǎn)折
Yahoo公布Hadoop的源代碼
報(bào)告顯示開源軟件越做越好
GPL妨礙了開發(fā)者掙錢？談開源軟件許可的變更
十大***價(jià)值開源軟件 MySQL和Ubuntu上榜

責(zé)任編輯：chenqingxiang

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<thead id="f1b93"></thead>