自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大規(guī)模集群下的Hadoop NameNode

大數(shù)據(jù) Hadoop
本文我們來看看,如果大量客戶端對(duì)NameNode發(fā)起高并發(fā)(比如每秒上千次)訪問來修改元數(shù)據(jù),此時(shí)NameNode該如何抗住?

本文我們來看看,如果大量客戶端對(duì)NameNode發(fā)起高并發(fā)(比如每秒上千次)訪問來修改元數(shù)據(jù),此時(shí)NameNode該如何抗住?

一、問題源起

我們先來分析一下,高并發(fā)請(qǐng)求NameNode會(huì)遇到什么樣的問題。

大家現(xiàn)在都知道了,每次請(qǐng)求NameNode修改一條元數(shù)據(jù)(比如說申請(qǐng)上傳一個(gè)文件,那么就需要在內(nèi)存目錄樹中加入一個(gè)文件),都要寫一條edits log,包括兩個(gè)步驟:

寫入本地磁盤。

通過網(wǎng)絡(luò)傳輸給JournalNodes集群。

但是如果對(duì)Java有一定了解的同學(xué)都該知道多線程并發(fā)安全問題吧?

NameNode在寫edits log時(shí)的***條原則:

必須保證每條edits log都有一個(gè)全局順序遞增的transactionId(簡(jiǎn)稱為txid),這樣才可以標(biāo)識(shí)出來一條一條的edits log的先后順序。

那么如果要保證每條edits log的txid都是遞增的,就必須得加鎖。

每個(gè)線程修改了元數(shù)據(jù),要寫一條edits log的時(shí)候,都必須按順序排隊(duì)獲取鎖后,才能生成一個(gè)遞增的txid,代表這次要寫的edits log的序號(hào)。

好的,那么問題來了,大家看看下面的圖。

如果每次都是在一個(gè)加鎖的代碼塊里,生成txid,然后寫磁盤文件edits log,網(wǎng)絡(luò)請(qǐng)求寫入journalnodes一條edits log,會(huì)咋樣?

大規(guī)模集群下的Hadoop NameNode

不用說,這個(gè)絕對(duì)完蛋了!

NameNode本身用多線程接收多個(gè)客戶端發(fā)送過來的并發(fā)的請(qǐng)求,結(jié)果多個(gè)線程居然修改完內(nèi)存中的元數(shù)據(jù)之后,排著隊(duì)寫edits log!

而且你要知道,寫本地磁盤 + 網(wǎng)絡(luò)傳輸給journalnodes,都是很耗時(shí)的啊!性能兩大殺手:磁盤寫 + 網(wǎng)絡(luò)寫!

如果HDFS的架構(gòu)真要是這么設(shè)計(jì)的話,基本上NameNode能承載的每秒的并發(fā)數(shù)量就很少了,可能就每秒處理幾十個(gè)并發(fā)請(qǐng)求處理?yè)嗡懒?

二、HDFS優(yōu)雅的解決方案

所以說,針對(duì)這個(gè)問題,人家HDFS是做了不少的優(yōu)化的!

首先大家想一下,既然咱們不希望每個(gè)線程寫edits log的時(shí)候,串行化排隊(duì)生成txid + 寫磁盤 + 寫JournalNode,那么是不是可以搞一個(gè)內(nèi)存緩沖?

也就是說,多個(gè)線程可以快速的獲取鎖,生成txid,然后快速的將edits log寫入內(nèi)存緩沖。

接著就快速的釋放鎖,讓下一個(gè)線程繼續(xù)獲取鎖后,生成id + 寫edits log進(jìn)入內(nèi)存緩沖。

然后接下來有一個(gè)線程可以將內(nèi)存中的edits log刷入磁盤,但是在這個(gè)過程中,還是繼續(xù)允許其他線程將edits log寫入內(nèi)存緩沖中。

但是這里又有一個(gè)問題了,如果針對(duì)同一塊內(nèi)存緩沖,同時(shí)有人寫入,還同時(shí)有人讀取后寫磁盤,那也有問題,因?yàn)椴荒懿l(fā)讀寫一塊共享內(nèi)存數(shù)據(jù)!

所以HDFS在這里采取了double-buffer雙緩沖機(jī)制來處理!將一塊內(nèi)存緩沖分成兩個(gè)部分:

其中一個(gè)部分可以寫入

另外一個(gè)部分用于讀取后寫入磁盤和JournalNodes。

大家可能感覺文字?jǐn)⑹霾惶庇^,老規(guī)矩,咱們來一張圖,按順序給大家闡述一下。

大規(guī)模集群下的Hadoop NameNode

(1)分段加鎖機(jī)制 + 內(nèi)存雙緩沖機(jī)制

首先各個(gè)線程依次***次獲取鎖,生成順序遞增的txid,然后將edits log寫入內(nèi)存雙緩沖的區(qū)域1,接著就立馬***次釋放鎖了。

趁著這個(gè)空隙,后面的線程就可以再次立馬***次獲取鎖,然后立即寫自己的edits log到內(nèi)存緩沖。

寫內(nèi)存那么快,可能才耗時(shí)幾十微妙,接著就立馬***次釋放鎖了。所以這個(gè)并發(fā)優(yōu)化絕對(duì)是有效果的,大家有沒有感受到?

接著各個(gè)線程競(jìng)爭(zhēng)第二次獲取鎖,有線程獲取到鎖之后,就看看,有沒有誰在寫磁盤和網(wǎng)絡(luò)?

如果沒有,好,那么這個(gè)線程是個(gè)幸運(yùn)兒!直接交換雙緩沖的區(qū)域1和區(qū)域2,接著第二次釋放鎖。這個(gè)過程相當(dāng)快速,內(nèi)存里判斷幾個(gè)條件,耗時(shí)不了幾微秒。

好,到這一步為止,內(nèi)存緩沖已經(jīng)被交換了,后面的線程可以立馬快速的依次獲取鎖,然后將edits log寫入內(nèi)存緩沖的區(qū)域2,區(qū)域1中的數(shù)據(jù)被鎖定了,不能寫。

怎么樣,是不是又感受到了一點(diǎn)點(diǎn)多線程并發(fā)的優(yōu)化?

(2)多線程并發(fā)吞吐量的百倍優(yōu)化

接著,之前那個(gè)幸運(yùn)兒線程,將內(nèi)存緩沖的區(qū)域1中的數(shù)據(jù)讀取出來(此時(shí)沒人寫區(qū)域1了,都在寫區(qū)域2),將里面的edtis log都寫入磁盤文件,以及通過網(wǎng)絡(luò)寫入JournalNodes集群。

這個(gè)過程可是很耗時(shí)的!但是沒關(guān)系啊,人家做過優(yōu)化了,在寫磁盤和網(wǎng)絡(luò)的過程中,是不持有鎖的!

因此后面的線程可以噼里啪啦的快速的***次獲取鎖后,立馬寫入內(nèi)存緩沖的區(qū)域2,然后釋放鎖。

這個(gè)時(shí)候大量的線程都可以快速的寫入內(nèi)存,沒有阻塞和卡頓!

怎么樣?并發(fā)優(yōu)化的感覺感受到了沒有!

(3)緩沖數(shù)據(jù)批量刷磁盤 + 網(wǎng)絡(luò)的優(yōu)化

那么在幸運(yùn)兒線程吭哧吭哧把數(shù)據(jù)寫磁盤和網(wǎng)絡(luò)的過程中,排在后面的大量線程,快速的***次獲取鎖,寫內(nèi)存緩沖區(qū)域2,釋放鎖,之后,這些線程第二次獲取到鎖后會(huì)干嘛?

他們會(huì)發(fā)現(xiàn)有人在寫磁盤啊,兄弟們!所以會(huì)立即休眠1秒,釋放鎖。

此時(shí)大量的線程并發(fā)過來的話,都會(huì)在這里快速的第二次獲取鎖,然后發(fā)現(xiàn)有人在寫磁盤和網(wǎng)絡(luò),快速的釋放鎖,休眠。

怎么樣,這個(gè)過程沒有人長(zhǎng)時(shí)間的阻塞其他人吧!因?yàn)槎紩?huì)快速的釋放鎖,所以后面的線程還是可以迅速的***次獲取鎖后寫內(nèi)存緩沖!

again!并發(fā)優(yōu)化的感覺感受到了沒有?

而且這時(shí),一定會(huì)有很多線程發(fā)現(xiàn),好像之前那個(gè)幸運(yùn)兒線程的txid是排在自己之后的,那么肯定就把自己的edits log從緩沖里寫入磁盤和網(wǎng)絡(luò)了。

這些線程甚至都不會(huì)休眠等待,直接就會(huì)返回后去干別的事情了,壓根兒不會(huì)卡在這里。這里又感受到并發(fā)的優(yōu)化沒有?

然后那個(gè)幸運(yùn)兒線程寫完磁盤和網(wǎng)絡(luò)之后,就會(huì)喚醒之前休眠的那些線程。

那些線程會(huì)依次排隊(duì)再第二次獲取鎖后進(jìn)入判斷,咦!發(fā)現(xiàn)沒有人在寫磁盤和網(wǎng)絡(luò)了!

然后就會(huì)再判斷,有沒有排在自己之后的線程已經(jīng)將自己的edtis log寫入磁盤和網(wǎng)絡(luò)了。

如果有的話,就直接返回了。

沒有的話,那么就成為第二個(gè)幸運(yùn)兒線程,交換兩塊緩沖區(qū),區(qū)域1和區(qū)域2交換一下。

然后釋放鎖,自己開始吭哧吭哧的將區(qū)域2的數(shù)據(jù)寫入磁盤和網(wǎng)絡(luò)。

但是這個(gè)時(shí)候沒有關(guān)系啊,后面的線程如果要寫edits log的,還是可以***次獲取鎖后立馬寫內(nèi)存緩沖再釋放鎖。以此類推。

三、總結(jié)

其實(shí)這套機(jī)制還是挺復(fù)雜的,涉及到了分段加鎖以及內(nèi)存雙緩沖兩個(gè)機(jī)制。

通過這套機(jī)制,NameNode保證了多個(gè)線程在高并發(fā)的修改元數(shù)據(jù)之后寫edits log的時(shí)候,不會(huì)說一個(gè)線程一個(gè)線程的寫磁盤和網(wǎng)絡(luò),那樣性能實(shí)在太差,并發(fā)能力太弱了!

所以通過上述那套復(fù)雜的機(jī)制,盡***的努力保證,一個(gè)線程可以批量的將一個(gè)緩沖中的多條edits log刷入磁盤和網(wǎng)絡(luò)。

在這個(gè)漫長(zhǎng)的吭哧吭哧的過程中,其他的線程可以快速的高并發(fā)寫入edits log到內(nèi)存緩沖里,不會(huì)阻塞其他的線程寫edits log。

所以,正是依靠以上機(jī)制,***限度優(yōu)化了NameNode處理高并發(fā)訪問修改元數(shù)據(jù)的能力!

責(zé)任編輯:未麗燕 來源: 搜狐
相關(guān)推薦

2023-02-17 07:41:18

KubernetePrometheus

2010-12-23 11:01:19

集群FTPFTP代理

2015-06-11 13:24:27

集群運(yùn)維

2015-08-31 05:51:37

集群運(yùn)維私有云

2021-08-29 20:02:38

高并發(fā)集群部署

2016-08-12 15:40:17

CCEKubernetes華為

2015-10-12 15:11:36

GoogleBorg集群管理

2015-10-13 11:06:36

谷歌Google Borg集群管理

2015-09-07 12:06:10

51CTO技術(shù)周刊集群運(yùn)維

2020-07-27 08:23:15

HadoopPrometheusZabbix

2022-05-11 09:34:15

云原生集群數(shù)倉(cāng)

2015-06-26 09:17:28

WOT2015360孔德亮

2019-10-09 09:39:15

PythonHDFS大數(shù)據(jù)

2019-10-09 10:00:02

集群故障場(chǎng)景

2020-04-09 11:56:10

Elasticsear集群硬件

2011-07-15 17:12:15

云計(jì)算SkyptLync

2024-06-07 14:01:29

2015-07-28 15:58:26

2013-07-11 13:39:23

Hadoop

2022-02-17 20:16:15

DDOS網(wǎng)絡(luò)攻擊
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)