分布式系統(tǒng)的“腦裂”到底是個(gè)什么玩意?
本文轉(zhuǎn)載自微信公眾號(hào)「程序新視界」,作者丑胖俠二師兄 。轉(zhuǎn)載本文請(qǐng)聯(lián)系程序新視界公眾號(hào)。
目前大多數(shù)項(xiàng)目都在往分布式上發(fā)展,一旦系統(tǒng)采用分布式系統(tǒng),便會(huì)引入更多復(fù)雜場(chǎng)景和解決方案。比如,當(dāng)你在系統(tǒng)中使用了Elasticsearch、ZooKeeper集群時(shí),你是否了解過(guò)集群的“腦裂”現(xiàn)象?又是否知道它們是如何解決腦裂問(wèn)題的?
如果這些都還未了解,那么你對(duì)分布式的了解過(guò)于表象了,推薦你讀一讀這篇文章。
下面就以zookeeper為例,帶大家了解一下分布式系統(tǒng)中的腦裂現(xiàn)象及如何解決。
什么是腦裂?
在Elasticsearch、ZooKeeper這些集群環(huán)境中,有一個(gè)共同的特點(diǎn),就是它們有一個(gè)“大腦”。比如,Elasticsearch集群中有Master節(jié)點(diǎn),ZooKeeper集群中有Leader節(jié)點(diǎn)。
集群中的Master或Leader節(jié)點(diǎn)往往是通過(guò)選舉產(chǎn)生的。在網(wǎng)絡(luò)正常的情況下,可以順利的選舉出Leader(后續(xù)以Zookeeper命名為例)。但當(dāng)兩個(gè)機(jī)房之間的網(wǎng)絡(luò)通信出現(xiàn)故障時(shí),選舉機(jī)制就有可能在不同的網(wǎng)絡(luò)分區(qū)中選出兩個(gè)Leader。當(dāng)網(wǎng)絡(luò)恢復(fù)時(shí),這兩個(gè)Leader該如何處理數(shù)據(jù)同步?又該聽(tīng)誰(shuí)的?這也就出現(xiàn)了“腦裂”現(xiàn)象。
通俗的講,腦裂(split-brain)就是“大腦分裂”,本來(lái)一個(gè)“大腦”被拆分成兩個(gè)或多個(gè)。試想,如果一個(gè)人有多個(gè)大腦,且相互獨(dú)立,就會(huì)導(dǎo)致人體“手舞足蹈”,“不聽(tīng)使喚”。
了解了腦裂的基本概念,下面就以zookeeper集群的場(chǎng)景為例,來(lái)分析一下腦裂的發(fā)生。
zookeeper集群中的腦裂
我們?cè)谑褂脄ookeeper時(shí),很少遇到腦裂現(xiàn)象,是因?yàn)閦ookeeper已經(jīng)采取了相應(yīng)的措施來(lái)減少或避免腦裂的發(fā)生,這個(gè)后面會(huì)講到Zookeeper的具體解決方案?,F(xiàn)在呢,先假設(shè)zookeeper沒(méi)有采取這些防止腦裂的措施。在這種情況下,看看腦裂問(wèn)題是如何發(fā)生的。
現(xiàn)有6臺(tái)zkServer服務(wù)組成了一個(gè)集群,部署在2個(gè)機(jī)房:
腦裂
正常情況下,該集群只有會(huì)有個(gè)Leader,當(dāng)Leader宕掉時(shí),其他5個(gè)服務(wù)會(huì)重新選舉出一個(gè)新的Leader。
如果機(jī)房1和機(jī)房2之間的網(wǎng)絡(luò)出現(xiàn)故障,暫時(shí)不考慮Zookeeper的過(guò)半機(jī)制,那么就會(huì)出現(xiàn)下圖的情況:
腦裂
也就是說(shuō)機(jī)房2的三臺(tái)服務(wù)檢測(cè)到?jīng)]有Leader了,于是開(kāi)始重新選舉,選舉出一個(gè)新Leader來(lái)。原本一個(gè)集群,被分成了兩個(gè)集群,同時(shí)出現(xiàn)了兩個(gè)“大腦”,這就是所謂的“腦裂”現(xiàn)象。
由于原本的一個(gè)集群變成了兩個(gè),都對(duì)外提供服務(wù)。一段時(shí)間之后,兩個(gè)集群之間的數(shù)據(jù)可能會(huì)變得不一致了。當(dāng)網(wǎng)絡(luò)恢復(fù)時(shí),就面臨著誰(shuí)當(dāng)Leader,數(shù)據(jù)怎么合并,數(shù)據(jù)沖突怎么解決等問(wèn)題。
當(dāng)然,上面的過(guò)程只是我們假設(shè)Zookeeper不做任何預(yù)防腦裂措施時(shí)會(huì)出現(xiàn)的問(wèn)題。那么,針對(duì)腦裂問(wèn)題,Zookeeper是如何進(jìn)行處理的呢?
Zookeeper的過(guò)半原則
防止腦裂的措施有多種,Zookeeper默認(rèn)采用的是“過(guò)半原則”。所謂的過(guò)半原則就是:在Leader選舉的過(guò)程中,如果某臺(tái)zkServer獲得了超過(guò)半數(shù)的選票,則此zkServer就可以成為L(zhǎng)eader了。
底層源碼實(shí)現(xiàn)如下:
- public class QuorumMaj implements QuorumVerifier {
- int half;
- // QuorumMaj構(gòu)造方法。
- // 其中,參數(shù)n表示集群中zkServer的個(gè)數(shù),不包括觀察者節(jié)點(diǎn)
- public QuorumMaj(int n){
- this.half = n/2;
- }
- // 驗(yàn)證是否符合過(guò)半機(jī)制
- public boolean containsQuorum(Set<Long> set){
- // half是在構(gòu)造方法里賦值的
- // set.size()表示某臺(tái)zkServer獲得的票數(shù)
- return (set.size() > half);
- }
- }
上述代碼在構(gòu)建QuorumMaj對(duì)象時(shí),傳入了集群中有效節(jié)點(diǎn)的個(gè)數(shù);containsQuorum方法提供了判斷某臺(tái)zkServer獲得的票數(shù)是否超過(guò)半數(shù),其中set.size表示某臺(tái)zkServer獲得的票數(shù)。
上述代碼核心點(diǎn)兩個(gè):第一,如何計(jì)算半數(shù);第二,投票屬于半數(shù)的比較。
以上圖6臺(tái)服務(wù)器為例來(lái)進(jìn)行說(shuō)明:half = 6 / 2 = 3,也就是說(shuō)選舉的時(shí)候,要成為L(zhǎng)eader至少要有4臺(tái)機(jī)器投票才能夠選舉成功。那么,針對(duì)上面2個(gè)機(jī)房斷網(wǎng)的情況,由于機(jī)房1和機(jī)房2都只有3臺(tái)服務(wù)器,根本無(wú)法選舉出Leader。這種情況下整個(gè)集群將沒(méi)有Leader。
腦裂
在沒(méi)有Leader的情況下,會(huì)導(dǎo)致Zookeeper無(wú)法對(duì)外提供服務(wù),所以在設(shè)計(jì)的時(shí)候,我們?cè)诩捍罱ǖ臅r(shí)候,要避免這種情況的出現(xiàn)。
如果兩個(gè)機(jī)房的部署請(qǐng)求部署3:3這種狀況,而是3:2,也就是機(jī)房1中三臺(tái)服務(wù)器,機(jī)房2中兩臺(tái)服務(wù)器:
在上述情況下,先計(jì)算half = 5 / 2 = 2,也就是需要大于2臺(tái)機(jī)器才能選舉出Leader。那么此時(shí),對(duì)于機(jī)房1可以正常選舉出Leader。對(duì)于機(jī)房2來(lái)說(shuō),由于只有2臺(tái)服務(wù)器,則無(wú)法選出Leader。此時(shí)整個(gè)集群只有一個(gè)Leader。
對(duì)于上圖,顛倒過(guò)來(lái)也一樣,比如機(jī)房1只有2臺(tái)服務(wù)器,機(jī)房2有三臺(tái)服務(wù)器,當(dāng)網(wǎng)絡(luò)斷開(kāi)時(shí),選舉情況如下:
Zookeeper集群通過(guò)過(guò)半機(jī)制,達(dá)到了要么沒(méi)有Leader,要沒(méi)只有1個(gè)Leader,這樣就避免了腦裂問(wèn)題。
對(duì)于過(guò)半機(jī)制除了能夠防止腦裂,還可以實(shí)現(xiàn)快速的選舉。因?yàn)檫^(guò)半機(jī)制不需要等待所有zkServer都投了同一個(gè)zkServer就可以選舉出一個(gè)Leader,所以也叫快速領(lǐng)導(dǎo)者選舉算法。
新舊Leader爭(zhēng)奪
通過(guò)過(guò)半原則可以防止機(jī)房分區(qū)時(shí)導(dǎo)致腦裂現(xiàn)象,但還有一種情況就是Leader假死。
假設(shè)某個(gè)Leader假死,其余的followers選舉出了一個(gè)新的Leader。這時(shí),舊的Leader復(fù)活并且仍然認(rèn)為自己是Leader,向其他followers發(fā)出寫(xiě)請(qǐng)求也是會(huì)被拒絕的。
因?yàn)閆ooKeeper維護(hù)了一個(gè)叫epoch的變量,每當(dāng)新Leader產(chǎn)生時(shí),會(huì)生成一個(gè)epoch標(biāo)號(hào)(標(biāo)識(shí)當(dāng)前屬于那個(gè)Leader的統(tǒng)治時(shí)期),epoch是遞增的,followers如果確認(rèn)了新的Leader存在,知道其epoch,就會(huì)拒絕epoch小于現(xiàn)任leader epoch的所有請(qǐng)求。
那有沒(méi)有follower不知道新的Leader存在呢,有可能,但肯定不是大多數(shù),否則新Leader無(wú)法產(chǎn)生。ZooKeeper的寫(xiě)也遵循quorum機(jī)制,因此,得不到大多數(shù)支持的寫(xiě)是無(wú)效的,舊leader即使各種認(rèn)為自己是Leader,依然沒(méi)有什么作用。
ZooKeeper集群節(jié)點(diǎn)為什么要部署成奇數(shù)
上面講了過(guò)半原則,由于Zookeeper默認(rèn)采用的就是這種策略,那就帶來(lái)另外一個(gè)問(wèn)題。集群的數(shù)量設(shè)置為多少合適呢?而我們所看到的Zookeeper節(jié)點(diǎn)數(shù)一般都是奇數(shù),這是為什么呢?
首先,只要集群中有過(guò)半的機(jī)器是正常工作的,那么整個(gè)集群就可對(duì)外服務(wù)。那么我們列舉一些情況,來(lái)看看在這些情況下集群的容錯(cuò)性。
如果有2個(gè)節(jié)點(diǎn),那么只要掛掉1個(gè)節(jié)點(diǎn),集群就不可用了。此時(shí),集群對(duì)的容忍度為0;
如果有3個(gè)節(jié)點(diǎn),那么掛掉1個(gè)節(jié)點(diǎn),還有剩下2個(gè)正常節(jié)點(diǎn),超過(guò)半數(shù),可以重新選舉,正常服務(wù)。此時(shí),集群的容忍度為1;
如果有4個(gè)節(jié)點(diǎn),那么掛掉1個(gè)節(jié)點(diǎn),剩下3個(gè),超過(guò)半數(shù),可以重新選舉。但如果再掛掉1個(gè),只剩下2個(gè),就無(wú)法正常選舉和服務(wù)了。此時(shí),集群的容忍度為1;
依次類(lèi)推,5個(gè)節(jié)點(diǎn),容忍度為2;6個(gè)節(jié)點(diǎn)容忍度同樣為2;
既然3個(gè)節(jié)點(diǎn)和4個(gè)節(jié)點(diǎn)、5個(gè)節(jié)點(diǎn)和6個(gè)節(jié)點(diǎn),也就是2n和2n-1的容忍度是一樣的,都是n-1。那么,為了節(jié)省資源,為了更加高效(更多節(jié)點(diǎn)參與選舉和通信),為什么不少一個(gè)節(jié)點(diǎn)呢?這就是為什么集群要部署成奇數(shù)的原因。
解決腦裂的常見(jiàn)方法
上面提到了Zookeeper使用的過(guò)半原則,這里再把解決腦裂問(wèn)題的場(chǎng)景方式總結(jié)一下。
方法一,Quorums(法定人數(shù))方式
比如3個(gè)節(jié)點(diǎn)的集群,Quorums = 2,也就是說(shuō)集群可以容忍1個(gè)節(jié)點(diǎn)失效,這時(shí)候還能選舉出1個(gè)lead,集群還可用。比如4個(gè)節(jié)點(diǎn)的集群,它的Quorums = 3,Quorums要超過(guò)3,相當(dāng)于集群的容忍度還是1,如果2個(gè)節(jié)點(diǎn)失效,那么整個(gè)集群還是無(wú)效的。這是ZooKeeper防止“腦裂”默認(rèn)采用的方法。
方法二,添加心跳線
集群中采用多種通信方式,防止一種通信方式失效導(dǎo)致集群中的節(jié)點(diǎn)無(wú)法通信。
比如,添加心跳線。原來(lái)只有一條心跳線路,此時(shí)若斷開(kāi),則接收不到心跳報(bào)告,判斷對(duì)方已經(jīng)死亡。若有2條心跳線路,一條斷開(kāi),另一條仍然能夠接收心跳報(bào)告,能保證集群服務(wù)正常運(yùn)行。心跳線路之間也可以 HA(高可用),這兩條心跳線路之間也可以互相檢測(cè),若一條斷開(kāi),則另一條馬上起作用。正常情況下,則不起作用,節(jié)約資源。
方法三,啟動(dòng)磁盤(pán)鎖定方式。
使用磁盤(pán)鎖的形式,保證集群中只能有一個(gè)Leader獲取磁盤(pán)鎖,對(duì)外提供服務(wù),避免數(shù)據(jù)錯(cuò)亂發(fā)生。但是,也會(huì)存在一個(gè)問(wèn)題,若該Leader節(jié)點(diǎn)宕機(jī),則不能主動(dòng)釋放鎖,那么其他的Follower就永遠(yuǎn)獲取不了共享資源。于是有人在HA中設(shè)計(jì)了"智能"鎖。正在服務(wù)的一方只有在發(fā)現(xiàn)心跳線全部斷開(kāi)(察覺(jué)不到對(duì)端)時(shí)才啟用磁盤(pán)鎖。平時(shí)就不上鎖了
方法四,仲裁機(jī)制方式。
腦裂導(dǎo)致的后果是從節(jié)點(diǎn)不知道該連接哪一臺(tái)Leader,此時(shí)有一個(gè)仲裁方就可以解決此問(wèn)題。比如提供一個(gè)參考的IP地址,心跳機(jī)制斷開(kāi)時(shí),節(jié)點(diǎn)各自ping一下參考IP,如果ping不通,那么表示該節(jié)點(diǎn)網(wǎng)絡(luò)已經(jīng)出現(xiàn)問(wèn)題,則該節(jié)點(diǎn)需要自行退出爭(zhēng)搶資源,釋放占有的共享資源,將服務(wù)的提供功能讓給功能更全面的節(jié)點(diǎn)。
以上方式可以同時(shí)使用,可以減少集群中腦裂情況的發(fā)生,但不能完全保證,比如仲裁機(jī)制中2臺(tái)機(jī)器同時(shí)宕機(jī),那么此時(shí)集群中沒(méi)有Leader 可以使用。此時(shí)就需要人工干預(yù)了。
小結(jié)
我們經(jīng)常在說(shuō),我們的系統(tǒng)使用了分布式,但我們真的了解分布式中場(chǎng)景的一些場(chǎng)景和解決方案嗎?通過(guò)本文對(duì)腦裂場(chǎng)景的分析及解決方案介紹,你學(xué)到了嗎?來(lái)一起學(xué)習(xí)吧。