東漢末年,他們把「服務(wù)雪崩」玩到了極致
作者 | 悟空聊架構(gòu)
來(lái)源 | 悟空聊架構(gòu)(ID:PassJava666)
滾滾長(zhǎng)江東逝水,浪花淘盡英雄。
是非成敗轉(zhuǎn)頭空。青山依舊在,幾度夕陽(yáng)紅。
-- 來(lái)自《三國(guó)演義》
本篇將會(huì)通過(guò)三國(guó)中的赤壁之戰(zhàn)來(lái)講述周瑜、黃蓋和諸葛亮是怎么把服務(wù)雪崩玩到極致的。
本文已收錄到我的 Github,點(diǎn)擊文末的閱讀原文打開(kāi)。給個(gè)Star吧~
https://github.com/Jackson0714/PassJava-Learning
赤壁之戰(zhàn)
話說(shuō)東漢末年,曹操、孫權(quán)、劉備在長(zhǎng)江赤壁(今湖北蒲圻西北)進(jìn)行了一次爭(zhēng)奪老大位置的大戰(zhàn),這就是有名的赤壁之戰(zhàn)。
一、還原赤壁之戰(zhàn)
曹操統(tǒng)一北方后,南下打敗了劉備,占領(lǐng)荊襄之地后,還想干掉東邊的孫權(quán),于是劉備和孫權(quán)一起聯(lián)合抗擊曹軍八十萬(wàn)大軍。
曹操的軍隊(duì)大部分都是北方的,對(duì)于水上作戰(zhàn)的經(jīng)驗(yàn)非常欠缺,而且很多士兵暈船,于是曹操命令軍隊(duì)將船尾用鐵索相連,減弱了風(fēng)浪顛簸,利于士兵演練。
鐵索連環(huán)-圖片來(lái)源網(wǎng)絡(luò)
我們來(lái)看看周瑜、黃蓋、諸葛亮的對(duì)話:
三人對(duì)話@悟空聊架構(gòu)
黃蓋:曹操是真的蠢啊,把船連著,如果船燒著了,其他船會(huì)跟著一起燒著的。鎖鏈不易解開(kāi),船都逃不了了。我們用火攻,直接把曹軍干趴下。
周瑜:但如何接近他們的船呢?
黃蓋:我用詐降帶幾艘船出發(fā),船上載浸油的干草,等接近曹軍時(shí),點(diǎn)燃干草,沖向曹軍的連環(huán)船,引燃他們的船只。
周瑜:妙啊!可是哪來(lái)的東風(fēng)?
諸葛亮:我來(lái)借東風(fēng)~
赤壁之戰(zhàn)那天,火船乘風(fēng)闖入曹軍船陣,頓時(shí)一片火海。聯(lián)軍乘勢(shì)攻擊,曹軍傷亡慘重,最后以聯(lián)軍大勝結(jié)束,成為了以少勝多的經(jīng)典戰(zhàn)役。
引燃連鎖船-圖片來(lái)源網(wǎng)絡(luò)
二、戰(zhàn)情分析
周瑜和黃蓋看出了連環(huán)船的弱點(diǎn):「如果一只船被燒著了,也會(huì)把連著的船燒著」 。
這就很像我們的系統(tǒng)中出現(xiàn)的服務(wù)雪崩問(wèn)題。
假定我們系統(tǒng)引進(jìn)了微服務(wù)的思想,將多個(gè)服務(wù)進(jìn)行拆分,每個(gè)服務(wù)都是通過(guò)接口調(diào)用來(lái)完成的,看似功能通過(guò)微服務(wù)化后,功能和職責(zé)單一,正是我們想要的。
但隨著業(yè)務(wù)的增長(zhǎng),服務(wù)的數(shù)量也是隨之增多,邏輯也會(huì)更加復(fù)雜,一個(gè)服務(wù)的某個(gè)邏輯需要依賴多個(gè)其他服務(wù)才能完成。假如一個(gè)被依賴的服務(wù)不能向上游的服務(wù)提供服務(wù),則很可能造成雪崩效應(yīng),最后導(dǎo)致整個(gè)服務(wù)不可訪問(wèn)。
就像雪山上某一處出現(xiàn)積雪崩塌的現(xiàn)象,慢慢地帶動(dòng)其他片區(qū)的積雪崩塌,產(chǎn)生了級(jí)聯(lián)反應(yīng),最后造成大片的積雪崩塌,這就是常見(jiàn)的雪崩場(chǎng)景。
「小結(jié)」 一個(gè)服務(wù)失敗,導(dǎo)致整條鏈路的服務(wù)都失敗的場(chǎng)景,稱為服務(wù)雪崩。
那曹軍應(yīng)該怎么避免這個(gè)問(wèn)題呢?別急,后面再看答案。
三、系統(tǒng)中的雪崩效應(yīng)
微服務(wù)之間往往采用 RPC 或者 HTTP 調(diào)用,一般都會(huì)設(shè)置調(diào)用超時(shí)的限制,或者通過(guò)失敗重試機(jī)制來(lái)確保服務(wù)成功執(zhí)行。但如果不考慮服務(wù)的熔斷和限流,還是很容易產(chǎn)生服務(wù)雪崩的。下面用例子來(lái)講解下雪崩效應(yīng)是怎么產(chǎn)生的。
雪崩效應(yīng)
- 我們系統(tǒng)中三個(gè)服務(wù):訂單服務(wù)、商品服務(wù)、庫(kù)存服務(wù)。
- 下單場(chǎng)景:用戶下單了一個(gè)商品,客戶端調(diào)用訂單服務(wù)來(lái)生成預(yù)付款訂單,訂單服務(wù)調(diào)用商品服務(wù)查看下單的哪款商品,商品服務(wù)調(diào)用庫(kù)存服務(wù)判斷這款商品是否有庫(kù)存,如有庫(kù)存,則可以生成預(yù)付款訂單。
- 假定因雙十一流量暴增,庫(kù)存服務(wù)不可用(如響應(yīng)超時(shí)等),庫(kù)存服務(wù)收到的很多請(qǐng)求都未處理完,它將無(wú)法處理更多請(qǐng)求。
- 而上游的商品服務(wù)依賴庫(kù)存服務(wù),商品服務(wù)的超時(shí)和重試機(jī)制會(huì)被執(zhí)行。商品服務(wù)新的調(diào)用不斷產(chǎn)生,會(huì)導(dǎo)致商品服務(wù)的調(diào)用被大量積壓,產(chǎn)生大量的調(diào)用等待和重試調(diào)用,慢慢耗盡商品服務(wù)的資源,比如內(nèi)存,結(jié)果導(dǎo)致商品服務(wù)也宕機(jī)了。
而訂單服務(wù)也會(huì)重走商品服務(wù)的老路。結(jié)果就是三個(gè)服務(wù)都不可用了。
四、造成雪崩的真實(shí)場(chǎng)景
1.4.1 服務(wù)提供者不可用
- 硬件故障:如網(wǎng)絡(luò)故障、硬盤損壞等。
- 程序的 bug:如算法需要占用大量 CPU 的計(jì)算時(shí)間導(dǎo)致 CPU 使用率過(guò)高。
- 緩存擊穿:比如應(yīng)用剛重啟,短時(shí)間內(nèi)緩存是失效的,導(dǎo)致大量請(qǐng)求直接訪問(wèn)到了數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)不堪重負(fù),服務(wù)不可用。
- 秒殺和大促:服務(wù)短時(shí)間承載不了那么多請(qǐng)求量。
1.4.2 重試加大流量
- 用戶連續(xù)重試:比如用戶看到界面上沒(méi)有響應(yīng),所以又操作了一遍,結(jié)果又增加了一倍請(qǐng)求量。
- 程序重試機(jī)制:比如代碼中有多次重試的邏輯,一次失敗后,過(guò)幾秒后再重試,重試個(gè)三次就取消重試,走異常處理分支了。也是增加了請(qǐng)求量。
五、如何防止雪崩
方案
出問(wèn)題前預(yù)防:限流、主動(dòng)降級(jí)、隔離
出問(wèn)題后修復(fù):熔斷、被動(dòng)降級(jí)
六、熔斷原理和算法
1.6.1 熔斷概念
保險(xiǎn)絲熔斷
熔斷這個(gè)概念來(lái)源于電路系統(tǒng)中的保險(xiǎn)絲熔斷。當(dāng)電流過(guò)大時(shí),保險(xiǎn)絲熔斷,防止因電流過(guò)大損壞電器元器件,或因電流過(guò)大,導(dǎo)致元器件熱度過(guò)高,發(fā)生火災(zāi)。
保險(xiǎn)絲長(zhǎng)啥樣
「物理公式」 電功率 P = I^2 * R,I 代表電流,元器件的電阻 R 不變的情況下,電流越大,電功率約大,電阻做的電功大部分都用來(lái)發(fā)熱了,所以電功率越大,發(fā)熱越嚴(yán)重。(還好高中物理沒(méi)忘。)
放到我們系統(tǒng)中,怎么理解熔斷?
如果在某段時(shí)間內(nèi),調(diào)用某個(gè)服務(wù)非常慢甚至超時(shí),就可以將這個(gè)服務(wù)熔斷,后續(xù)其他服務(wù)再調(diào)用這個(gè)服務(wù)就直接返回,告訴其他服務(wù):「“已經(jīng)熔斷了,你別調(diào)用我了,過(guò)段時(shí)間再來(lái)試下吧。”」
1.6.2 如何熔斷
「熔斷有個(gè)原則」 一段時(shí)間內(nèi),統(tǒng)計(jì)失敗的次數(shù)或者失敗請(qǐng)求的占比超過(guò)一定閾值,就進(jìn)行熔斷。
詳細(xì)的原理如下圖所示:
熔斷原理圖&悟空聊架構(gòu)
1.6.3 統(tǒng)計(jì)請(qǐng)求的算法
- 請(qǐng)求訪問(wèn)到后臺(tái)服務(wù)后,首先判斷熔斷開(kāi)關(guān)是否打開(kāi)。
- 如果熔斷開(kāi)關(guān)已打開(kāi),則表明當(dāng)前請(qǐng)求不能被處理。
- 如果熔斷開(kāi)關(guān)未打開(kāi),則判斷時(shí)間窗口是否已滿。
- 如果時(shí)間窗口未滿,則請(qǐng)求桶中的請(qǐng)求數(shù)加 1。
- 如果返回的響應(yīng)有異常,則失敗桶的失敗數(shù)加 1,如果返回的響應(yīng)沒(méi)有異常,則成功桶的成功數(shù)加 1。
- 如果時(shí)間窗口已滿,則開(kāi)始判斷是否需要熔斷。
1.6.4 熔斷的恢復(fù)算法
- 當(dāng)熔斷后,開(kāi)關(guān)切換到斷開(kāi)狀態(tài)。
- 過(guò)一段時(shí)間后,開(kāi)關(guān)切換為半斷開(kāi)狀態(tài)(Half-Open)。半斷開(kāi)狀態(tài)下,允許對(duì)應(yīng)用程序的一定數(shù)量的請(qǐng)求可以去調(diào)用服務(wù),如果調(diào)用成功,則認(rèn)為服務(wù)可以正常訪問(wèn)了,于是將開(kāi)關(guān)切換為閉合狀態(tài)。
- 如果半斷開(kāi)狀態(tài)下,還是有調(diào)用失敗的情況,則認(rèn)為服務(wù)還沒(méi)有恢復(fù),開(kāi)關(guān)從半斷開(kāi)狀態(tài)切換到斷開(kāi)狀態(tài)。
1.6.5 統(tǒng)計(jì)失敗率的時(shí)間窗口
統(tǒng)計(jì)失敗率的時(shí)間窗口@悟空聊架構(gòu)
- 時(shí)間窗口可以比喻為人坐在窗戶邊,看外面來(lái)往的車輛,一定時(shí)間內(nèi)從窗戶外經(jīng)過(guò)的車輛。
- 每次請(qǐng)求,都會(huì)判斷時(shí)間窗口是否已滿(如5分鐘),如果時(shí)間窗口已滿,則重新開(kāi)始計(jì)時(shí),且清理請(qǐng)求數(shù)/成功數(shù)/失敗數(shù)。
- 注意:第一次開(kāi)始的起始時(shí)間默認(rèn)為當(dāng)前時(shí)間。
1.6.6 嘗試恢復(fù)服務(wù)的時(shí)間窗口
嘗試恢復(fù)服務(wù)的時(shí)間窗口@悟空聊架構(gòu)
開(kāi)關(guān)為斷開(kāi)的狀態(tài),經(jīng)過(guò)一定時(shí)間后,比如 1 分鐘,設(shè)置為半斷開(kāi)的狀態(tài),嘗試發(fā)送請(qǐng)求檢測(cè)服務(wù)是否恢復(fù)。
如果已恢復(fù),則切換狀態(tài)為關(guān)閉狀態(tài)。如果未恢復(fù),則切換狀態(tài)為斷開(kāi)的狀態(tài),經(jīng)過(guò) 1 分鐘后,重復(fù)上面的步驟。
這里的時(shí)間窗口可以根據(jù)環(huán)境的運(yùn)行狀態(tài)進(jìn)行動(dòng)態(tài)調(diào)整,比如第一次是 1 分鐘,第二次是 3 分鐘,第三次是 10 分鐘。
七、熔斷中間件
肯定有人會(huì)問(wèn)了,你這上面講的原理,難道還真的自己去寫這套算法?
「答案:是的,項(xiàng)目中我們自己造了一個(gè)輪子:熔斷器。」
但這里我不推薦大家這么做。市面上還有更優(yōu)秀的開(kāi)源組件供大家使用,比如阿里系的 Sentinel(推薦),Netflix 的 Hystrix(已停止更新)。
當(dāng)然 Sentinel 就不在這篇講了,后續(xù)奉上~
八、扭轉(zhuǎn)戰(zhàn)局
曹操大敗是因?yàn)檫B鎖船的原因,那如何給曹操提供一妙計(jì),助他扭轉(zhuǎn)戰(zhàn)局呢?
「方案有如下幾個(gè)」
可以用麻繩代替鎖鏈,因繩子更容易割斷。(熔斷機(jī)制)
將船劃分到幾個(gè)區(qū)域,區(qū)域之間保持一定距離,即使某個(gè)區(qū)域燒著了,也不會(huì)影響其他區(qū)域。(熔斷+資源隔離)
在湖面上提前設(shè)關(guān)卡,黃蓋過(guò)來(lái)的話,先檢查船和人,有問(wèn)題不予通行。(熔斷)
九、限流、降級(jí)
本來(lái)是想在這篇把限流和降級(jí)也寫完的,發(fā)現(xiàn)熔斷的內(nèi)容越寫越多了,那就把限流和降級(jí)放在后面幾篇吧。也是三國(guó)故事哦~
寫在最后
《三國(guó)演義》也是我非常喜歡的一部文學(xué)作品,書大概看了 80 %,電視劇是看完了的。
最喜歡的角色當(dāng)然是軍師諸葛亮啦,還有梟雄曹操~~
本文轉(zhuǎn)載自微信公眾號(hào)「悟空聊架構(gòu)」,可以通過(guò)以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系悟空聊架構(gòu)公眾號(hào)。