自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

騰訊后臺(tái)開發(fā)技術(shù)總監(jiān)淺談過載保護(hù) 小心雪崩效應(yīng)

系統(tǒng)
每個(gè)系統(tǒng),都有自己的最大處理能力,后臺(tái)技術(shù)人員對此必須很清楚,且要注意自我保護(hù),不然就會(huì)被雪球壓垮,出現(xiàn)雪崩。

 雪球:

     對于時(shí)延敏感的服務(wù),當(dāng)外部請求超過系統(tǒng)處理能力,如果系統(tǒng)沒有做相應(yīng)保護(hù),可能導(dǎo)致歷史累計(jì)的超時(shí)請求達(dá)到一定規(guī)模,像雪球一樣形成惡性循環(huán)。由于系統(tǒng)處理的每個(gè)請求都因?yàn)槌瑫r(shí)而無效,系統(tǒng)對外呈現(xiàn)的服務(wù)能力為0,且這種情況下不能自動(dòng)恢復(fù)。

 

       騰訊后臺(tái)開發(fā)技術(shù)總監(jiān)bison,給大家分享了非常精彩的過載保護(hù),其看似簡單,但是要做好并不容易。這里用兩個(gè)曾經(jīng)經(jīng)歷的反面案例,給出過載保護(hù)的直觀展現(xiàn),并附上一點(diǎn)感想。

 

案例一 基本情況

  如下圖,進(jìn)程A是一個(gè)單進(jìn)程系統(tǒng),通過udp套接字接收前端請求進(jìn)行處理。在處理過程中,需要訪問后端系統(tǒng)B,是同步的方式訪問后端系統(tǒng)B,根據(jù)后端系統(tǒng)B的SLA,超時(shí)時(shí)間設(shè)置是100ms。前端用戶請求的超時(shí)時(shí)間是1s。

 

進(jìn)程A的時(shí)序是:

Step1: 從socket接收緩沖區(qū)接收用戶請求

Step2: 進(jìn)行本地邏輯處理

Step3: 發(fā)送請求到后端系統(tǒng)B

Step4: 等待后端系統(tǒng)B返回

Step5: 接收后端系統(tǒng)B的應(yīng)答

Step6: 應(yīng)答前端用戶,回到step1處理下一個(gè)請求

正常情況下的負(fù)載

正常情況下:

1、前端請求報(bào)文大小約100Bytes。前端請求的峰值每分鐘1800次,即峰值每秒30次。

2、后端系統(tǒng)B并行能力較高,每秒可以處理10000次以上,絕大多數(shù)請求處理時(shí)延在20ms內(nèi)。

3、進(jìn)程A在處理請求的時(shí)候,主要時(shí)延是在等待后端系統(tǒng)B,其他本地運(yùn)算耗時(shí)非常少,小于1ms

 

  這個(gè)時(shí)候,我們可以看出,系統(tǒng)工作良好,因?yàn)樘幚頃r(shí)延在20ms內(nèi),每秒進(jìn)程A每秒中可以處理50個(gè)請求,足以將用戶每秒峰值30個(gè)請求及時(shí)處理完。
導(dǎo)火索

  某天,后端系統(tǒng)B進(jìn)行了新特性發(fā)布,由于內(nèi)部邏輯變復(fù)雜,導(dǎo)致每個(gè)請求處理時(shí)延從20ms延長至50ms,根據(jù)sla的100ms超時(shí)時(shí)間,這個(gè)時(shí)延仍然在正常范圍內(nèi)。當(dāng)用戶請求達(dá)到峰值時(shí)間點(diǎn)時(shí),災(zāi)難出現(xiàn)了,用戶每次操作都是“服務(wù)器超時(shí)無響應(yīng)”,整個(gè)服務(wù)不可用。
過載分析

 

    當(dāng)后端系統(tǒng)B處理時(shí)延延長至50ms的時(shí)候,進(jìn)程A每秒只能處理20個(gè)請求(1s / 50ms = 20 )。小于正常情況下的用戶請求峰值30次/s。這個(gè)時(shí)候操作失敗的用戶往往會(huì)重試,我們觀察到前端用戶請求增加了6倍以上,達(dá)到200次/s,是進(jìn)程A最 大處理能力(20次/s)的10倍!

 

    這個(gè)時(shí)候?yàn)槭裁此杏脩舭l(fā)現(xiàn)操作都是失敗的呢? 為什么不是1/10的用戶發(fā)現(xiàn)操作能成功呢? 因?yàn)檎埱罅亢吞幚砟芰χg巨大的差異使得5.6s內(nèi)就迅速填滿了socket接收緩沖區(qū)(平均能緩存1000個(gè)請 求,1000/(200-20)=5.6s),并且該緩沖區(qū)將一直保持滿的狀態(tài)。這意味著,一個(gè)請求被追加到緩沖區(qū)里后,要等待50s(緩存1000個(gè)請 求,每秒處理20個(gè),需要50s)后才能被進(jìn)程A 取出來處理,這個(gè)時(shí)候用戶早就看到操作超時(shí)了。換句話說,進(jìn)程A每次處理的請求,都已經(jīng)是50s以前產(chǎn)生的,進(jìn)程A一直在做無用功。雪球產(chǎn)生了。
案例二 基本情況

  前端系統(tǒng)C通過udp訪問后端serverD,后端server D的udp套接字緩沖區(qū)為4MB,每個(gè)請求大小約400字節(jié)。后端serverD偶爾處理超時(shí)情況下,前端系統(tǒng)C會(huì)重試,最多重試2次。

正常情況下的負(fù)載

  正常情況,后端serverD單機(jī)收到請求峰值為300次/s,后端serverD單機(jī)處理能力是每秒1500次,時(shí)延10ms左右。這個(gè)時(shí)候工作正常。
導(dǎo)火索

   由于產(chǎn)品特性(例如提前通知大量用戶,未來某某時(shí)刻將進(jìn)行一項(xiàng)秒殺活動(dòng);類似奧運(yùn)門票,大量用戶提前得知信息:某日開始發(fā)售門票),大量的用戶聚集在同 一時(shí)刻發(fā)起了大量請求,超出了后臺(tái)serverD的最大負(fù)載能力。操作響應(yīng)失敗的用戶又重試, 中間系統(tǒng)的重試,進(jìn)一步帶來了更大量的請求(正常情況下的9倍)。導(dǎo)致所有用戶操作都是失敗的。
過載分析

   只是導(dǎo)火索不一樣,同案例一,巨大的請求和處理能力之間的鴻溝,導(dǎo)致后端serverD的4M大小的接收緩沖區(qū)迅速填滿(4秒就填滿),且過載時(shí)間內(nèi), 接收緩沖區(qū)一直都是滿的。而處理完緩沖區(qū)內(nèi)的請求,ServerD需要6秒以上(4MB / 400 / 1500 = 6.7S)。所以serverD處理的請求都是6s之前放入緩沖區(qū)的,而該請求在最前端早已經(jīng)超時(shí)。雪球形成了。
啟示

1、  每 個(gè)系統(tǒng),自己的最大處理能力是多少要做到清清楚楚。例如案例一中的前端進(jìn)程A,他的最大處理能力不是50次/s,也不是20次/S,而是10次/S。因?yàn)?它是單進(jìn)程同步的訪問后端B, 且訪問后端B的超時(shí)時(shí)間是100ms,所以他的處理能力就是1S/100ms=10次/S。而平時(shí)處理能力表現(xiàn)為50次/S,只是運(yùn)氣好。

 

2、  每個(gè)系統(tǒng)要做好自我保護(hù),量力而為,而不是盡力而為。對于超出自己處理能力范圍的請求,要勇于拒絕。

 

3、  每個(gè)系統(tǒng)要有能力發(fā)現(xiàn)哪些是有效的請求,哪些是無效的請求。上面兩個(gè)案例中,過載的系統(tǒng)都不具備這中慧眼,逮著請求做死的處理,雪球時(shí)其實(shí)是做無用功。

 

4、  前端系統(tǒng)有保護(hù)后端系統(tǒng)的義務(wù),sla中承諾多大的能力,就只給到后端多大的壓力。這就要求每一個(gè)前后端接口的地方,都有明確的負(fù)載約定,一環(huán)扣一環(huán)。

 

5、  當(dāng)過載發(fā)生時(shí),該拒絕的請求(1、超出整個(gè)系統(tǒng)處理能力范圍的;2、已經(jīng)超時(shí)的無效請求)越早拒絕越好。就像上海機(jī)場到市區(qū)的高速上,剛出機(jī)場就有電子公示牌顯示,進(jìn)入市區(qū)某某路段擁堵,請繞行。

 

6、  對于用戶的重試行為,要適當(dāng)?shù)难泳彙@绲卿洶l(fā)現(xiàn)后端響應(yīng)失敗,再重新展現(xiàn)登錄頁面前,可以適當(dāng)延時(shí)幾秒鐘,并展現(xiàn)進(jìn)度條等友好界面。當(dāng)多次重試還失敗的情況下,要安撫用戶。

 

7、  產(chǎn)品特性設(shè)計(jì)和發(fā)布上,要盡量避免某個(gè)時(shí)刻導(dǎo)致大量用戶集體觸發(fā)某些請求的設(shè)計(jì)。發(fā)布的時(shí)候注意灰度。

 

8、  中間層server對后端發(fā)送請求,重試機(jī)制要慎用,一定要用的話要有嚴(yán)格頻率控制。

 

9、  當(dāng)雪球發(fā)生了,直接清空雪球隊(duì)列(例如重啟進(jìn)程可以清空socket 緩沖區(qū))可能是快速恢復(fù)的有效方法。

 

10、過載保護(hù)很重要的一點(diǎn),不是說要加強(qiáng)系統(tǒng)性能、容量,成功應(yīng)答所有請求,而是保證在高壓下,系統(tǒng)的服務(wù)能力不要陡降到0,而是頑強(qiáng)的對外展現(xiàn)最大有效處理能力。

 

   對于“每個(gè)系統(tǒng)要有能力發(fā)現(xiàn)哪些是有效的請求,哪些是雪球無效的請求”,這里推薦一種方案:在該系統(tǒng)每個(gè)機(jī)器上新增一個(gè)進(jìn)程:interface進(jìn)程。 Interface進(jìn)程能夠快速的從socket緩沖區(qū)中取得請求,打上當(dāng)前時(shí)間戳,壓入channel。業(yè)務(wù)處理進(jìn)程從channel中獲取請求和該請 求的時(shí)間戳,如果發(fā)現(xiàn)時(shí)間戳早于當(dāng)前時(shí)間減去超時(shí)時(shí)間(即已經(jīng)超時(shí),處理也沒有意義),就直接丟棄該請求,或者應(yīng)答一個(gè)失敗報(bào)文。

 

  Channel是一個(gè)先進(jìn)先出的通信方式,可以是socket,也可以是共享內(nèi)存、消息隊(duì)列、或者管道,不限。

 

  Socket緩沖區(qū)要設(shè)置合理,如果過大,導(dǎo)致及時(shí)interface進(jìn)程都需要處理長時(shí)間才能清空該隊(duì)列,就不合適了。建議的大小上限是:緩存住超時(shí)時(shí)間內(nèi)interface進(jìn)程能夠處理掉的請求個(gè)數(shù)(注意考慮網(wǎng)絡(luò)通訊中的元數(shù)據(jù))。

原創(chuàng)文章,轉(zhuǎn)載請注明: 文章地址騰訊后臺(tái)開發(fā)技術(shù)總監(jiān)淺談過載保護(hù) 小心雪崩效應(yīng)

【編輯推薦】

  1. Chkdsk大躍進(jìn):Win8磁盤檢測時(shí)間大大縮短
  2. Linux下使用mke2fsk格式化分區(qū)的方法
  3. Ubuntu 11.10 利用終端環(huán)境備份還原
責(zé)任編輯:趙寧寧
相關(guān)推薦

2012-12-28 14:38:15

阿里云百度云騰訊云

2020-10-26 08:56:32

技術(shù)總監(jiān)程序員

2012-06-26 10:03:06

海量數(shù)據(jù)處理

2018-11-20 09:19:58

存儲(chǔ)系統(tǒng)雪崩效應(yīng)

2014-08-14 10:10:34

設(shè)計(jì)模式熔斷器

2010-09-17 20:40:09

2023-12-05 18:50:24

騰訊安全HaS大模型

2019-03-22 15:15:25

Redis緩存擊穿雪崩效應(yīng)

2018-12-14 08:52:38

過載保護(hù)異構(gòu)服務(wù)器負(fù)載均衡

2009-06-18 16:13:14

J2EE開發(fā)

2023-03-09 11:41:16

2009-11-05 11:18:57

2016-09-21 13:52:53

服務(wù)器負(fù)載過載保護(hù)

2015-05-05 17:21:51

2020-09-26 10:56:33

服務(wù)器熔斷服務(wù)隔離

2011-03-31 09:55:59

Oracle數(shù)據(jù)庫開發(fā)技術(shù)

2011-01-04 15:30:01

編程開發(fā)的物種起源

2009-04-05 10:26:47

2022-05-19 12:04:07

隱私保護(hù)攻擊威脅

2013-11-14 09:58:23

紅帽redhat
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)