詳解Go可用性(六) 熔斷
在前面的幾篇文章當中,無論是令牌桶、漏桶還是自適應限流的方法,總的來說都是服務端的單機限流方式。雖然服務端限流雖然可以幫助我們抗住一定的壓力,但是拒絕請求畢竟還是有成本的。如果我們的本來流量可以支撐 1w rps,加了限流可以支撐在 10w rps 的情況下仍然可以提供 1w rps 的有效請求,但是流量突然再翻了 10 倍,來到 100w rps 那么服務該掛還是得掛。
所以我們的可用性建設不僅僅是服務端做建設就可以萬事大吉了,得在整個鏈路上的每個組件都做好自己的事情才行,今天我們就來一起看一下客戶端上的限流措施:熔斷。
熔斷器
熔斷器[^2]
如上圖[^2]所示,熔斷器存在三個狀態(tài):
關閉(closed): 關閉狀態(tài)下沒有觸發(fā)斷路保護,所有的請求都正常通行
打開(open): 當錯誤閾值觸發(fā)之后,就進入開啟狀態(tài),這個時候所有的流量都會被節(jié)流,不運行通行
半打開(half-open): 處于打開狀態(tài)一段時間之后,會嘗試嘗試放行一個流量來探測當前 server 端是否可以接收新流量,如果這個沒有問題就會進入關閉狀態(tài),如果有問題又會回到打開狀態(tài)
hystrix-go
熔斷器中比較典型的實現(xiàn)就是 hystrix,Golang 也有對應的版本,我們先來看一下 hystrix-go 是怎么實現(xiàn)的
案例
先看一個使用案例,首先我們使用 gin 啟動一個服務端,這個服務端主要是前 200ms 的請求都會返回 500,之后的請求都會返回 200
- func server() {
- e := gin.Default()
- e.GET("/ping", func(ctx *gin.Context) {
- if time.Since(start) < 201*time.Millisecond {
- ctx.String(http.StatusInternalServerError, "pong")
- return
- }
- ctx.String(http.StatusOK, "pong")
- })
- e.Run(":8080")
- }
然后配置 hystrix,hystrix.ConfigureCommand(command name, config) hystrix 的配置是按照每個 command 進行配置,使用的時候我們也需要傳遞一個 command,下面的配置就是我們的請求數(shù)量大于等于 10 個并且錯誤率大于等于 20% 的時候就會觸發(fā)熔斷器開關,熔斷器打開 500ms 之后會進入半打開的狀態(tài),嘗試放一部分請求去訪問
- func main(){
- hystrix.ConfigureCommand("test", hystrix.CommandConfig{
- // 執(zhí)行 command 的超時時間
- Timeout: 10,
- // 最大并發(fā)量
- MaxConcurrentRequests: 100,
- // 一個統(tǒng)計窗口 10 秒內(nèi)請求數(shù)量
- // 達到這個請求數(shù)量后才去判斷是否要開啟熔斷
- RequestVolumeThreshold: 10,
- // 熔斷器被打開后
- // SleepWindow 的時間就是控制過多久后去嘗試服務是否可用了
- // 單位為毫秒
- SleepWindow: 500,
- // 錯誤百分比
- // 請求數(shù)量大于等于 RequestVolumeThreshold 并且錯誤率到達這個百分比后就會啟動熔斷
- ErrorPercentThreshold: 20,
- })
- }
然后我們使用一個循環(huán)當做客戶端代碼,會請求 20 次,每一個請求消耗 100ms
- func main() {
- go server()
- // 這里是 config 代碼
- for i := 0; i < 20; i++ {
- _ = hystrix.Do("test", func() error {
- resp, _ := resty.New().R().Get("http://localhost:8080/ping")
- if resp.IsError() {
- return fmt.Errorf("err code: %s", resp.Status())
- }
- return nil
- }, func(err error) error {
- fmt.Println("fallback err: ", err)
- return err
- })
- time.Sleep(100 * time.Millisecond)
- }
- }
所以我們執(zhí)行的結(jié)果就是,前面 2 個請求報 500,等到發(fā)起了 10 個請求之后就會進入熔斷, 500ms 也就是發(fā)出 5 個請求之后就會重新去請求服務端
image-20210504164650024
hystrix-go 核心實現(xiàn)
核心實現(xiàn)的方法是 AllowRequest,IsOpen判斷當前是否處于熔斷狀態(tài),allowSingleTest就是去看是否過了一段時間需要重新進行嘗試
- func (circuit *CircuitBreaker) AllowRequest() bool {
- return !circuit.IsOpen() || circuit.allowSingleTest()
- }
IsOpen先看當前是否已經(jīng)打開了,如果已經(jīng)打開了就直接返回就行了,如果還沒打開就去判斷
請求數(shù)量是否滿足要求
請求的錯誤率是否過高,如果兩個都滿足就會打開熔斷器
- func (circuit *CircuitBreaker) IsOpen() bool {
- circuit.mutex.RLock()
- o := circuit.forceOpen || circuit.open
- circuit.mutex.RUnlock()
- if o {
- return true
- }
- if uint64(circuit.metrics.Requests().Sum(time.Now())) < getSettings(circuit.Name).RequestVolumeThreshold {
- return false
- }
- if !circuit.metrics.IsHealthy(time.Now()) {
- // too many failures, open the circuit
- circuit.setOpen()
- return true
- }
- return false
- }
hystrix-go已經(jīng)可以比較好的滿足我們的需求,但是存在一個問題就是一旦觸發(fā)了熔斷,在一段時間之類就會被一刀切的攔截請求,所以我們來看看 google sre 的一個實現(xiàn)
Google SRE 過載保護算法
算法如上所示,這個公式計算的是請求被丟棄的概率[^3]
- requests: 一段時間的請求數(shù)量
- accepts: 成功的請求數(shù)量
- K: 倍率,K 越小表示越激進,越小表示越容易被丟棄請求
這個算法的好處是不會直接一刀切的丟棄所有請求,而是計算出一個概率來進行判斷,當成功的請求數(shù)量越少,K越小的時候的值就越大,計算出的概率也就越大,表示這個請求被丟棄的概率越大
Kratos 實現(xiàn)分析
- func (b *sreBreaker) Allow() error {
- // 統(tǒng)計成功的請求,和總的請求
- success, total := b.summary()
- // 計算當前的成功率
- k := b.k * float64(success)
- if log.V(5) {
- log.Info("breaker: request: %d, succee: %d, fail: %d", total, success, total-success)
- }
- // 統(tǒng)計請求量和成功率
- // 如果 rps 比較小,不觸發(fā)熔斷
- // 如果成功率比較高,不觸發(fā)熔斷,如果 k = 2,那么就是成功率 >= 50% 的時候就不熔斷
- if total < b.request || float64(total) < k {
- if atomic.LoadInt32(&b.state) == StateOpen {
- atomic.CompareAndSwapInt32(&b.state, StateOpen, StateClosed)
- }
- return nil
- }
- if atomic.LoadInt32(&b.state) == StateClosed {
- atomic.CompareAndSwapInt32(&b.state, StateClosed, StateOpen)
- }
- // 計算一個概率,當 dr 值越大,那么被丟棄的概率也就越大
- // dr 值是,如果失敗率越高或者是 k 值越小,那么它越大
- dr := math.Max(0, (float64(total)-k)/float64(total+1))
- drop := b.trueOnProba(dr)
- if log.V(5) {
- log.Info("breaker: drop ratio: %f, drop: %t", dr, drop)
- }
- if drop {
- return ecode.ServiceUnavailable
- }
- return nil
- }
- // 通過隨機來判斷是否需要進行熔斷
- func (b *sreBreaker) trueOnProba(proba float64) (truth bool) {
- b.randLock.Lock()
- truth = b.r.Float64() < proba
- b.randLock.Unlock()
- return
- }
總結(jié)
可用性僅靠服務端來保證是不靠譜的,只有整條鏈路上的所有服務都做好了自己可用性相關的建設我們的服務 SLA 最后才能夠有保證。今天我們講了 hystrix-go 和 kratos 兩種熔斷的實現(xiàn)方式,kratos采用 Google SRE 的實現(xiàn)的好處就是沒有半開的狀態(tài),也沒有完全開啟的狀態(tài),而是通過一個概率來進行判斷我們的流量是否應該通過,這樣沒有那么死板,也可以保證我們錯誤率比較高的時候不會大量請求服務端,給服務端喘息恢復的時間。
參考文獻
[^1]: 極客時間: Go 進階訓練營 https://u.geekbang.org/subject/go?utm_source=lailin.xyz&utm_medium=lailin.xyz
[^2]: 熔斷原理與實現(xiàn)Golang版 https://www.jianshu.com/p/0ee350cde543
[^3]: Google SRE https://sre.google/sre-book/handling-overload/#eq2101
[^4]: hystrix-go https://github.com/afex/hystrix-go/
[^5]: kratos 實現(xiàn) https://github.com/go-kratos/kratos/blob/v1.0.x/pkg/net/netutil/breaker/sre_breaker.go
本文轉(zhuǎn)載自微信公眾號「mohuishou」,可以通過以下二維碼關注。轉(zhuǎn)載本文請聯(lián)系mohuishou公眾號。