招行二面:為什么有了服務(wù)降級,還需要服務(wù)熔斷?
在分布式系統(tǒng)中,我們經(jīng)常聽到服務(wù)熔斷這個詞,那么,什么是服務(wù)熔斷?為什么需要服務(wù)熔斷?如何實現(xiàn)服務(wù)熔斷?這篇文章,我們來聊一聊。
一、什么是服務(wù)熔斷?
簡單來說,服務(wù)熔斷(Circuit Breaker)是一種用于提高分布式系統(tǒng)健壯性的設(shè)計模式。它的靈感來源于電路中的熔斷器,當電路中出現(xiàn)問題時,熔斷器會自動斷開,防止故障擴大,保護整個系統(tǒng)。應(yīng)用在微服務(wù)架構(gòu)中,服務(wù)熔斷機制可以在某個服務(wù)出現(xiàn)故障或響應(yīng)緩慢時,快速失敗或采取備用方案,從而避免級聯(lián)失敗,提升系統(tǒng)的整體穩(wěn)定性。
二、原理分析
接下來,我們講解服務(wù)熔斷的原理,整體總結(jié)成下面五個步驟。
1. 正常狀態(tài)
在正常情況下,服務(wù)之間的調(diào)用是通暢的,熔斷器處于關(guān)閉狀態(tài)。所有請求都會正常發(fā)送到目標服務(wù),沒有任何干預(yù)。
2. 監(jiān)控與檢測
熔斷器會監(jiān)控目標服務(wù)的調(diào)用情況,包括請求成功率、失敗率、響應(yīng)時間等。當某個閾值被超過(比如連續(xù)失敗次數(shù)超過預(yù)設(shè)值),熔斷器會認為目標服務(wù)可能出現(xiàn)了問題。
3. 打開熔斷
一旦檢測到目標服務(wù)可能故障,熔斷器會打開(Open),此時所有對該服務(wù)的請求都會被立即失敗,不再發(fā)送實際請求。這就像是電路中的熔斷器斷開一樣,防止故障蔓延。
4. 半開啟狀態(tài)
過一段時間后,熔斷器會進入半開啟狀態(tài)(Half-Open),允許少量請求嘗試調(diào)用目標服務(wù)。如果這些請求成功,熔斷器會重新關(guān)閉,恢復(fù)正常狀態(tài);如果失敗,熔斷器繼續(xù)保持打開狀態(tài)。
5. 備用機制
當熔斷器打開時,可以采取備用方案,比如返回默認值、跳過某些操作,甚至切換到其他服務(wù)實例,以保證系統(tǒng)的部分功能仍然可用。
通過這樣的機制,服務(wù)熔斷能夠有效地防止單個服務(wù)故障導致的系統(tǒng)級別的連鎖反應(yīng)。
三、示例演示
為了更好地理解服務(wù)熔斷,接下來,我們將使用 Resilience4j 這個輕量級的容錯庫來實現(xiàn)服務(wù)熔斷機制。Resilience4j是一個專為 Java 8及以上版本設(shè)計的庫,具有易用性和高性能的特點。
1. 環(huán)境準備
首先,確保你的項目中已經(jīng)引入了Resilience4j的依賴。以Maven項目為例,添加以下依賴到pom.xml中:
<dependencies>
<!-- Resilience4j核心依賴 -->
<dependency>
<groupId>io.github.resilience4j</groupId>
<artifactId>resilience4j-all</artifactId>
<version>2.0.2</version>
</dependency>
<!-- 其他依賴項 -->
</dependencies>
2. 編寫服務(wù)熔斷代碼
下面是一個簡單的示例,展示如何使用Resilience4j實現(xiàn)服務(wù)熔斷。當目標服務(wù)響應(yīng)慢或失敗時,熔斷器會起作用,快速返回備用結(jié)果。
import io.github.resilience4j.circuitbreaker.*;
import io.github.resilience4j.decorators.Decorators;
import java.time.Duration;
import java.util.concurrent.*;
import java.util.function.Supplier;
publicclass CircuitBreakerDemo {
public static void main(String[] args) {
// 創(chuàng)建CircuitBreaker配置
CircuitBreakerConfig config = CircuitBreakerConfig.custom()
.failureRateThreshold(50) // 失敗率閾值
.waitDurationInOpenState(Duration.ofSeconds(5)) // 打開狀態(tài)持續(xù)時間
.slidingWindowSize(4) // 滑動窗口大小
.build();
// 創(chuàng)建CircuitBreaker實例
CircuitBreaker circuitBreaker = CircuitBreaker.of("myCircuitBreaker", config);
// 模擬目標服務(wù)調(diào)用
Supplier<String> decoratedSupplier = Decorators.ofSupplier(() -> callExternalService())
.withCircuitBreaker(circuitBreaker)
.withFallback(Collections.singletonList(CircuitBreaker.class),
throwable -> "默認響應(yīng)")
.decorate();
// 模擬多次調(diào)用
for (int i = 0; i < 10; i++) {
try {
String response = decoratedSupplier.get();
System.out.println("響應(yīng): " + response);
} catch (Exception e) {
System.out.println("調(diào)用失敗: " + e.getMessage());
}
// 等待1秒
try {
Thread.sleep(1000);
} catch (InterruptedException e) {
Thread.currentThread().interrupt();
break;
}
}
}
// 模擬外部服務(wù)調(diào)用,隨機失敗或延時
private static String callExternalService() {
double random = Math.random();
if (random < 0.5) {
// 模擬失敗
thrownew RuntimeException("服務(wù)調(diào)用失敗");
} else {
// 模擬延時
try {
Thread.sleep(2000); // 2秒延時
} catch (InterruptedException e) {
Thread.currentThread().interrupt();
}
return"成功響應(yīng)";
}
}
}
3. 代碼解析
- 配置CircuitBreaker:我們創(chuàng)建了一個自定義的熔斷器配置,設(shè)置了失敗率閾值為50%,滑動窗口大小為4次調(diào)用,打開狀態(tài)持續(xù)5秒。
- 裝飾目標服務(wù)調(diào)用:使用Decorators將目標服務(wù)調(diào)用裝飾為一個有熔斷器保護的供應(yīng)者(Supplier)。同時,我們設(shè)置了一個備用響應(yīng),當熔斷器打開或目標服務(wù)調(diào)用失敗時,返回“默認響應(yīng)”。
- 模擬調(diào)用:在for循環(huán)中,我們模擬了多次服務(wù)調(diào)用。目標服務(wù)callExternalService隨機成功或失敗,并可能產(chǎn)生延時。通過這種方式,我們可以觀察熔斷器是如何根據(jù)調(diào)用結(jié)果自動切換狀態(tài)的。
運行這段代碼,當失敗率超過 50%時,熔斷器會打開,后續(xù)的請求會立即返回“默認響應(yīng)”。經(jīng)過 5秒后,熔斷器會進入半開啟狀態(tài),嘗試恢復(fù)調(diào)用。如果目標服務(wù)恢復(fù)正常,熔斷器會重新關(guān)閉,系統(tǒng)恢復(fù)正常運行。
四、問題解答
回到文章的標題:為什么有了服務(wù)降級還需要服務(wù)熔斷?
這里我們總結(jié)了四個核心理由:
- 避免資源浪費:當一個服務(wù)出現(xiàn)故障時,如果沒有熔斷機制,系統(tǒng)可能會持續(xù)不斷地嘗試調(diào)用這個失敗的服務(wù),導致請求積壓和資源耗盡。服務(wù)熔斷通過快速失敗,避免了不必要的調(diào)用,節(jié)省了寶貴的系統(tǒng)資源。
- 防止級聯(lián)故障:在微服務(wù)架構(gòu)中,服務(wù)之間通常相互依賴。如果一個服務(wù)出現(xiàn)問題,持續(xù)的失敗調(diào)用可能會影響到依賴它的其他服務(wù),導致級聯(lián)故障。服務(wù)熔斷器可以在問題初期及時切斷受影響的服務(wù)調(diào)用,防止故障擴散到整個系統(tǒng)。
- 加速系統(tǒng)恢復(fù):通過熔斷機制,系統(tǒng)能夠更快地檢測到服務(wù)的故障狀態(tài),并在熔斷器打開后,等待一段時間再嘗試恢復(fù)調(diào)用。這有助于目標服務(wù)有足夠的時間進行自我修復(fù),從而加速整個系統(tǒng)的恢復(fù)過程。
- 提供更好的用戶體驗: 服務(wù)降級雖然能夠保證核心功能的可用性,但在高負載或持續(xù)失敗的情況下,用戶可能會頻繁遇到降級后的功能或默認響應(yīng),影響使用體驗。服務(wù)熔斷器通過控制調(diào)用頻率和恢復(fù)策略,能夠在保證必要降級的同時,減少對用戶的負面影響。