微服務(wù)架構(gòu):Nacos本地緩存 PK 微服務(wù)優(yōu)雅下線
本文轉(zhuǎn)載自微信公眾號(hào)「程序新視界」,作者二師兄。轉(zhuǎn)載本文請(qǐng)聯(lián)系程序新視界公眾號(hào)。
前言
在上篇文章《微服務(wù):剖析一下源碼,Nacos的健康檢查竟如此簡(jiǎn)單》中講了當(dāng)微服務(wù)突然掛掉的解放方案:調(diào)整健康檢查周期和故障請(qǐng)求重試。朋友看了文章,建議再聊聊正常關(guān)閉服務(wù)時(shí)如何讓微服務(wù)優(yōu)雅下線。
為什么說(shuō)是優(yōu)雅下線?我們知道在分布式應(yīng)用中為了滿足CAP原則中的A(可用性),像Nacos、Eureka等注冊(cè)中心的客戶端都會(huì)進(jìn)行實(shí)例列表的緩存。當(dāng)正常關(guān)閉應(yīng)用時(shí),雖然可以主動(dòng)調(diào)用注冊(cè)中心進(jìn)行注銷(xiāo),但這些客戶端緩存的實(shí)例列表還是要等一段時(shí)間才會(huì)失效。
上述情況就有可能導(dǎo)致服務(wù)請(qǐng)求到已經(jīng)被關(guān)閉的實(shí)例上,雖然通過(guò)重試機(jī)制可以解決掉這個(gè)問(wèn)題,但這種解決方案會(huì)出現(xiàn)重試,在一定程度上會(huì)導(dǎo)致用戶側(cè)請(qǐng)求變慢。這時(shí)就需要進(jìn)行優(yōu)雅的下線操作了。
下面我們先從通常關(guān)閉進(jìn)程的幾種方式聊起。
方式一:基于kill命令
Spring Cloud本身對(duì)關(guān)閉服務(wù)是有支持的,當(dāng)通過(guò)kill命令關(guān)閉進(jìn)程時(shí)會(huì)主動(dòng)調(diào)用Shutdown hook來(lái)進(jìn)行當(dāng)前實(shí)例的注銷(xiāo)。使用方式:
kill Java進(jìn)程ID
這種方式是借助Spring Cloud的Shutdown hook機(jī)制(本質(zhì)是Spring Boot提供,Spring Cloud服務(wù)發(fā)現(xiàn)功能進(jìn)行具體注銷(xiāo)實(shí)現(xiàn)),在關(guān)閉服務(wù)之前會(huì)對(duì)Nacos、Eureka等服務(wù)進(jìn)行注銷(xiāo)。但這個(gè)注銷(xiāo)只是告訴了注冊(cè)中心,客戶端的緩存可能需要等幾秒(Nacos默認(rèn)為5秒)之后才能感知到。
這種Shutdown hook機(jī)制不僅適用于kill命令,還適用于程序正常退出、使用System.exit()、終端使用Ctrl + C等。但不適用于kill -9 這樣強(qiáng)制關(guān)閉或服務(wù)器宕機(jī)等場(chǎng)景。
這種方案雖然比直接掛掉要等15秒縮短了時(shí)間,相對(duì)好一些,但本質(zhì)上并沒(méi)有解決客戶端緩存的問(wèn)題,不建議使用。
方式二:基于/shutdown端點(diǎn)
在Spring Boot中,提供了/shutdown端點(diǎn),基于此也可以實(shí)現(xiàn)優(yōu)雅停機(jī),但本質(zhì)上與第一種方式相同,都是基于Shutdown hook來(lái)實(shí)現(xiàn)的。在處理完基于Shutdown hook的邏輯之后,也會(huì)進(jìn)行服務(wù)的關(guān)閉,但同樣面臨客戶端緩存的問(wèn)題,因此,也不推薦使用。
這種方式首先需要在項(xiàng)目中引入對(duì)應(yīng)的依賴:
- <dependency>
- <groupId>org.springframework.boot</groupId>
- <artifactId>spring-boot-starter-actuator</artifactId>
- </dependency>
然后在項(xiàng)目中配置開(kāi)啟/shutdown端點(diǎn):
- management:
- endpoint:
- shutdown:
- enabled: true
- endpoints:
- web:
- exposure:
- include: shutdown
然后停服時(shí)請(qǐng)求對(duì)應(yīng)的端點(diǎn),這里采用curl命令示例:
curl -X http://實(shí)例服務(wù)地址/actuator/shutdown
方式三:基于/pause端點(diǎn)
Spring Boot同樣提供了/pause端點(diǎn)(Spring Boot Actuator提供),通過(guò)/pause端點(diǎn),可以將/health為UP狀態(tài)的實(shí)例修改為Down狀態(tài)。
基本操作就是在配置文件中進(jìn)行pause端點(diǎn)的開(kāi)啟:
- management:
- endpoint:
- # 啟用pause端點(diǎn)
- pause:
- enabled: true
- # pause端點(diǎn)在某些版本下依賴restart端點(diǎn)
- restart:
- enabled: true
- endpoints:
- web:
- exposure:
- include: pause,restart
然后發(fā)送curl命令,即可進(jìn)行服務(wù)的終止。注意這里需要采用POST請(qǐng)求。
關(guān)于/pause端點(diǎn)的使用,不同的版本差異很大。筆者在使用Spring Boot 2.4.2.RELEASE版本時(shí)發(fā)現(xiàn)根本無(wú)法生效,查了Spring Boot和Spring Cloud項(xiàng)目的Issues發(fā)現(xiàn),這個(gè)問(wèn)題從2.3.1.RELEASE就存在。目前看應(yīng)該是在最新版本中Web Server的管理改為SmartLifecycle的原因,而Spring Cloud對(duì)此貌似放棄了支持(有待考察),最新的版本調(diào)用/pause端點(diǎn)無(wú)任何反應(yīng)。
鑒于上述版本變動(dòng)過(guò)大的原因,不建議使用/pause端點(diǎn)進(jìn)行微服務(wù)的下線操作,但使用/pause端點(diǎn)的整個(gè)思路還是值得借鑒的。
基本思路就是:當(dāng)調(diào)用/pause端點(diǎn)之后,微服務(wù)的狀態(tài)會(huì)從UP變?yōu)镈OWN,而服務(wù)本身還是可以正常提供服務(wù)。當(dāng)微服務(wù)被標(biāo)記為DOWN狀態(tài)之后,會(huì)從注冊(cè)中心摘除,等待一段時(shí)間(比如5秒),當(dāng)Nacos客戶端緩存的實(shí)例列表更新了,再進(jìn)行停服處理。
這個(gè)思路的核心就是:先將微服務(wù)的流量切換掉,然后再關(guān)閉或重新發(fā)布。這就解決了正常發(fā)布時(shí)客戶端緩存實(shí)例列表的問(wèn)題。
基于上述思路,其實(shí)自己也可以實(shí)現(xiàn)相應(yīng)的功能,比如提供一個(gè)Controller,先調(diào)用該Controller中的方法將當(dāng)前實(shí)例從Nacos中注銷(xiāo),然后等待5秒,再通過(guò)腳本或其他方式將服務(wù)關(guān)閉掉。
方式四:基于/service-registry端點(diǎn)
方式三中提到的方案如果Spring Cloud能夠直接支持,那就更好了。這不,Spring Cloud提供了/service-registry端點(diǎn)。但從名字就可以知道專門(mén)針對(duì)服務(wù)注冊(cè)實(shí)現(xiàn)的一個(gè)端點(diǎn)。
在配置文件中開(kāi)啟/service-registry端點(diǎn):
- management:
- endpoints:
- web:
- exposure:
- include: service-registry
- base-path: /actuator
- endpoint:
- serviceregistry:
- enabled: true
訪問(wèn)http://localhost:8081/actuator 端點(diǎn)可以查看到開(kāi)啟了如下端點(diǎn):
- {
- "_links": {
- "self": {
- "href": "http://localhost:8081/actuator",
- "templated": false
- },
- "serviceregistry": {
- "href": "http://localhost:8081/actuator/serviceregistry",
- "templated": false
- }
- }
- }
通過(guò)curl命令來(lái)進(jìn)行服務(wù)狀態(tài)的修改:
- curl -X "POST" "http://localhost:8081/actuator/serviceregistry?status=DOWN" -H "Content-Type: application/vnd.spring-boot.actuator.v2+json;charset=UTF-8"
執(zhí)行上述命令之前,查看Nacos對(duì)應(yīng)實(shí)例狀態(tài)為:
可以看到實(shí)例詳情中的按鈕為“下線”也就是說(shuō)目前處于UP狀態(tài)。當(dāng)執(zhí)行完上述curl命令之后,實(shí)例詳情中的按鈕為“上線”,說(shuō)明實(shí)例已經(jīng)下線了。
上述命令就相當(dāng)于我們?cè)贜acos管理后臺(tái)手動(dòng)的操作了實(shí)例的上下線。
當(dāng)然,上述情況是基于Spring Cloud和Nacos的模式實(shí)現(xiàn)的,本質(zhì)上Spring Cloud是定義了一個(gè)規(guī)范,比如所有的注冊(cè)中心都需要實(shí)現(xiàn)ServiceRegistry接口,同時(shí)基于ServiceRegistry這個(gè)抽象還定義了通用的Endpoint:
- @Endpoint(id = "serviceregistry")
- public class ServiceRegistryEndpoint {
- private final ServiceRegistry serviceRegistry;
- private Registration registration;
- public ServiceRegistryEndpoint(ServiceRegistry<?> serviceRegistry) {
- this.serviceRegistry = serviceRegistry;
- }
- public void setRegistration(Registration registration) {
- this.registration = registration;
- }
- @WriteOperation
- public ResponseEntity<?> setStatus(String status) {
- Assert.notNull(status, "status may not by null");
- if (this.registration == null) {
- return ResponseEntity.status(HttpStatus.NOT_FOUND).body("no registration found");
- }
- this.serviceRegistry.setStatus(this.registration, status);
- return ResponseEntity.ok().build();
- }
- @ReadOperation
- public ResponseEntity getStatus() {
- if (this.registration == null) {
- return ResponseEntity.status(HttpStatus.NOT_FOUND).body("no registration found");
- }
- return ResponseEntity.ok().body(this.serviceRegistry.getStatus(this.registration));
- }
- }
我們上面調(diào)用的Endpoint便是通過(guò)上面代碼實(shí)現(xiàn)的。所以不僅Nacos,只要基于Spring Cloud集成的注冊(cè)中心,本質(zhì)上都是支持這種方式的服務(wù)下線的。
小結(jié)
很多項(xiàng)目都逐步在進(jìn)行微服務(wù)化改造,但一旦因?yàn)槲⒎?wù)系統(tǒng),將面臨著更復(fù)雜的情況。本篇文章重點(diǎn)基于Nacos在Spring Cloud體系中優(yōu)雅下線來(lái)為大家剖析了一個(gè)微服務(wù)實(shí)戰(zhàn)中常見(jiàn)的問(wèn)題及解決方案。你是否在使用微服務(wù),你又是否注意到這一點(diǎn)了?