不懂優(yōu)雅停機(jī),搞掛了線上服務(wù),咋辦?
公司項(xiàng)目是用 consul 進(jìn)行注冊(cè)的,在發(fā)布微服務(wù)的時(shí)候,總是會(huì)導(dǎo)致調(diào)用方出現(xiàn)一定幾率的調(diào)用失敗。一開(kāi)始百思不得其解,后來(lái)咨詢了資深的同事才知道:原來(lái)是服務(wù)下線的時(shí)候沒(méi)有優(yōu)雅停機(jī),沒(méi)有去 consul 將自己下線再停機(jī),導(dǎo)致調(diào)用方拿到了舊的調(diào)用地址,導(dǎo)致調(diào)用失?。?nbsp;看來(lái)優(yōu)雅停機(jī)還是一個(gè)蠻重要的知識(shí)點(diǎn),可不能忽略,今天就讓我們來(lái)盤(pán)盤(pán)它吧!
什么是優(yōu)雅停機(jī)?
在 Linux 世界里,一切都是資源。當(dāng)我們啟動(dòng)一個(gè) JVM 的時(shí)候,我們就加載了許多的資源。而當(dāng)我們關(guān)閉 JVM 的時(shí)候,JVM 只會(huì)釋放內(nèi)存這個(gè)資源,而其他資源是不會(huì)釋放的,例如:網(wǎng)絡(luò)連接、文件句柄等等。
Linux 的網(wǎng)絡(luò)連接數(shù)、文件句柄數(shù)都是有限的,如果我們沒(méi)有及時(shí)釋放,時(shí)間久了就會(huì)導(dǎo)致一些奇怪的問(wèn)題。那么如何在 JVM 關(guān)閉的時(shí)候,釋放這些資源呢?答案就是:利用 Java 提供的 ShutdownHook 接口。 我們所說(shuō)的優(yōu)雅停機(jī),就是利用 Java 提供的 ShutdownHook 接口注冊(cè)一個(gè)鉤子,讓 JVM 在關(guān)閉之前執(zhí)行鉤子函數(shù)的代碼,讓其關(guān)閉對(duì)應(yīng)的資源。
適用場(chǎng)景
在學(xué)會(huì)怎么使用優(yōu)雅停機(jī)之前,我們需要弄清楚優(yōu)雅停機(jī)適用于哪些場(chǎng)景,那我們就需要先弄清楚 JVM 關(guān)閉的幾種情況了。JVM 關(guān)閉的情況可以分為 3 大類 11 個(gè)情況,如下圖所示:
JVM 關(guān)閉的場(chǎng)景
在 JVM 關(guān)閉的 3 大類場(chǎng)景中,只有正常關(guān)閉與異常關(guān)閉是支持優(yōu)雅停機(jī)的,而強(qiáng)制關(guān)閉則是不支持的。下面我們通過(guò)三個(gè)例子來(lái)驗(yàn)證一下。
JVM 正常關(guān)閉
JVM 正常關(guān)閉這種情況,我們只需要正常運(yùn)行一個(gè) main 函數(shù),然后為其注冊(cè)一個(gè) ShutdownHook 即可,其代碼如下所示。
public class NormalShutdownTest
public void start()
Runtime.getRuntime().addShutdownHook(new Thread(() ->
System.out.println("鉤子函數(shù)被執(zhí)行,可以在這里關(guān)閉資源。")
));
public static void main(String args)
new NormalShutdownTest().start();
System.out.println("主應(yīng)用程序在執(zhí)行,正常關(guān)閉。");
輸出結(jié)果為:
主應(yīng)用程序在執(zhí)行,正常關(guān)閉。
鉤子函數(shù)被執(zhí)行,可以在這里關(guān)閉資源。
可以看到鉤子函數(shù)的代碼正常執(zhí)行了。如果你在 main 函數(shù)增加 System.exit(0) 代碼,執(zhí)行之后的結(jié)果也還是一樣。這說(shuō)明 JVM 正常關(guān)閉情況下,是支持優(yōu)雅停機(jī)的。
異常關(guān)閉
JVM 異常關(guān)閉這種情況,我們嘗試制造內(nèi)存溢出。只需要聲明一個(gè) 500 MB 的數(shù)組,然后設(shè)置 JVM 堆最大為 20 MB 即可(-Xmx20M),其代碼如下所示。
public class OomShutdownTest
public void start()
Runtime.getRuntime().addShutdownHook(new Thread(() ->
System.out.println("鉤子函數(shù)被執(zhí)行,可以在這里關(guān)閉資源")
));
public static void main(String args) throws Exception
new OomShutdownTest().start();
System.out.println("主應(yīng)用程序在執(zhí)行,內(nèi)存溢出關(guān)閉。");
byte b = new byte 500 * 1024 * 1024 ;
執(zhí)行結(jié)果為:
主應(yīng)用程序在執(zhí)行,內(nèi)存溢出關(guān)閉。
Exception in thread "main" java.lang.OutOfMemoryError Java heap space
at tech.shuyi.javacodechip.shutdownhook.OomShutdownTest.main(OomShutdownTest.java:13)
鉤子函數(shù)被執(zhí)行,可以在這里關(guān)閉資源
可以看到 JVM 拋出了 OOM 錯(cuò)誤,但是鉤子函數(shù)還是被執(zhí)行了。如果你在 main 函數(shù)中自行拋出 RuntimeException,鉤子函數(shù)也還是會(huì)被執(zhí)行。感興趣的朋友可以自行嘗試一下。
強(qiáng)制關(guān)閉
JVM 強(qiáng)制關(guān)閉這種情況,我們可以使用 Runtime.getRuntime().halt(1) 進(jìn)行測(cè)試,其代碼如下所示。
public class ForceShutdownTest
public void start()
Runtime.getRuntime().addShutdownHook(new Thread(() ->
System.out.println("鉤子函數(shù)被執(zhí)行,可以在這里關(guān)閉資源。")
));
public static void main(String args) throws Exception
new ForceShutdownTest().start();
System.out.println("主應(yīng)用程序在執(zhí)行,強(qiáng)制關(guān)閉。");
Runtime.getRuntime().halt(1);
執(zhí)行結(jié)果:
主應(yīng)用程序在執(zhí)行,強(qiáng)制關(guān)閉。
可以看到鉤子函數(shù)并沒(méi)有被執(zhí)行,所以 JVM 強(qiáng)制關(guān)閉這種場(chǎng)景不支持優(yōu)雅停機(jī)。
最佳實(shí)踐
看了上面的例子,看起來(lái)優(yōu)雅停機(jī)沒(méi)那么復(fù)雜嘛。實(shí)際上,優(yōu)雅停機(jī)用不好,很可能出現(xiàn)一些其他問(wèn)題。這里給出幾個(gè)最佳實(shí)踐原則,幫助大家用好優(yōu)雅停機(jī)!
只注冊(cè)一個(gè)鉤子
我們都知道 JVM 可以注冊(cè)多個(gè)鉤子,而鉤子本質(zhì)上是一個(gè)線程,可以并發(fā)執(zhí)行。那么就很可能出現(xiàn)鉤子之間相互依賴,這樣就會(huì)導(dǎo)致依賴死鎖了。另外,也可能因?yàn)槎鄠€(gè)鉤子操作同一個(gè)資源,導(dǎo)致資源競(jìng)爭(zhēng)出現(xiàn)死鎖。因此,較好的一種方式就是只注冊(cè)一個(gè)鉤子,所有的資源釋放都在這個(gè)鉤子中操作。
確保線程安全
因?yàn)殂^子本質(zhì)上也是一個(gè)線程,JVM 可能會(huì)并發(fā)執(zhí)行多個(gè)鉤子,JVM 并不保證它們的執(zhí)行順序,因此需要保證鉤子中的操作是線程安全的。當(dāng)然了,如果你只有一個(gè)鉤子的話,那這個(gè)提示可以忽略了。
不要做耗時(shí)的操作
在鉤子中,不要做耗時(shí)的操作。因?yàn)楫?dāng)我們要關(guān)閉 JVM 時(shí),用戶肯定是希望盡快關(guān)閉,因此鉤子中主要用于關(guān)閉殘留資源,不應(yīng)該再做其他耗時(shí)的操作。
不要做注冊(cè)、移除鉤子的操作
在關(guān)閉鉤子中,不能執(zhí)行注冊(cè)、移除鉤子的操作,否則 JVM 拋出 IllegalStateException。
不要調(diào)用 System.exit () 操作
也不能調(diào)用 System.exit() 操作,但是調(diào)用 Runtime.halt() 操作是可以的。我想,這是因?yàn)檎{(diào)用 System.exit () 操作會(huì)導(dǎo)致循環(huán)進(jìn)入鉤子,導(dǎo)致死循環(huán)吧。
需要考慮的資源
除了上面一些代碼上的操作需要考慮,我們還需要注意下面這些場(chǎng)景的處理:
- 池化資源的釋放:數(shù)據(jù)庫(kù)連接池、HTTP 連接池、線程池。
- 在處理線程的釋放:已經(jīng)被連接的 HTTP 請(qǐng)求。
- MQ 消費(fèi)者的處理:正在處理的消息。
- 隱形受影響的資源的處理:Zookeeper、Nacos 實(shí)例下線等。
應(yīng)用案例
Java 提供的優(yōu)雅停機(jī)機(jī)制,可以說(shuō)是許多框架的基礎(chǔ)。諸如 Spring、Consul 等中間件框架,都是利用 Java 提供的這個(gè)機(jī)制進(jìn)行優(yōu)雅停機(jī)的。
Spring 的優(yōu)雅停機(jī)
例如 Spring 是基于 Java 語(yǔ)言開(kāi)發(fā)的框架,那其也勢(shì)必依賴于 JVM 的 ShutdownHook。Spring 關(guān)于優(yōu)雅停機(jī)的代碼在 org.springframework.context.support.AbstractApplicationContext#registerShutdownHook 處,代碼如下圖所示。
@Override
public void registerShutdownHook()
if (this.shutdownHook == null)
// No shutdown hook registered yet.
this.shutdownHook = new Thread(SHUTDOWN_HOOK_THREAD_NAME)
@Override
public void run()
synchronized (startupShutdownMonitor)
doClose();
;
// 增加 ShutdownHook 鉤子
Runtime.getRuntime().addShutdownHook(this.shutdownHook);
可以看到 Spring 在 registerShutdownHook() 函數(shù)里,注冊(cè)了一個(gè)關(guān)閉的鉤子,鉤子中調(diào)用了 doClose() 方法。
服務(wù)治理的優(yōu)雅停機(jī)
不論是 Dubbo 還是 Spring Cloud 的分布式服務(wù)框架,需要關(guān)注的是怎么能在服務(wù)停止前,先將提供者在注冊(cè)中心進(jìn)行反注冊(cè),然后在停止服務(wù)提供者,這樣才能保證業(yè)務(wù)系統(tǒng)不會(huì)產(chǎn)生各種 503、timeout 等現(xiàn)象。為了實(shí)現(xiàn)上述說(shuō)到的效果,那么我們就必須關(guān)注優(yōu)雅停機(jī)這件事情。
彩蛋
我們都知道通過(guò) kill -15 可以讓 JVM 優(yōu)雅停機(jī),那我們是否可以監(jiān)聽(tīng)特定的信號(hào)量,從而讓程序做特定的操作呢?例如:讓 JVM 監(jiān)聽(tīng)第 12 信號(hào)量,然后打印一條日志,隨后優(yōu)雅停機(jī)。
答案是當(dāng)然可以啦!我們只需要利用 Signal 類,并實(shí)現(xiàn)一個(gè) SignHandler 類就可以了。其實(shí)現(xiàn)代碼如下所示:
public class CustomShutdownTest
public void start()
Runtime.getRuntime().addShutdownHook(new Thread(() ->
System.out.println("鉤子函數(shù)被執(zhí)行,可以在這里關(guān)閉資源。")
));
public static void main(String args)
// custom signal kill
Signal sg = new Signal("USR2"); // kill -12 pid
Signal.handle(sg new SignalHandler()
@Override
public void handle(Signal signal)
System.out.println("接收到信號(hào)量:" + signal.getName());
// 監(jiān)聽(tīng)信號(hào)量,通過(guò)System.exit(0)正常關(guān)閉JVM,觸發(fā)關(guān)閉鉤子執(zhí)行收尾工作
System.exit(0);
);
// other logic
new CustomShutdownTest().start();
System.out.println("主應(yīng)用程序在執(zhí)行,正常關(guān)閉。");
try
Thread.sleep(30000);
catch (InterruptedException e)
e.printStackTrace();
我們啟動(dòng)該類后,先讓其休眠 30 秒,隨后用 jps 命令找到進(jìn)程 ID,隨后運(yùn)行 kill -USR2 PID 即可,如截圖所示。
隨后可以看到控制臺(tái)打印出如下消息:
主應(yīng)用程序在執(zhí)行,正常關(guān)閉。
接收到信號(hào)量:USR2
鉤子函數(shù)被執(zhí)行,可以在這里關(guān)閉資源。
從上面消息我們知道,JVM 成功接收到了 USR2 信號(hào)量,也成功執(zhí)行了鉤子函數(shù)。搞定!
提示:其實(shí) USR2 是 Linux 第 12 個(gè)信號(hào)量,是留給用戶使用的一個(gè)信號(hào)量。我們可以通過(guò)該信號(hào)量做一些定制化操作,從而實(shí)現(xiàn)更加復(fù)雜的功能。
參考資料
- 如何優(yōu)雅地停止 Java 進(jìn)程 | iBit 程序猿
- JVM 進(jìn)程的優(yōu)雅關(guān)閉 - waterystone - 博客園
- VIP!例子比較不錯(cuò)!如何優(yōu)雅的關(guān)閉 JVM?-51CTO.COM
- 比較深度一些,范圍比較廣!Spring—— 項(xiàng)目?jī)?yōu)雅停機(jī) - 曹偉雄 - 博客園
- RPC 服務(wù)治理相關(guān)。VIP!研究?jī)?yōu)雅停機(jī)時(shí)的一點(diǎn)思考 | 徐靖峰 | 個(gè)人博客
- Spring 的優(yōu)雅停機(jī) | Yanick's Blog
- rocketmq 優(yōu)雅停機(jī)往事 - 云 + 社區(qū) - 騰訊云?