不懂優(yōu)雅停機(jī),搞掛了線上服務(wù)該咋辦?
公司項(xiàng)目是用 consul 進(jìn)行注冊(cè)的,在發(fā)布微服務(wù)的時(shí)候,總是會(huì)導(dǎo)致調(diào)用方出現(xiàn)一定幾率的調(diào)用失敗。一開始百思不得其解,后來(lái)咨詢了資深的同事才知道:原來(lái)是服務(wù)下線的時(shí)候沒有優(yōu)雅停機(jī),沒有去 consul 將自己下線再停機(jī),導(dǎo)致調(diào)用方拿到了舊的調(diào)用地址,導(dǎo)致調(diào)用失?。?/strong> 看來(lái)優(yōu)雅停機(jī)還是一個(gè)蠻重要的知識(shí)點(diǎn),可不能忽略,今天就讓我們來(lái)盤盤它吧!
一、什么是優(yōu)雅停機(jī)?
在 Linux 世界里,一切都是資源。當(dāng)我們啟動(dòng)一個(gè) JVM 的時(shí)候,我們就加載了許多的資源。而當(dāng)我們關(guān)閉 JVM 的時(shí)候,JVM 只會(huì)釋放內(nèi)存這個(gè)資源,而其他資源是不會(huì)釋放的,例如:網(wǎng)絡(luò)連接、文件句柄等等。
Linux 的網(wǎng)絡(luò)連接數(shù)、文件句柄數(shù)都是有限的,如果我們沒有及時(shí)釋放,時(shí)間久了就會(huì)導(dǎo)致一些奇怪的問(wèn)題。那么如何在 JVM 關(guān)閉的時(shí)候,釋放這些資源呢?答案就是:利用 Java 提供的 ShutdownHook 接口。 我們所說(shuō)的優(yōu)雅停機(jī),就是利用 Java 提供的 ShutdownHook 接口注冊(cè)一個(gè)鉤子,讓 JVM 在關(guān)閉之前執(zhí)行鉤子函數(shù)的代碼,讓其關(guān)閉對(duì)應(yīng)的資源。
二、適用場(chǎng)景
在學(xué)會(huì)怎么使用優(yōu)雅停機(jī)之前,我們需要弄清楚優(yōu)雅停機(jī)適用于哪些場(chǎng)景,那我們就需要先弄清楚 JVM 關(guān)閉的幾種情況了。JVM 關(guān)閉的情況可以分為 3 大類 11 個(gè)情況,如下圖所示:
JVM 關(guān)閉的場(chǎng)景
在 JVM 關(guān)閉的 3 大類場(chǎng)景中,只有正常關(guān)閉與異常關(guān)閉是支持優(yōu)雅停機(jī)的,而強(qiáng)制關(guān)閉則是不支持的。下面我們通過(guò)三個(gè)例子來(lái)驗(yàn)證一下。
1、JVM 正常關(guān)閉
JVM 正常關(guān)閉這種情況,我們只需要正常運(yùn)行一個(gè) main 函數(shù),然后為其注冊(cè)一個(gè) ShutdownHook 即可,其代碼如下所示。
public class NormalShutdownTest {
public void start() {
Runtime.getRuntime().addShutdownHook(new Thread(() ->
System.out.println("鉤子函數(shù)被執(zhí)行,可以在這里關(guān)閉資源。")
));
}
public static void main(String[] args) {
new NormalShutdownTest().start();
System.out.println("主應(yīng)用程序在執(zhí)行,正常關(guān)閉。");
}
}
輸出結(jié)果為:
主應(yīng)用程序在執(zhí)行,正常關(guān)閉。
鉤子函數(shù)被執(zhí)行,可以在這里關(guān)閉資源。
可以看到鉤子函數(shù)的代碼正常執(zhí)行了。如果你在 main 函數(shù)增加 System.exit(0) 代碼,執(zhí)行之后的結(jié)果也還是一樣。這說(shuō)明 JVM 正常關(guān)閉情況下,是支持優(yōu)雅停機(jī)的。
2、異常關(guān)閉
JVM 異常關(guān)閉這種情況,我們嘗試制造內(nèi)存溢出。只需要聲明一個(gè) 500 MB 的數(shù)組,然后設(shè)置 JVM 堆最大為 20 MB 即可(-Xmx20M),其代碼如下所示。
public class OomShutdownTest {
public void start() {
Runtime.getRuntime().addShutdownHook(new Thread(() ->
System.out.println("鉤子函數(shù)被執(zhí)行,可以在這里關(guān)閉資源")
));
}
public static void main(String[] args) throws Exception {
new OomShutdownTest().start();
System.out.println("主應(yīng)用程序在執(zhí)行,內(nèi)存溢出關(guān)閉。");
byte[] b = new byte[500 * 1024 * 1024];
}
}
執(zhí)行結(jié)果為:
主應(yīng)用程序在執(zhí)行,內(nèi)存溢出關(guān)閉。
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
at tech.shuyi.javacodechip.shutdownhook.OomShutdownTest.main(OomShutdownTest.java:13)
鉤子函數(shù)被執(zhí)行,可以在這里關(guān)閉資源
可以看到 JVM 拋出了 OOM 錯(cuò)誤,但是鉤子函數(shù)還是被執(zhí)行了。如果你在 main 函數(shù)中自行拋出 RuntimeException,鉤子函數(shù)也還是會(huì)被執(zhí)行。感興趣的朋友可以自行嘗試一下。
3、強(qiáng)制關(guān)閉
JVM 強(qiáng)制關(guān)閉這種情況,我們可以使用 Runtime.getRuntime().halt(1) 進(jìn)行測(cè)試,其代碼如下所示。
public class ForceShutdownTest {
public void start() {
Runtime.getRuntime().addShutdownHook(new Thread(() ->
System.out.println("鉤子函數(shù)被執(zhí)行,可以在這里關(guān)閉資源。")
));
}
public static void main(String[] args) throws Exception {
new ForceShutdownTest().start();
System.out.println("主應(yīng)用程序在執(zhí)行,強(qiáng)制關(guān)閉。");
Runtime.getRuntime().halt(1);
}
}
執(zhí)行結(jié)果:
主應(yīng)用程序在執(zhí)行,強(qiáng)制關(guān)閉。
可以看到鉤子函數(shù)并沒有被執(zhí)行,所以 JVM 強(qiáng)制關(guān)閉這種場(chǎng)景不支持優(yōu)雅停機(jī)。
三、最佳實(shí)踐
看了上面的例子,看起來(lái)優(yōu)雅停機(jī)沒那么復(fù)雜嘛。實(shí)際上,優(yōu)雅停機(jī)用不好,很可能出現(xiàn)一些其他問(wèn)題。這里給出幾個(gè)最佳實(shí)踐原則,幫助大家用好優(yōu)雅停機(jī)!
1、只注冊(cè)一個(gè)鉤子
我們都知道 JVM 可以注冊(cè)多個(gè)鉤子,而鉤子本質(zhì)上是一個(gè)線程,可以并發(fā)執(zhí)行。那么就很可能出現(xiàn)鉤子之間相互依賴,這樣就會(huì)導(dǎo)致依賴死鎖了。另外,也可能因?yàn)槎鄠€(gè)鉤子操作同一個(gè)資源,導(dǎo)致資源競(jìng)爭(zhēng)出現(xiàn)死鎖。因此,較好的一種方式就是只注冊(cè)一個(gè)鉤子,所有的資源釋放都在這個(gè)鉤子中操作。
2、確保線程安全
因?yàn)殂^子本質(zhì)上也是一個(gè)線程,JVM 可能會(huì)并發(fā)執(zhí)行多個(gè)鉤子,JVM 并不保證它們的執(zhí)行順序,因此需要保證鉤子中的操作是線程安全的。當(dāng)然了,如果你只有一個(gè)鉤子的話,那這個(gè)提示可以忽略了。
3、不要做耗時(shí)的操作
在鉤子中,不要做耗時(shí)的操作。因?yàn)楫?dāng)我們要關(guān)閉 JVM 時(shí),用戶肯定是希望盡快關(guān)閉,因此鉤子中主要用于關(guān)閉殘留資源,不應(yīng)該再做其他耗時(shí)的操作。
4、不要做注冊(cè)、移除鉤子的操作
在關(guān)閉鉤子中,不能執(zhí)行注冊(cè)、移除鉤子的操作,否則 JVM 拋出 IllegalStateException。
5、不要調(diào)用 System.exit () 操作
也不能調(diào)用 System.exit () 操作,但是調(diào)用 Runtime.halt() 操作是可以的。我想,這是因?yàn)檎{(diào)用 System.exit () 操作會(huì)導(dǎo)致循環(huán)進(jìn)入鉤子,導(dǎo)致死循環(huán)吧。
6、需要考慮的資源
除了上面一些代碼上的操作需要考慮,我們還需要注意下面這些場(chǎng)景的處理:
池化資源的釋放:數(shù)據(jù)庫(kù)連接池、HTTP 連接池、線程池。
在處理線程的釋放:已經(jīng)被連接的 HTTP 請(qǐng)求。
MQ 消費(fèi)者的處理:正在處理的消息。
隱形受影響的資源的處理:Zookeeper、Nacos 實(shí)例下線等。
四、應(yīng)用案例
Java 提供的優(yōu)雅停機(jī)機(jī)制,可以說(shuō)是許多框架的基礎(chǔ)。諸如 Spring、Consul 等中間件框架,都是利用 Java 提供的這個(gè)機(jī)制進(jìn)行優(yōu)雅停機(jī)的。
1、Spring 的優(yōu)雅停機(jī)
例如 Spring 是基于 Java 語(yǔ)言開發(fā)的框架,那其也勢(shì)必依賴于 JVM 的 ShutdownHook。Spring 關(guān)于優(yōu)雅停機(jī)的代碼在 org.springframework.context.support.AbstractApplicationContext#registerShutdownHook 處,代碼如下圖所示。
@Override
public void registerShutdownHook() {
if (this.shutdownHook == null) {
// No shutdown hook registered yet.
this.shutdownHook = new Thread(SHUTDOWN_HOOK_THREAD_NAME) {
@Override
public void run() {
synchronized (startupShutdownMonitor) {
doClose();
}
}
};
// 增加 ShutdownHook 鉤子
Runtime.getRuntime().addShutdownHook(this.shutdownHook);
}
}
可以看到 Spring 在 registerShutdownHook() 函數(shù)里,注冊(cè)了一個(gè)關(guān)閉的鉤子,鉤子中調(diào)用了 doClose() 方法。
2、服務(wù)治理的優(yōu)雅停機(jī)
不論是 Dubbo 還是 Spring Cloud 的分布式服務(wù)框架,需要關(guān)注的是怎么能在服務(wù)停止前,先將提供者在注冊(cè)中心進(jìn)行反注冊(cè),然后在停止服務(wù)提供者,這樣才能保證業(yè)務(wù)系統(tǒng)不會(huì)產(chǎn)生各種 503、timeout 等現(xiàn)象。為了實(shí)現(xiàn)上述說(shuō)到的效果,那么我們就必須關(guān)注優(yōu)雅停機(jī)這件事情。
彩蛋
我們都知道通過(guò) kill -15 可以讓 JVM 優(yōu)雅停機(jī),那我們是否可以監(jiān)聽特定的信號(hào)量,從而讓程序做特定的操作呢?例如:讓 JVM 監(jiān)聽第 12 信號(hào)量,然后打印一條日志,隨后優(yōu)雅停機(jī)。
答案是當(dāng)然可以啦!我們只需要利用 Signal 類,并實(shí)現(xiàn)一個(gè) SignHandler 類就可以了。其實(shí)現(xiàn)代碼如下所示:
public class CustomShutdownTest {
public void start() {
Runtime.getRuntime().addShutdownHook(new Thread(() ->
System.out.println("鉤子函數(shù)被執(zhí)行,可以在這里關(guān)閉資源。")
));
}
public static void main(String[] args) {
// custom signal kill
Signal sg = new Signal("USR2"); // kill -12 pid
Signal.handle(sg, new SignalHandler() {
@Override
public void handle(Signal signal) {
System.out.println("接收到信號(hào)量:" + signal.getName());
// 監(jiān)聽信號(hào)量,通過(guò)System.exit(0)正常關(guān)閉JVM,觸發(fā)關(guān)閉鉤子執(zhí)行收尾工作
System.exit(0);
}
});
// other logic
new CustomShutdownTest().start();
System.out.println("主應(yīng)用程序在執(zhí)行,正常關(guān)閉。");
try {
Thread.sleep(30000);
} catch (InterruptedException e) {
e.printStackTrace();
}
}
}
我們啟動(dòng)該類后,先讓其休眠 30 秒,隨后用 jps 命令找到進(jìn)程 ID,隨后運(yùn)行 kill -USR2 PID 即可,如截圖所示。
隨后可以看到控制臺(tái)打印出如下消息:
主應(yīng)用程序在執(zhí)行,正常關(guān)閉。
接收到信號(hào)量:USR2
鉤子函數(shù)被執(zhí)行,可以在這里關(guān)閉資源。
從上面消息我們知道,JVM 成功接收到了 USR2 信號(hào)量,也成功執(zhí)行了鉤子函數(shù)。搞定!
提示:其實(shí) USR2 是 Linux 第 12 個(gè)信號(hào)量,是留給用戶使用的一個(gè)信號(hào)量。我們可以通過(guò)該信號(hào)量做一些定制化操作,從而實(shí)現(xiàn)更加復(fù)雜的功能。