如何對(duì)Pod容器進(jìn)行Remote Debug
大家好,我是二哥。
在一個(gè)面試場(chǎng)景中,就debug問(wèn)題,一般會(huì)出現(xiàn)下面的對(duì)話:
二哥:你平時(shí)開(kāi)發(fā)的時(shí)候是用什么方法debug ?
應(yīng)聘者:看日志。
二哥:萬(wàn)一log level沒(méi)設(shè)對(duì)或者關(guān)鍵的地方?jīng)]有加log怎么辦呢?
應(yīng)聘者:那就改代碼,加log,重啟服務(wù),然后繼續(xù)看日志。
先不談通過(guò)看log來(lái)debug的效率問(wèn)題,在 VM 上這樣搞尚且可行,可當(dāng)我們把應(yīng)用容器化并讓K8s管理后,怎么辦呢?
我們都知道在Pod里是沒(méi)法方便地通過(guò)執(zhí)行類似 systemctl和 monit等命令來(lái)重啟應(yīng)用的,那繼續(xù)用看日志的方式的話,就剩下一條路了:
- 改代碼,加log。
- commit到git。
- CI/CD。
- 如果log沒(méi)有加對(duì),或者想看一下某一個(gè)函數(shù)調(diào)用的返回值,那從步驟1開(kāi)始重頭再來(lái)。
um, 看上去挺累的樣子。CI/CD和K8s也被折騰得夠嗆。
二哥稍微有點(diǎn)強(qiáng)迫癥,不能忍受這么折磨人的debug方式。另外,相比人肉看Log,通過(guò)調(diào)試器的方式來(lái)debug更優(yōu)雅、更快捷,也更能激發(fā)RD的想象力。最重要的是,通過(guò)調(diào)試器debug會(huì)倒逼RD從代碼調(diào)用邏輯、和OS交互等多角度思考問(wèn)題。比如會(huì)設(shè)斷點(diǎn)不難,難的是何時(shí)設(shè)斷點(diǎn),把斷點(diǎn)設(shè)在哪里最合適。
“道—法—術(shù)—器—?jiǎng)荨?,是老子《道德?jīng)》的精髓思想。本文講的其實(shí)是“術(shù)”和“器”,但二哥想說(shuō)“道”更本質(zhì),也更重要,它是核心思想、理念、本質(zhì)規(guī)律。強(qiáng)烈建議好奇心重的同學(xué)多思考一下這些“術(shù)”背后的實(shí)現(xiàn)原理。
二哥通過(guò)一個(gè)示例給老鐵們演示一下,如何從本地機(jī)器遠(yuǎn)程調(diào)試Pod里面的應(yīng)用。應(yīng)用本身非常簡(jiǎn)單,是用Node.js寫(xiě)的一段http server。對(duì)于其它語(yǔ)言寫(xiě)的應(yīng)用,你肯定能找到變通方法。
進(jìn)入debug模式
首先得把http server切換到調(diào)試模式。注意這里demo的方法僅適用于Node.js。
kubectl exec nodejs-8448d4cbc6-nbjwd -n lancehbzhang -- /bin/bash -c "kill -USR1 1"
一切順利的話,你可以從Pod的log里面看到如下所示的信息。這表示debugger偵聽(tīng)在端口9229。
圖 1:將容器切換進(jìn)入debug模式
K8s port-forward
下面的問(wèn)題是:如何才能把本地debugger發(fā)出的調(diào)試命令連進(jìn)來(lái)?
方法其實(shí)有不少。比如通過(guò)一個(gè)Load Balancer類型的service。不過(guò)這種方法比較費(fèi)錢(qián),據(jù)我所知,騰訊云的Load Balancer價(jià)格不菲。
這里二哥介紹一個(gè)既免費(fèi)又通用的方法。用K8s自帶的port-forward功能,命令如下所示:
$ kubectl port-forward deploy/nodejs -n lancehbzhang 9229:9229
在一臺(tái)可以執(zhí)行kubectl命令的機(jī)器上執(zhí)行這行命令后,如果一切正常,你會(huì)看到下面的界面。
圖 2:使用K8s port-forward
恭喜你,這表示從此以后任何發(fā)往這臺(tái)機(jī)器 9229 端口的請(qǐng)求都將會(huì) forward 到 pod nodejs 的 9229 端口,如你所猜,那正是 debugger 正在偵聽(tīng)的端口。
到現(xiàn)在為止,下圖中的 ③ 和 ④ 你應(yīng)該都準(zhǔn)備好了。
圖 3:從本機(jī)debugger到遠(yuǎn)程debuggee全景圖
你是不是摩拳擦掌,擼起袖子準(zhǔn)備從本地機(jī)器連過(guò)來(lái)了?且慢,有一種場(chǎng)景我們還沒(méi)解決。
如果執(zhí)行 kubectl port-forward 的機(jī)器和我們的本地機(jī)器無(wú)法直連怎么辦?假如出于安全考慮,上圖中 ③ 和 ④ 是可以網(wǎng)絡(luò)直連的,但 ① 和 ③ 被防火墻隔開(kāi)了,只留了一個(gè)22端口供 ① 通過(guò) ssh 登錄到 ③ 。這種情況下,該如何從本機(jī)連接到 ④ 上的debugger呢?
這個(gè)時(shí)候就需要輪到步驟 ② 所示的 SSH Tunnel 登場(chǎng)了。通過(guò)這樣的方式, 本機(jī)VS code只需 attach 到 127.0.0.1:9229,諸如設(shè)置斷點(diǎn)、單步執(zhí)行、查看變量等調(diào)試命令都被封裝起來(lái),塞進(jìn) SSH Tunnel 再送至 ③ 上,然后再通過(guò) port-forwarding 轉(zhuǎn)至 ④ 上的debuggee。
注:SSH Tunnel的使用并非本文的重點(diǎn),大家可以自行谷歌找到使用方法。
演示
好了,準(zhǔn)備工作做完了。下面開(kāi)始二哥的表演。
本地機(jī)器打開(kāi)VS Code,在launch.json里面輸入如下所示的配置。其中參數(shù) port表示本機(jī)debugger需要連接的端口,localRoot表示本地的代碼路徑,而remoteRoot則表示 ④ 中應(yīng)用所在的路徑。二哥在build Docker image時(shí),將應(yīng)用的WORKDIR設(shè)置為了/myapp,所以這里也得填成/myapp。其它參數(shù)各位自行谷歌。
{
// Use IntelliSense to learn about possible attributes.
// Hover to view descriptions of existing attributes.
// For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387
"version": "0.2.0",
"configurations": [
{
"name": "Attach-2-nodejs",
"port": 9229,
"request": "attach",
"skipFiles": ["<node_internals>/**"],
"type": "pwa-node",
"localRoot": "${workspaceFolder}",
"remoteRoot": "/myapp",
"sourceMaps": true
}
]
}
在第17行設(shè)置斷點(diǎn),按下F5開(kāi)始debugging。
圖 4:本機(jī)debugger
還記得前文我們已經(jīng)打開(kāi)的 SSH Tunnel 界面嗎?這個(gè)時(shí)候,你會(huì)看到它會(huì)打印出一些諸如 "Successfully established connection 127.0.0.1:9229 -> 127.0.0.1:9229" 這樣的信息。當(dāng)然,具體信息內(nèi)容與你使用的工具相關(guān)。
圖 5:SSH Tunnel正在工作示意圖
沒(méi)有問(wèn)題的話,網(wǎng)絡(luò)包應(yīng)該來(lái)到了圖3中位置 ③ 。我們來(lái)看看這個(gè)時(shí)候 K8s port-forward 會(huì)打印出什么來(lái):
圖 6:K8s port-forward正在工作示意圖
非常不錯(cuò),看起來(lái)它收到了請(qǐng)求,并且也在勤奮地工作著。那最后我們來(lái)看看圖3中 ④ 中打印出來(lái)的令人激動(dòng)的信息:"Debugger attached"。
圖 7:debuggee顯示已有debugger attach上來(lái)了
萬(wàn)事俱備,只差最后一腳了:發(fā)個(gè)請(qǐng)求,看看能不能命中斷點(diǎn):
圖 8:發(fā)個(gè)請(qǐng)求,命中一下斷點(diǎn)
回頭看看圖4吧,多么讓人陶醉的界面,在那里你可以查看變量、?;厮?,還可以干很多很多其它騷操作。是的,這個(gè)時(shí)候才是發(fā)揮你想象力的時(shí)候。
其它需要做的工作
到目前為止,本文略過(guò)一些雖不是重點(diǎn),但有的時(shí)候又可能會(huì)影響調(diào)試體驗(yàn)的細(xì)枝末節(jié),我列舉一二。
將Pod的replica設(shè)置為 1。不然你就得發(fā)了瘋地尋找debugger發(fā)出的調(diào)試命令發(fā)到哪里去了呢?
還記得K8s的livenessProbe和readinessProbe嗎?如果容器內(nèi)應(yīng)用因?yàn)楸徽{(diào)試而長(zhǎng)時(shí)間未響應(yīng)這兩個(gè)probe,那么Pod有可能會(huì)被K8s殺掉。這個(gè)時(shí)候,或許你費(fèi)勁千辛萬(wàn)苦才等來(lái)的斷點(diǎn)命中瞬間化為烏有了。
網(wǎng)上有不少解決方法,比如通過(guò) kubectl patch deploy/nodejs 安裝dummy的livenessProbe和readinessProbe。
這個(gè)dummy probe不需要真的去probe container是否活著,相反它永遠(yuǎn)返回 true。比如下面這種方法用 kubectl patch 命令修改了 deployment 的spec。
# 移除 livenessProbe
$ kubectl patch deploy/nodejs -n lancehbzhang --type json -p='[{"op": "remove", "path": "/spec/template/spec/containers/0/livenessProbe"}]'
# 安裝 dummy livenessProbe
$ kubectl patch deploy/nodejs -n lancehbzhang -p '{"spec": {"template": {"spec": {"containers": [{"name": "nodejs", "livenessProbe": {"initialDelaySeconds": 5, "periodSeconds": 5, "exec": {"command": ["true"]}}}]}}}}'
總結(jié)
首先需要將容器內(nèi)的應(yīng)用切換到debug模式。具體如何操作與所使用的語(yǔ)言密切相關(guān)。
- 通過(guò)K8s port-forward可以將debugger發(fā)出的調(diào)試命令轉(zhuǎn)發(fā)至被調(diào)試應(yīng)用(debuggee)。
- 如果運(yùn)行于你本機(jī)的debugger無(wú)法和運(yùn)行著K8s port-forward的那臺(tái)機(jī)器直接通信,那么這個(gè)時(shí)候就需要把debugger的調(diào)試命令丟進(jìn)SSH Tunnel送至對(duì)端。
- 一切準(zhǔn)備就緒后,本機(jī)debugger就可以attach到debuggee了。