架構(gòu)師說(shuō)了:不想做背鍋俠?生產(chǎn)問(wèn)題要這樣查
話說(shuō)這天一大早,那個(gè)悲催的中年架構(gòu)師大劉又被手機(jī)微信群給炸醒。部門(mén)的運(yùn)維兄弟在公司微信群里說(shuō):
短信的生產(chǎn)環(huán)境服務(wù)器 CPU 占用率過(guò)高,瘋狂報(bào)警。是不是你們昨天上線看門(mén)狗導(dǎo)致的?
大劉迷了巴登的想了想,沒(méi)錯(cuò),昨天確實(shí)給短信服務(wù)裝上了看門(mén)狗。但是看門(mén)狗服務(wù)肯定不會(huì)有問(wèn)題(架構(gòu)師必備的蜜汁自信),而且上線之前各輪測(cè)試也都測(cè)過(guò)了,沒(méi)見(jiàn)過(guò)這個(gè)現(xiàn)象啊。
難道是測(cè)試妹子沒(méi)測(cè)試到位?難道線上短信應(yīng)用自身出現(xiàn)了問(wèn)題?
生產(chǎn)無(wú)小事,小事更不能忽視,主要是怕扣績(jī)效獎(jiǎng)金。大劉迅速打開(kāi)電腦,遠(yuǎn)程登上短信生產(chǎn)服務(wù)器,開(kāi)始大劉最拿手的 2W1H 三板斧診斷之旅。
接下來(lái)的診斷內(nèi)容有點(diǎn)燒腦,節(jié)奏有點(diǎn)快,請(qǐng)大家坐穩(wěn)扶好。
1. 病號(hào)是誰(shuí)(WHO)?
大劉拿出控制臺(tái)診斷儀器,輸入 top 命令一探究竟。我勒個(gè)去,不看不知道一看嚇一跳,PID 為 1878 的病號(hào),CPU 占用居然 200% 多。
問(wèn)題算是定位到了,但是 PID 為 1878 的病號(hào)到底是誰(shuí),難道真是昨天上線的看門(mén)狗 ?雖然大劉久經(jīng)職場(chǎng),但是排查生產(chǎn)問(wèn)題時(shí),內(nèi)心還是比較忐忑,畢竟這是生產(chǎn)環(huán)境。說(shuō)時(shí)遲那時(shí)快,只見(jiàn)大劉一個(gè)命令輸入:
- ps -ef | grep 1878
定睛一看,原來(lái)是放屁瞅別人,短信服務(wù)自己在作祟,和看門(mén)狗沒(méi)關(guān)系,大劉心里一下子平緩了不少。鍋找到了主兒,其實(shí)這個(gè)時(shí)候大劉完全可以把這個(gè)問(wèn)題甩給短信開(kāi)發(fā)團(tuán)隊(duì),但是大劉最喜歡做的不是甩鍋,而是打破砂鍋刨到底。
2. 病號(hào)哪里出了問(wèn)題(WHERE)?
為什么 1878 號(hào)病人占用 CPU 會(huì)這么高呢?只見(jiàn)黑乎乎的控制臺(tái)診斷儀器上,大劉熟練的輸入:
- jstack -l 1878 >> 1878號(hào)病歷.log
這樣便得到一份 1878 號(hào)病人的病歷詳情單,一會(huì)兒用得上。到底 1878 號(hào)病人的哪個(gè)部位出了問(wèn)題呢?話沒(méi)說(shuō)完,只見(jiàn)大劉又在控制臺(tái)診斷儀器上,輸入一個(gè):
- top -Hp 1878
白板黑字,把 1878 號(hào)病人的器官信息全部列了出來(lái)。
看到結(jié)果,甚是一驚,PID 代號(hào)為 8721 的器官占用 CPU 100% 多。疑惑油然而生,這個(gè) PID 代號(hào) 為 8721 的器官是啥,是頭、是眼睛、還是胳膊腿呢?這些器官展示的 PID 列都是昵稱,都這么善于偽裝,如何揭露它的真面目呢?還好大劉有高招,借助照妖鏡算法,熟練的輸入:
- printf "%x\n" 8721
果真使得代號(hào)為 8721 的器官,現(xiàn)了真身,真實(shí)身份居然是 2211 的呼吸道,怪不得病號(hào)一直氣喘吁吁,上氣不接下氣。
到這一步還無(wú)法對(duì)癥下藥啊,還需要進(jìn)一步確診 2211 的呼吸道到底出了什么幺蛾子,導(dǎo)致 1878 號(hào)病人一直氣喘吁吁,上氣不接下氣?只見(jiàn)黑乎乎的控制臺(tái)診斷儀器上,大劉再次飛一般的在輸入:
- grep 2211 -A20 1878號(hào)病歷.log
診斷結(jié)果隨之顯示在診斷儀器上。
曾經(jīng)背了很多鍋的大劉,看到診斷結(jié)果心里樂(lè)了一下,一眼就看出是高并發(fā)情況下用了 HashMap 的問(wèn)題(請(qǐng)大家們自行尋找谷歌、百度,就不在此深入展開(kāi)啦),終于撥開(kāi)云霧見(jiàn)青天。
3. 如何對(duì)癥下藥( HOW )?
在大劉行云流水沒(méi)有一絲一毫的拖泥帶水般的神操作下,1878 號(hào)病人的診斷也就結(jié)束了,這個(gè)鍋就徹底被打破了。術(shù)業(yè)有專攻,大劉就可以鄭重的告訴短信開(kāi)發(fā)同事具體原因了,捉得病根,開(kāi)發(fā)同事也就可以對(duì)癥下藥啦。大劉這套行走江湖的診斷問(wèn)題方式你 get 到了沒(méi)?大劉自己簡(jiǎn)單概括為 2W1H 三板斧:病號(hào)是誰(shuí)、病號(hào)哪里出了問(wèn)題、對(duì)癥下藥。
(1)病號(hào)是誰(shuí)?(WHO)
- 第一步:采用 top 命令,找出 CPU 占用最高的病號(hào) PID ;
- 第二步:通過(guò) ps -ef | grep PID 查看病號(hào)對(duì)應(yīng)的真實(shí)身份。
(2)病號(hào)哪里出了問(wèn)題?(WHERE)
- 第一步:采用 jstack -l PID >> PID.log 獲取病號(hào)的各器官信息的病歷單;
- 第二步:采用 top -Hp PID 拿到占用 CPU 最高的器官昵稱 PID ;
- 第三步:采用 printf "%x\n" PID 根據(jù)器官昵稱 PID 的拿到器官真實(shí)身份 TID ;
- 第四步:采用 grep TID -A20 pid.log 根據(jù) TID 去病歷單中匹配,確定是哪出了問(wèn)題。
(3)捉得病根、便可拿出醫(yī)藥箱,對(duì)癥下藥啦。(HOW)
作為程序猿,工作中難免會(huì)遇到不少類似這樣的問(wèn)題。面對(duì)問(wèn)題,你如果像無(wú)頭蒼蠅一樣亂撞,撞得頭破血流依然不知道緣由,在背鍋即將成為現(xiàn)實(shí)時(shí),那就不妨試試大劉的 2W1H 三板斧的診斷方式,說(shuō)不定會(huì)幫你快速定位、解決線上問(wèn)題,畢竟快速的解決生產(chǎn)問(wèn)題會(huì)把損失降到最低。
最后,想對(duì)大家說(shuō)一句:作為程序猿,一定要有程序猿的態(tài)度。避免背鍋,拒絕甩鍋,打破砂鍋,從你我做起。
本文轉(zhuǎn)載自微信公眾號(hào)「四猿外」,可以通過(guò)以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系四猿外公眾號(hào)。