運維不迷茫,請收好這篇事件、故障排查處理思路_IT技術(shù)周刊第684期
在講解事件、故障處理思路前,先講一個故障場景(以呼叫中心系統(tǒng)作為一例子):
業(yè)務(wù)人員反映呼叫中心系統(tǒng)運行緩慢,部份電話在自助語言環(huán)節(jié)系統(tǒng)處理超時,話務(wù)轉(zhuǎn)人工座席,人工座席出現(xiàn)爆線情況。
運維人員開始忙活了,查資源使用情況、查服務(wù)是否正常、查日志是否報錯、查交易量還有沒有……時間不知不覺的在敲鍵盤、敲鍵盤、敲鍵盤中過去,但是原因還未定位。
經(jīng)理過來了解情況:“系統(tǒng)恢復(fù)了嗎?”、“故障影響是什么?”、“交易中斷了嗎?”……
運維人員趕緊敲鍵盤,寫 SQL,看交易量;敲鍵盤,寫命令,看系統(tǒng)資源、情況……