系統(tǒng)管理自測32問之10:有關(guān)故障信息報告
譯文【51CTO精選譯文】本文是《Limoncelli的測試:有助于提高系統(tǒng)管理員團隊工作效率的32個問題》當中的第10題:一旦發(fā)生問題,有沒有一套機制專門用于記錄故障信息?
故障發(fā)生之后,你會將各項細節(jié)記錄下來以便日后查詢、還是希望問題隨著時間逐漸淡出人們的視野呢?
一份合格的故障信息報告中應(yīng)該包含完整的時間軸,詳細記錄發(fā)生何事、由何人引起、曾如何嘗試修復、業(yè)務(wù)受到了何種影響并具備詳盡的解決方案列表,以防止此類問題的再次發(fā)生。每項提案都必須在bug跟蹤或者項目管理系統(tǒng)中有所體現(xiàn),以保證此次結(jié)論切實改進未來的處理流程。
堅持撰寫故障信息報告有助于維護穩(wěn)定的運行環(huán)境,每次故障發(fā)生后都應(yīng)拿出至少一套可行的預(yù)防性措施。你的監(jiān)控系統(tǒng)能及時檢測出標志性異常,進而使管理者能夠先用戶一步意識到故障的存在嗎?問題的先兆又是否明確?通常情況下,系統(tǒng)在一切就緒之后會進行整體的帶電測試(例如在源代碼庫中執(zhí)行‘預(yù)提交腳本’)。大家有辦法將用于檢測新生故障的工具順利添加到現(xiàn)有系統(tǒng)中嗎?
出現(xiàn)問題并不只意味著恥辱或者指責。在良好的系統(tǒng)管理員文化體系中,我們應(yīng)該毫無顧慮地將自己的名字填在“故障起因”的章節(jié)中。作為一名***,我們應(yīng)當實事求是,力爭通過自己的疏忽為其他員工敲響警鐘。
如果大家的管理層打算以故障信息報告當做懲罰責任人的證據(jù),那么他們顯然還不理解正確的操作并不意味著總能帶來理想的結(jié)果;這份報告存在的真正含義在于指導大家逐漸提高自身的業(yè)務(wù)能力。任何一位能夠因為非惡意的停電事故就將相關(guān)員工踢出門外的管理者,都不可能將企業(yè)帶向成功的彼岸。
故障信息報告應(yīng)該派發(fā)到每位員工手中。也許大家會因為“披露團隊失誤”而對此感到尷尬,但實際上這樣做會讓企業(yè)的用戶表現(xiàn)出更高的敬意。透明終將帶來信任。
當然,要想真正發(fā)揮上述作用,故障信息報告與bug跟蹤及項目管理系統(tǒng)的整合效果仍然非常關(guān)鍵。
【51CTO.com譯文,轉(zhuǎn)載請注明原文作譯者和出處?!?/p>
原文:http://everythingsysadmin.com/the-test.html
Limoncelli的測試:有助于提高系統(tǒng)管理員團隊工作效率的32個問題:
- A.面向公眾的處理方式:
- B. 現(xiàn)代化團隊處理方式:
- C. 業(yè)務(wù)操作方式:
- D. 自動化處理方式:
- E. 團隊管理方式:
- F. 硬件發(fā)生故障時的處理方式:
- G. 安全性處理方式:
【編輯推薦】