系統(tǒng)管理自測32問之15:有關(guān)測試流程
譯文【51CTO精選譯文】本文是《Limoncelli的測試:有助于提高系統(tǒng)管理員團(tuán)隊工作效率的32個問題》當(dāng)中的第15題:在某套方案進(jìn)行大范圍推廣前,有沒有事先進(jìn)行過必要的試點?
假設(shè)大家打算對總計五百臺計算機(jī)設(shè)備部署變更。也許是要更新內(nèi)核,也許只為修復(fù)一個小bug。
直接對全部設(shè)備進(jìn)行變更?絕對不要這樣。大家應(yīng)該先在少數(shù)幾臺計算機(jī)上進(jìn)行測試,看看會不會產(chǎn)生意料之外的問題。確定一切正常之后再逐步推廣,直到整個工作徹底完成。
這些用于早期測試的設(shè)備一般被稱為“金絲雀”。
金絲雀作為當(dāng)初煤礦開采業(yè)中必不可少的預(yù)警尖兵已經(jīng)成了此類早期測試對象的代名詞。二十世紀(jì)初葉,美國及英國的煤礦工人們在下井前會先將金絲雀放入,以檢測礦中甲烷及一氧化碳等有毒氣體的濃度。這種小動物對毒氣比人更為敏感,因此能夠及時警示工人們井下的當(dāng)前有害物質(zhì)狀況,使大家能夠盡早撤離或是立即部署呼吸防護(hù)措施。
以下列舉的是一些常見的金絲雀類技術(shù):
個別、一些、大量:
從一臺設(shè)備入手(不妨以自己的臺式機(jī)為起點)、接著推廣到數(shù)臺設(shè)備(同事們的計算機(jī)該出場了)、***是大范圍部署(逐步增加部署規(guī)模,直到徹底完成)。整個過程中出現(xiàn)的任何故障都必須加以重視,馬上停止升級、取消變更項目且在問題完全解決之前不要繼續(xù)嘗試。
計算機(jī)集群中的金絲雀:
升級一臺設(shè)備,接下來是占總體比重1%的設(shè)備,***以每秒一臺的速度完成全部工作(主要是針對像Google這樣擁有大型設(shè)備集群的網(wǎng)站)。
上述流程可以通過手動操作完成,但如果大家使用了配置管理系統(tǒng),那么早期試點功能應(yīng)該已經(jīng)固化在系統(tǒng)當(dāng)中。
【51CTO.com譯文,轉(zhuǎn)載請注明原文作譯者和出處。】
原文:http://everythingsysadmin.com/the-test.html
Limoncelli的測試:有助于提高系統(tǒng)管理員團(tuán)隊工作效率的32個問題:
- A.面向公眾的處理方式:
- B. 現(xiàn)代化團(tuán)隊處理方式:
- C. 業(yè)務(wù)操作方式:
- D. 自動化處理方式:
- E. 團(tuán)隊管理方式:
- F. 硬件發(fā)生故障時的處理方式:
- G. 安全性處理方式:
【編輯推薦】