系統(tǒng)管理自測32問之26:災(zāi)難恢復(fù)演習(xí)
譯文【51CTO精選譯文】本文是《Limoncelli的測試:有助于提高系統(tǒng)管理員團(tuán)隊(duì)工作效率的32個問題》當(dāng)中的第26題:有沒有定期測試災(zāi)難恢復(fù)方案的制度或計(jì)劃?
其實(shí)上一個章節(jié)有一點(diǎn)點(diǎn)誤導(dǎo)。備份什么的其實(shí)并不重要,數(shù)據(jù)恢復(fù)才是我們的最終目的。
沒人關(guān)心備份什么的,他們只在乎數(shù)據(jù)恢復(fù)效果。如果有人能搞出一套理論體系,幫我們無需事先備份就能搞定最終的恢復(fù)工作,我絕對盡我所能說服諾貝爾委員會創(chuàng)建年度系統(tǒng)管理員獎項(xiàng),并頭一個把它頒給他。
如果不進(jìn)行測試,我們永遠(yuǎn)無法了解當(dāng)前的備份機(jī)制是否有效。信任還不足以勝任備份工作,盡管我們的生活需要希望,但希望畢竟無法成為一種能夠切實(shí)解決問題的“戰(zhàn)略”。
一套完整的測試流程應(yīng)該包括整體故障模擬以及全面恢復(fù)。
我們只有在真正嘗試一次之后才會知曉整套恢復(fù)工作所要耗費(fèi)的時間。從磁帶上恢復(fù)數(shù)據(jù)的耗時一般來說是執(zhí)行備份的十倍以上。也就是說如果你能在八小時上班時間內(nèi)將服務(wù)器信息完全備份下來,那么就要做好心理準(zhǔn)備,為可能到來的數(shù)據(jù)恢復(fù)工作拿出80個小時的加班時間及額外支出。這可是超過三整天的時間。
如果你從未做過測試,那么先搞個小規(guī)模的試點(diǎn)終究聊勝于無。編寫一個小腳本,隨便選臺服務(wù)器,然后指定其中的某塊硬盤,***任意挑幾個文件。腳本將會立即創(chuàng)建新項(xiàng)目,并要求對象文件恢復(fù)至六周前的狀態(tài)。每周都運(yùn)行幾次該腳本,我們很可能從這種好習(xí)慣中發(fā)現(xiàn)之前備份工作的紕漏。另外,如果大家認(rèn)為這些小規(guī)?;謴?fù)測試會占用自己過多的時間,那么我向大家傳授一個小秘密:這種辦法不會占用我們自己任何時間,讓同事們代勞就可以。只要我們在項(xiàng)目中設(shè)計(jì)足夠多的隨機(jī)文本,同事們肯定會老老實(shí)實(shí)加以處理,而不會意識其中的貓膩。
要想更進(jìn)一步,那么我們就需要找一天將整套災(zāi)備體系完整地執(zhí)行一遍。這套模擬其實(shí)帶有一定的游戲性質(zhì),我們先假設(shè)某些技術(shù)人員在事故中去世了,而幸存下來的眾位則開始嘗試對服務(wù)項(xiàng)目進(jìn)行故障切換。在腳本中明確指出將進(jìn)行哪些測試內(nèi)容。無論是真正的中斷(切斷電源或網(wǎng)絡(luò))還是模擬出來的場景:那些“去世了”的成員可以負(fù)責(zé)監(jiān)督整個測試。“好吧,現(xiàn)在假設(shè)你們收到了有關(guān)此次事故的通知。告訴我你們將輸入哪些指令并且采取哪些行動。”另一種辦法是叫上你們企業(yè)的總裁,并且果斷拔掉他所選擇的任何線纜。
【51CTO.com譯文,轉(zhuǎn)載請注明原文作譯者和出處?!?/p>
原文:http://everythingsysadmin.com/the-test.html
Limoncelli的測試:有助于提高系統(tǒng)管理員團(tuán)隊(duì)工作效率的32個問題:
- A.面向公眾的處理方式:
- B. 現(xiàn)代化團(tuán)隊(duì)處理方式:
- C. 業(yè)務(wù)操作方式:
- D. 自動化處理方式:
- E. 團(tuán)隊(duì)管理方式:
- F. 硬件發(fā)生故障時的處理方式:
- G. 安全性處理方式:
【編輯推薦】
- 看云存儲如何改善災(zāi)難恢復(fù)
- 虛擬化環(huán)境中的災(zāi)難恢復(fù)計(jì)劃
- 循序漸進(jìn)Oracle:數(shù)據(jù)庫管理、優(yōu)化與備份恢復(fù)