“雙活”容災(zāi)想做好,災(zāi)備演練少不了
大家都很重視數(shù)據(jù)、重視自己的業(yè)務(wù)系統(tǒng),也投入了很多做災(zāi)備系統(tǒng)的建設(shè),在建設(shè)中對產(chǎn)品的選項也很重視,但是在完成建設(shè)后卻錯以為大功告成了。忽略了災(zāi)備演練這個重要環(huán)節(jié)。
現(xiàn)在很多災(zāi)備公司都不太重視災(zāi)備的演練,很多一年也沒有做到一次,不能完全發(fā)現(xiàn)災(zāi)備中心的缺陷。
容災(zāi)系統(tǒng)的業(yè)務(wù)連續(xù)性是企業(yè)的關(guān)鍵業(yè)務(wù)在災(zāi)難發(fā)生時的應(yīng)對能力和恢復(fù)能力,即通過盡可能快速的、全面的企業(yè)業(yè)務(wù)恢復(fù)運作,將因災(zāi)難造成的損失降低到最小程度。由于在遠(yuǎn)程網(wǎng)絡(luò)傳輸?shù)膶崟r性能力以及對現(xiàn)有生產(chǎn)系統(tǒng)不產(chǎn)生負(fù)面壓力的要求等多種綜合因素的制約,目前各類技術(shù)實現(xiàn)手段均是以一定的RPO和RTO作為災(zāi)難備份的指標(biāo)實現(xiàn),而零丟失或零間斷基本上都不具有技術(shù)基礎(chǔ)。由于實現(xiàn)零間斷采用全同步方式造成的高額的支出和系統(tǒng)運行損害使得零間斷或零丟失都不具有可行性。
災(zāi)備演練是驗證災(zāi)難發(fā)生時,業(yè)務(wù)系統(tǒng)能否有效聯(lián)動切換的極為重要的手段。沒有災(zāi)備的演練計劃和手段,往往無法預(yù)知災(zāi)難發(fā)生時生產(chǎn)中心和災(zāi)備中心的數(shù)據(jù)一致性,也無法預(yù)知災(zāi)備中心是否具有了業(yè)務(wù)接管的一切必要條件。以往,由于一些企業(yè)采用的容災(zāi)技術(shù)實現(xiàn)不具有災(zāi)備演練的技術(shù)手段,出現(xiàn)了一些企業(yè)在故障發(fā)生時,仍然無法啟動后援系統(tǒng)進行業(yè)務(wù)的接管的現(xiàn)象,這些企業(yè)不得不仍然采用傳統(tǒng)的備份恢復(fù)方式進行耗時的數(shù)據(jù)恢復(fù),不僅出現(xiàn)了大量的數(shù)據(jù)丟失而且,動輒數(shù)十小時的業(yè)務(wù)停頓,也使得災(zāi)備系統(tǒng)的設(shè)計者狼狽不堪,教訓(xùn)十分深刻。因此,選擇有效的災(zāi)備技術(shù)手段的同時,決不能忽略災(zāi)備演練的技術(shù)手段的提供,在具有多種技術(shù)手段的基礎(chǔ)上,制定災(zāi)備系統(tǒng)的演練和測試計劃。災(zāi)備的演練計劃有以下幾種方式:
***:計劃性測試/演練
災(zāi)難恢復(fù)計劃要求建立業(yè)務(wù)連續(xù)性管理團隊,不僅涉及IT部門,而且關(guān)聯(lián)眾多業(yè)務(wù)部門,為減少演練對于生產(chǎn)的影響,可以將恢復(fù)計劃細(xì)化到很小的單位或者模塊,逐個應(yīng)用進行接管驗證。
當(dāng)模塊都成功通過測試后,測試的范圍可以擴充到更多的模塊。
第二:突發(fā)演練
在災(zāi)備系統(tǒng)全面完成并且制定了全面的恢復(fù)計劃后,可以在進行了一定備份的情況下安排突發(fā)性的測試。當(dāng)然,業(yè)務(wù)連續(xù)性管理小組需要確保業(yè)務(wù)不會因為突發(fā)性測試造成不可接受的損失和業(yè)務(wù)中斷。
演練對于提高團隊的恢復(fù)經(jīng)驗和協(xié)作能力以及確保災(zāi)難恢復(fù)計劃的可行性是至關(guān)重要的。所有的演練結(jié)果都要進行評估、記錄、并且生成到容災(zāi)流程里。
另外:有哪些要預(yù)先考慮的因素?
答:容災(zāi)體系需要現(xiàn)有的基礎(chǔ)設(shè)施狀況,如現(xiàn)有異地傳輸網(wǎng)絡(luò)的狀況、現(xiàn)有主機系統(tǒng)和存儲系統(tǒng)狀況、現(xiàn)有生產(chǎn)環(huán)境的變動能力等等,體現(xiàn)在考慮因素上就是以下幾點:
1.是否是低帶寬特征,如果是則需要考慮具有帶寬優(yōu)化的技術(shù)實現(xiàn)
2.是否是異構(gòu)系統(tǒng)?如果是則需要考慮異構(gòu)的災(zāi)備體系
3.成本。權(quán)衡和比較不同災(zāi)備實現(xiàn)的成本,這里會產(chǎn)生很大的差異。
4.災(zāi)備系統(tǒng)是否對于生產(chǎn)系統(tǒng)產(chǎn)生很大的變動?有時候,這往往是致命的。
5.災(zāi)難的防御范圍。除了人們已知的各類自然災(zāi)害、設(shè)備故障外,是否需要防范人為的數(shù)據(jù)篡改或丟失?如果是,所采用的技術(shù)就需要更為全面、功能覆蓋面更為廣泛。
6.工程實施過程。實施是否簡單、維護過程是否簡單往往決定了系統(tǒng)今后的維護和運營成本和對生產(chǎn)系統(tǒng)的影響。