沒測(cè)試過的災(zāi)備系統(tǒng)才是企業(yè)最危險(xiǎn)的敵人
原創(chuàng)【51CTO 7月11日外電頭條】編者按:在自然災(zāi)害頻發(fā)的地區(qū),企業(yè)往往比較重視災(zāi)難備份、恢復(fù)的工作;但是每年真正遇到災(zāi)難的時(shí)候,總是有企業(yè)因?yàn)殛P(guān)鍵數(shù)據(jù)的恢復(fù)遇到問題而遭受損失。在這種情況下,是否真實(shí)的測(cè)試你的災(zāi)難恢復(fù)系統(tǒng),是確保在災(zāi)難真正來臨的時(shí)候能夠按照預(yù)期進(jìn)行數(shù)據(jù)恢復(fù)的關(guān)鍵要素;而且身為管理員,一定要清楚的認(rèn)識(shí)到,不是所有的數(shù)據(jù)都需要在第一時(shí)間得到恢復(fù),確認(rèn)哪些數(shù)據(jù)是業(yè)務(wù)最關(guān)鍵的部分也是在制定恢復(fù)策略中重要的工作之一。下面,CIO.com的企業(yè)應(yīng)用和SaaS專家Todd R. Weiss為我們介紹了他對(duì)災(zāi)難恢復(fù)系統(tǒng)定期測(cè)試的建議和經(jīng)驗(yàn)。
如今美國已經(jīng)整體步入夏季,這意味著我們企業(yè)中的IT系統(tǒng)隨時(shí)可能在剎那間遭受颶風(fēng)、龍卷風(fēng)、洪水、森林火災(zāi)、劇烈的雷暴以及其它各種自然災(zāi)害的襲擊。
考慮到上述情況,相信大家一定都已經(jīng)為自己的企業(yè)IT系統(tǒng)及關(guān)鍵性企業(yè)應(yīng)用準(zhǔn)備了災(zāi)難恢復(fù)方案。然而,這些方案只能說是防范措施的基礎(chǔ)。
上述體系一旦搭建完成,只需輕按一個(gè)開關(guān),我們就能在必要時(shí)從異地?cái)?shù)據(jù)中心處托管自己的關(guān)鍵性應(yīng)用程序備份。然而要保證其正常工作,必要的維護(hù)、更新及定期測(cè)試絕對(duì)不能缺少。因?yàn)橹挥羞@樣,災(zāi)備體系才能在災(zāi)難來臨時(shí)真正成為積極可靠的安全后盾。
對(duì)于多數(shù)IT機(jī)構(gòu)來說,往往壓根不做這類測(cè)試。事實(shí)上如果沒有按計(jì)劃嚴(yán)格執(zhí)行的審查及測(cè)試,災(zāi)難恢復(fù)體系本身就是一顆蠢蠢欲動(dòng)的定時(shí)炸彈。
沒做過測(cè)試,一切都是浮云
“我理解對(duì)于機(jī)構(gòu)來說,隨便湊過去按下開關(guān)將正在運(yùn)行產(chǎn)品的服務(wù)器關(guān)閉這種狀況聽起來有多可怕。不過在進(jìn)行災(zāi)備機(jī)制檢測(cè)時(shí),這是必要的一環(huán)。”Daniel M.Kusnetzky說道。他是Kusnetzky集團(tuán)有限責(zé)任公司的首席分析師。“其實(shí)一套從未進(jìn)行過測(cè)試的災(zāi)備系統(tǒng)才是企業(yè)最危險(xiǎn)的敵人。”
測(cè)試整套體系最重要的原因是,Kusnetzky說,一旦設(shè)備并未如預(yù)期般運(yùn)作,那么立即著手處理問題總比到了電力真的中斷時(shí)才干著急要好。畢竟進(jìn)行測(cè)試時(shí)我們的技術(shù)支持團(tuán)隊(duì)能提供在線指導(dǎo)、整套業(yè)務(wù)系統(tǒng)也并未真正面臨自然災(zāi)害。
IT專職人員必須能在緊要關(guān)頭為關(guān)鍵性業(yè)務(wù)應(yīng)用的上線及運(yùn)行、包括這些應(yīng)用所必需的一切連接系統(tǒng)提供保障,Kusnetzky說道。“這不僅涉及到應(yīng)用程序,同時(shí)還要考慮支持這類應(yīng)用運(yùn)行所必不可少的完整配置。如果這些條件不能保證,我們恐怕就必須對(duì)進(jìn)程或是應(yīng)用程序本身進(jìn)行重新配置。”
而要想檢驗(yàn)上述設(shè)置是否按既定方針實(shí)施,惟一的方法就是進(jìn)行測(cè)試。測(cè)試、調(diào)整、再測(cè)試,災(zāi)備體系必須通過這種流程加以完善,他說。
“僅僅將應(yīng)用程序復(fù)制到別處并嘗試啟用,這種無意義的做法不會(huì)為企業(yè)中的員工帶來任何實(shí)質(zhì)性的幫助,”Kusnetzky如是說。
在這方面,虛擬化技術(shù)能夠幫上大忙,因?yàn)槿绻ぷ髫?fù)載實(shí)際是運(yùn)行在一套或多套虛擬機(jī)上的,那么這些負(fù)載就能夠良好地適應(yīng)我們?cè)跒?zāi)難恢復(fù)策略中所預(yù)留的后備硬件設(shè)備,Kusnetzky指出。基于同樣的原因,使用虛擬存儲(chǔ)技術(shù)也是有所助益的。
與此同時(shí),虛擬化也要被客觀看待,它無法解決災(zāi)備方案中的全部問題。“虛擬化幫得上忙,但與其它各種技術(shù)一樣,它也不是萬能的。”他說。“它只是種工具。我們需要同時(shí)引入其它技術(shù)協(xié)同作戰(zhàn)。”
測(cè)試方式的選擇非常關(guān)鍵
Gabriel咨詢集團(tuán)的一位分析師Dan Olds在談及災(zāi)備時(shí)表示,災(zāi)備機(jī)制測(cè)試方式的選擇非常關(guān)鍵。他認(rèn)為最好的辦法是每次對(duì)企業(yè)內(nèi)部的單獨(dú)一套系統(tǒng)進(jìn)行測(cè)試,這樣不僅達(dá)到了預(yù)期目的,更可以盡量減少對(duì)IT人員及公司日常工作的影響。
“這不僅是為了保證緊急情況下能夠正常工作而對(duì)你的(災(zāi)難恢復(fù)服務(wù))供應(yīng)商進(jìn)行測(cè)試,這個(gè)過程同時(shí)也能夠讓企業(yè)中的員工切身了解具體的操作流程,”Olds說道。“有了這樣的知識(shí)及經(jīng)驗(yàn)儲(chǔ)備,意外發(fā)生時(shí)大家就不會(huì)驚慌失措了。事實(shí)上災(zāi)備體系的使用過程應(yīng)該是舒適自然的,而且以這樣的狀態(tài)進(jìn)行操作也的確能使其發(fā)揮更好的保障效果。通過體驗(yàn)我們會(huì)認(rèn)清啟動(dòng)災(zāi)備不需要像與時(shí)間賽跑那樣搏命,也不存在洪水持續(xù)上漲那種不成功便成仁的緊迫感。”
通常情況下,這種注重細(xì)節(jié)的測(cè)試并不該由客戶來進(jìn)行,當(dāng)然干脆不做就更不可取了。“我要對(duì)這些應(yīng)用程序進(jìn)行測(cè)試;我必須有膽量著手進(jìn)行。大家要給自己這樣的信念。”
Olds強(qiáng)調(diào),請(qǐng)務(wù)必留心冗余性與可用性之間的差異,這在涉及到緊急情況下企業(yè)數(shù)據(jù)及應(yīng)用程序的保障方面至關(guān)重要。“我們都希望自己的數(shù)據(jù)得到全天候的保護(hù),無論遭遇何種惡劣的情況,數(shù)據(jù)絕不能丟失。當(dāng)然,輕度損失在所難免,最近半小時(shí)的數(shù)據(jù)無法保障可以理解。”
但我們同時(shí)要看到,如果災(zāi)難真的來臨,并不是所有數(shù)據(jù)都需要立即恢復(fù)訪問。那些最重要、最關(guān)鍵的業(yè)務(wù)信息才是我們?cè)诰o急情況下亟需保護(hù)的重中之重。
“這就要求我們制定優(yōu)先次序,”Olds說。“將整套基礎(chǔ)設(shè)施完全制作成鏡像,雖然可以保證立即恢復(fù)每一個(gè)應(yīng)用程序,但這種做法無疑是愚蠢的,且?guī)淼某杀炯雀甙河植槐匾?。絕大多數(shù)企業(yè)根本不需要這種級(jí)別的可用性。”
排布優(yōu)先級(jí)的方式之一,是為那些在緊急情況下會(huì)最先被用到的業(yè)務(wù)應(yīng)用及數(shù)據(jù)制作名單,恢復(fù)時(shí)即從名單上的項(xiàng)目入手。而其它那些相對(duì)將要的應(yīng)用程序及數(shù)據(jù)則可以在災(zāi)難過后慢慢恢復(fù)。
同時(shí),在制訂這些規(guī)劃時(shí)也別忘了從企業(yè)內(nèi)部聽取不同的聲音。“IT部門負(fù)責(zé)人需要確認(rèn)自己名單上的項(xiàng)目確實(shí)是最關(guān)鍵、最需要及時(shí)恢復(fù)的業(yè)務(wù)內(nèi)容,”他說。“我們必須確保IT人員的想法能夠得到業(yè)務(wù)部門人員的認(rèn)可和支持。”
通過對(duì)應(yīng)急預(yù)案進(jìn)行定期測(cè)試,我們能夠確保全部關(guān)鍵性內(nèi)容都涵蓋其中而沒有遺漏,例如網(wǎng)絡(luò)拓?fù)浼?xì)節(jié)及公司的IP地址等。“這都是我們無需論證就必須保護(hù)好的重要信息,”Olds說道。“大家必須竭盡所能將其全部導(dǎo)入鏡像,以便在服務(wù)中斷時(shí)能夠借助企業(yè)外部的基礎(chǔ)設(shè)施使其盡快重新運(yùn)作。而如果企業(yè)中的數(shù)據(jù)中心被洪水吞沒,那么這種災(zāi)備預(yù)案還要具備一定的可持續(xù)性。”
一旦大家開始進(jìn)行測(cè)試,一定記得將這種良好的習(xí)慣堅(jiān)持下去,尤其是應(yīng)用程序或基礎(chǔ)設(shè)施出現(xiàn)變動(dòng)時(shí)。原因很簡(jiǎn)單:我們必須確保系統(tǒng)方面的定期變動(dòng)不會(huì)與現(xiàn)有的災(zāi)難恢復(fù)系統(tǒng)相沖突,并進(jìn)而導(dǎo)致緊要關(guān)頭失去保護(hù)作用。
“我們要時(shí)刻提醒自己,能夠通過正確的數(shù)據(jù)及其它相關(guān)因素將應(yīng)用程序恢復(fù)到災(zāi)前狀態(tài)才是我們建立災(zāi)備機(jī)制的根本目的,”他說道。“目的清晰是關(guān)鍵。我建議大家在應(yīng)用程序更新過程中添加檢查對(duì)話框,這樣一來就能及時(shí)了解應(yīng)用程序或系統(tǒng)的變更是否會(huì)對(duì)相關(guān)備份恢復(fù)計(jì)劃產(chǎn)生影響。一切按計(jì)劃進(jìn)行是我們的終極目標(biāo),因此上述類型的變化都應(yīng)詳細(xì)加以記錄并不斷檢查,以確保整套體系運(yùn)行良好。”
缺少了測(cè)試,這樣的災(zāi)難恢復(fù)規(guī)劃就是不完整的,并且很可能在需要的時(shí)候起不到應(yīng)有的作用——這就違背了當(dāng)初我們部署該系統(tǒng)的初衷了。
原文:If disaster strikes, will your critical enterprise apps be ready?
【編輯推薦】