云數(shù)據(jù)恢復(fù):文檔是成功的關(guān)鍵
創(chuàng)建云上的數(shù)據(jù)恢復(fù)計(jì)劃,很重要的一點(diǎn)是持續(xù)跟蹤基礎(chǔ)架構(gòu),DR需求和可能的故障轉(zhuǎn)移持續(xù)時(shí)間。
公有云給IT部門提供了***的機(jī)會(huì)來(lái)實(shí)現(xiàn)業(yè)務(wù)的持續(xù)性/災(zāi)難恢復(fù)計(jì)劃,而無(wú)需花費(fèi)巨資構(gòu)建獨(dú)享的數(shù)據(jù)中心。有了云數(shù)據(jù)恢復(fù)系統(tǒng)之后,云就可以用作基本數(shù)據(jù)的存儲(chǔ)庫(kù)或者甚至當(dāng)主要系統(tǒng)出問(wèn)題時(shí)運(yùn)行應(yīng)用之處。
當(dāng)構(gòu)建DR計(jì)劃時(shí),***步是查看用來(lái)交付IT服務(wù)的應(yīng)用,并且決定災(zāi)難發(fā)生時(shí)需要保護(hù)什么。這意味著創(chuàng)建需要運(yùn)行的應(yīng)用和服務(wù)的清單。很多企業(yè)已經(jīng)轉(zhuǎn)向虛擬化作為其核心服務(wù)器的部署模型;但是,仍然需要考慮物理服務(wù)器。完善的云數(shù)據(jù)恢復(fù)計(jì)劃應(yīng)該包括如下:
用來(lái)交付基礎(chǔ)架構(gòu)的物理和虛擬服務(wù)器。這些包括活動(dòng)目錄(AD)服務(wù)器,DNS/DNCP服務(wù)器和應(yīng)用。
- 用來(lái)交付應(yīng)用的物理服務(wù)器。為什么還在物理服務(wù)器上交付服務(wù),這需要有好一點(diǎn)的理由;這可能包括擴(kuò)展和性能要求,或者使用自定義硬件和操作系統(tǒng)。但是,云恢復(fù)服務(wù)可能能夠幫助虛擬化其中一些組件。
- 用來(lái)交付應(yīng)用的虛擬服務(wù)器??赡苡袔资_(tái)或者上百臺(tái)虛擬機(jī)用來(lái)實(shí)現(xiàn)應(yīng)用。每臺(tái)都需要確認(rèn)和記錄、查看存儲(chǔ)、內(nèi)存和虛擬處理器需求。
***提前確定基礎(chǔ)架構(gòu)服務(wù)器,因?yàn)楫?dāng)災(zāi)難發(fā)生時(shí)這些系統(tǒng)需要***時(shí)間恢復(fù)服務(wù)??梢灶A(yù)配置在云上運(yùn)行的AD、DNS和DNCP服務(wù),并且和它們的內(nèi)部實(shí)例同步,讓DR流程更加容易,也能夠更快實(shí)現(xiàn)。
要想讓云上的DR能夠成功工作,理解網(wǎng)絡(luò)配置至關(guān)重要。這意味著需要花時(shí)間理解網(wǎng)絡(luò)層的應(yīng)用之間的相互依賴關(guān)系,包括安全和防火墻配置。云數(shù)據(jù)恢復(fù)相關(guān)的問(wèn)題有:
- 是否有應(yīng)用或者服務(wù)器互相之間有延遲依賴?
- 是否有East-West防火墻規(guī)則來(lái)管理站內(nèi)流量?
- 面向客戶的應(yīng)用的外部帶寬需求是什么?
確定云數(shù)據(jù)恢復(fù)需求
假定在災(zāi)難事件發(fā)生時(shí),每個(gè)應(yīng)用都需要立即恢復(fù),這并不太實(shí)際。相反,應(yīng)該基于一系列條件來(lái)區(qū)分應(yīng)用的優(yōu)先級(jí),來(lái)決定需要多快,以及哪些同步系統(tǒng)和數(shù)據(jù)需要恢復(fù)運(yùn)營(yíng)。在決定恢復(fù)應(yīng)用的服務(wù)等級(jí)時(shí),可以使用一些標(biāo)準(zhǔn)來(lái)進(jìn)行度量:
- 恢復(fù)時(shí)間目標(biāo)。它衡量在應(yīng)序備份并且運(yùn)行之前可以容忍多長(zhǎng)的下線時(shí)間;通常以分鐘或者小時(shí)計(jì)量。比如,零RTO表示完全不能容忍掉線,而一小時(shí)的RTO意味著應(yīng)用必須在DR發(fā)生的一小時(shí)內(nèi)完成恢復(fù)。
- 恢復(fù)點(diǎn)目標(biāo)。它衡量一旦應(yīng)用再次運(yùn)行時(shí)可以容忍丟失多少數(shù)據(jù)。零RPO意味著所有數(shù)據(jù)都必須恢復(fù)到災(zāi)難發(fā)生點(diǎn),而24小時(shí)的RTO意味著恢復(fù)后數(shù)據(jù)或系統(tǒng)可以過(guò)時(shí)24小時(shí)。
- 服務(wù)級(jí)別目標(biāo)。SLO衡量整體應(yīng)用的恢復(fù)情況。比如,協(xié)議可能是在四小時(shí)內(nèi)恢復(fù)90%的應(yīng)用。越嚴(yán)格的SLO要求越多的基礎(chǔ)架構(gòu)支撐并且可能需要越多的人力才能達(dá)到,因此留有一定的靈活度有助于管理DR的費(fèi)用。
- SLO 允許區(qū)分?jǐn)?shù)據(jù)和應(yīng)用的優(yōu)先級(jí)。比如,一個(gè)在線信用卡處理系統(tǒng)要求零RPO和非常低的RTO。期望這樣的系統(tǒng)永遠(yuǎn)也不會(huì)丟失信息是合理的。另一種極端情 況是,負(fù)責(zé)報(bào)告的應(yīng)用可能能夠容忍24到48小時(shí)的數(shù)據(jù)過(guò)期時(shí)間,因?yàn)槠鋽?shù)據(jù)是從其他應(yīng)用里抽取出來(lái)的。其他系統(tǒng)大多數(shù)處在這兩種極端情況之間。
建立正確的云數(shù)據(jù)恢復(fù)需求包括和應(yīng)用程序的業(yè)務(wù)所有者溝通,因?yàn)樗麄兞私馄鋺?yīng)用的重要程度。從經(jīng)驗(yàn)上看,業(yè)務(wù)所有者會(huì)認(rèn)為其所有應(yīng)用都很重要——直到他們了解恢復(fù)所需的費(fèi)用為止。因此可以告訴他們不同方案的費(fèi)用評(píng)估。
服務(wù)級(jí)別的***一點(diǎn)是:一些嚴(yán)格的需求,比如零PRO,基于云的DR是無(wú)法達(dá)成的,因?yàn)楸镜睾驮莆恢弥g會(huì)有延時(shí)。需要將這些應(yīng)用排除在基于云的DR之外,并且提供更多定制的DR產(chǎn)品。
DR服務(wù)會(huì)運(yùn)行多久?
***需要討論的是,服務(wù)會(huì)在公有云上運(yùn)行多久。做這樣的決策依賴于發(fā)生的事件類型。并非所有災(zāi)難都會(huì)導(dǎo)致所有在線功能的崩潰。還會(huì)存在一些邊緣事件類型,比如:
- 服務(wù)器丟失。要么是物理服務(wù)器,要么是虛擬服務(wù)器主機(jī)。虛擬服務(wù)器的丟失可能很嚴(yán)重,但也可能不嚴(yán)重,應(yīng)用程序需要轉(zhuǎn)而運(yùn)行在DR模式。
- 多系統(tǒng)丟失。比如,如果共享存儲(chǔ)陣列出問(wèn)題的話,可能會(huì)失去多個(gè)應(yīng)用。
- 數(shù)據(jù)中心丟失。在最壞的情況下,整個(gè)數(shù)據(jù)中心都丟失了,或者訪問(wèn)不了。所有服務(wù)都需要運(yùn)行在DR模式下。
有時(shí)候,服務(wù)需要移動(dòng)幾個(gè)小時(shí)或者幾天。當(dāng)整個(gè)站點(diǎn)都丟失時(shí),需求可能是運(yùn)行DR服務(wù)幾周或者幾個(gè)月,直到重建了之前的設(shè)備。云恢復(fù)服務(wù)會(huì)為所使用的活動(dòng)服務(wù)計(jì)費(fèi),因此在選擇DR服務(wù)時(shí)這是很重要的考核點(diǎn)。