企業(yè)需要更新過時的災(zāi)難恢復(fù)計劃
由于災(zāi)難恢復(fù)計劃可能很快就會過時,因此許多企業(yè)現(xiàn)在需要使其方法實現(xiàn)現(xiàn)代化,并要用更多自動化技術(shù)。
作為一家社區(qū)銀行的災(zāi)難恢復(fù)和信息安全負責人,James Hinks對災(zāi)難恢復(fù)有一些心得。他帶領(lǐng)的團隊正在為伊利諾伊州的First Mid銀行信托公司(First Mid Bank&Trust)提高災(zāi)難恢復(fù)基礎(chǔ)設(shè)施的自動化程度,并將整合更多的云計算服務(wù)。
Hinks說,“我們是一家社區(qū)銀行,因此必須為客戶著想。這需要很高的服務(wù)水平協(xié)議(SLA),并且在發(fā)生災(zāi)難事件的情況下,我們必須提供更加安全的災(zāi)難恢復(fù)設(shè)置。”
為了繼續(xù)提供客戶期望的服務(wù)水平,Hinks帶領(lǐng)的團隊推動銀行災(zāi)難恢復(fù)方法的現(xiàn)代化是有意義的。對大多數(shù)企業(yè)來說,這并不是應(yīng)該重新審視災(zāi)難恢復(fù)計劃和技術(shù)的問題,而是時間的問題。
標準普爾全球分公司451 Research公司的高級分析師Steven Hill表示:“隨著混合技術(shù)的應(yīng)用,企業(yè)IT的發(fā)展比以往任何時候都快,而且災(zāi)難恢復(fù)計劃過時的時間實際上并不需要很長時間。系統(tǒng)、應(yīng)用程序、人員總是在不斷變化,因此制定一個良好的計劃需要不斷反映這些變化,并進行調(diào)整以滿足數(shù)據(jù)治理和行業(yè)合規(guī)性不斷發(fā)展的需求。”
對于大多數(shù)企業(yè)來說,自從他們建立了原始的災(zāi)難恢復(fù)計劃和技術(shù)以來,可能已經(jīng)發(fā)生了很多變化。首先,虛擬化和云計算時代已將中斷的容忍度降低到幾乎為零。根據(jù)Forrester Research公司和Disaster Recovery Journal公司最近的一項研究,提高災(zāi)難恢復(fù)能力的主要原因是保持基礎(chǔ)設(shè)施全天候在線運營。
另一個重要因素是從關(guān)注組件故障到關(guān)注服務(wù)連續(xù)性的轉(zhuǎn)變。與傳統(tǒng)的災(zāi)難恢復(fù)方法不同,當今災(zāi)難恢復(fù)方法要求每個組件都具有備份和恢復(fù)功能,而更多的是企業(yè)要了解關(guān)鍵業(yè)務(wù)服務(wù)。
德勤會計師事務(wù)所總經(jīng)理兼技術(shù)彈性實踐部門的負責人Pete Renneker說:“企業(yè)需要了解這些服務(wù)的依賴性,才能確定其是否在整個過程中提供了適當?shù)膹椥运健@?,企業(yè)是否需要證明能夠滿足50個應(yīng)用程序的4小時恢復(fù)時間目標(RTO),還是更重要的是選擇一個關(guān)鍵業(yè)務(wù)流程并在其中提高恢復(fù)能力?”
Renneker還指出,網(wǎng)絡(luò)安全在災(zāi)難恢復(fù)中的重要性與日俱增。雖然傳統(tǒng)的災(zāi)難恢復(fù)側(cè)重于最大限度地提高系統(tǒng)、應(yīng)用程序和數(shù)據(jù)的可用性,但在高度復(fù)制和冗余的環(huán)境中存在惡意軟件可能會導(dǎo)致真正的問題。
多年來,人們一直認為,如果有適當?shù)臑?zāi)難恢復(fù)設(shè)置,則應(yīng)該能夠從網(wǎng)絡(luò)事件中恢復(fù)。企業(yè)的運營環(huán)境越關(guān)鍵,就越有可能將主動復(fù)制用作其主要恢復(fù)功能。反過來,這意味著事件將對運營環(huán)境造成更大的負面影響。
Renneker說:“企業(yè)一直將災(zāi)難恢復(fù)視為只是可用性的挑戰(zhàn),但是我們看到基于完整性的事件可以使備份功能成為攻擊武器,并最終使系統(tǒng)癱瘓。”
情況越來越糟,而不是好轉(zhuǎn)
應(yīng)對這些新的情況(例如對宕機時間容忍度很低和網(wǎng)絡(luò)威脅增加)需要一種新的方法。通過從場景規(guī)劃的角度考慮技術(shù)彈性,企業(yè)將能夠更好地根據(jù)風險和影響確定優(yōu)先級。而關(guān)注最壞的情況對于不同的企業(yè)來說,這些可能會有所不同。
Renneker說,“企業(yè)最關(guān)心的場景是什么?當前的程序如何使人們對災(zāi)難恢復(fù)更有信心?如果不能從專注于單一場景的傳統(tǒng)程序轉(zhuǎn)變?yōu)樘峁┦冀K在線體驗的完全冗余的彈性網(wǎng)絡(luò),那么需要考慮如何改變流程和程序。”
例如,如果大多數(shù)具有高影響力的方案都圍繞著網(wǎng)絡(luò)威脅,則可以考慮將網(wǎng)絡(luò)恢復(fù)功能引入災(zāi)難恢復(fù)基礎(chǔ)設(shè)施中。這種技術(shù)通常將關(guān)鍵數(shù)據(jù)存儲在一個獨立的安全存儲庫中,該存儲庫以不可變形式處于脫機狀態(tài),并受到監(jiān)視和掃描,以查找數(shù)據(jù)的任何潛在更改。Renneker解釋說,盡管惡意軟件仍然有可能進入環(huán)境,但這種類型的“網(wǎng)絡(luò)保險庫”即使在惡意軟件提供有效載荷的情況下也可以防止竊取數(shù)據(jù)或遭到破壞。
一旦災(zāi)難事件結(jié)束,并且災(zāi)難恢復(fù)團隊了解其運營環(huán)境中引入了什么內(nèi)容,團隊就可以訪問保險庫,將數(shù)據(jù)清理到經(jīng)過正常狀態(tài),然后恢復(fù)生產(chǎn)。
對于當今的許多企業(yè)而言,更加緊迫的情況可能集中在當前冠狀病毒疫情所引起的在家工作模式上。例如,許多企業(yè)已經(jīng)轉(zhuǎn)向虛擬桌面基礎(chǔ)設(shè)施(VDI)之類的技術(shù),以使員工能夠在家中工作。如果這對企業(yè)來說是新技術(shù),那么這些虛擬桌面基礎(chǔ)設(shè)施(VDI)設(shè)置可能會帶來風險。如果虛擬桌面基礎(chǔ)設(shè)施(VDI)實例成為單點故障,則虛擬桌面基礎(chǔ)設(shè)施(VDI)出現(xiàn)故障或遭受服務(wù)器攻擊時,將會導(dǎo)致企業(yè)的員工無法工作。
Forrester公司基礎(chǔ)設(shè)施和運營高級分析師Naveen Chhabra表示,這些事情使得審查現(xiàn)有的業(yè)務(wù)和IT風險比以往任何時候都更加重要。每次對其進行審核時,都必須對災(zāi)難恢復(fù)功能進行修訂,以符合新的風險或現(xiàn)有風險的形式和方式的變化。
Hinks對此表示認同,并認為管理災(zāi)難恢復(fù)本質(zhì)上是技術(shù)風險管理。他說,“我有一個計劃,在這個計劃中,我們有‘X’美元來降低風險,以實現(xiàn)企業(yè)的內(nèi)部服務(wù)等級協(xié)議(SLA)、恢復(fù)點目標RPO()和恢復(fù)時間目標(RTO)。”
對于最重要的場景進行規(guī)劃,同樣重要的是使災(zāi)難恢復(fù)和生產(chǎn)環(huán)境保持同步。Chhabra指出,大多數(shù)企業(yè)都無法做到這一點。
他解釋說:“假設(shè)企業(yè)更新了Oracle部署。在通常情況下,看到這些更改僅應(yīng)用于主站點,而不是災(zāi)難恢復(fù)站點。這可能是失敗的原因,因為除非源站點和目標站點同步,否則即使恢復(fù)成功,災(zāi)難恢復(fù)也需要更長的時間。”
Chhabra建議說,“企業(yè)在每次進行重大更改時都進行同步,而不是在月末使其運營環(huán)境同步。而不匹配一直是問題的根源。”
在這些情況下,自動化可以發(fā)揮很大作用。在最基本的級別上,混合云的固有自動化功能可以真正提高災(zāi)難響應(yīng)能力和對策略的遵守。混合云方法還可以支持編排。最新一代的云原生應(yīng)用程序和工具通常旨在支持自動化,并提供可跨越許多云計算服務(wù)的基于策略的通用管理。
最后,自動化是測試的重要組成部分,而某些企業(yè)根本做不到。根據(jù)一份調(diào)查報告,27%的企業(yè)每年測試一次災(zāi)難恢復(fù)計劃或不到一次。
頻繁測試的好處
對于First Mid銀行信托公司來說,測試至關(guān)重要。Hinks說:“我們非常重視災(zāi)難恢復(fù)測試,我們認為這應(yīng)該像預(yù)定的任務(wù)一樣運行,每個月或每季度都要運行不同的場景。如果企業(yè)的災(zāi)難恢復(fù)測試成功率達到100%,則說明沒有進行足夠的測試,或者沒有在足夠多的場景進行測試。”
考慮到企業(yè)經(jīng)歷的變化,頻繁的測試比以往任何時候都重要。Chhabra說:“每次在源環(huán)境中進行重大更改時,都必須規(guī)劃更新恢復(fù)站點,然后再進行測試。假設(shè)企業(yè)要從VMware 6.2升級到6.5。當規(guī)劃一個運行手冊時,該手冊會考慮較早的版本,由于VMware在其最新版本中實現(xiàn)了某些功能的方式,該版本現(xiàn)在可能已過時。這使得驗證至關(guān)重要。”
與頻繁測試一樣重要,確保測試正確的東西也很重要。傳統(tǒng)上,企業(yè)一直專注于測試應(yīng)用程序、服務(wù)器、存儲陣列等。如今,從組件級測試轉(zhuǎn)向測試應(yīng)用程序之間的相互依賴性更有意義。
Renneker建議說:“朝著生態(tài)系統(tǒng)的測試邁進,也許可以從測試網(wǎng)絡(luò)轉(zhuǎn)移到具有多種場景的實時網(wǎng)絡(luò)測試。”
最后,企業(yè)重新評估參與災(zāi)難恢復(fù)規(guī)劃和執(zhí)行的人員。只專注于IT或只專注于業(yè)務(wù)方面都是一個很大的錯誤。例如,企業(yè)可能具有不再受支持但對其環(huán)境仍然至關(guān)重要的現(xiàn)有應(yīng)用程序或基礎(chǔ)設(shè)施。這是一種風險,需要規(guī)劃與該風險相對應(yīng)的災(zāi)難恢復(fù)功能。如果企業(yè)尚未為原有應(yīng)用程序或基礎(chǔ)設(shè)施計劃遷移或恢復(fù)基礎(chǔ)設(shè)施,則不會使災(zāi)難恢復(fù)投資適應(yīng)業(yè)務(wù)或IT風險。Chhabra指出,如果企業(yè)的恢復(fù)能力與該風險不符,則可能是投資過多或投資不足。