數(shù)字化時代,企業(yè)需要更加復雜的 IT 基礎(chǔ)架構(gòu)以確保業(yè)務的正常開展。因此,IT 基礎(chǔ)架構(gòu)一旦出現(xiàn)問題就有可能給企業(yè)帶來巨大的損失,甚至使企業(yè)消失。因此,現(xiàn)代企業(yè)中,IT 災害仍然是對生產(chǎn)過程最大的威脅。
什么是災難?
災難是具有挑戰(zhàn)性的麻煩,它能夠立即讓可用的人力、IT、財務和其他資源的能力不堪重負,并導致寶貴資產(chǎn)(例如文檔、知識產(chǎn)權(quán)對象、數(shù)據(jù)或硬件)的重大損失。
在大多數(shù)情況下,災難是導致非典型威脅的突然事件鏈,一旦災難開始,這些威脅就很難或不可能停止。根據(jù)災難的類型,企業(yè)必須制定嚴格的預警方案。
災難主要有三種類型:
1)自然災害:當聽到“災難”一詞時,大部分人可能會想到的第一件事就是自然災害。不同類型的自然災害包括洪水、地震、森林火災、異常高溫、強雪、暴雨、颶風和龍卷風以及海洋風暴。
2)技術(shù)和人為災害:技術(shù)災難是與技術(shù)基礎(chǔ)設(shè)施故障、人為錯誤或邪惡意志有關(guān)的任何事物,包括軟件中斷、發(fā)電故障等在內(nèi)的任何問題。
3)混合災害:這些災難包括全球軟件中斷、關(guān)鍵硬件故障、停電和任何電力供應問題、惡意軟件(包括勒索軟件)、電信問題(包括網(wǎng)絡隔離)、軍事沖突、恐怖主義事件、大壩故障、化學事件。
要說明的是,第三類災害包括了將自然和技術(shù)因素的特征結(jié)合在一起的混合災害。例如,大壩故障可能導致洪水,導致整個地區(qū)或國家的停電和通信問題。
什么是災難恢復?
災難恢復 (DR) 是在發(fā)生全球破壞性事件后應采取的一組操作(方法),用于恢復和還原操作。主要的災難恢復活動側(cè)重于重新獲得對數(shù)據(jù)、硬件、軟件、網(wǎng)絡設(shè)備、連接和電源的訪問權(quán)限。災難恢復行動還可以涵蓋重建后勤、搬遷工作人員和購買辦公設(shè)備,以防資產(chǎn)損壞或毀壞。
若要創(chuàng)建災難恢復計劃,需要考慮在以下時間段內(nèi)要完成的操作序列:
1)災難發(fā)生前(構(gòu)建、維護和測試 DR 系統(tǒng)和策略)。
2)在災難期間(采取即時響應措施以避免或減輕資產(chǎn)損失)。
3)災后(應用災備系統(tǒng)恢復運營,聯(lián)系客戶、合作伙伴,分析損失和恢復效率)。
災難恢復計劃中包含的12大要素
1)業(yè)務影響分析和風險評估數(shù)據(jù)
在此步驟中,主要研究對組織造成的典型和最危險威脅和漏洞。有了這些知識,能夠計算特定災難發(fā)生的概率,衡量對生產(chǎn)的潛在影響,并更加輕松地實施合適的災難恢復解決方案。
2)恢復目標:定義的 RPO 和 RTO
RPO 恢復點目標:該參數(shù)定義在不對生產(chǎn)產(chǎn)生重大影響的情況下可以丟失的數(shù)據(jù)量。
RTO 恢復時間目標:即企業(yè)可以容忍的最長停機時間,因此也是完成恢復工作流的最長時間。
3)職責分配
建立一個了解每個成員在發(fā)生災難時的負責的主要工作的團隊,是高效災難恢復計劃的必備組成部分。組建一個特殊的災難恢復團隊,為每位員工分配特定角色,并培訓他們在實際災難發(fā)生之前履行自己的角色,這是在需要實際行動來保存企業(yè)資產(chǎn)和生產(chǎn)時避免混淆和缺失鏈接的方法。
4)災難恢復站點創(chuàng)建
任何規(guī)?;蛐再|(zhì)的災難都可能嚴重損壞企業(yè)主服務器和生產(chǎn)數(shù)據(jù),使恢復運營變得不可能或非常耗時。在這種情況下,具有關(guān)鍵工作負載副本的 DR 站點是將 RTO 降至最低并在緊急情況期間和之后繼續(xù)向企業(yè)客戶端提供服務的最佳選擇。
5)故障恢復準備
故障恢復是在主數(shù)據(jù)中心再次運行時,將工作負載返回到主站點的過程,在規(guī)劃災難恢復時可能會忽略。
盡管如此,事先建立故障恢復順序,有助于使整個過程更加順暢,并避免可能發(fā)生的輕微數(shù)據(jù)丟失。此外,災難恢復站點通常不是為長時間支持基礎(chǔ)結(jié)構(gòu)的功能而設(shè)計的。
6)關(guān)鍵文檔和資產(chǎn)的遠程存儲
如今,即使是小型企業(yè)也會生成和處理大量關(guān)鍵數(shù)據(jù)。丟失硬拷貝或數(shù)字文檔可能會使其恢復變得耗時、昂貴甚至不可能。
因此,準備遠程存儲(例如,用于數(shù)字文檔的 VPS 云存儲和用于硬拷貝資產(chǎn)的受保護物理存儲)是確保在發(fā)生災難時重要數(shù)據(jù)可訪問性的可靠選擇。
7)注明設(shè)備要求
此 DR 計劃需要審核支持企業(yè) IT 基礎(chǔ)結(jié)構(gòu)正常運行的節(jié)點。這包括計算機、物理服務器、網(wǎng)絡路由器、硬盤驅(qū)動器、基于云的服務器托管設(shè)備等。
這些知識使您能夠查看在災難發(fā)生后恢復 IT 環(huán)境的原始狀態(tài)所需的元素。此外,企業(yè)還可以查看至少支持任務關(guān)鍵型工作負載所需的設(shè)備列表,并確保在主要資源不可用時生產(chǎn)連續(xù)性。
8)通信通道定義
確保為員工、管理層和災難恢復團隊提供穩(wěn)定可靠的內(nèi)部通信系統(tǒng)。設(shè)置通信通道的使用順序,以處理災難發(fā)生后主服務器和內(nèi)部網(wǎng)絡不可用的情況。
9)概述響應程序
在災難恢復計劃中,最初的幾個小時至關(guān)重要。創(chuàng)建有關(guān)如何執(zhí)行 DR 活動、監(jiān)視和執(zhí)行流程、故障轉(zhuǎn)移序列、系統(tǒng)恢復驗證等的分步說明。盡管采取了所有預防措施,但如果生產(chǎn)中心仍然發(fā)生災難,對特定事件的集中和快速響應可以幫助減輕損害。
10)快速報告事件
在災難發(fā)生并中斷生產(chǎn)后,不僅應通知災難恢復團隊成員。您還需要通知相關(guān)人員,包括營銷團隊、第三方供應商、合作伙伴和客戶。
作為災難恢復計劃的一部分,創(chuàng)建大綱和腳本,向員工展示如何通知每個關(guān)鍵組其關(guān)注的問題。此外,事先創(chuàng)建的基本新聞稿可以幫助您避免在實際事件中浪費時間。
11)災難恢復計劃測試和調(diào)整
成功的企業(yè)會隨著時間的推移而變化和擴展,其災難恢復計劃應根據(jù)相關(guān)需求和恢復目標進行調(diào)整。完成計劃后立即對其進行測試,并在每次引入更改時執(zhí)行其他測試。因此,企業(yè)可以衡量災難恢復計劃的效率并確保資產(chǎn)的可恢復性。
12)應用最佳災難恢復策略
災難恢復策略可以在DIY(自己動手)的基礎(chǔ)上實施,也可以委托給第三方供應商。前一種選擇是為了經(jīng)濟而犧牲可靠性的方式,而后者可能更昂貴但更有效。
災難恢復策略的選擇完全取決于企業(yè)的功能,包括團隊規(guī)模、IT 基礎(chǔ)架構(gòu)復雜性、預算、風險因素和所需的可靠性等。
總結(jié)
災難是突然的破壞性事件,可能使組織無法運行。自然、人為和混合災害具有不同級別的可預測性,但在組織級別上幾乎無法預防。確保組織安全的唯一方法是根據(jù)組織的特定需求創(chuàng)建可靠的災難恢復計劃。
原文出處:??A Guide on Disaster Recovery for IT Systems | HackerNoon??
原文作者:alextray