容災(zāi)與備份區(qū)別、災(zāi)備技術(shù)和容災(zāi)體系規(guī)劃
容災(zāi) (Disaster Tolerance):就是在上述的災(zāi)難發(fā)生時,在保證生產(chǎn)系統(tǒng)的數(shù)據(jù)盡量少丟失的情況下,保持生存系統(tǒng)的業(yè)務(wù)不間斷地運行。
容錯 (Fault Tolerance):指在計算機系統(tǒng)的軟件、硬件發(fā)生故障時,保證計算機系統(tǒng)中仍能工作的能力。
區(qū)別 :容錯可以通過硬件冗余、錯誤檢查和熱交換 再加上特殊的軟件來實現(xiàn),而容災(zāi)必須通過系統(tǒng)冗余、災(zāi)難檢測和系統(tǒng)遷移等技術(shù)來實現(xiàn)。當設(shè)備故障不能通過容錯機制解決而導(dǎo)致系統(tǒng)宕機時,這種故障的解決就屬于容災(zāi)的范疇。
什么是災(zāi)難恢復(fù) (Disaster Recovery):指的是在災(zāi)難發(fā)生后,將系統(tǒng)恢復(fù)到正常運作的能力。
區(qū)別 :容災(zāi)強調(diào)的是在災(zāi)難發(fā)生時,保證系統(tǒng)業(yè)務(wù)持續(xù)不 間斷地運行的能力,而災(zāi)難恢復(fù)強調(diào)的災(zāi)難之后,系統(tǒng)的恢復(fù)能力。現(xiàn)在的容災(zāi)系統(tǒng)都包含著災(zāi)難恢復(fù)的功能,所以本文的討論除了包括容災(zāi)方面的內(nèi)容,還包括了 災(zāi)難恢復(fù)的部分內(nèi)容。
容災(zāi)系統(tǒng)在企業(yè)中給與數(shù)據(jù)安全系數(shù)相當高的保障,但是容災(zāi)系統(tǒng)倒是是什么,他們是什么意思?恐怕連正在使用容災(zāi)備份的網(wǎng)絡(luò)管理人員都不能解釋。本文用最淺顯的語言給大家解釋容災(zāi)備份到底是什么。
1.容災(zāi)和備份的目的不同
容災(zāi)系統(tǒng)的目的在于保證系統(tǒng)數(shù)據(jù)和服務(wù)的“在線性”,即當系統(tǒng)發(fā)生故障時,仍然能夠正常地向網(wǎng)絡(luò)系統(tǒng)提供數(shù)據(jù)和服務(wù),以使系統(tǒng)不致停頓。
而容災(zāi)備份技術(shù)的目的與此并不相同,備份是“將在線數(shù)據(jù)轉(zhuǎn)移成離線數(shù)據(jù)的過程”,其目的在于應(yīng)付系統(tǒng)數(shù)據(jù)中的邏輯錯誤和歷史數(shù)據(jù)保存。
所以,在各種容錯技術(shù)非常豐富的今天,備份系統(tǒng)仍然是不可替代的。
2.備份是基石
備份是指為防止系統(tǒng)出現(xiàn)操作失誤或系統(tǒng)故障導(dǎo)致數(shù)據(jù)丟失,而將全系統(tǒng)或部分數(shù)據(jù)集合從應(yīng)用主機的硬盤或陣列復(fù)制到其它的存儲介質(zhì)的過程。
備份是數(shù)據(jù)高可用的最后一道防線,其目的是為了系統(tǒng)數(shù)據(jù)崩潰時能夠恢復(fù)數(shù)據(jù)。
3.容災(zāi)不可少
那么建設(shè)了備份系統(tǒng),是否就不需要容災(zāi)備份系統(tǒng)?這還要看業(yè)務(wù)部門對RTO(恢復(fù)所需的時間指標)/RPO(能夠恢復(fù)到的最新狀態(tài))指標的 期望值,如果允許1TB的數(shù)據(jù)庫RTO=8小時,RPO=1天,那備份系統(tǒng)就能滿足要求。同時,備份的目的在于應(yīng)付系統(tǒng)數(shù)據(jù)中的邏輯錯誤和歷史數(shù)據(jù)保存。只能夠滿足數(shù)據(jù)丟失、數(shù)據(jù)破壞時的數(shù)據(jù)恢復(fù)目的,而不能提供實時的業(yè)務(wù)接管功能。
因此容災(zāi)系統(tǒng)對于某些關(guān)鍵業(yè)務(wù)而言也是必不可少的。人們談及容災(zāi)備份往往是針對當生產(chǎn)系統(tǒng),不能正常工作時,其業(yè)務(wù)可由容災(zāi)系統(tǒng)接替這些業(yè)務(wù),繼續(xù)進行正常的工作。
能夠提供很好的RTO和RPO指標。同時遠程容災(zāi)系統(tǒng)具備應(yīng)付各種災(zāi)難,特別是區(qū)域性與毀滅性災(zāi)難的能力,具備較為完善的數(shù)據(jù)保護與災(zāi)難恢復(fù)功能,保證災(zāi)難降臨時數(shù)據(jù)的完整性及業(yè)務(wù)的連續(xù)性,并在最短時間內(nèi)恢復(fù)業(yè)務(wù)系統(tǒng)的正常運行,將損失降到最小。
4.容災(zāi)不能替換備份
容災(zāi)系統(tǒng)會完整地把生產(chǎn)系統(tǒng)的任何變化復(fù)制到容災(zāi)端去,包括不想讓它復(fù)制的工作,比如不小心把計費系統(tǒng)內(nèi)的用戶信息表刪除了,同時容災(zāi)端的 用戶信息表也會被完整地刪除。如果是同步容災(zāi),那容災(zāi)端同時就刪除了;如果是異步容災(zāi),那容災(zāi)端在數(shù)據(jù)異步復(fù)制的間隔內(nèi)就會被刪除。這時就需要從備份系統(tǒng) 中取出最新備份,來恢復(fù)被錯誤刪除的信息。因此容災(zāi)系統(tǒng)的建設(shè)不能替代備份系統(tǒng)的建設(shè)。
5.規(guī)劃企業(yè)安全保障體系考慮的因素
對于企業(yè)而言到底應(yīng)該如何建設(shè)自己的災(zāi)備系統(tǒng),是只建設(shè)備份系統(tǒng)、還是只建設(shè)容災(zāi)系統(tǒng)、還是需要二者同時建設(shè)、或者是分步驟的建設(shè),誰先誰后等問題,主要根據(jù)業(yè)務(wù)的需求而定:
(1)需要防范的災(zāi)難類型:
企業(yè)信息系統(tǒng)可能遇到的災(zāi)難類型及其發(fā)生的比例如下:
對于“人為錯誤”、“軟件損壞和程序錯誤”加上“病毒”等這些都稱為邏輯錯誤,占總故障的 56%,這些錯誤只能通過備份系統(tǒng)才能防范;
對于“硬件和系統(tǒng)故障”以及“自然災(zāi)難”等故障可以通過在容災(zāi)系統(tǒng)(或者異地備份)來防范,占總故障率的44%。
(2)允許的RTO和RPO指標
從技術(shù)上看,衡量容災(zāi)系統(tǒng)有兩個主要指標:RPO(Recovery Point Object)和RTO(Recovery Time Object),其中RPO代表了當災(zāi)難發(fā)生時允許丟失的數(shù)據(jù)量;而RTO則代表了系統(tǒng)恢復(fù)的時間。
一般而言:容災(zāi)系統(tǒng)能夠提供較好的RTO和RPO指標。
(3)系統(tǒng)投資
總的說來,建設(shè)備份系統(tǒng)的投資遠比建設(shè)標準意義的容災(zāi)系統(tǒng)的投資小得多:
備份系統(tǒng)的投資規(guī)模一般在幾百萬;而最節(jié)省的一套容災(zāi)系統(tǒng)投資都將上千萬;災(zāi)難恢復(fù)與投資關(guān)系:
6.常用的災(zāi)備組合方式
基于以上原因,業(yè)界在災(zāi)備系統(tǒng)的建設(shè)上一般按照以下幾種方式:
- 建設(shè)機房內(nèi)的本地備份系統(tǒng)
- 建設(shè)異地的備份系統(tǒng)
該方式可以備份系統(tǒng)的價格滿足備份和異地容災(zāi)功能,能夠避免主生產(chǎn)中心由于地震、火災(zāi)或其他災(zāi)害造成的數(shù)據(jù)丟失。
- 備份系統(tǒng)+異地容災(zāi)系統(tǒng)
這是一個較為理想化的容災(zāi)系統(tǒng)一體化解決方案,能夠在很大程度上避免各種可能的錯誤。
7.容災(zāi)恢復(fù)等級
8.災(zāi)難恢復(fù)層次
9.災(zāi)備技術(shù)層次
1.1 磁盤陣列災(zāi)備技術(shù)
同步方式
半同步方式
異步方式
1.2 智能交換機技術(shù)
2.1 卷管理軟件災(zāi)備技術(shù)
2.2 數(shù)據(jù)庫日志復(fù)制技術(shù)
2.3 數(shù)據(jù)庫災(zāi)備技術(shù)
3.1 應(yīng)用災(zāi)備技術(shù)
10.容災(zāi)體系結(jié)構(gòu)規(guī)劃
系統(tǒng)正常運行
生產(chǎn)中心單臺主機宕機
生產(chǎn)中心所有主機宕機
生產(chǎn)中心回切