為什么會發(fā)生IT災(zāi)難?
一、概述
IT災(zāi)難事件大家都不陌生,也是老生常談了,但為什么會發(fā)生IT災(zāi)難事件呢?深入來看其實包含兩個方面,即觸發(fā)因素和根本原因。觸發(fā)因素是觸發(fā)初始事件或異常情況,根本原因是把最初的事件變成災(zāi)難的原因,它們通常與無法在合理的時間(可容忍的RTO時間)內(nèi)從事件中成功恢復有關(guān),而且災(zāi)難并非總是如人們所料而發(fā)生。
二、IT災(zāi)難的觸發(fā)因素
正常數(shù)據(jù)中心運營面臨的典型IT災(zāi)難觸發(fā)因素總結(jié)包括以下方面:
1、機房遭遇滲水或漏水事故;
2、停電相關(guān)事件,如短路、閃電或中央斷電;
3、機房冷卻系統(tǒng)故障;
4、火災(zāi),通常由于過熱,短路或電子元件故障產(chǎn)生;
5、人為錯誤或缺乏使用技巧,這種情況有時代價高昂;
6、軟件故障,程序員可能會犯錯;
7、數(shù)據(jù)中心和外部的通信故障,有情況發(fā)生時,延誤了處理;
8、地震、臺風、洪水,山火等自然災(zāi)害,全球變暖,極端氣候會增多;
9、機器設(shè)備本身硬件故障;
10、錯誤冗余,也就是冗余在關(guān)鍵時刻沒起到作用;
11、蓄意的網(wǎng)絡(luò)攻擊,如黑客或者勒索軟件等;
12、網(wǎng)絡(luò)病毒感染;
13、地區(qū)社會暴亂或者戰(zhàn)亂;
14、其他無法預料的突發(fā)事件。
三、IT災(zāi)難的根本原因
IT災(zāi)難的根本原因也就是把我上面提到的這些觸發(fā)因素演變成真正IT災(zāi)難的原因,如果保護和預防措施很到位的話,那就不能稱得上是真正的災(zāi)難了,因為可以恢復,或者把損失降到可以接受的范圍內(nèi)。那么相反一旦發(fā)生IT災(zāi)難,如果沒有做好相應(yīng)的保護機制和措施,最不好評估的損失就是數(shù)據(jù)的損失,因為絕大部分數(shù)據(jù)一旦丟失是不可再生的。
這里著重討論一下,在許多情況下,雖然有諸多的保護措施,但是有些措施還是有不確定性,也就是不能確保在災(zāi)難發(fā)生時一定會起作用。例如以下情況:
1、不間斷電源
有一種情況,在電源故障后,人們才發(fā)現(xiàn)UPS電池耗盡或UPS單元之間的電源平衡不正確,結(jié)果其中一個UPS單元過載并發(fā)生故障,導致與其相連的系統(tǒng)癱瘓;
2、防火隔離保護
只有在真正發(fā)生火災(zāi)的情況下,人們才能知道這個系統(tǒng)效果有多大。如果只有一個水管,一個電纜隧道或一個冷卻隧道沒有很好地隔離,那么火災(zāi)或不可接受的高溫很可能會蔓延到相鄰的房間;
3、滅火系統(tǒng)
除非在真實的環(huán)境中進行試驗,否則人們不會知道是否有氣體泄漏或系統(tǒng)故障;
4、錯誤冗余
由于配置錯誤,可能有些冗余保護起不到真正的冗余作用。根據(jù)我們的經(jīng)驗,這通常適用于通信交換機,SAN控制器和某些存儲系統(tǒng)??赡苤挥挟斊渲幸粋€系統(tǒng)出現(xiàn)故障時,組織才會發(fā)現(xiàn)高可用配置不正確,并發(fā)生應(yīng)用程序中斷;
5、異地災(zāi)備間飛行數(shù)據(jù)丟失問題
在異地災(zāi)備中,故障轉(zhuǎn)移到遠程位置是災(zāi)難恢復戰(zhàn)略的一個關(guān)鍵部分。然而啟動故障轉(zhuǎn)移的最大障礙是兩個站點之間數(shù)據(jù)完整的不確定性。這種不確定性的原因是生產(chǎn)站點和恢復站點之間傳輸?shù)臄?shù)據(jù)不一致。一個站點上的災(zāi)難需要能夠在一個遠程位置進行恢復,即遠離主站點的物理實際空間。確保遠程恢復的一個主要問題是確保飛行中的數(shù)據(jù)完整且一致。那么何為飛行中的數(shù)據(jù)丟失呢?災(zāi)難發(fā)生后生產(chǎn)系統(tǒng)可能已提交數(shù)據(jù)更改,但數(shù)據(jù)可能未到達恢復站點,這就是飛行中的數(shù)據(jù)丟失,如果能確保飛行中的數(shù)據(jù)零丟失,能使您能夠頻繁地進行故障切換和故障恢復。測試故障轉(zhuǎn)移過程應(yīng)該成為一個常規(guī)事件,用于評估和改進災(zāi)難恢復過程和準備情況;
6、日益嚴重的蓄意攻擊
互聯(lián)網(wǎng)正在受到更頻繁的,更嚴重的攻擊。從生活中的冰箱,汽車到健身監(jiān)測器,超過200億臺各種類型的設(shè)備連接到互聯(lián)網(wǎng),每周還持續(xù)增長數(shù)百萬臺設(shè)備新連接到互聯(lián)網(wǎng)上,安全漏洞和漏洞的數(shù)量正呈爆炸式增長。網(wǎng)絡(luò)攻擊的違規(guī)行為的代價是驚人的,可能會威脅到某些公司的生存。個人覺得如果出現(xiàn)了一個新的網(wǎng)絡(luò)威脅,那么隨著技術(shù)的發(fā)展,新的防御措施也會產(chǎn)生,但出現(xiàn)了一個新的防御措施,那么可能新的攻擊方法又會出現(xiàn)。所以建議用戶最好備份多個副本,至少要保留一個“末日”副本,也就是數(shù)據(jù)和日志文件的原始副本。
四、總結(jié)
事件觸發(fā)因素與大量低概率的根本原因共同促成了IT災(zāi)難,所以IT災(zāi)難并不是表面上的那么簡單。人類在評估低概率事件的影響力方面比較弱,對IT災(zāi)難風險的清醒評估至關(guān)重要,至于具體采用什么等級的措施或者資金要投入多少,要達到什么程度,可根據(jù)不同的預算情況和業(yè)務(wù)的重要性來實施,但首先要認識到這個問題。