七大數(shù)據(jù)中心災(zāi)難:小概率事件也要提防
譯文本文介紹的這幾種隨機(jī)性事件讓數(shù)據(jù)中心運(yùn)營(yíng)者夜不能寐。貴公司的災(zāi)難恢復(fù)計(jì)劃是否準(zhǔn)備好處理這些突如其來(lái)的奇怪事件呢?
1. 衣荷華州火災(zāi)
2014年2月18日下午,那也是衣荷華州平時(shí)制作全州工資單的工作日,主數(shù)據(jù)中心發(fā)生了一場(chǎng)電氣火災(zāi)。衣阿華州CIO Robert von Wolffradt在GovTech.com上發(fā)布的一篇博客中回憶道,IT工作人員事先根本普沒(méi)有料到會(huì)發(fā)生這種事,他們之前一直在為預(yù)報(bào)當(dāng)天晚上會(huì)來(lái)襲的那場(chǎng)暴風(fēng)雪準(zhǔn)備應(yīng)急計(jì)劃。
火警在下午3點(diǎn)拉響后,數(shù)據(jù)中心斷了電,整幢大樓里面煙霧彌漫,工作人員只好疏散?;鹁|發(fā)了數(shù)據(jù)中心以天然氣為燃料的FM-200滅火系統(tǒng),大火被控制在壁掛式瞬態(tài)電壓抑制盒(如上圖)里面。該裝置控制著進(jìn)入數(shù)據(jù)中心的電流,因過(guò)熱而熔化。該州的總務(wù)管理團(tuán)隊(duì)拉了一條旁路,幾小時(shí)電又恢復(fù)了。
電力恢復(fù)正常后,大門(mén)可以打開(kāi),風(fēng)扇可以開(kāi)啟,大樓可以通風(fēng),不過(guò)警察和消防人員不愿意允許IT工作人員回到大樓?;馂?zāi)發(fā)生后過(guò)了三個(gè)半小時(shí),州政府官員確定可以重新進(jìn)入數(shù)據(jù)中心
Wolffradt不得不決定是否可以繼續(xù)處理該州付給公民和供應(yīng)商的1.62億美元連同員工工資。全體工作人員馬上展開(kāi)工作,清理掉了數(shù)據(jù)中心的殘留物,IT工作人員在晚上9點(diǎn)之前恢復(fù)了存儲(chǔ)連接網(wǎng)絡(luò)、防火墻和網(wǎng)絡(luò)核心系統(tǒng)。如果不更換瞬態(tài)電涌抑制盒,重新開(kāi)啟這些系統(tǒng)會(huì)讓設(shè)備處于險(xiǎn)境。Wolffradt于是決定無(wú)論如何要更換抑制盒,不過(guò)他為備用數(shù)據(jù)中心配備了人手,作為一項(xiàng)防范措施。
到了晚上11點(diǎn),另外的系統(tǒng)恢復(fù)上線,包括服務(wù)臺(tái)和交通運(yùn)輸部在即將到來(lái)的暴風(fēng)雪中監(jiān)測(cè)橋梁和公路所需的攝像頭。
另外恢復(fù)的還有財(cái)務(wù)系統(tǒng)和虛擬化應(yīng)用軟件。到了晚上,額外的系統(tǒng)投入運(yùn)行,到了早上備用數(shù)據(jù)中心不需要接過(guò)處理全州工資的工作。Wolffradt回憶道:“我們?cè)谀谴问录?dāng)中充分利用了國(guó)土安全部的語(yǔ)音通知系統(tǒng),兩次向政府部門(mén)主管和重要的工作人員通報(bào)最新情報(bào)。”他特別指出,數(shù)據(jù)中心火災(zāi)過(guò)后,傳聞四起;因此,CIO必須與其他責(zé)任方經(jīng)常溝通。隨著事態(tài)的進(jìn)一步發(fā)展,他本人隨時(shí)向州長(zhǎng)和重要政府官員匯報(bào)情況。
Wolffradt在博文中透露的一個(gè)教訓(xùn)是,讓主要的企業(yè)系統(tǒng)放在彼此不同的地方,比如將電子郵件放在與工資單不同的設(shè)施(數(shù)據(jù)中心)。另一個(gè)教訓(xùn)就是:一旦發(fā)生火災(zāi),總務(wù)管理和人力資源部門(mén)“是你最好的朋友”,會(huì)幫助你順利渡過(guò)難關(guān)。他寫(xiě)道,想恢復(fù)數(shù)據(jù)中心運(yùn)營(yíng),最棘手的障礙之一就是,說(shuō)服警察和消防人員:IT工作人員可以重新進(jìn)入數(shù)據(jù)中心。數(shù)據(jù)中心所在的大樓里面共有1000名州雇員,大多數(shù)人等待的時(shí)間比IT工作人員還長(zhǎng),等警報(bào)解除后,才重新進(jìn)入大樓。#p#
2. 三星大火
不,這里說(shuō)的不是什么新智能手機(jī)的名稱(chēng),而是三星遭遇的大火。
2014年4月20日,韓國(guó)果川市一幢辦公樓的中間層燃起了大火。大火是從三星在這幢大樓的SDS數(shù)據(jù)中心開(kāi)始冒出來(lái)的。ZDNet韓國(guó)特約撰稿人Jaehwan Cho在其推特帳號(hào)(@hohocho)上發(fā)布了來(lái)自韓國(guó)聯(lián)合通訊社的圖片,圖片顯示煙霧和火焰從大樓側(cè)面冒出來(lái),熱浪導(dǎo)致碎片從外面不斷墜落下來(lái)。
據(jù)Data Center Knowledge報(bào)道,三星的IT工作人員和大樓住戶(hù)迅速被疏散,只有一名工作人員因墜落的碎片而受到割傷、擦傷及其他輕傷。
那場(chǎng)大火導(dǎo)致三星設(shè)備(包括智能手機(jī),平板電腦和智能電視)的用戶(hù)們無(wú)法訪問(wèn)他們一直試圖獲取的數(shù)據(jù)。在果川市第二個(gè)數(shù)據(jù)中心的恢復(fù)系統(tǒng)恢復(fù)服務(wù)之前,廣大設(shè)備用戶(hù)一度數(shù)小時(shí)無(wú)法訪問(wèn)內(nèi)容,最后三星工作人員只好開(kāi)博客致歉。#p#
3. 電纜管道著火
2009年7月3日,西雅圖費(fèi)舍爾廣場(chǎng)一個(gè)配電室的火災(zāi)導(dǎo)致Authorize.net支付門(mén)戶(hù)網(wǎng)站、微軟必應(yīng)旅游服務(wù)、Geocaching.com服務(wù)、Dotster域名注冊(cè)服務(wù)、主機(jī)托管服務(wù)提供商AdHost以及另外幾十個(gè)網(wǎng)站癱瘓。第二天早上才恢復(fù)供電。
《普吉特海灣商業(yè)雜志》報(bào)道,Geocaching和AdHost到第二天上午10點(diǎn)才恢復(fù)運(yùn)行,而其他服務(wù)網(wǎng)站花了更長(zhǎng)時(shí)間才恢復(fù)如初。據(jù)《普吉特海灣商業(yè)雜志》報(bào)道,那場(chǎng)大火顯然是從燒壞的電纜管道(見(jiàn)上圖)開(kāi)始冒出來(lái)的,害得費(fèi)舍爾通信公司(Fisher Communications)估計(jì)花費(fèi)了1000萬(wàn)美元的維修和設(shè)備更換費(fèi)用。
4. 桑迪颶風(fēng):發(fā)電機(jī)故障
2012年10月下旬,桑迪颶風(fēng)一路席卷弗吉尼亞州、特拉華州、馬里蘭州和新澤西州時(shí),曼哈頓與美國(guó)東沿岸大部分地區(qū)一樣失去了電力。海水風(fēng)暴潮隨之而來(lái),沖上了街道,導(dǎo)致曼哈頓下城區(qū)和三州鄰接地區(qū)的另外許多地方頓時(shí)陷入一片汪洋。
在曼哈頓下城區(qū)布羅德大街75號(hào)即Peer 1主機(jī)托管公司的所在地,這無(wú)疑是災(zāi)難恢復(fù)規(guī)劃人員的噩夢(mèng)。雖然備用發(fā)電機(jī)可以隨時(shí)搬到遠(yuǎn)高于水位線的大樓18層,但是涌入大樓大堂、灌滿(mǎn)地下室的那場(chǎng)風(fēng)暴潮毀掉了放在那里的應(yīng)急發(fā)電機(jī)燃油泵送系統(tǒng)。一旦浸泡在水下,系統(tǒng)電路不再工作。(紐約在9•11事件后實(shí)施的一項(xiàng)規(guī)定是,限制貯存在辦公樓的燃油量)。因此,發(fā)電機(jī)開(kāi)始用完供應(yīng)有限的燃油后,這家公司無(wú)法獲得新補(bǔ)充的燃油。就在幾名員工設(shè)法趕到數(shù)據(jù)中心、幫助防止任何數(shù)據(jù)丟失的同時(shí),Peer 1建議客戶(hù)在數(shù)小時(shí)內(nèi)有計(jì)劃地關(guān)閉系統(tǒng)。
Peer 1不是關(guān)閉設(shè)施,而是成立了一支救援隊(duì),運(yùn)送發(fā)電機(jī)所需的燃油。燃油擺放在街上(見(jiàn)上圖),一路手遞手送到17樓,也就是發(fā)電機(jī)的儲(chǔ)油罐所在地方。儲(chǔ)油罐及油泵可以將燃油輸送到這層樓上方的發(fā)電機(jī)。Peer 1的客戶(hù)(包括SquareSpace這家網(wǎng)站開(kāi)發(fā)公司和Fog Creek Software這家在線項(xiàng)目管理軟件供應(yīng)商)為這支25個(gè)成員的救援隊(duì)提供了人力,在10月30日晚直至10月31日,將燃油送到了樓上的發(fā)電機(jī)。
到10月31日午飯時(shí)間,他們終于灌滿(mǎn)了儲(chǔ)油罐,總算有機(jī)會(huì)休息一下,吃的午飯是靠步行經(jīng)過(guò)布魯克林大樓送過(guò)來(lái)的(由于曼哈頓街道堵塞)。Peer 1的災(zāi)難恢復(fù)方案當(dāng)中既沒(méi)有包括需要成立救援隊(duì),也沒(méi)有包括步行送午飯。但這場(chǎng)颶風(fēng)沒(méi)有導(dǎo)致服務(wù)停運(yùn)。#p#
5. SUV導(dǎo)致的停運(yùn)
2007年11月13日,Rackspace的主機(jī)托管業(yè)務(wù)和在達(dá)拉斯同一個(gè)數(shù)據(jù)中心運(yùn)行的成立才不久的Mosso Cloud公司因一輛失控的SUV而停運(yùn)了數(shù)小時(shí)。
這輛大型四輪驅(qū)動(dòng)汽車(chē)的司機(jī)是名糖尿病患者,他當(dāng)時(shí)昏倒在方向盤(pán)前。這輛車(chē)不是突然轉(zhuǎn)向街道邊沿,而是完全加速直行,在丁字路口沒(méi)有轉(zhuǎn)彎,越過(guò)路緣徑直開(kāi)到遠(yuǎn)處的草徑上。草徑起到了斜面的作用,讓這輛SUV得以在空中越過(guò)一排泊著的汽車(chē)。它沖下來(lái)后又撞上了一幢大樓,這幢大樓里面正好放著Rackspace數(shù)據(jù)中心的電力變壓器,結(jié)果一下了斷了電。
就在切換過(guò)程連接電力公司的備用市電的時(shí)候,大樓的冷卻系統(tǒng)停了下來(lái)。計(jì)算處理過(guò)程沒(méi)有受到干擾,因?yàn)橛?jì)算設(shè)備靠正是為這類(lèi)突發(fā)事件而部署的應(yīng)急電池繼續(xù)運(yùn)行。電力公司接到急救人員正從一輛一頭撞到變壓器設(shè)備的汽車(chē)中搶救司機(jī)這個(gè)消息后,關(guān)閉了通向該數(shù)據(jù)中心的所有電力,結(jié)果擾亂了Rackspace的備用市電,于是數(shù)據(jù)中心的工作人員為大樓的冷卻器啟動(dòng)了重啟過(guò)程。
電池電力再次啟動(dòng),應(yīng)急發(fā)電機(jī)立馬開(kāi)始運(yùn)轉(zhuǎn)起來(lái),而災(zāi)難恢復(fù)方案要求這樣。盡管這次事件以及電網(wǎng)兩次停電,數(shù)據(jù)中心的處理到目前為止沒(méi)有受到中斷。然而,冷卻系統(tǒng)的大型冷卻器的多步驟啟動(dòng)過(guò)程在重啟進(jìn)行到一半受到了干擾,事實(shí)證明要不是進(jìn)一步排查故障,不可能讓一些系統(tǒng)重啟。
Rackspace總裁Lew Moorman在事件后不久發(fā)布的博文中告訴客戶(hù):“兩臺(tái)冷卻器沒(méi)有重啟,導(dǎo)致數(shù)據(jù)中心過(guò)熱。”計(jì)算設(shè)備散發(fā)的熱量足以讓溫度直線上升,于是Rackspace的管理人員實(shí)施了“分階段關(guān)閉設(shè)備的方法,以免設(shè)備損壞”,客戶(hù)數(shù)據(jù)因而丟失。
停電一直持續(xù)到晚上10點(diǎn)50分,此時(shí)事件已過(guò)去了5小時(shí)。軟件即服務(wù)提供商37signals(Rackspace為這家公司提供主機(jī)托管服務(wù))告知自己的客戶(hù):“這一連串的糟糕事件不僅擊跨了我們的系統(tǒng),還擊跨了我們數(shù)據(jù)中心先進(jìn)的備用系統(tǒng)。我們會(huì)竭盡全力進(jìn)一步分散我們的系統(tǒng),以便讓將來(lái)諸如此類(lèi)的任何停運(yùn)事件更少發(fā)生。”除了加大失去客戶(hù)的風(fēng)險(xiǎn)外,這起事件據(jù)稱(chēng)還讓Rackspace退款350萬(wàn)美元,損失慘重。
6. 焊工引起的癱瘓
2015年1月9日,由于一名焊工的吹管不小心引燃了旁邊的建筑材料,原準(zhǔn)備作為亞馬遜網(wǎng)站未來(lái)數(shù)據(jù)中心的一幢大樓發(fā)生了火災(zāi)。這場(chǎng)大火很快變成了維吉尼亞州阿什本一處地方的三級(jí)大火。幾英里開(kāi)外的地方也能見(jiàn)到滾滾濃煙。亞馬遜發(fā)言人告訴美國(guó)廣播公司新聞網(wǎng)駐地方辦事處:這場(chǎng)大火造成約10萬(wàn)美元的損害,不過(guò)補(bǔ)充說(shuō)“沒(méi)有影響亞馬遜運(yùn)營(yíng)的風(fēng)險(xiǎn)”,因?yàn)樵摂?shù)據(jù)中心還沒(méi)有投入使用。#p#
7. 太陽(yáng)風(fēng)暴
萬(wàn)一嫌火災(zāi)、洪水和四輪驅(qū)動(dòng)車(chē)事故還不夠鬧心,總是會(huì)出現(xiàn)這種小概率事件:太陽(yáng)風(fēng)暴襲擊地球大氣層。太陽(yáng)耀斑過(guò)后有時(shí)會(huì)出現(xiàn)所謂的太陽(yáng)風(fēng)暴,來(lái)自太陽(yáng)表面的日冕物質(zhì)噴射會(huì)沿著與之前的太陽(yáng)耀斑同樣的軌跡,遠(yuǎn)離太陽(yáng)表面。
這一連串事不常發(fā)生,但是一旦發(fā)生,太陽(yáng)耀斑似乎會(huì)為噴射清理出一條路線,以便高速?lài)娚涞教铡kS著帶電粒子接近地球大氣層,它們會(huì)因高速而形成強(qiáng)磁性。磁場(chǎng)會(huì)誘導(dǎo)長(zhǎng)長(zhǎng)的導(dǎo)電材料,比如導(dǎo)電電纜。管道和電話系統(tǒng)提供了另外的長(zhǎng)長(zhǎng)導(dǎo)電體,能夠捕捉到電荷。
這種威脅對(duì)倫敦勞埃德保險(xiǎn)公司(Lloyds of London)來(lái)說(shuō)足夠嚴(yán)重,于是發(fā)布了一份風(fēng)險(xiǎn)評(píng)估報(bào)告:《北美電網(wǎng)面臨的太陽(yáng)風(fēng)暴風(fēng)險(xiǎn)》。
據(jù)這份報(bào)道聲稱(chēng):“電力可靠性面臨的一個(gè)嚴(yán)重威脅就是磁暴――太陽(yáng)風(fēng)暴在地球大氣層的上層引起的嚴(yán)重干擾……它們誘導(dǎo)的電流會(huì)讓電網(wǎng)系統(tǒng)出現(xiàn)過(guò)載,從而引發(fā)電壓崩潰,或者更糟糕的是,損壞數(shù)量眾多的價(jià)格不菲的特高壓變壓器。”
1989年,加拿大就遭遇了這樣一起太陽(yáng)風(fēng)暴,電涌導(dǎo)致變壓器損壞,結(jié)果魁北克水力發(fā)電公司的電網(wǎng)陷入癱瘓。據(jù)估計(jì),1859年美國(guó)發(fā)生的一起規(guī)模較小的太陽(yáng)風(fēng)暴(名為卡林頓事件)讓幾名正在作業(yè)的報(bào)務(wù)員觸電,并且導(dǎo)致幾個(gè)電報(bào)局著火。1989年的那起事件導(dǎo)致東北電力協(xié)調(diào)委員會(huì)和中大西洋地區(qū)委員會(huì)的斷路器和防護(hù)裝備失效,幾乎讓成員電網(wǎng)出現(xiàn)連鎖反應(yīng)式崩潰。電涌損壞發(fā)電機(jī)的升壓變壓器后,新澤西州的一家核電廠不得不停止運(yùn)行。
較晚些時(shí)候,2012年也發(fā)生過(guò)一場(chǎng)太陽(yáng)風(fēng)暴。
結(jié)束語(yǔ)
雖然所有這些場(chǎng)景讓最身經(jīng)百戰(zhàn)的數(shù)據(jù)中心運(yùn)營(yíng)者也嚇出一身冷汗,不過(guò)好消息是,本文中提到的所有企業(yè)組織都設(shè)法從任何災(zāi)難恢復(fù)方案根本預(yù)料不到的一連串事件后迅速恢復(fù)了過(guò)來(lái)。
你有沒(méi)有任何僥幸脫險(xiǎn)的經(jīng)歷?災(zāi)難發(fā)生后迅速恢復(fù)方面有何忠告或建議?你最擔(dān)心的數(shù)據(jù)中心災(zāi)難噩夢(mèng)又是什么?歡迎留言交流!
英文:7 data center disasters youll never see coming