自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

論災(zāi)備之重要性:七場無法預(yù)見的數(shù)據(jù)中心災(zāi)難

譯文
云計算 云安全
今天要談到的都稱得上是“隨機事件”,而數(shù)據(jù)中心運維人員將會因它們的出現(xiàn)而徹夜無眠。在慨嘆之余,大家不妨捫心自問,您的災(zāi)難恢復(fù)方案是否足以應(yīng)對這些罕見的意外狀況?

今天要談到的都稱得上是“隨機事件”,而數(shù)據(jù)中心運維人員將會因它們的出現(xiàn)而徹夜無眠。在慨嘆之余,大家不妨捫心自問,您的災(zāi)難恢復(fù)方案是否足以應(yīng)對這些罕見的意外狀況?

[[136531]]

洪水、火災(zāi)、太陽耀斑以及四驅(qū)汽車造成的車禍:這一切都是數(shù)據(jù)中心運維人員根本無法想象,但卻能夠切實帶來風(fēng)險的潛在災(zāi)難。接下來,我們將一同了解相關(guān)情況。

現(xiàn)任OpenStack基金會執(zhí)行董事的Jonathan Bryce二十多歲時曾是達拉斯沃思堡的Mosso Cloud公司的創(chuàng)始人。令他畢生難忘的是2009年12月18日這家公司所遭受的突發(fā)事件。

這次事故源自某位身患糖尿病的司機。他當(dāng)時在Rackspace數(shù)據(jù)中心——也就是Mosso業(yè)務(wù)托管所在位置——附近突然陷入昏迷,他的SUV就直接撞上了該數(shù)據(jù)中心的電力變壓設(shè)備。在車禍出現(xiàn)之后,Mosso的業(yè)務(wù)仍然能夠正常運轉(zhuǎn),但這僅僅是接下來一連串最終導(dǎo)致服務(wù)停機的小機率事件的前奏。

我們要如何為這樣一種看似不可能發(fā)生的狀況作好災(zāi)難恢復(fù)規(guī)劃?“這僅僅是大家需要了解,且確實可能發(fā)生的故障根源的其中一種,”Bryce表示。

Robert von Woffradt身為愛荷華州州政府CIO也結(jié)合自身發(fā)表了看法,該州主要數(shù)據(jù)中心遭遇意外火災(zāi)后他在博客當(dāng)中談?wù)摿舜耸?。相?012年遭遇了由颶風(fēng)桑迪引發(fā)的洪水的下曼哈頓辦公樓群與各醫(yī)院也會對此表示認(rèn)同。

即使大家自認(rèn)為已經(jīng)針對地震、洪水與火災(zāi)作好了萬全的準(zhǔn)備,那么我們提醒一句——您有沒有考慮到偶爾出現(xiàn)的太陽耀斑?就在2012年,一次強大的太陽耀斑現(xiàn)象差一點就破壞了地球上的眾多電力傳輸系統(tǒng)。如果這次爆發(fā)的出現(xiàn)再早一周,地球?qū)⑹艿街苯佑绊?,科羅拉多州大學(xué)的Daniel Baker在2014年接受NASA科學(xué)新聞采訪時指出。耀斑的影響力將沖破地球大氣層,進而導(dǎo)致意外之外的嚴(yán)重輸電線路電壓震蕩。

大家可能會認(rèn)為這樣的風(fēng)險離自己非常遙遠,但事實會給我們實實在在的教訓(xùn)。就在1859年,太陽耀斑的干擾在地球上引發(fā)了所謂“卡林頓事件”,電報局所部署的線路由于電壓瞬間增高而全面失控,一些辦公室甚至直接起火。

親身經(jīng)歷過災(zāi)難事態(tài)的CIO與數(shù)據(jù)中心管理者們紛紛指出,大家所能拿出的***應(yīng)對措施就是提前做好準(zhǔn)備。“至少每年對系統(tǒng)進行一次全面崩潰測試。不要相信什么模擬結(jié)果,直接將其離線,”Wolffradt在愛荷華州政府遭遇火災(zāi)危機后所發(fā)表的一篇博客中建議道。

下面我們就一同來看實際發(fā)生過的各類數(shù)據(jù)中心災(zāi)難事故——其中一些非??膳拢硪恍﹦t有些匪夷所思——當(dāng)然,也歡迎大家在評論欄中分享您自己的災(zāi)難應(yīng)對故事。

#p#

[[136532]]

愛荷華州火災(zāi)

2014年2月18日下午,當(dāng)時愛荷華州政府正像平常一樣組織生產(chǎn)生活——但其主數(shù)據(jù)中心突然爆發(fā)電氣火災(zāi)??紤]到當(dāng)?shù)靥鞖忸A(yù)報的提醒,IT運維團隊當(dāng)時正在積極準(zhǔn)備應(yīng)對當(dāng)晚可能出現(xiàn)的暴雪天氣,因此火災(zāi)的發(fā)生簡直令人始料未及,愛荷華州政府CIO Robert von Wolffradt在2014年3月25日發(fā)布在GovTech.com網(wǎng)站上的一篇博文中回憶道。

火災(zāi)警報出現(xiàn)在當(dāng)天下午3點鐘,數(shù)據(jù)中心陷入電力中斷狀態(tài),建筑物內(nèi)濃煙四起,工作人員則開始快速撤離。警報觸發(fā)了數(shù)據(jù)中心內(nèi)的FM-200煙感滅火系統(tǒng),好在噴淋的及時起效將火災(zāi)范圍控制在了設(shè)施中的瞬態(tài)電壓抑制箱內(nèi)部(如上圖所示)。作為數(shù)據(jù)中心內(nèi)的電流控制裝置,這套電壓抑制單元由于過熱而熔化。州政府的公共服務(wù)小組立即開始構(gòu)建備用線路,而電力也在幾個小時之后得以恢復(fù)。

隨著電力傳輸再度起效,數(shù)據(jù)中心內(nèi)的門扉、風(fēng)扇以及換氣裝置開始重新工作,不過警方及消防人員仍然要求IT工作人員待在大樓之外。直到事發(fā)后的三個半小時,州政府方面才確定數(shù)據(jù)中心已經(jīng)適合工作人員進入。

Wolffradt必須快速決定如何采取進一步處理措施,而與市民、供應(yīng)商以及員工工資相關(guān)的開銷損失很可能高達1.62億美元。工作人員迅速對數(shù)據(jù)中心進行了殘留清理,而IT團隊則在當(dāng)天晚9點恢復(fù)了存儲區(qū)域網(wǎng)絡(luò)、防火墻與網(wǎng)絡(luò)核心??焖倩謴?fù)現(xiàn)有功能意味著整套設(shè)施面臨著沒有瞬態(tài)電壓抑制單元的保護。但Wolffradt仍然決心以再次上線為***要務(wù),不過他手上還有備用數(shù)據(jù)中心作為***的底牌。

到當(dāng)晚11點,其它額外系統(tǒng)也開始陸續(xù)上線,其中包括服務(wù)咨詢臺以及暴風(fēng)雪即將到來前各橋梁及高速公路必不可少的交管監(jiān)控攝像頭。

一同得到恢復(fù)的還有財務(wù)系統(tǒng)與各虛擬化應(yīng)用程序。其它系統(tǒng)在當(dāng)天夜間依次恢復(fù)正常,到第二天晚上備用數(shù)據(jù)中心將接管州政府的各項處理任務(wù)。“當(dāng)天晚上,我們兩度利用國土安全體系中的語音通知系統(tǒng)向各部門負責(zé)人及核心工作團隊通報***動向,”Wolffradt回憶道。他同時指出,當(dāng)時關(guān)于數(shù)據(jù)中心發(fā)生火災(zāi)的種種謠言可謂甚囂塵上,而他作為CIO則必須頻繁與其它各責(zé)任方進行溝通。在事件發(fā)生后,他甚至需要親自向州長及其他州政府官員匯報重要信息。

Wolffradt在他的博客當(dāng)中分享了這樣一條關(guān)鍵性教訓(xùn):一定要將各大型企業(yè)系統(tǒng)彼此分離,例如將電子郵件系統(tǒng)安置在獨立的設(shè)施當(dāng)中。另外,在火災(zāi)當(dāng)中,公共服務(wù)與人力資源部門“是***的朋友”,他們將幫助大家完成各項后續(xù)任務(wù)?;謴?fù)運作的***障礙是說服警方及消防人員允許IT團隊重新進入數(shù)據(jù)中心,他在博文中寫道。數(shù)據(jù)中心所在的建筑物中共有上千名政府工作人員,其中大部分都是在IT團隊重返現(xiàn)場的很長一段時間后才再次回歸工作崗位的。

[[136533]]

三星火災(zāi)

不,這不是三星公司的什么新型智能手機代號——就是字面的意思,三星,著火了。

2014年4月20日,一場大火侵襲了三星公司位于韓國果川的辦公大樓。大火從三星SDS數(shù)據(jù)中心所在的建筑物開始燃起。至頂網(wǎng)韓國分站的作者Jaehwan Cho在他的Twitter上發(fā)布了從韓國聯(lián)合通訊社獲取到的圖片資料,可以看到濃煙與火光正從大樓的一側(cè)噴涌而出,猛烈的熱流挾帶著燃燒殘片一同掉落在樓體外部。

根據(jù)Data Center Knowledge網(wǎng)站的報道,三星公司的IT人員及該建筑物內(nèi)的其他人員被快速疏散,過程中只有一位員工因被墜落的碎片劃傷而掛彩。

這場火災(zāi)給眾多三星設(shè)備用戶造成了影響,相當(dāng)一部分智能手機、平板設(shè)備以及智能電視用戶無法正常進行數(shù)據(jù)檢索。在為期數(shù)小時的整個過程中,設(shè)備用戶始終無法正常訪問相關(guān)內(nèi)容,直到果川備用數(shù)據(jù)中心的恢復(fù)系統(tǒng)起效后一切才重歸正常。三星官方在一篇博文當(dāng)中就此作出了道歉。

#p#

[[136534]]

關(guān)注管線檢查工作

2009年7月3日西雅圖費舍爾廣場的電氣室發(fā)生了火災(zāi),這直接導(dǎo)致Authorize.net支付門戶、微軟必應(yīng)旅游服務(wù)、Geocaching.com服務(wù)、Dotster域名注冊服務(wù)以及Web托管供應(yīng)商AdHost等數(shù)十個站點瞬間陷入癱瘓。直到第二天早晨,電力供應(yīng)才得以恢復(fù)。

根據(jù)《普吉特海灣商業(yè)雜志》的報道,Geocaching與AdHost兩個網(wǎng)站分別于次日上午10點重新上線,而其它各服務(wù)的恢復(fù)過程則更為漫長。此次火災(zāi)顯然始于傳輸線纜管線(如上圖所示),而據(jù)該雜志的估算,此次費舍爾廣場用于維修及更換設(shè)備的成本大約為1000萬美元。

[[136535]]

颶風(fēng)桑迪引發(fā)發(fā)電機故障

與東海岸類似,2012年10月底肆虐一時的颶風(fēng)桑迪在陸續(xù)襲擊了弗吉尼亞州、特拉華州、馬里蘭州以及新澤西州后最終將矛頭指向了曼哈頓。伴隨著一波猛烈的海水潮涌之后,巨浪撲上紐約市頭并導(dǎo)致下曼哈頓地區(qū)的多家站點陷入癱瘓。

位于下曼哈頓75街區(qū)的Peer 1托管設(shè)施因此成為災(zāi)難恢復(fù)工作人員的噩夢。雖然該棟建筑物的十八層擺放有用于持續(xù)提供電力且不至于受到洪水影響的多臺備用發(fā)電機,但風(fēng)暴來襲時直接灌滿了該建筑物的地下室,并且摧毀了應(yīng)急發(fā)電機的燃油泵送系統(tǒng)。一旦遭到海水浸泡,整套電路立刻失去了作用。(考慮到911事件,紐約地區(qū)要求各辦公樓管理方控制樓內(nèi)所儲存的燃油量)。因此,發(fā)電機只能依靠非常有限的一點燃料強行啟動,而工作人員根本沒辦法為其提供充足的補給。Peer 1建議客戶以數(shù)小時為周期實施系統(tǒng)關(guān)閉計劃,并排遣幾名員工到現(xiàn)場幫忙以防止出現(xiàn)數(shù)據(jù)丟失狀況。

為了避免系統(tǒng)停機,Peer 1的工程技術(shù)團隊決定扛起水桶為樓上的發(fā)電機輸送燃油供給。燃油被運抵街區(qū)后,再以人力方式被慢慢抬上十七層——那里正是發(fā)電機的油箱所在,負責(zé)為樓上的發(fā)電機提供動力來源。Peer 1公司的托管服務(wù)客戶們——其中包括網(wǎng)站開發(fā)企業(yè)SquareSpace以及在線項目管理供應(yīng)商Fog Creek軟件公司——組織起由25位員工構(gòu)成的隊伍,幫助現(xiàn)場人員進行燃油輸送。從10月30日晚到10月31日晚,他們一刻不停地承擔(dān)起了原本應(yīng)由泵機完成的工作。

到10月31號的午飯時間,他們已經(jīng)順利加滿了油箱并終于能夠休息一會兒。為了吃上午飯,他們需要徒步走過布魯克林橋——因為當(dāng)時曼哈頓街道已經(jīng)被徹底堵死了。很明顯,在Peer 1的災(zāi)難恢復(fù)規(guī)劃中既沒有人力送油方案,也不包含徒步就餐計劃,但正是在這些奮戰(zhàn)在現(xiàn)場的工作人員的努力之下、系統(tǒng)并沒有因為颶風(fēng)的肆虐而陷入停機。

#p#

[[136536]]

一輛SUV引發(fā)的慘劇

Rackspace公司的主機托管業(yè)務(wù)及由其承載的Mosso Cloud運行在位于達拉斯的同一座數(shù)據(jù)中心內(nèi)部,但2007年11月13日一場無妄之災(zāi)使其在數(shù)小時內(nèi)陷入了癱瘓。

一位大型四驅(qū)車司機——同時也是一位糖尿病患者——由于病發(fā)而出現(xiàn)短暫昏迷。他沒能正常轉(zhuǎn)向鄰近的街道,而是一路向前直沖,并從丁字路口處奔向路邊外側(cè)的護堤。護提這樣的斜坡令瘋狂突進的SUV越過一排停放的車輛而沖向空中,并在落地時撞上了一棟容納著Rackspace基礎(chǔ)設(shè)施供電裝置的建筑物——一陣火光帶閃電之后,電力供應(yīng)中斷了。

由于需要切換至備用供電線路,這棟建筑物的冷卻系統(tǒng)出現(xiàn)了暫時性停頓。不過業(yè)務(wù)運作過程并沒有被打斷,因為這套計算設(shè)備能夠在遭遇此類緊急情況下利用應(yīng)急電池繼續(xù)工作。該設(shè)施的工作人員立即通過重啟規(guī)程幫助該建筑物的冷卻機制重新運轉(zhuǎn),而緊急處理人員則努力將闖入的車輛清理出去并接入新的電力變壓裝置、關(guān)閉設(shè)施的全部供電體系并從輔助供電裝置切換回主供電裝置。

在其災(zāi)難恢復(fù)規(guī)劃當(dāng)中,電池電源與應(yīng)急發(fā)電機再次立下大功。數(shù)據(jù)中心到這時仍沒有發(fā)生運行中斷現(xiàn)象,事故只不過讓供電網(wǎng)絡(luò)的運轉(zhuǎn)功率有所下降。不過冷卻系統(tǒng)中的大型水冷機組在分步重啟過程中出現(xiàn)了問題。其在重啟中再度陷入癱瘓,而且工作人員發(fā)現(xiàn)已經(jīng)沒辦法在不進行深入排查之前讓其重新恢復(fù)工作。

Rackspace公司總裁Lew Moorman在事故之后的一篇博文當(dāng)中提到,“兩套冷卻機組無法重新啟動,這使得數(shù)據(jù)中心出現(xiàn)了過熱。”由計算設(shè)備產(chǎn)生的熱量足以使現(xiàn)場氣溫急劇上升,而Rackspace公司的現(xiàn)場管理人員決定“分階段關(guān)閉設(shè)備以***程度降低硬件受損”與客戶數(shù)據(jù)丟失的可能性。

這次中斷一直持續(xù)到當(dāng)天晚間10點50分,也就是事故發(fā)生后的五個小時。軟件即服務(wù)供應(yīng)商37signals——Rackspace托管下的企業(yè)客戶之一——向客戶發(fā)布了評論意見:“這次接連出現(xiàn)的意外事件擊垮了我們?yōu)閿?shù)據(jù)中心建立的復(fù)雜備份系統(tǒng)。我們將努力工作,從而進一步對系統(tǒng)加以分散,并最終得以應(yīng)對此類極為罕見的外來因素所導(dǎo)致的停機事故。”除了增加客戶流失的風(fēng)險之外,據(jù)報道稱Rackspace公司還為此次事故向客戶支付了350萬美元賠償金。

[[136537]]

焊接工作惹麻煩

2015年1月9號,一座將被作為Amazon.com數(shù)據(jù)中心的大型建筑物發(fā)生火災(zāi),起因則是一名焊工不慎點燃了現(xiàn)場的建筑材料。此次火災(zāi)觸發(fā)了弗吉尼亞州阿什本當(dāng)?shù)氐娜壘瘓?。濃烈的黑煙在幾英里之外都清晰可見。Amazon公司發(fā)言人在接受當(dāng)?shù)谹BC新聞媒體采訪時指出,此次火災(zāi)造成了大約10萬美元損失,但同時補充稱“并沒有對Amazon業(yè)務(wù)運營帶來任何影響”——因為當(dāng)時該數(shù)據(jù)中心尚未投入使用。

#p#

[[136538]]

太陽風(fēng)暴

也許洪水、火災(zāi)以及車禍已經(jīng)足夠令人頭痛了,但真正可惜且避無可避的還是要數(shù)太陽風(fēng)暴侵襲地球大氣層這類大事件。太陽耀斑有時候會引發(fā)所謂的太陽風(fēng)暴,在這種情況下太陽表面的日冕物質(zhì)會由于劇烈活動而沿爆發(fā)前的軌跡被直接拋射出去。

這種案例確實非常罕見,但一旦真正發(fā)生,太陽表面濺出的物質(zhì)會沖破太空直接向四面八方砸去。而當(dāng)這些帶電粒子接近地球大氣層時,極高的前進速度會創(chuàng)造出強大的磁力空間。在此空間內(nèi),導(dǎo)電材料會自動產(chǎn)生電流——正如通電線纜一樣。而管線及電話系統(tǒng)這類長度可觀的導(dǎo)體甚至?xí)瓉砭薮蟮乃矐B(tài)電壓。

這種威脅確實是真實存在的,倫敦的Lloyds網(wǎng)站甚至專門發(fā)布過一篇《太陽風(fēng)暴或?qū)⑼{北美電網(wǎng)》的風(fēng)險評估報告。

根據(jù)這篇報告所言:“電網(wǎng)體系可靠性的一大威脅正源自地磁風(fēng)暴——而這會由太陽風(fēng)暴在大氣層上方快速通過而引發(fā)。……由此帶來的過載電壓將使電網(wǎng)系統(tǒng)陷入崩潰,更糟糕的是,昂貴的超高壓變壓器亦有可能因此而發(fā)生大規(guī)模損壞。”

1989年,這樣的風(fēng)暴就直接襲擊了加拿大,瞬態(tài)電壓升高導(dǎo)致魁北克省的水電電網(wǎng)變壓器出現(xiàn)損壞。據(jù)估計,這次事件造成的破壞相較于1859年美國的太陽風(fēng)暴災(zāi)害還算比較輕微——當(dāng)初被稱為“卡林頓事件”的耀斑活動直接導(dǎo)致美國多位報務(wù)員遭受電擊,另有幾處電報局發(fā)生火災(zāi)。1989年的這場事故直接觸發(fā)了東北電力協(xié)調(diào)委員會及中大西洋地區(qū)委員會所布設(shè)的斷路器及過載保護設(shè)備,如果不是這樣、美國的整體電網(wǎng)幾乎全面遭到毀滅。新澤西州的一處核電站就在升壓變壓器發(fā)生損壞后被迫切斷了與電網(wǎng)間的傳輸通道。

再把目光投向近期,2012年太陽風(fēng)暴曾與地球公轉(zhuǎn)軌道相交于一點——或者說幾乎相交于一點。此次風(fēng)暴在地球抵達前九天剛剛通過,從天體規(guī)模來看這樣的微小間隙簡直稱得上險過剃頭。

[[136539]]

總結(jié)陳詞

前面提到的各類場景確實讓人始料未及,而且即使是身經(jīng)百戰(zhàn)的數(shù)據(jù)中心運維人員也沒把握將其妥善解決。不過好消息是,相關(guān)企業(yè)機構(gòu)快速公布了其恢復(fù)方案,且足以成為我們在規(guī)劃未來災(zāi)難恢復(fù)機制時的寶貴借鑒。

大家有沒有親身經(jīng)歷了這類堪稱挑戰(zhàn)想象力的特殊事件?而處理過此類災(zāi)難恢復(fù)工作的您又有什么經(jīng)驗愿意與大家共享?另外,您心目中最恐怖的災(zāi)難噩夢是怎樣的?請在評論欄中留下您的真知灼見。

原文標(biāo)題:7 Data Center Disasters You'll Never See Coming


 

責(zé)任編輯:Ophira 來源: 51CTO
相關(guān)推薦

2018-07-06 14:14:15

數(shù)據(jù)中心備份服務(wù)器

2016-11-07 15:13:54

2024-04-28 11:40:52

2017-01-16 10:18:55

數(shù)據(jù)中心頻率OSPF

2017-07-14 08:43:15

UPS系統(tǒng)數(shù)據(jù)中心

2017-01-15 13:42:07

數(shù)據(jù)中心時間網(wǎng)絡(luò)

2023-06-27 15:54:40

數(shù)據(jù)中心再生能源

2020-12-24 14:10:17

數(shù)據(jù)中心數(shù)據(jù)中心災(zāi)備災(zāi)備

2024-03-05 13:05:49

數(shù)據(jù)中心數(shù)字孿生

2023-07-25 15:53:03

數(shù)據(jù)中心能量回收

2024-04-19 14:53:10

數(shù)據(jù)中心雙電源冗余水冷

2011-04-19 12:32:41

2023-06-28 10:20:58

數(shù)據(jù)中心服務(wù)器

2015-12-09 10:30:27

云數(shù)據(jù)中心數(shù)據(jù)中心選址

2021-12-19 13:50:42

大數(shù)據(jù)信息安全隱私

2022-06-07 10:28:12

DCIM數(shù)據(jù)中心基礎(chǔ)設(shè)施管理數(shù)據(jù)中心

2015-07-03 10:59:19

數(shù)據(jù)中心災(zāi)備

2023-03-30 15:05:21

數(shù)據(jù)中心光纖

2015-06-26 16:20:51

數(shù)據(jù)中心

2023-03-22 17:09:33

數(shù)據(jù)中心邊緣計算
點贊
收藏

51CTO技術(shù)棧公眾號