鋰電池機(jī)房著火超30個小時,阿里云字節(jié)服務(wù)宕機(jī),AWS趁火打劫?
9月10日,阿里云服務(wù)又宕機(jī)了。此次宕機(jī)的原因是,新加坡可用區(qū) C 數(shù)據(jù)中心的機(jī)房發(fā)生了一場嚴(yán)重的火災(zāi)。火災(zāi)原因是鋰電池爆炸,導(dǎo)致機(jī)房升溫和燃燒。離譜的是,自10日早上8點(diǎn)到11日晚上8點(diǎn),火災(zāi)持續(xù)了整整36小時,仍未完全撲滅。
根據(jù)阿里云發(fā)布的事件公告,火災(zāi)發(fā)生后,阿里云新加坡地域可用區(qū) C 網(wǎng)絡(luò)訪問出現(xiàn)異常,部分云產(chǎn)品服務(wù)出現(xiàn)異常。其中云數(shù)據(jù)庫 Redis、MongoDB、RDS MySQL,對象存儲 OSS,表存儲 OTS 以及云原生大數(shù)據(jù)計算服務(wù) MaxCompute等關(guān)鍵服務(wù)受影響。
此次阿里云服務(wù)宕機(jī)再次引發(fā)了打工人的瘋狂吐槽。
據(jù)官方消息,火災(zāi)發(fā)生后,阿里云按照產(chǎn)品調(diào)度策略,云數(shù)據(jù)庫 Redis/MongoDB/RDS MySQL、對象存儲 OSS、表格存儲 OTS 、云原生大數(shù)據(jù)計算服務(wù) MaxCompute 等已陸續(xù)完成容災(zāi)切換。但部分 OSS 對象存儲、數(shù)據(jù)庫等產(chǎn)品的單 AZ 版本,需待受影響物理機(jī)柜具備重新開機(jī)條件后恢復(fù)。
直到9月12日凌晨,阿里云官方客服回復(fù)稱,新加坡區(qū)域大部分受到網(wǎng)絡(luò)影響的云產(chǎn)品已恢復(fù)正常服務(wù),剩余斷電的機(jī)房業(yè)務(wù)仍需等待物理條件的恢復(fù)。如現(xiàn)場評估后不具備原地恢復(fù)的物理條件,應(yīng)急小組將執(zhí)行服務(wù)器設(shè)備遷移恢復(fù)預(yù)案。
此外據(jù)媒體報道,該數(shù)據(jù)中心不僅托管了阿里云和字節(jié)的服務(wù)器,還包括一些其他跨國公司的服務(wù)器。有用戶報告稱,Digital Ocean、IaaS 服務(wù) Coolify 以及 Cloudflare 出現(xiàn)了宕機(jī)或服務(wù)降級,也與此次火災(zāi)有關(guān)。
在 Lazada 以及 TikTok Shop 等電商平臺上,賣家反饋無法通過平臺接口同步訂單信息;TikTok Shop 的用戶也透露,系統(tǒng)故障使得小黃車功能無法正常使用等。
最搞笑的是,AWS趁火打劫,疑似在社交平臺上發(fā)帖宣傳自家云服務(wù)產(chǎn)品,引發(fā)了不少網(wǎng)友評論:高端的商戰(zhàn)有時候就是這么簡單。
總的來說,作為中國云服務(wù)領(lǐng)域的頭部廠商,阿里云聲稱其災(zāi)難恢復(fù)與故障轉(zhuǎn)移程序已按預(yù)期運(yùn)行,意味著高可用性云產(chǎn)品達(dá)到了承諾的服務(wù)水平,但表示部分用戶仍須手動將工作負(fù)載從受火災(zāi)影響的可用區(qū)遷出。
數(shù)據(jù)中心火災(zāi)撲救難點(diǎn)
數(shù)據(jù)中心的火災(zāi)撲救難點(diǎn)主要包括封閉空間、熱量積累、用電量大和復(fù)雜的電氣環(huán)境。為了確保網(wǎng)絡(luò)安全中的物理安全,需要采取多層次的防護(hù)措施,包括訪問控制、視頻監(jiān)控、環(huán)境監(jiān)控和防災(zāi)設(shè)計等。同時,綜合安全策略、員工培訓(xùn)、定期評估和演練以及安全文化建設(shè)也是確保物理安全的重要措施。
(1) 封閉空間
數(shù)據(jù)中心通常采用封閉式空間設(shè)計,無窗或窗戶不易開啟,這使得火災(zāi)時熱量和煙霧難以散發(fā),導(dǎo)致火勢迅速蔓延,增加了撲救的難度。封閉空間不僅阻礙了熱量的散發(fā),還可能導(dǎo)致有毒煙霧在室內(nèi)積聚,對人員和設(shè)備造成嚴(yán)重威脅。
(2) 熱量積累
數(shù)據(jù)中心內(nèi)部設(shè)備密集,發(fā)熱量大,且由于密封環(huán)境,熱量無法有效散發(fā),導(dǎo)致室內(nèi)溫度迅速升高,增加了撲救的難度。高溫環(huán)境不僅加劇了設(shè)備的損壞,還可能導(dǎo)致電氣設(shè)備的絕緣性能下降,增加短路和火災(zāi)的風(fēng)險。
(3) 用電量大
數(shù)據(jù)中心用電量大,線路復(fù)雜,容易發(fā)生電氣火災(zāi)。此外,線路老化和絕緣保護(hù)層破損也是常見的火災(zāi)原因。大量的電氣設(shè)備和高負(fù)荷運(yùn)行增加了電氣系統(tǒng)的復(fù)雜性,任何一個電氣故障都可能引發(fā)連鎖反應(yīng),導(dǎo)致火災(zāi)迅速擴(kuò)散。
(4) 復(fù)雜的電氣環(huán)境
數(shù)據(jù)中心內(nèi)部線纜眾多,布線復(fù)雜,電氣火災(zāi)頻發(fā)。電氣火災(zāi)通常難以早期發(fā)現(xiàn),且撲救難度大。電氣環(huán)境的復(fù)雜性使得火災(zāi)預(yù)警和撲救變得更加困難,需要依賴先進(jìn)的監(jiān)控和滅火系統(tǒng)。
數(shù)據(jù)中心物理安全優(yōu)秀實踐
(1) 多層防護(hù)體系
建立多層防護(hù)體系是確保數(shù)據(jù)中心和網(wǎng)絡(luò)設(shè)備安全的關(guān)鍵,包括物理屏障、訪問控制、環(huán)境控制和訪客管理等。多層防護(hù)體系可以有效防止未經(jīng)授權(quán)的訪問和破壞,減少火災(zāi)等安全事故的發(fā)生。
(2) 物理訪問控制
通過設(shè)置門禁系統(tǒng)、身份驗證設(shè)備和訪問記錄日志,確保只有經(jīng)過授權(quán)的人員才能進(jìn)入重要的物理區(qū)域。嚴(yán)格的物理訪問控制可以大大降低數(shù)據(jù)泄露和設(shè)備破壞的風(fēng)險,是數(shù)據(jù)中心物理安全的基礎(chǔ)。
(3) 視頻監(jiān)控環(huán)境
安裝高清攝像頭和運(yùn)動檢測器,對數(shù)據(jù)中心內(nèi)外的活動進(jìn)行實時監(jiān)控,及時發(fā)現(xiàn)可疑行為或安全威脅。視頻監(jiān)控系統(tǒng)不僅提高了安全性,還可以在事后進(jìn)行審計和分析,優(yōu)化安全策略。實施溫濕度控制、水浸檢測和火災(zāi)報警系統(tǒng),避免自然災(zāi)害或設(shè)備故障對數(shù)據(jù)中心造成嚴(yán)重?fù)p害。環(huán)境監(jiān)控系統(tǒng)可以及時發(fā)現(xiàn)和處理環(huán)境異常,防止因環(huán)境問題導(dǎo)致的設(shè)備故障和火災(zāi)。
綜合安全策略
將物理安全和網(wǎng)絡(luò)安全納入到整體安全計劃中,確保它們相互協(xié)調(diào)。例如,安裝監(jiān)控攝像頭時應(yīng)考慮網(wǎng)絡(luò)安全措施,如加密視頻流和訪問控制。綜合安全策略可以確保物理安全和網(wǎng)絡(luò)安全的有機(jī)結(jié)合,防止?jié)撛诘陌踩┒础?/p>
(1) 員工培訓(xùn)和意識
加強(qiáng)員工培訓(xùn)和意識,教育他們?nèi)绾巫R別和應(yīng)對物理和網(wǎng)絡(luò)安全威脅,使用強(qiáng)密碼并定期更改密碼。員工的意識和行為是網(wǎng)絡(luò)安全的重要組成部分,通過培訓(xùn)可以提高他們的安全意識和應(yīng)對能力。
(2) 定期安全評估和演練
定期進(jìn)行綜合的安全評估和演練,發(fā)現(xiàn)潛在的物理和網(wǎng)絡(luò)安全風(fēng)險,并及時修復(fù)。通過定期的評估和演練,可以及時發(fā)現(xiàn)和解決安全隱患,提高應(yīng)對突發(fā)事件的能力。
(3) 安全文化建設(shè)
建立強(qiáng)大的安全文化,確保安全意識和責(zé)任感貫穿于整個組織,每個人都應(yīng)該認(rèn)識到安全是每個人的責(zé)任。安全文化是確保物理安全和網(wǎng)絡(luò)安全的基礎(chǔ),只有每個員工都重視安全,才能有效降低安全風(fēng)險。