2018年,云宕機事故盤點
雖然云安全是業(yè)界最為關(guān)注的問題,云服務(wù)商在云安全上也一遍遍秀肌肉,但故障還是防不勝防。
1、6 月 17 日:微軟 Azure 愛爾蘭數(shù)據(jù)中心宕機
事故詳情:2018 年 6 月 17 日至 18 日,因愛爾蘭數(shù)據(jù)中心的恒溫系統(tǒng)出現(xiàn)問題,微軟 Azure 被高溫影響導(dǎo)致存儲和網(wǎng)絡(luò)中斷。
宕機時間:5 小時以上
2、6 月 27 日:阿里云故障
事故詳情:2018 年 6 月 27 日 16:21 左右,阿里云出現(xiàn)重大技術(shù)故障,16:50 分開始陸續(xù)恢復(fù),官方給出的故障時間為 30 分鐘左右,恢復(fù)時間大概花費一小時。經(jīng)過技術(shù)復(fù)盤,阿里給出的故障原因為工程師團隊上線自動化運維新功能時,執(zhí)行了一項變更驗證操作,該操作在測試環(huán)境中未發(fā)生問題,上線后觸發(fā)未知 bug。
補救措施:人工介入,定位并解決問題。
宕機時間:30 分鐘,恢復(fù)時間花費一小時左右。
3、7 月 20 日:騰訊云云硬盤故障
事故詳情:2018 年 8 月 5 日,北京清博數(shù)控科技有限公司(以下簡稱“前沿數(shù)控”)在官方微博發(fā)布了一篇題為《騰訊云給一家創(chuàng)業(yè)公司帶來的災(zāi)難》的博文,文中表明,2018 年 7 月 20 日,騰訊云云硬盤發(fā)生故障(騰訊云后期給出的事故原因說明),導(dǎo)致該公司存放的數(shù)據(jù)全部丟失,并且不能恢復(fù),這是該創(chuàng)業(yè)公司近千萬元級的平臺數(shù)據(jù),包括經(jīng)過長期推廣導(dǎo)流積累起來的精準(zhǔn)注冊用戶以及內(nèi)容數(shù)據(jù)。
補救措施:騰訊云表示,監(jiān)控到異常后***時間向用戶告知了故障狀態(tài),并立即組織文件系統(tǒng)專家并聯(lián)合廠商技術(shù)專家嘗試修復(fù)數(shù)據(jù)。但經(jīng)過多方努力,最終仍有部分數(shù)據(jù)完整性校驗失敗。
4、7 月 24 日:騰訊云宕機
事故詳情:2018 年 7 月 24 日,用戶登錄騰訊云時反復(fù)出現(xiàn)超時、退出等情況,即便更換運營商,結(jié)果也一樣。隨后,騰訊云發(fā)布通知稱初步確定是運營商光纜中斷,運營商已經(jīng)找到斷點,正在連線中,主要受影響的為廣州區(qū)域部分用戶。
補救措施:運營商***時間介入搶修。
宕機時間:宕機時間不明,恢復(fù)時間花費 30 至 40 分鐘
5、Prime Day:亞馬遜 AWS 故障
事故詳情:Prime Day 是亞馬遜在全球范圍內(nèi)啟動的為期 36 小時的會員促銷活動,活動剛開始,亞馬遜網(wǎng)站及 App 就同時發(fā)生嚴重宕機,不光電子商務(wù)業(yè)務(wù)受損,亞馬遜的其他產(chǎn)品和服務(wù)都受到了不同程度的影響。亞馬遜對此給出的解釋是 AWS 管理控制臺出現(xiàn)全球性問題。
宕機時間:故障持續(xù)了將近 6 小時。
6、9 月 4 日:微軟 Azure 數(shù)據(jù)中心遭雷劈宕機
事故詳情:9 月 4 日上午,微軟 Azure 美國中南區(qū)數(shù)據(jù)中心附近發(fā)生雷擊在內(nèi)的惡劣天氣,影響冷卻系統(tǒng)的電壓,導(dǎo)致多個 Azure 服務(wù)出現(xiàn)連接問題,客戶難以訪問存儲在該區(qū)數(shù)據(jù)中心的資源。受影響的服務(wù)包括 Office36***ctive Directory、Visual Studio Online、Visual Studio Team Services 等。
補救措施:9 月 5 日上午,微軟工程師已恢復(fù)數(shù)據(jù)中心的電力和大多數(shù)網(wǎng)絡(luò)設(shè)備,其他服務(wù)也在陸續(xù)恢復(fù)中。
宕機時間:超過 24 小時
7、11 月 9 日:谷歌公有云下的 Kubernetes 服務(wù)(GKE)宕機
事故詳情:11 月 9 日,谷歌公有云上提供的 Kubernetes 服務(wù)(GKE)節(jié)點池建置功能出現(xiàn)異常,維運人員無法透過 Cloud Console UI 建立新節(jié)點。
補救措施:谷歌派工程團隊調(diào)查故障原因,并開始著手維修。谷歌表示,受影響的企業(yè)用戶可以先改為使用 GCP 內(nèi)建的 gcloud command,建置新 Kubernetes 節(jié)點。
宕機時間:接近 19 小時