阿里云回應(yīng)大規(guī)模故障:運維操作失誤 將認真改進
6月28日早間消息,今日凌晨,阿里云官方微博針對昨日出現(xiàn)的大規(guī)模故障問題作出官方回應(yīng)。聲明稱,在運維上的一個操作失誤,導(dǎo)致一些客戶訪問阿里云官網(wǎng)控制臺和使用部分產(chǎn)品功能出現(xiàn)問題。
聲明復(fù)盤故障原因,稱系工程師團隊在上線一個自動化運維新功能中,執(zhí)行了一項變更驗證操作。這一功能在測試環(huán)境驗證中并未發(fā)生問題,上線到自動化運維系統(tǒng)后,觸發(fā)了一個未知代碼bug。錯誤代碼禁用了部分內(nèi)部IP,導(dǎo)致部分產(chǎn)品訪問鏈路不通。
6月27日下午,眾多網(wǎng)友在微博反饋,稱阿里云控制臺訪問出現(xiàn)故障,后臺登錄不上,包括圖片服務(wù)也已經(jīng)掛掉。阿里云官網(wǎng)的部分管控功能,及MQ、NAS、OSS等產(chǎn)品的部分功能也出現(xiàn)訪問異?,F(xiàn)象,部分用戶反饋稱手機端和PC端均無法訪問。隨后阿里云在官網(wǎng)發(fā)布公告稱,部分管控功能出現(xiàn)訪問異常,受影響業(yè)務(wù)正逐漸恢復(fù)正常。
以下為阿里云故障官方回復(fù)原文:
6月27日阿里云故障說明
6月27日下午,我們在運維上的一個操作失誤,導(dǎo)致一些客戶訪問阿里云官網(wǎng)控制臺和使用部分產(chǎn)品功能出現(xiàn)問題,引發(fā)了大員吐槽。故障于北京時間2018年6月27日,16:21左右開始,16:50分開始陸續(xù)恢復(fù)。
經(jīng)過緊急技術(shù)復(fù)盤,故障原因如下:
當(dāng)天下午,工程師團隊在上線一個自動化運維新功能中,執(zhí)行了一項變更驗證操作。這一功能在測試環(huán)境驗證中并未發(fā)生問題,上線到自動化運維系統(tǒng)后,觸發(fā)了一個未知代碼bug。錯誤代碼禁用了部分內(nèi)部IP,導(dǎo)致部分產(chǎn)品訪問鏈路不通。后續(xù)人工介入后,工程師團隊快速定位問題進行了恢復(fù)。
受影響范圍包括阿里云官網(wǎng)控制臺,以及MQ、NAS、OSS等產(chǎn)品功能。對于這次故障,沒有借口,我們不能也不該出現(xiàn)這樣的失誤!我們將認真復(fù)盤改進自動化運維技術(shù)和發(fā)布驗證流程,敬畏每一行代碼,敬畏每一份托付。
阿里云計算有限公司
2018年6月27日