工程師一個錯誤輸入 導(dǎo)致AWS S3“沉”了4個小時
譯文【51CTO.com快譯】有個AWS工程師在調(diào)查Northern Virginia (US-EAST-1) Region上S3的一個和賬務(wù)系統(tǒng)相關(guān)的問題時,有一條命令敲錯了,結(jié)果移除了大量的S3的控制系統(tǒng),最終導(dǎo)致AWS S3出現(xiàn)故障。
根據(jù)AWS方面于本周四發(fā)布的報告,此前出現(xiàn)的長達數(shù)小時的AWS主站離線與服務(wù)宕機事故源自一項輸入錯誤。
該云基礎(chǔ)設(shè)施服務(wù)供應(yīng)商發(fā)布了以下說明:
Amazon簡單存儲服務(wù)(簡稱S3)團隊當(dāng)時正在對一項導(dǎo)致S3計費系統(tǒng)運行緩慢的問題進行調(diào)試。于當(dāng)天上午9:37(太平洋時間),一位授權(quán)S3團隊成員利用一份已經(jīng)過確認的playbook執(zhí)行一條命令,旨在移除某S3子系統(tǒng)內(nèi)的少部分負責(zé)實現(xiàn)S3計費流程的服務(wù)器。遺憾的是,命令中的一條輸入結(jié)果存在拼寫錯誤,最終導(dǎo)致大部分服務(wù)器遭到意外移除。
這項錯誤無意中導(dǎo)致美國東一服務(wù)區(qū)(為Amazon旗下歷史最為悠久的大規(guī)模數(shù)據(jù)中心)內(nèi)全部S3對象所高度依賴的兩套關(guān)鍵子系統(tǒng)。兩套系統(tǒng)需要全面重啟。而整個修復(fù)過程加上其它一些必要的安全性檢查“所需要的時間比預(yù)期更長”,Amazon方面指出。
盡管兩套已經(jīng)當(dāng)時已經(jīng)得到重啟,但S3仍然無法正確響應(yīng)請求。該服務(wù)區(qū)中其它依賴于S3的AWS服務(wù)亦受到影響,具體包括S3控制臺、Amazon彈性計算云(簡稱EC2)新實例啟動、Amazon彈性塊存儲(簡稱EBS)分卷(限于需要讀取S3快照的數(shù)據(jù))以及AWS Lambda。
Amazon方面指出,其中的索引子系統(tǒng)已經(jīng)于當(dāng)天中午1:18(太平洋時間)完全恢復(fù),而放置子系統(tǒng)則在中午1:54(太平洋)恢復(fù)。到這里,S3已經(jīng)能夠正常運轉(zhuǎn)。
AWS同時指出,其正在根據(jù)此次事故進行“數(shù)項調(diào)整”,具體包括采取舉措以避免未來再次因錯誤輸入引發(fā)類似問題。
“盡管移除容量屬于一項關(guān)鍵性操作實踐,但在目前的情況下,我們使用的工具在移除容量時的執(zhí)行速度過快,”AWS在博文中解釋稱。“我們已經(jīng)對此工具進行了修改以更慢進行容量清除,同時增加了安全措施以防止任何子系統(tǒng)在容量移除后遭遇現(xiàn)有容量低于***容量需求的情況。”
另外,AWS還采取了其它一些值得關(guān)注的舉措:將索引子系統(tǒng)拆分成更小的功能單元。該公司亦變更了AWS服務(wù)狀態(tài)儀表板的管理控制臺,確保其能夠跨多個AWS服務(wù)區(qū)實現(xiàn)運行。(諷刺的是,此次輸入錯誤導(dǎo)致該儀表板于周二失靈,因此AWS方面必須依靠Twitter向客戶發(fā)布問題的動態(tài)更新。)
原文標(biāo)題:Amazon knocked AWS sites offline because of typo 原文作者:Stephanie Condon
【51CTO譯稿,合作站點轉(zhuǎn)載請注明原文譯者和出處為51CTO.com】