阿里云史詩級崩潰......
前言
昨天晚上阿里云史詩級崩潰了。
涉及到阿里云盤、淘寶、咸魚、釘釘、語雀等等多條業(yè)務(wù)線產(chǎn)品。
“阿里云盤崩了”“淘寶又崩了”“閑魚崩了”“釘釘崩了”等話題相繼登上熱搜,阿里系諸多產(chǎn)品受到影響。
這一次事故,影響范圍之大,可以說是史詩級別的。
1、語雀出現(xiàn)異常
昨天那段時間,我正在使用語雀編輯知識星球中的文章,發(fā)現(xiàn)保存出現(xiàn)異常,頁面直接報錯了。
2、朋友圈很熱鬧
緊接著,我的朋友圈一下子熱鬧起來了。
大家都在評論這件事故,說明了它的嚴重性,影響范圍太大了。
3、事件的過程
阿里云對此公告稱,2023年11月12日17:44起,阿里云監(jiān)控發(fā)現(xiàn)云產(chǎn)品控制臺訪問及API調(diào)用出現(xiàn)異常,阿里云工程師正在緊急介入排查。
18:54阿里云再度公告,經(jīng)過工程師處理,杭州、北京等地域控制臺已恢復(fù),其他地域控制臺服務(wù)逐步恢復(fù)中。
而最新流出的截圖顯示,阿里工程師通過分批重啟組件服務(wù),大部分地域控制臺服務(wù)已恢復(fù)訪問。
據(jù)悉,此次受影響產(chǎn)品包括企業(yè)級分布式應(yīng)用服務(wù)、消息隊列MQ、微服務(wù)引擎、鏈路追蹤、應(yīng)用高可用服務(wù)、應(yīng)用實時監(jiān)控服務(wù)、Prometheus監(jiān)控服務(wù)、消息服務(wù)、消息隊列Kafka版、機器學(xué)習(xí)、圖像搜索、智能推薦AlRec等。
而受影響地域涵蓋華北2 (北京)、華北6 (烏蘭察布)、 華北1 (青島)、華東2(上海)、華南2(河源)、華北3(張家口)、中國香港、印度(孟買)、美國(硅谷)、華南1(深圳)、英國(倫敦)、韓國(首爾)、日本(東京)、阿聯(lián)酉(迪拜)、西南1 (成都)、華南3 (廣州)、新加坡、澳大利亞 (悉尼)、馬來西亞(吉隆坡)、 華北5 (呼和浩特)、 印度 尼西亞(雅加達)、美國 (弗吉尼亞)、菲律賓 (馬尼拉)、泰國(曼谷)、華東1(杭州)、華南1金融云。
這并非阿里云首次出現(xiàn)大面積故障。
目前是什么原因,還不得而知。
4、我以前的經(jīng)歷
其實這次事故使用阿里云產(chǎn)品的其他用戶也受到影響。因此,作為普通用戶的我們?nèi)绻懈卟l(fā)的業(yè)務(wù)場景,務(wù)必要做高可用,異地多活的設(shè)計。
我們之前做游戲平臺的時候,為了保證游戲登錄接口的高可用,為了防止機房網(wǎng)絡(luò)的問題,比如:整個機房突然斷電,或者機房遇到某些不可逆的因素,比如:發(fā)生地震或者洪災(zāi),導(dǎo)致這個機房掛了。
為了保證機房出現(xiàn)問題時,盡可能小的影響用戶。
我們在做系統(tǒng)設(shè)計的時候,使用了異地多活的架構(gòu),將用戶流量負載到了三個機房:深圳機房、天津機房和成都機房。
其中深圳機房占了40%的流量,天津機房占了30%的流量,成都機房占了30%的流量。
而且我們當(dāng)時選了兩個以上的云服務(wù)廠商。
我們那段時間,還真的遇到過某個機房整個停電的問題。
不好幸好做了異地多活的設(shè)計,如果一個機房掛了,流量可以切到另外兩個機房當(dāng)中,將用戶的影響降低最低。