年終盤點:2024年影響最大的十個云中斷事件
今年2月AT&T服務(wù)中斷事件引起了聯(lián)邦監(jiān)管機構(gòu)的關(guān)注。9月,Verizon客戶又發(fā)現(xiàn)出了問題。某家網(wǎng)絡(luò)安全廠商的更新導(dǎo)致全球Windows機器崩潰。這些都是2024年全球面臨的最大云服務(wù)故障事件。
本文提到的事件主要涉及對解決方案提供商特別重要的云中斷故障,而跳過了消費級產(chǎn)品的故障,例如Meta Facebook和Instagram,后者在3月5日發(fā)生的故障被Downdetector母公司Ookla評為今年最大的故障事件,有超過1110萬人提交了關(guān)于該事件的報告。
2024年云故障
可觀測性技術(shù)提供商New Relic在今年10月發(fā)布了一份基于對全球1700名技術(shù)專業(yè)人員進行調(diào)查的報告。報告顯示,高影響中斷事件造成的年平均停機時間為77小時,每小時高達190萬美元的收入、生產(chǎn)力損失以及其他費用。
該報告發(fā)現(xiàn),有工程團隊表示,他們每40小時的工作周中,有12小時(30%的時間)花在了解決服務(wù)中斷的問題上。網(wǎng)絡(luò)故障、第三方或云提供商服務(wù)故障、以及人為錯誤是導(dǎo)致計劃外中斷事件的主要原因。
數(shù)據(jù)庫供應(yīng)商Cockroach Labs在今年10月發(fā)布了一份題為《2025 年彈性狀況》的報告,報告對全球1000名高級技術(shù)主管進行了調(diào)查,報告發(fā)現(xiàn)有84%的受訪者表示,他們在過去12個月內(nèi)因服務(wù)中斷而損失了至少10000美元的收入。有三分之一的受訪者表示,他們的損失在10萬美元到100萬美元之間。
下面就讓我們看看2024年最大的這10個云故障事件。
1月數(shù)據(jù)庫升級導(dǎo)致Jira服務(wù)癱瘓
Atlassian今年的開局并不順利,它的Jira項目管理工具從UTC時間1月18日6:52開始向用戶發(fā)出503條服務(wù)不可用消息和其他錯誤警告,持續(xù)了大約四個小時。
ThousandEyes表示,Jira服務(wù)已經(jīng)于UTC時間10:30恢復(fù)正常運行。根據(jù)ThousandEyes 在2月2日發(fā)布的報告顯示,這些問題影響了澳大利亞Atlassian提供的Jira Work Management、Jira Software、Jira Product Discovery等服務(wù)。
Atlassian把Jira產(chǎn)品系列性能下降歸因于“內(nèi)部Atlassian Marketplace服務(wù)的預(yù)定數(shù)據(jù)庫升級”。
“這種性能下降表現(xiàn)為響應(yīng)時間增加并最終超時,服務(wù)降級隨后連鎖上行,導(dǎo)致Jira系列產(chǎn)品的請求超時,影響產(chǎn)品體驗?!?/p>
2月AT&T中斷引起FCC關(guān)注
2月22日,AT&T用戶報告了這家電信巨頭的服務(wù)出現(xiàn)中斷,包括互聯(lián)網(wǎng)訪問中斷。Downdetector記錄有超過340萬份用戶報告,問題持續(xù)了超過12個小時。
2月25日,AT&T公司首席執(zhí)行官John Stankey在一份聲明中表示,此次中斷似乎是“由于在擴展網(wǎng)絡(luò)時應(yīng)用和執(zhí)行了錯誤流程而導(dǎo)致的”,并向受中斷影響的客戶提供了5美元的信用額度。
7月,聯(lián)邦通信委員會(Federal Communications Commission,F(xiàn)CC)發(fā)布了一份關(guān)于該事件的報告,將原因歸咎于缺乏同行評審、安裝后測試不足、沒有足夠的保障措施和控制措施以獲得影響網(wǎng)絡(luò)變更的批準(zhǔn)以及其他因素。
報告指出,AT&T已經(jīng)做出改變以防止問題再次發(fā)生,包括“掃描網(wǎng)絡(luò)以查找任何缺乏可防止中斷控制措施的網(wǎng)絡(luò)元素,并及時實施這些控制措施”。報告稱,該事件已經(jīng)被提交到執(zhí)法局“以查明可能違反委員會規(guī)則的第4部分和第9部分”。
Downdetector母公司Ookla稱這是2024年全球第三大中斷事件,也是自2020年以來全球最大的運營商中斷故障。
2月元數(shù)據(jù)存儲給Google Cloud帶來麻煩
ThousandEyes在3月1日發(fā)布的帖子中表示,2月14日,區(qū)域元數(shù)據(jù)存儲問題導(dǎo)致Google Cloud us-west1用戶遭遇服務(wù)中斷。
據(jù)Google稱,該事件持續(xù)了大約2小時40分鐘。“我們的工程團隊通過隔離有問題的流量來緩解問題,并已經(jīng)采取了措施防止再次發(fā)生,”Google將此歸咎于區(qū)域元數(shù)據(jù)存儲出現(xiàn)了問題。
此次中斷事件影響了各種Google Cloud產(chǎn)品、Vertex AI產(chǎn)品、身份和訪問管理(IAM)。
CrowdStrike更新故障
可以說,今年最嚴(yán)重的中斷事件就是CrowdStrike的更新故障,導(dǎo)致全球數(shù)百萬臺微軟Windows機器崩潰,而且這次事件仍然沒有結(jié)束,達美航空圍繞該航空公司五天內(nèi)取消7000架航班的責(zé)任與CrowdStrike互相起訴。
在這次中斷事件之后,微軟重新審視了安全技術(shù)供應(yīng)商為Windows開發(fā)產(chǎn)品的方式。去年11月微軟表示,正在研究一種方法,讓安全產(chǎn)品避免直接訪問Windows內(nèi)核,并像應(yīng)用一樣在用戶模式下運行。
CrowdStrike對內(nèi)核(Windows的核心控制中心)的訪問已經(jīng)被確定為導(dǎo)致7月19日CrowdStrike Falcon更新故障讓850萬臺Windows設(shè)備進入“藍屏死機”狀態(tài)的關(guān)鍵因素,這次事件導(dǎo)致大范圍的商業(yè)混亂甚至是社會混亂。
7月微軟中斷故障
除了CrowdStrike更新故障之外,微軟在7月還遭遇了服務(wù)中斷問題。
據(jù)ThousandEyes報道,7月30日,Azure Front Door (AFD)、Azure Content Delivery Network (CDN)以及依賴它們的下游服務(wù)遭遇中斷,微軟網(wǎng)絡(luò)的部分功能在UTC時間10:30左右出現(xiàn)故障。
微軟將這次事件歸咎于默認流量路由在自動緩解一次DDoS攻擊和歐洲某站點斷電后未能按預(yù)期恢復(fù)。
微軟在事后報告中表示,服務(wù)可用性已經(jīng)在UTC時間19:43恢復(fù)到事發(fā)前的水平。微軟表示,通過確保一個地區(qū)的DDoS緩解問題不會蔓延到其他地區(qū),改進監(jiān)控和無效配置檢測,降低此次事件再次發(fā)生的可能性,減少事件帶來的影響。
9月AT&T和微軟出現(xiàn)故障
據(jù)微軟稱,9月12日,AT&T用戶無法訪問Microsoft 365和Azure服務(wù),原因是“第三方互聯(lián)網(wǎng)服務(wù)提供商事件影響了部分客戶能力”。
微軟在X上的一篇文章中表示,此次中斷故障是由第三方互聯(lián)網(wǎng)服務(wù)提供商托管環(huán)境中未指明的“變化”所引起的,該提供商在其他地方被認定是AT&T。
ThousandEyes將這個問題描述為“僅限于直接從或通過AT&T對等點連接到微軟網(wǎng)絡(luò)的部分用戶”。
微軟在Azure狀態(tài)頁面上表示,在大約90分鐘的時間里,“使用AT&T連接到微軟服務(wù)的客戶在訪問我們的服務(wù)時遇到了問題”。
微軟的事件后報告稱,這一問題從UTC時間11:46一直持續(xù)到UTC時間13:14。
ServiceNow中斷故障
UTC時間9月23日2:00左右,約有600名客戶開始遭遇ServiceNow中斷故障,原因是過期根證書更新失敗。
根據(jù)ThousandEyes對該問題的報道,管理、檢測和發(fā)現(xiàn) (MID)服務(wù)器受到中斷故障的影響,一些客戶發(fā)現(xiàn)云實例和服務(wù)器之間存在連接問題。
報告稱:“此次中斷故障提醒我們,數(shù)字生態(tài)系統(tǒng)或端到端交付鏈中的每項功能,在保持無縫運營方面都發(fā)揮著關(guān)鍵作用,應(yīng)用或服務(wù)的強度取決于其最薄弱的環(huán)節(jié)。”
9月Verizon出現(xiàn)問題
9月30日,美國Verizon服務(wù)出現(xiàn)中斷故障,Downdetector記錄了超過170萬份報告。
從紐約到洛杉磯的用戶都報告稱沒有服務(wù)或服務(wù)受限,只有“SOS模式”除外,該模式允許用戶通過返回覆蓋范圍內(nèi)的其他運營商網(wǎng)絡(luò)撥打緊急電話。
Downdetector將問題的開始時間定為美國東部時間上午9:30左右,Verizon在美國東部時間上午11:48在X上發(fā)布了有關(guān)該問題的帖子。僅在上午11:15至11:30之間就有超過10萬份事件報告提交,報告總數(shù)已超過40萬份。
Verizon表示,該問題在大約10小時后美國東部時間晚上7:18得到解決。
Cloudflare關(guān)于此次中斷故障的帖子中稱,HTTP流量在中斷期間比預(yù)期水平下降了9%,內(nèi)布拉斯加州奧馬哈等地的流量下降了約30%。
Downdetector母公司Ookla將9月Verizon的故障事件列為2024年全球最大的故障事件之一,在美國排名第四,有240萬用戶提交了報告。
10月Salesforce中斷故障
10月1日,CRM軟件巨頭Salesforce經(jīng)歷了全球服務(wù)中斷,沙盒實例在UTC時間2:40以50%的容量運行。
“在受影響期間,用戶可能無法訪問Salesforce服務(wù),而另一部分用戶雖然可以登錄,但性能不佳,”Salesforce在11月的一份關(guān)于該問題的報告中表示。“在中斷和性能下降期間,用戶可能收到了‘我們正在維護’的故障消息?!?/p>
Salesforce關(guān)于這次中斷故障的報告稱,“由于可并行升級的單元數(shù)量容量限制,緊急版本的全面推出耗時14小時,手動抑制重啟和添加缺失的元數(shù)據(jù)”減輕了影響。
Salesforce將這次中斷歸咎于“缺少時間特定配置”,“阻止了核心應(yīng)用服務(wù)器的啟動?!?/p>
11月微軟中斷故障
就在感恩節(jié)前一天多,微軟Outlook和Teams產(chǎn)品出現(xiàn)中斷,使其登上了新聞媒體頭條新聞。
11月26日CNN表示,有超過5000名用戶報告了該問題。微軟于太平洋時間11月25日凌晨1:06發(fā)現(xiàn)問題,并報告該問題已于太平洋時間11月26日下午12:07得到解決。微軟將這次中斷故障歸咎于“最近的一次變化”。
ThousandEyes表示,從UTC時間11月25日2:00開始,它觀察到Outlook在線和其他微軟產(chǎn)品出現(xiàn)了服務(wù)器錯誤、超時和數(shù)據(jù)包丟失。