年終盤點(diǎn):2023年最重大的15次云故障
隨著云平臺技術(shù)對于運(yùn)行關(guān)鍵業(yè)務(wù)流程的重要性愈加突顯,各種規(guī)模的科技巨頭和廠商今年都經(jīng)歷了多次云故障。
事實(shí)上,服務(wù)故障已經(jīng)變得如此普遍,準(zhǔn)備工作也如此重要,以至于11月份在AWS re:Invent會議上,云巨頭AWS公布了Fault Injection Service (FIS)服務(wù)的更多場景,讓客戶可以用來測試當(dāng)AWS可用區(qū)域發(fā)生全面斷電或者與另一個AWS區(qū)域斷開連接時應(yīng)用的運(yùn)行情況。
Parametrix Insurance今年發(fā)布了一份報告得出結(jié)論稱,作為有最多財富500強(qiáng)企業(yè)所依賴的云區(qū)域,AWS us-east-1的關(guān)鍵任務(wù)服務(wù)中斷24小時可能會造成34億美元的直接收入損失,中斷48小時可能造成78億美元的直接損失。
該報告稱,east-1和west-2 AWS服務(wù)中斷24小時可能造成82億美元的損失,如果中斷48小時可能造成175億美元的損失。
Aviatrix將于明年1月份發(fā)布的一份報告發(fā)現(xiàn),對于那些擔(dān)心威脅行為者造成服務(wù)中斷的IT專業(yè)人員來說,“過去一年中,由防火墻造成的云網(wǎng)絡(luò)故障的數(shù)量,是受訪者組織內(nèi)網(wǎng)絡(luò)攻擊所造成故障的兩倍多”。
下面就讓我們詳細(xì)了解一下2023年規(guī)模最大的云故障事件。
2023年1月微軟服務(wù)中斷
1月17日,北美地區(qū)的Microsoft Teams和Microsoft 365用戶在美國東部時間上午9:17至下午2:18左右遭遇服務(wù)中斷。
中斷跟蹤網(wǎng)站DownDetector顯示有數(shù)千個Teams報告問題,其中包括上午10點(diǎn)左右的504份問題報告,以及上午11點(diǎn)的另外503份問題報告。
其中,大約66%是服務(wù)器連接問題,20%是應(yīng)用問題,14%是登錄問題。
1月25日,據(jù)路透社報道稱,網(wǎng)絡(luò)問題導(dǎo)致美洲、歐洲、亞太、中東和非洲的Azure、Teams、Outlook及其他服務(wù)中斷。上午晚些時候,系統(tǒng)完全恢復(fù)之后服務(wù)也恢復(fù)了。
據(jù)路透社報道,微軟將此歸咎于微軟廣域網(wǎng)(WAN)設(shè)備的網(wǎng)絡(luò)連接問題。
據(jù)Quest Software的Practical 365稱,該事件持續(xù)了大約5個小時,問題涉及命令一個WAN路由器發(fā)送消息到其他路由器,導(dǎo)致相鄰關(guān)系重新計算和表轉(zhuǎn)發(fā),從而阻止數(shù)據(jù)包轉(zhuǎn)發(fā)。
2023年1月Glue故障
IT Glue于太平洋標(biāo)準(zhǔn)時間1月18日上午8點(diǎn)左右報告稱,必須進(jìn)行“緊急數(shù)據(jù)庫維護(hù)……以解決一些客戶遇到的問題”。
根據(jù)事件報告,Kaseya旗下的IT文檔軟件廠商IT Glue在太平洋標(biāo)準(zhǔn)時間上午9:33之前一直處于只讀模式。IT Glue在1月20日之前恢復(fù)了所有密碼和文檔。
盡管IT Glue沒有后續(xù)日期的事件報告,但Reddit用戶在1月9日和1月11日發(fā)布了有關(guān)該平臺的問題。
IT Glue的用戶群包括全球13000多個組織和超過350000人。
2023年2月Oracle、NetSuite故障
盡管Oracle公司聯(lián)合創(chuàng)始人、首席技術(shù)官Larry Ellison公開表示Oracle Cloud Infrastructure (OCI)“不會宕機(jī)”,但還是在今年2月遇到了一些問題。
據(jù)Network World報道,2月OCI發(fā)生了多天的中斷故障。
這次中斷從太平洋標(biāo)準(zhǔn)時間2月13日星期一上午10:30左右開始,一直持續(xù)到2月15日星期三下午3:30左右,覆蓋了美洲、澳大利亞、亞太地區(qū)、中東、歐洲和亞洲的用戶。
這次故障涉及支持OCI公共域名系統(tǒng)API后端基礎(chǔ)設(shè)施的性能問題,導(dǎo)致無法處理某些傳入服務(wù)請求。Oracle使用實(shí)時后端優(yōu)化和DNS負(fù)載管理微調(diào)來緩解該問題。
據(jù)Network World報道,OCI Vault、API Gateway、Oracle Digital Assistant和OCI Search with OpenSearch在故障期間都遇到了問題。
據(jù)Data Center Dynamics稱,由于馬薩諸塞州沃爾瑟姆市的Cyxtera數(shù)據(jù)中心起火,Oracle子公司NetSuite在美國東部時間2月14日中午左右開始停電。
據(jù)The Register報道,馬薩諸塞州的這個數(shù)據(jù)中心切斷了服務(wù)器電源,并于美國東部時間晚上10點(diǎn)26分左右開始恢復(fù)帳戶。
至少一名Reddit用戶報告稱,因?yàn)檫@次事件他們的帳戶收到了積分。
2023年3月Datadog故障
Datadog花了近兩天的時間才解決從3月8日開始的服務(wù)中斷故障。
據(jù)MarketWatch報道,總部位于紐約的云監(jiān)控和安全工具廠商Datadog于美國東部時間凌晨1:31向用戶通報了Web應(yīng)用發(fā)生的問題。富國銀行的分析師甚至發(fā)表了一份報告,表達(dá)了對此次中斷對Datadog收入影響的擔(dān)憂。
根據(jù)一份文字記錄顯示,Datadog公司首席執(zhí)行官Olivier Pomel在5月財季電話會議上透露,該事件給Datadog造成了約500萬美元的損失,而且需要約500至600名工程師進(jìn)行三班輪換才解決。
根據(jù)文字記錄,Pomel表示,他“不太擔(dān)心這種情況再次發(fā)生”,并且Datadog學(xué)會了如何“更快地恢復(fù)”以及“在這種情況發(fā)生時為我們的客戶提供更好的辦法以緩解問題”。
科技專欄作家Gergely Orosz寫道,Datadog“很可能不會在系統(tǒng)停機(jī)時向客戶收取數(shù)據(jù)傳輸費(fèi)用”,并且“損失相當(dāng)于公司一天的收入”。
Orosz表示,操作系統(tǒng)更新是造成此次中斷的一個因素,并表示Datadog可以更好地與用戶就該事件進(jìn)行溝通。
2023年4月微軟服務(wù)中斷
4月20日,微軟用戶在使用Microsoft 365在線應(yīng)用和Teams協(xié)作應(yīng)用時遇到了近6個小時的問題。
微軟在太平洋夏令時間上午6:56發(fā)推文表示,正在“調(diào)查Microsoft 365 Online應(yīng)用和Teams管理中心的訪問問題”。
微軟在下午1點(diǎn)10分發(fā)布推文表示,“通過我們的內(nèi)部遙測收到了積極的確認(rèn),并向受影響的用戶表明服務(wù)已恢復(fù)”。
Ookla的DownDetector網(wǎng)站注意到當(dāng)天有數(shù)千起M365停機(jī)報告,太平洋夏令時間上午7點(diǎn)左右報告超過3000起,并在太平洋夏令時間上午9點(diǎn)左右達(dá)到峰值。
據(jù)The Register報道,Teams、SharePoint Online和Outlook在4月24日再次遭遇中斷。微軟于太平洋夏令時間凌晨4:17發(fā)布了有關(guān)該問題的推文,并于上午7:17再次發(fā)布推文稱“大部分影響”已得到修復(fù)。
據(jù)Bleeping Computer報告,4月25日Exchange Online再次出現(xiàn)故障。微軟于下午1:21在推特上發(fā)布了有關(guān)該問題的信息,并表示問題大約一個小時后得到解決。
2023年4月份谷歌服務(wù)中斷
據(jù)The New Stack報道,太平洋夏季時間4月25日下午5點(diǎn)20分左右,法國巴黎的一座數(shù)據(jù)中心發(fā)生火災(zāi),導(dǎo)致Google Cloud和歐洲地區(qū)的用于遇到90多種云服務(wù)的癱瘓。
IT Pro表示,受影響的服務(wù)包括Google Cloud Storage (GCS)、Cloud Key Management Service (KMS)、Cloud Identity and Access Management (IAM)和Google Kubernetes Engine (GKE)。
5月10日,谷歌報告稱“數(shù)據(jù)中心受影響部分的某些實(shí)例仍然不可用。”
2023年4月Oracle-Cerner中斷
據(jù)Federal News Network報道,4月17日,美國退伍軍人事務(wù)部遭遇了Oracle-Cerner電子健康記錄(EHR)系統(tǒng)持續(xù)5個小時的中斷故障。
據(jù)FNN稱,此次中斷是由于數(shù)據(jù)庫功能升級和故障轉(zhuǎn)移造成的。
然后在4月25日,Oracle-Cerner系統(tǒng)再次發(fā)生近4個小時的中斷,給退伍軍人管理局、美國國防部和美國海岸警衛(wèi)隊(duì)帶來了影響。
據(jù)EHR Intelligence稱,退伍軍人事務(wù)部停止了該系統(tǒng)的其他實(shí)施,直到使用該系統(tǒng)的5個站點(diǎn)恢復(fù)了對該系統(tǒng)功能的信心。
2023年5月Cisco SD-WAN故障
思科vEdge平臺的公共根證書過期導(dǎo)致思科在X(以前的Twitter)上公開道歉,思科發(fā)帖稱:“我們對由此帶來的挑戰(zhàn)表示歉意。”
根據(jù)思科網(wǎng)站上的一篇帖子,思科“發(fā)布了軟件升級版本以永久解決此問題”。
思科表示,vEdge路由器提供“思科SD-WAN解決方案的廣域網(wǎng)、安全性和多云功能”?!八伎芐D-WAN vEdge路由器以硬件、軟件、云或虛擬化組件的形式提供,位于遠(yuǎn)程辦公室、分支機(jī)構(gòu)、園區(qū)或數(shù)據(jù)中心等站點(diǎn)周邊。”
2023年6月微軟服務(wù)中斷
Teams和Outlook等Microsoft 365服務(wù)在6月初連續(xù)幾天出現(xiàn)大范圍中斷故障,幾天后又發(fā)生了嚴(yán)重的OneDrive中斷。
然后在第二天,數(shù)千名用戶遭遇了微軟Azure云平臺門戶網(wǎng)站的癱瘓。
微軟在當(dāng)月晚些時候證實(shí),分布式拒絕服務(wù)(DDoS)攻擊是造成此次事件的原因。
詳細(xì)來說,6月5日早上,一次服務(wù)中斷影響了數(shù)萬名Microsoft 365用戶。微軟表示,停止了一項(xiàng)未具體說明的“更新”。
“我們已經(jīng)確定對Microsoft Teams、SharePoint Online和OneDrive for Business的下游影響,”微軟在美國東部時間上午11:45左右發(fā)布的一條推文中這樣表示。
微軟稱,已經(jīng)阻止了“潛在問題的更新”在整個服務(wù)中進(jìn)一步傳播,并正在對微軟已部署更新的部分基礎(chǔ)設(shè)施進(jìn)行審查,以快速恢復(fù)更改操作。
第二天,微軟發(fā)現(xiàn)服務(wù)問題“再次出現(xiàn)”。美國東部時間中午12:03,微軟表示,已經(jīng)“發(fā)現(xiàn)再次造成影響”,并且正在采取進(jìn)一步的緩解措施。
微軟表示:“探測表明,由于之前采取了緩解措施,相對于早期迭代的影響有所減少?!?/p>
截至美國東部時間上午11:22,3118位Down detector用戶報告了Microsoft 365出現(xiàn)的問題。
6月8日,一個名為“Anonymous Sudan”的黑客組織聲稱對造成Microsoft OneDrive的中斷故障負(fù)責(zé)。美國東部時間下午3點(diǎn),微軟表示“正在繼續(xù)分析監(jiān)控并執(zhí)行負(fù)載平衡流程以提供緩解措施”。
當(dāng)天狀態(tài)頁面的后續(xù)更新表明,中斷僅對那些通過網(wǎng)絡(luò)瀏覽器訪問OneDrive的操作造成了影響,微軟在更新中表示:“使用桌面客戶端、同步客戶端或Office客戶端訪問OneDrive服務(wù)不受影響。”
第二天也就是6月9日,微軟用戶經(jīng)歷了一次嚴(yán)重的中斷,Azure云平臺門戶關(guān)閉。
到那天下午,微軟似乎已經(jīng)解決了這個問題。美國東部時間上午11點(diǎn)剛過,DownDetector上有關(guān)Azure可用性問題的用戶報告開始增多,在接下來的兩個小時內(nèi)記錄了數(shù)千份有關(guān)Azure中斷的用戶報告。
“Anonymous Sudan”聲稱對Azure門戶進(jìn)行了DDoS攻擊。
6月12日星期一,微軟表示,“網(wǎng)絡(luò)流量激增”已經(jīng)被確定為導(dǎo)致此次中斷的可能原因。
微軟表示:“我們發(fā)現(xiàn)網(wǎng)絡(luò)流量激增,影響了這些網(wǎng)站的流量管理能力,并導(dǎo)致客戶訪問這些網(wǎng)站出現(xiàn)問題?!?/p>
2023年6月AWS故障
根據(jù)AWS網(wǎng)站上的一份事件報告,AWS在6月經(jīng)歷了長達(dá)幾個小時的中斷事件。
報告稱:“自太平洋夏季時間2023年6月13日上午11:49開始,北弗吉尼亞 (US-EAST-1)區(qū)域的客戶遇到了Lambda函數(shù)調(diào)用錯誤率和延遲增加的問題。由于Lambda函數(shù)調(diào)用降級,其他一些AWS服務(wù)包括Amazon STS、AWS Management Console、Amazon EKS、Amazon Connect和Amazon EventBridge也出現(xiàn)了錯誤率和延遲增加的問題。Lambda函數(shù)調(diào)用于太平洋夏令時間下午1:45開始恢復(fù)到正常水平,所有受影響的服務(wù)也已經(jīng)在太平洋夏令時間下午3:37完全恢復(fù)?!?/p>
報告稱,為了防止此事件再次發(fā)生,AWS“立即禁用了觸發(fā)該事件的Lambda前端隊(duì)列活動的擴(kuò)展活動,同時我們致力于解決導(dǎo)致該問題的潛在錯誤;錯誤已經(jīng)得到解決并部署到所有區(qū)域”。
報告稱:“這一事件還發(fā)現(xiàn)了我們Lambda蜂窩架構(gòu)中用于Lambda前端擴(kuò)展的漏洞,這使得潛在錯誤在受影響單元擴(kuò)展時產(chǎn)生影響。Lambda已經(jīng)完成了多項(xiàng)行動項(xiàng)目,以解決蜂窩架構(gòu)擴(kuò)展的緊迫問題,并有望在今年晚些時候完成更大的工作,以確保所有蜂窩都限制在經(jīng)過充分測試的尺寸,以避免未來出現(xiàn)意外的擴(kuò)展問題?!?/p>
據(jù)DownDetector報道,太平洋夏季時間6月13日中午左右,數(shù)萬名用戶報告總部位于西雅圖的AWS出現(xiàn)中斷,佛蒙特州機(jī)動車輛管理局、波士頓環(huán)球報和紐約大都會交通局等組織在X(以前的Twitter)上報告了AWS造成的服務(wù)中斷。
2023年7月的Slack故障
Salesforce旗下協(xié)作平臺Slack在太平洋夏季時間7月27日遇到了系統(tǒng)級的問題,持續(xù)了大約1個小時,到凌晨3點(diǎn)解決了。
Slack在一篇在線帖子中表示,在中斷期間“用戶無法跨多個平臺發(fā)送或接收消息”。
帖子稱:“我們的工程團(tuán)隊(duì)在對管理內(nèi)部系統(tǒng)通信的服務(wù)進(jìn)行更改之后發(fā)現(xiàn)問題,這個問題導(dǎo)致Slack功能退化,直到恢復(fù)更改,解決了所有用戶的問題?!?/p>
2023年7月IT Glue故障
7月份,持續(xù)約1個小時的IT Glue問題導(dǎo)致出現(xiàn)“502 Bad Gateway”錯誤,IT Glue于太平洋夏季時間7月18日上午11:54發(fā)布消息稱,這個性能問題“可能會使我們的一些合作伙伴無法訪問IT Glue”,該事件于中午12點(diǎn)46分得到解決。
2023年9月Microsoft Teams故障
Microsoft Teams在9月中旬遇到了持續(xù)2個多小時的故障。
太平洋夏季時間9月13日上午7點(diǎn)10分,微軟在X(以前的Twitter)上發(fā)帖稱,微軟正在“調(diào)查影響Microsoft Teams的事件”,并且“用戶可能會遇到發(fā)送和接收消息出現(xiàn)延遲或失敗的問題”。
微軟“確定該問題集中于通過北美受影響的基礎(chǔ)設(shè)施提供服務(wù)的某些用戶”,并將“受影響的服務(wù)流量路由到情況良好的基礎(chǔ)設(shè)施以減輕影響”。
微軟于太平洋夏季時間上午9:43發(fā)布消息稱:“我們已經(jīng)確認(rèn)與此問題相關(guān)的影響已得到解決。”
思科旗下的ThousandEyes情報公司發(fā)布文章稱,“應(yīng)用前端是可以訪問的,但嘗試登錄系統(tǒng)和/或與其交互會導(dǎo)致500個錯誤和超時?!?/p>
該公司表示,這說明“存在某種形式的后端系統(tǒng)或分發(fā)層問題”。
2023年9月Salesforce中斷故障
根據(jù)Salesforce的一份報告,9月20日Salesforce產(chǎn)品和服務(wù)出現(xiàn)了中斷,持續(xù)了大約2個小時,但MuleSoft和Tableau這兩家公司的服務(wù)中斷了大約4個小時。
根據(jù)公司審查結(jié)果顯示,Salesforce意外地因一項(xiàng)政策變更而導(dǎo)致了中斷,這次政策變更“是我們對安全控制進(jìn)行持續(xù)審查和更新的標(biāo)準(zhǔn)操作程序的一部分”。
報告稱:“雖然此次變更的目的是增加深度防御,但無意中阻止了對超出其預(yù)期范圍的其他合法和必要資源的訪問。最終結(jié)果是由于缺乏訪問權(quán)限,導(dǎo)致服務(wù)之間的通信出現(xiàn)故障,以至系統(tǒng)出現(xiàn)故障,限制了一些客戶登錄和使用這些服務(wù)?!?/p>
Salesforce更改了變更審核和批準(zhǔn)流程,并修復(fù)了Tableau中的啟動競爭條件錯誤,以防止同一問題再次發(fā)生,還承諾:
- “有專門的自動化部署管道來執(zhí)行交錯的策略部署”,
- “額外的監(jiān)控和警報功能可以更快地診斷與政策相關(guān)的問題”,
- 以及“重新構(gòu)建MuleSoft CloudHub的后端組件……以提高彈性”。
2023年11月Cloudflare中斷,Workday歸咎于位于俄勒岡州的數(shù)據(jù)中心
Workday和Cloudflare把從11月2日開始發(fā)生的中斷故障歸因于俄勒岡州的一個設(shè)施內(nèi)問題,導(dǎo)致思科HundredEyes推測兩者受到同一數(shù)據(jù)中心的影響。
根據(jù)Cloudflare網(wǎng)站上的一篇帖子,Cloudflare首席執(zhí)行官M(fèi)atthew Prince表示,他對11月初發(fā)生的持續(xù)多天的事件感到“抱歉和尷尬”,并將部分責(zé)任歸咎于位于俄勒岡州由Flexential運(yùn)營的數(shù)據(jù)中心。
11月2日,Cloudflare面向客戶的控制平面界面和分析服務(wù)發(fā)生中斷,事件一直持續(xù)到11月4日。
Prince表示:“截至世界標(biāo)準(zhǔn)時間11月2日17:57,我們能夠在災(zāi)難恢復(fù)設(shè)施中恢復(fù)大部分控制平面,災(zāi)難恢復(fù)設(shè)施上線之后,許多客戶不會遇到大多數(shù)產(chǎn)品問題。然而,其他服務(wù)需要更長的時間才能恢復(fù),并且在我們完全解決事件之前,使用這些服務(wù)的客戶可能會遇到問題。在事件發(fā)生期間,大多數(shù)客戶都無法使用我們的原始日志服務(wù)?!?/p>
Prince對此表示歉意,因?yàn)镃loudflare“相信我們擁有高可用性系統(tǒng),即使我們的某個核心數(shù)據(jù)中心提供商發(fā)生災(zāi)難性故障,也能夠阻止這樣的中斷。”
“許多系統(tǒng)確實(shí)按照設(shè)計保持在線,但一些關(guān)鍵系統(tǒng)具有不明顯的、導(dǎo)致其不可用的依賴性?!?/p>
Cloudflare承諾做出的改變包括:
- “消除對我們核心數(shù)據(jù)中心的所有服務(wù)控制平面配置的依賴,并將其轉(zhuǎn)移到盡可能首先由我們分布式網(wǎng)絡(luò)供電的地方,”
- “要求所有指定為普遍可用的產(chǎn)品和功能都具有經(jīng)過測試的可靠災(zāi)難恢復(fù)計劃,”
- “對所有核心數(shù)據(jù)中心進(jìn)行徹底審核,并制定重新審核計劃,以確保其符合我們的標(biāo)準(zhǔn)?!?/li>
來自Workday的一份報告稱,事件持續(xù)了3個小時,但在報告中沒有提及Cloudflare或Flexential,而是將其歸咎于“俄勒岡州波特蘭數(shù)據(jù)中心的停電,導(dǎo)致部分客戶的服務(wù)中斷”。
Workday表示:“由于備用電源故障的問題,以及不穩(wěn)定的電力環(huán)境帶來了額外的挑戰(zhàn),服務(wù)恢復(fù)所需的時間比通常情況要長。”
據(jù)KRON4稱,DownDetector曾一度記錄了1200多份與Workday中斷相關(guān)的報告。