自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<em id="bme3z"></em><sub id="bme3z"><i id="bme3z"></i></sub>

<sup id="bme3z"></sup>

^{<sub id="bme3z"></sub>}^{<ruby id="bme3z"></ruby>}

<sub id="bme3z"><p id="bme3z"></p></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

年終盤點(diǎn)：2023年最重大的15次云故障

作者：至頂網(wǎng) 2023-12-25 21:56:22

云計算云安全

隨著云平臺技術(shù)對于運(yùn)行關(guān)鍵業(yè)務(wù)流程的重要性愈加突顯，各種規(guī)模的科技巨頭和廠商今年都經(jīng)歷了多次云故障。下面就讓我們詳細(xì)了解一下2023年規(guī)模最大的云故障事件。

隨著云平臺技術(shù)對于運(yùn)行關(guān)鍵業(yè)務(wù)流程的重要性愈加突顯，各種規(guī)模的科技巨頭和廠商今年都經(jīng)歷了多次云故障。

事實(shí)上，服務(wù)故障已經(jīng)變得如此普遍，準(zhǔn)備工作也如此重要，以至于11月份在AWS re:Invent會議上，云巨頭AWS公布了Fault Injection Service (FIS)服務(wù)的更多場景，讓客戶可以用來測試當(dāng)AWS可用區(qū)域發(fā)生全面斷電或者與另一個AWS區(qū)域斷開連接時應(yīng)用的運(yùn)行情況。

Parametrix Insurance今年發(fā)布了一份報告得出結(jié)論稱，作為有最多財富500強(qiáng)企業(yè)所依賴的云區(qū)域，AWS us-east-1的關(guān)鍵任務(wù)服務(wù)中斷24小時可能會造成34億美元的直接收入損失，中斷48小時可能造成78億美元的直接損失。

該報告稱，east-1和west-2 AWS服務(wù)中斷24小時可能造成82億美元的損失，如果中斷48小時可能造成175億美元的損失。

Aviatrix將于明年1月份發(fā)布的一份報告發(fā)現(xiàn)，對于那些擔(dān)心威脅行為者造成服務(wù)中斷的IT專業(yè)人員來說，“過去一年中，由防火墻造成的云網(wǎng)絡(luò)故障的數(shù)量，是受訪者組織內(nèi)網(wǎng)絡(luò)攻擊所造成故障的兩倍多”。

下面就讓我們詳細(xì)了解一下2023年規(guī)模最大的云故障事件。

2023年1月微軟服務(wù)中斷

1月17日，北美地區(qū)的Microsoft Teams和Microsoft 365用戶在美國東部時間上午9:17至下午2:18左右遭遇服務(wù)中斷。

中斷跟蹤網(wǎng)站DownDetector顯示有數(shù)千個Teams報告問題，其中包括上午10點(diǎn)左右的504份問題報告，以及上午11點(diǎn)的另外503份問題報告。

其中，大約66%是服務(wù)器連接問題，20%是應(yīng)用問題，14%是登錄問題。

1月25日，據(jù)路透社報道稱，網(wǎng)絡(luò)問題導(dǎo)致美洲、歐洲、亞太、中東和非洲的Azure、Teams、Outlook及其他服務(wù)中斷。上午晚些時候，系統(tǒng)完全恢復(fù)之后服務(wù)也恢復(fù)了。

據(jù)路透社報道，微軟將此歸咎于微軟廣域網(wǎng)（WAN）設(shè)備的網(wǎng)絡(luò)連接問題。

據(jù)Quest Software的Practical 365稱，該事件持續(xù)了大約5個小時，問題涉及命令一個WAN路由器發(fā)送消息到其他路由器，導(dǎo)致相鄰關(guān)系重新計算和表轉(zhuǎn)發(fā)，從而阻止數(shù)據(jù)包轉(zhuǎn)發(fā)。

2023年1月Glue故障

IT Glue于太平洋標(biāo)準(zhǔn)時間1月18日上午8點(diǎn)左右報告稱，必須進(jìn)行“緊急數(shù)據(jù)庫維護(hù)……以解決一些客戶遇到的問題”。

根據(jù)事件報告，Kaseya旗下的IT文檔軟件廠商IT Glue在太平洋標(biāo)準(zhǔn)時間上午9:33之前一直處于只讀模式。IT Glue在1月20日之前恢復(fù)了所有密碼和文檔。

盡管IT Glue沒有后續(xù)日期的事件報告，但Reddit用戶在1月9日和1月11日發(fā)布了有關(guān)該平臺的問題。

IT Glue的用戶群包括全球13000多個組織和超過350000人。

2023年2月Oracle、NetSuite故障

盡管Oracle公司聯(lián)合創(chuàng)始人、首席技術(shù)官Larry Ellison公開表示Oracle Cloud Infrastructure (OCI)“不會宕機(jī)”，但還是在今年2月遇到了一些問題。

據(jù)Network World報道，2月OCI發(fā)生了多天的中斷故障。

這次中斷從太平洋標(biāo)準(zhǔn)時間2月13日星期一上午10:30左右開始，一直持續(xù)到2月15日星期三下午3:30左右，覆蓋了美洲、澳大利亞、亞太地區(qū)、中東、歐洲和亞洲的用戶。

這次故障涉及支持OCI公共域名系統(tǒng)API后端基礎(chǔ)設(shè)施的性能問題，導(dǎo)致無法處理某些傳入服務(wù)請求。Oracle使用實(shí)時后端優(yōu)化和DNS負(fù)載管理微調(diào)來緩解該問題。

據(jù)Network World報道，OCI Vault、API Gateway、Oracle Digital Assistant和OCI Search with OpenSearch在故障期間都遇到了問題。

據(jù)Data Center Dynamics稱，由于馬薩諸塞州沃爾瑟姆市的Cyxtera數(shù)據(jù)中心起火，Oracle子公司NetSuite在美國東部時間2月14日中午左右開始停電。

據(jù)The Register報道，馬薩諸塞州的這個數(shù)據(jù)中心切斷了服務(wù)器電源，并于美國東部時間晚上10點(diǎn)26分左右開始恢復(fù)帳戶。

至少一名Reddit用戶報告稱，因?yàn)檫@次事件他們的帳戶收到了積分。

2023年3月Datadog故障

Datadog花了近兩天的時間才解決從3月8日開始的服務(wù)中斷故障。

據(jù)MarketWatch報道，總部位于紐約的云監(jiān)控和安全工具廠商Datadog于美國東部時間凌晨1:31向用戶通報了Web應(yīng)用發(fā)生的問題。富國銀行的分析師甚至發(fā)表了一份報告，表達(dá)了對此次中斷對Datadog收入影響的擔(dān)憂。

根據(jù)一份文字記錄顯示，Datadog公司首席執(zhí)行官Olivier Pomel在5月財季電話會議上透露，該事件給Datadog造成了約500萬美元的損失，而且需要約500至600名工程師進(jìn)行三班輪換才解決。

根據(jù)文字記錄，Pomel表示，他“不太擔(dān)心這種情況再次發(fā)生”，并且Datadog學(xué)會了如何“更快地恢復(fù)”以及“在這種情況發(fā)生時為我們的客戶提供更好的辦法以緩解問題”。

科技專欄作家Gergely Orosz寫道，Datadog“很可能不會在系統(tǒng)停機(jī)時向客戶收取數(shù)據(jù)傳輸費(fèi)用”，并且“損失相當(dāng)于公司一天的收入”。

Orosz表示，操作系統(tǒng)更新是造成此次中斷的一個因素，并表示Datadog可以更好地與用戶就該事件進(jìn)行溝通。

2023年4月微軟服務(wù)中斷

4月20日，微軟用戶在使用Microsoft 365在線應(yīng)用和Teams協(xié)作應(yīng)用時遇到了近6個小時的問題。

微軟在太平洋夏令時間上午6:56發(fā)推文表示，正在“調(diào)查Microsoft 365 Online應(yīng)用和Teams管理中心的訪問問題”。

微軟在下午1點(diǎn)10分發(fā)布推文表示，“通過我們的內(nèi)部遙測收到了積極的確認(rèn)，并向受影響的用戶表明服務(wù)已恢復(fù)”。

Ookla的DownDetector網(wǎng)站注意到當(dāng)天有數(shù)千起M365停機(jī)報告，太平洋夏令時間上午7點(diǎn)左右報告超過3000起，并在太平洋夏令時間上午9點(diǎn)左右達(dá)到峰值。

據(jù)The Register報道，Teams、SharePoint Online和Outlook在4月24日再次遭遇中斷。微軟于太平洋夏令時間凌晨4:17發(fā)布了有關(guān)該問題的推文，并于上午7:17再次發(fā)布推文稱“大部分影響”已得到修復(fù)。

據(jù)Bleeping Computer報告，4月25日Exchange Online再次出現(xiàn)故障。微軟于下午1:21在推特上發(fā)布了有關(guān)該問題的信息，并表示問題大約一個小時后得到解決。

2023年4月份谷歌服務(wù)中斷

據(jù)The New Stack報道，太平洋夏季時間4月25日下午5點(diǎn)20分左右，法國巴黎的一座數(shù)據(jù)中心發(fā)生火災(zāi)，導(dǎo)致Google Cloud和歐洲地區(qū)的用于遇到90多種云服務(wù)的癱瘓。

IT Pro表示，受影響的服務(wù)包括Google Cloud Storage (GCS)、Cloud Key Management Service (KMS)、Cloud Identity and Access Management (IAM)和Google Kubernetes Engine (GKE)。

5月10日，谷歌報告稱“數(shù)據(jù)中心受影響部分的某些實(shí)例仍然不可用。”

2023年4月Oracle-Cerner中斷

據(jù)Federal News Network報道，4月17日，美國退伍軍人事務(wù)部遭遇了Oracle-Cerner電子健康記錄(EHR)系統(tǒng)持續(xù)5個小時的中斷故障。

據(jù)FNN稱，此次中斷是由于數(shù)據(jù)庫功能升級和故障轉(zhuǎn)移造成的。

然后在4月25日，Oracle-Cerner系統(tǒng)再次發(fā)生近4個小時的中斷，給退伍軍人管理局、美國國防部和美國海岸警衛(wèi)隊(duì)帶來了影響。

據(jù)EHR Intelligence稱，退伍軍人事務(wù)部停止了該系統(tǒng)的其他實(shí)施，直到使用該系統(tǒng)的5個站點(diǎn)恢復(fù)了對該系統(tǒng)功能的信心。

2023年5月Cisco SD-WAN故障

思科vEdge平臺的公共根證書過期導(dǎo)致思科在X（以前的Twitter）上公開道歉，思科發(fā)帖稱：“我們對由此帶來的挑戰(zhàn)表示歉意。”

根據(jù)思科網(wǎng)站上的一篇帖子，思科“發(fā)布了軟件升級版本以永久解決此問題”。

思科表示，vEdge路由器提供“思科SD-WAN解決方案的廣域網(wǎng)、安全性和多云功能”?！八伎芐D-WAN vEdge路由器以硬件、軟件、云或虛擬化組件的形式提供，位于遠(yuǎn)程辦公室、分支機(jī)構(gòu)、園區(qū)或數(shù)據(jù)中心等站點(diǎn)周邊。”

2023年6月微軟服務(wù)中斷

Teams和Outlook等Microsoft 365服務(wù)在6月初連續(xù)幾天出現(xiàn)大范圍中斷故障，幾天后又發(fā)生了嚴(yán)重的OneDrive中斷。

然后在第二天，數(shù)千名用戶遭遇了微軟Azure云平臺門戶網(wǎng)站的癱瘓。

微軟在當(dāng)月晚些時候證實(shí)，分布式拒絕服務(wù)(DDoS)攻擊是造成此次事件的原因。

詳細(xì)來說，6月5日早上，一次服務(wù)中斷影響了數(shù)萬名Microsoft 365用戶。微軟表示，停止了一項(xiàng)未具體說明的“更新”。

“我們已經(jīng)確定對Microsoft Teams、SharePoint Online和OneDrive for Business的下游影響，”微軟在美國東部時間上午11:45左右發(fā)布的一條推文中這樣表示。

微軟稱，已經(jīng)阻止了“潛在問題的更新”在整個服務(wù)中進(jìn)一步傳播，并正在對微軟已部署更新的部分基礎(chǔ)設(shè)施進(jìn)行審查，以快速恢復(fù)更改操作。

第二天，微軟發(fā)現(xiàn)服務(wù)問題“再次出現(xiàn)”。美國東部時間中午12:03，微軟表示，已經(jīng)“發(fā)現(xiàn)再次造成影響”，并且正在采取進(jìn)一步的緩解措施。

微軟表示：“探測表明，由于之前采取了緩解措施，相對于早期迭代的影響有所減少?！?/p>

截至美國東部時間上午11:22，3118位Down detector用戶報告了Microsoft 365出現(xiàn)的問題。

6月8日，一個名為“Anonymous Sudan”的黑客組織聲稱對造成Microsoft OneDrive的中斷故障負(fù)責(zé)。美國東部時間下午3點(diǎn)，微軟表示“正在繼續(xù)分析監(jiān)控并執(zhí)行負(fù)載平衡流程以提供緩解措施”。

當(dāng)天狀態(tài)頁面的后續(xù)更新表明，中斷僅對那些通過網(wǎng)絡(luò)瀏覽器訪問OneDrive的操作造成了影響，微軟在更新中表示：“使用桌面客戶端、同步客戶端或Office客戶端訪問OneDrive服務(wù)不受影響。”

第二天也就是6月9日，微軟用戶經(jīng)歷了一次嚴(yán)重的中斷，Azure云平臺門戶關(guān)閉。

到那天下午，微軟似乎已經(jīng)解決了這個問題。美國東部時間上午11點(diǎn)剛過，DownDetector上有關(guān)Azure可用性問題的用戶報告開始增多，在接下來的兩個小時內(nèi)記錄了數(shù)千份有關(guān)Azure中斷的用戶報告。

“Anonymous Sudan”聲稱對Azure門戶進(jìn)行了DDoS攻擊。

6月12日星期一，微軟表示，“網(wǎng)絡(luò)流量激增”已經(jīng)被確定為導(dǎo)致此次中斷的可能原因。

微軟表示：“我們發(fā)現(xiàn)網(wǎng)絡(luò)流量激增，影響了這些網(wǎng)站的流量管理能力，并導(dǎo)致客戶訪問這些網(wǎng)站出現(xiàn)問題?！?/p>

2023年6月AWS故障

根據(jù)AWS網(wǎng)站上的一份事件報告，AWS在6月經(jīng)歷了長達(dá)幾個小時的中斷事件。

報告稱：“自太平洋夏季時間2023年6月13日上午11:49開始，北弗吉尼亞 (US-EAST-1)區(qū)域的客戶遇到了Lambda函數(shù)調(diào)用錯誤率和延遲增加的問題。由于Lambda函數(shù)調(diào)用降級，其他一些AWS服務(wù)包括Amazon STS、AWS Management Console、Amazon EKS、Amazon Connect和Amazon EventBridge也出現(xiàn)了錯誤率和延遲增加的問題。Lambda函數(shù)調(diào)用于太平洋夏令時間下午1:45開始恢復(fù)到正常水平，所有受影響的服務(wù)也已經(jīng)在太平洋夏令時間下午3:37完全恢復(fù)?！?/p>

報告稱，為了防止此事件再次發(fā)生，AWS“立即禁用了觸發(fā)該事件的Lambda前端隊(duì)列活動的擴(kuò)展活動，同時我們致力于解決導(dǎo)致該問題的潛在錯誤；錯誤已經(jīng)得到解決并部署到所有區(qū)域”。

報告稱：“這一事件還發(fā)現(xiàn)了我們Lambda蜂窩架構(gòu)中用于Lambda前端擴(kuò)展的漏洞，這使得潛在錯誤在受影響單元擴(kuò)展時產(chǎn)生影響。Lambda已經(jīng)完成了多項(xiàng)行動項(xiàng)目，以解決蜂窩架構(gòu)擴(kuò)展的緊迫問題，并有望在今年晚些時候完成更大的工作，以確保所有蜂窩都限制在經(jīng)過充分測試的尺寸，以避免未來出現(xiàn)意外的擴(kuò)展問題?！?/p>

據(jù)DownDetector報道，太平洋夏季時間6月13日中午左右，數(shù)萬名用戶報告總部位于西雅圖的AWS出現(xiàn)中斷，佛蒙特州機(jī)動車輛管理局、波士頓環(huán)球報和紐約大都會交通局等組織在X（以前的Twitter）上報告了AWS造成的服務(wù)中斷。

2023年7月的Slack故障

Salesforce旗下協(xié)作平臺Slack在太平洋夏季時間7月27日遇到了系統(tǒng)級的問題，持續(xù)了大約1個小時，到凌晨3點(diǎn)解決了。

Slack在一篇在線帖子中表示，在中斷期間“用戶無法跨多個平臺發(fā)送或接收消息”。

帖子稱：“我們的工程團(tuán)隊(duì)在對管理內(nèi)部系統(tǒng)通信的服務(wù)進(jìn)行更改之后發(fā)現(xiàn)問題，這個問題導(dǎo)致Slack功能退化，直到恢復(fù)更改，解決了所有用戶的問題?！?/p>

2023年7月IT Glue故障

7月份，持續(xù)約1個小時的IT Glue問題導(dǎo)致出現(xiàn)“502 Bad Gateway”錯誤，IT Glue于太平洋夏季時間7月18日上午11:54發(fā)布消息稱，這個性能問題“可能會使我們的一些合作伙伴無法訪問IT Glue”，該事件于中午12點(diǎn)46分得到解決。

2023年9月Microsoft Teams故障

Microsoft Teams在9月中旬遇到了持續(xù)2個多小時的故障。

太平洋夏季時間9月13日上午7點(diǎn)10分，微軟在X（以前的Twitter）上發(fā)帖稱，微軟正在“調(diào)查影響Microsoft Teams的事件”，并且“用戶可能會遇到發(fā)送和接收消息出現(xiàn)延遲或失敗的問題”。

微軟“確定該問題集中于通過北美受影響的基礎(chǔ)設(shè)施提供服務(wù)的某些用戶”，并將“受影響的服務(wù)流量路由到情況良好的基礎(chǔ)設(shè)施以減輕影響”。

微軟于太平洋夏季時間上午9:43發(fā)布消息稱：“我們已經(jīng)確認(rèn)與此問題相關(guān)的影響已得到解決。”

思科旗下的ThousandEyes情報公司發(fā)布文章稱，“應(yīng)用前端是可以訪問的，但嘗試登錄系統(tǒng)和/或與其交互會導(dǎo)致500個錯誤和超時?！?/p>

該公司表示，這說明“存在某種形式的后端系統(tǒng)或分發(fā)層問題”。

2023年9月Salesforce中斷故障

根據(jù)Salesforce的一份報告，9月20日Salesforce產(chǎn)品和服務(wù)出現(xiàn)了中斷，持續(xù)了大約2個小時，但MuleSoft和Tableau這兩家公司的服務(wù)中斷了大約4個小時。

根據(jù)公司審查結(jié)果顯示，Salesforce意外地因一項(xiàng)政策變更而導(dǎo)致了中斷，這次政策變更“是我們對安全控制進(jìn)行持續(xù)審查和更新的標(biāo)準(zhǔn)操作程序的一部分”。

報告稱：“雖然此次變更的目的是增加深度防御，但無意中阻止了對超出其預(yù)期范圍的其他合法和必要資源的訪問。最終結(jié)果是由于缺乏訪問權(quán)限，導(dǎo)致服務(wù)之間的通信出現(xiàn)故障，以至系統(tǒng)出現(xiàn)故障，限制了一些客戶登錄和使用這些服務(wù)?！?/p>

Salesforce更改了變更審核和批準(zhǔn)流程，并修復(fù)了Tableau中的啟動競爭條件錯誤，以防止同一問題再次發(fā)生，還承諾：

“有專門的自動化部署管道來執(zhí)行交錯的策略部署”，
“額外的監(jiān)控和警報功能可以更快地診斷與政策相關(guān)的問題”，
以及“重新構(gòu)建MuleSoft CloudHub的后端組件……以提高彈性”。

2023年11月Cloudflare中斷，Workday歸咎于位于俄勒岡州的數(shù)據(jù)中心

Workday和Cloudflare把從11月2日開始發(fā)生的中斷故障歸因于俄勒岡州的一個設(shè)施內(nèi)問題，導(dǎo)致思科HundredEyes推測兩者受到同一數(shù)據(jù)中心的影響。

根據(jù)Cloudflare網(wǎng)站上的一篇帖子，Cloudflare首席執(zhí)行官M(fèi)atthew Prince表示，他對11月初發(fā)生的持續(xù)多天的事件感到“抱歉和尷尬”，并將部分責(zé)任歸咎于位于俄勒岡州由Flexential運(yùn)營的數(shù)據(jù)中心。

11月2日，Cloudflare面向客戶的控制平面界面和分析服務(wù)發(fā)生中斷，事件一直持續(xù)到11月4日。

Prince表示：“截至世界標(biāo)準(zhǔn)時間11月2日17:57，我們能夠在災(zāi)難恢復(fù)設(shè)施中恢復(fù)大部分控制平面，災(zāi)難恢復(fù)設(shè)施上線之后，許多客戶不會遇到大多數(shù)產(chǎn)品問題。然而，其他服務(wù)需要更長的時間才能恢復(fù)，并且在我們完全解決事件之前，使用這些服務(wù)的客戶可能會遇到問題。在事件發(fā)生期間，大多數(shù)客戶都無法使用我們的原始日志服務(wù)?！?/p>

Prince對此表示歉意，因?yàn)镃loudflare“相信我們擁有高可用性系統(tǒng)，即使我們的某個核心數(shù)據(jù)中心提供商發(fā)生災(zāi)難性故障，也能夠阻止這樣的中斷。”

“許多系統(tǒng)確實(shí)按照設(shè)計保持在線，但一些關(guān)鍵系統(tǒng)具有不明顯的、導(dǎo)致其不可用的依賴性?！?/p>

Cloudflare承諾做出的改變包括：

“消除對我們核心數(shù)據(jù)中心的所有服務(wù)控制平面配置的依賴，并將其轉(zhuǎn)移到盡可能首先由我們分布式網(wǎng)絡(luò)供電的地方，”
“要求所有指定為普遍可用的產(chǎn)品和功能都具有經(jīng)過測試的可靠災(zāi)難恢復(fù)計劃，”
“對所有核心數(shù)據(jù)中心進(jìn)行徹底審核，并制定重新審核計劃，以確保其符合我們的標(biāo)準(zhǔn)?！?/li>

來自Workday的一份報告稱，事件持續(xù)了3個小時，但在報告中沒有提及Cloudflare或Flexential，而是將其歸咎于“俄勒岡州波特蘭數(shù)據(jù)中心的停電，導(dǎo)致部分客戶的服務(wù)中斷”。

Workday表示：“由于備用電源故障的問題，以及不穩(wěn)定的電力環(huán)境帶來了額外的挑戰(zhàn)，服務(wù)恢復(fù)所需的時間比通常情況要長。”

據(jù)KRON4稱，DownDetector曾一度記錄了1200多份與Workday中斷相關(guān)的報告。

責(zé)任編輯：趙寧寧來源：至頂網(wǎng)

云故障網(wǎng)絡(luò)攻擊云計算

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營