年終盤點(diǎn) | 2020云巨頭們的宕機(jī)事件
本文轉(zhuǎn)載自微信公眾號(hào)「SDNLAB」。轉(zhuǎn)載本文請(qǐng)聯(lián)系SDNLAB公眾號(hào)。
今年,疫情的爆發(fā)給云計(jì)算帶來(lái)了一次非凡的考驗(yàn)——云計(jì)算不僅要提供正常運(yùn)營(yíng)業(yè)務(wù)的能力,還需要具有在負(fù)載激增的情況下保持可用性的能力。目前,云計(jì)算已被很多企業(yè)采用,但是,在此過(guò)程中也出現(xiàn)了許多問(wèn)題。
以下是今年規(guī)模巨大的十大宕機(jī)事件,隨著這些問(wèn)題的出現(xiàn)和解決,云計(jì)算技術(shù)正面臨著新的挑戰(zhàn)和機(jī)遇。
1. 3月份,Microsoft Azure
3月,微軟發(fā)生兩次大規(guī)模宕機(jī)事件。
3月3日,微軟位于美國(guó)東部的數(shù)據(jù)中心發(fā)生了服務(wù)中斷,持續(xù)六小時(shí),導(dǎo)致美國(guó)北部的客戶無(wú)法使用Azure云服務(wù)。
微軟稱,這次故障應(yīng)歸咎于冷卻系統(tǒng)故障。發(fā)生故障的樓宇自動(dòng)化控制導(dǎo)致氣流減少,隨后整個(gè)數(shù)據(jù)中心的溫度達(dá)到峰值,影響了網(wǎng)絡(luò)設(shè)備的性能,使得計(jì)算和存儲(chǔ)都無(wú)法繼續(xù)使用。
3月24日-26日,Azure Pipelines發(fā)生故障,這是DevOps團(tuán)隊(duì)使用的持續(xù)交付服務(wù),接下來(lái)的幾天,軟件開發(fā)管道遇到了嚴(yán)重的延遲,開發(fā)人員受到的影響特別大。
微軟證實(shí),由于全球疫情爆發(fā),需求激增,虛擬機(jī)容量受限使得設(shè)備重新映像的時(shí)間增加,導(dǎo)致可用代理的等待時(shí)間也隨之增加。
2. 3月26日,Google Cloud Platform
3月26日,Google多個(gè)云服務(wù)出現(xiàn)無(wú)法訪問(wèn)的問(wèn)題。Google用戶發(fā)Twitter稱,他們遇到了Google 500和502錯(cuò)誤代碼——500代碼代表因內(nèi)部錯(cuò)誤導(dǎo)致請(qǐng)求失敗;502代碼則代表網(wǎng)關(guān)出現(xiàn)故障。
Google最終將這次故障歸咎于“基礎(chǔ)設(shè)施組件”問(wèn)題。據(jù)Downdetector稱,美國(guó)東部沿海地區(qū)的Google客戶受到的影響最大。
3. 4月10日,華為云
4 月 10 日,華為云出現(xiàn)大面積宕機(jī),華為云登錄、管理后臺(tái)無(wú)法訪問(wèn),部分公司業(yè)務(wù)無(wú)法正常維持。本次宕機(jī)持續(xù)約三小時(shí)。
不少網(wǎng)友在微博反映,華為云登錄、管理后臺(tái)便開始無(wú)法訪問(wèn),并出現(xiàn)了“服務(wù)器暫時(shí)過(guò)載或處于維護(hù)中,請(qǐng)稍后重試。”、“建立數(shù)據(jù)庫(kù)連接時(shí)出錯(cuò)”等提示。華為云官方微博隨后發(fā)布公告回應(yīng)稱:“檢測(cè)到部分主機(jī)異常,目前故障基本修復(fù),部分客戶的業(yè)務(wù)正在配合恢復(fù)中。”
對(duì)此,有消息稱這次宕機(jī)主要是由于北京的機(jī)房出現(xiàn)故障導(dǎo)致的,廣州和上海的用戶表示能夠正常使用。
4. 4月21日,GitHub
微軟旗下的源代碼存儲(chǔ)庫(kù)GitHub在4月底發(fā)生了多次宕機(jī)。
4月21日,多個(gè)GitHub服務(wù)出現(xiàn)訪問(wèn)異常,持續(xù)了一個(gè)半小時(shí)。4月22日,服務(wù)再次出現(xiàn)中斷,持續(xù)時(shí)間至少兩小時(shí)。4月23日,多個(gè)GitHub服務(wù)也遇到了各種問(wèn)題的影響,持續(xù)了近三小時(shí)。軟件工程師經(jīng)常使用的API請(qǐng)求、Webhooks等服務(wù)被標(biāo)注為 "已降級(jí)"。
官方?jīng)]有提供任何原因,也沒(méi)有公布恢復(fù)過(guò)程的信息。雖然GitHub網(wǎng)站上更新了微軟試圖修復(fù)各種故障的情況,但并沒(méi)有提供任何關(guān)于問(wèn)題的細(xì)節(jié),開發(fā)者們?cè)赥witter上抨擊微軟缺乏透明度。
(5) 6月9日,IBM Cloud
6月9日,IBM Cloud 遭遇了重大宕機(jī)故障,平臺(tái)上托管的多項(xiàng)服務(wù)也因此中斷,其中就包括知名科技新聞聚合網(wǎng)站 Techmeme。本次宕機(jī)事件從下午2點(diǎn)30分左右開始,并快速蔓延至全球。
IBM Cloud頁(yè)面也在故障發(fā)生期間短暫關(guān)閉,然后在下午6:30之后報(bào)告稱一系列問(wèn)題已經(jīng)得以解決。
IBM網(wǎng)站解釋到,INM網(wǎng)絡(luò)運(yùn)營(yíng)團(tuán)隊(duì)調(diào)整了路由策略,處理了第三方提供商引入的問(wèn)題,這次故障也得以解決。
(6) 8月24日,Zoom
8月24日,Zoom發(fā)生了部分中斷,導(dǎo)致用戶無(wú)法訪問(wèn)其離線會(huì)議和在線視頻會(huì)議,本次中斷持續(xù)了3小時(shí)。Zoom并未解釋造成中斷的原因,他只是在狀態(tài)頁(yè)面上說(shuō)找到并解決了問(wèn)題。
Zoom現(xiàn)在每天約有1.15億活躍用戶,該公司的服務(wù)可能已成為2020年在家工作的關(guān)鍵詞。
(7) 9月28日,Microsoft 365和Azure
9月29日,Microsoft Office 365辦公軟件和Azure云產(chǎn)品出現(xiàn)故障,導(dǎo)致部分用戶服務(wù)中斷數(shù)小時(shí)。
微軟表示,故障涉及Outlook電郵服務(wù)和Teams辦公協(xié)作工具的部分用戶,其中Teams具備聊天和視頻會(huì)議功能,在新冠疫情期間其用戶增長(zhǎng)迅速。微軟表示,一些用戶無(wú)法登錄這些服務(wù),但已經(jīng)登錄上去的不受影響。
當(dāng)天,Azure云計(jì)算用戶也遭遇了與Office365套件類似的問(wèn)題。Azure是微軟的大規(guī)模云計(jì)算系統(tǒng),許多企業(yè)都依靠其存儲(chǔ)和分析數(shù)據(jù)。
(8) 10月7日,Microsoft Office 365
10月7日,Microsoft更新了其網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu),隨后,Microsoft Teams,Outlook,SharePoint Online,OneDrive for Business和Outlook.com的功能均下降。
當(dāng)天下午2:48,Twitter上的Microsoft 365官方號(hào)確認(rèn)中斷。微軟隨后表示,網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu)的最新更新對(duì)Microsoft 365服務(wù)產(chǎn)生了影響,目前環(huán)境正在恢復(fù)更新。
(9) 11月25日,AWS
11月25日,亞馬遜云服務(wù)出現(xiàn)中斷,大量網(wǎng)站和服務(wù)受到影響。本次宕機(jī)持續(xù)約5小時(shí)。
AWS發(fā)布通知稱,處理流媒體數(shù)據(jù)的Kinesis服務(wù)出現(xiàn)問(wèn)題,大量網(wǎng)站受到影響,錯(cuò)誤率上升。并且,宕機(jī)還影響了它向狀態(tài)頁(yè)發(fā)布更新的能力。
據(jù)了解,此次宕機(jī)導(dǎo)致亞馬遜智能安全子公司Ring、Roku、軟件開發(fā)商Autodesk紐約大都會(huì)運(yùn)輸署的地鐵網(wǎng)站,論壇出版集團(tuán)旗下的《芝加哥論壇報(bào)》和《巴爾的摩太陽(yáng)報(bào)》等一些公司或機(jī)構(gòu)的服務(wù)受到了影響,網(wǎng)站頻頻出現(xiàn)錯(cuò)誤。
值得注意的是,AWS 的大客戶蘋果、Slack、Netflix 并沒(méi)有受到宕機(jī)的影響,仍然運(yùn)行正常。
(10) 12月14日,Google Cloud
12月14日晚間,Google服務(wù)器又一次全球宕機(jī)。這是近5個(gè)月來(lái)第3次全球宕機(jī)。
Google旗下的YouTube、Gmail、Google Drive、Google Search等服務(wù)出現(xiàn)死機(jī),用戶無(wú)法正常使用,全球多個(gè)國(guó)家及地區(qū)用戶均受到影響。
Google隨后發(fā)推文確認(rèn),由于內(nèi)部存儲(chǔ)配額問(wèn)題,Google身份驗(yàn)證系統(tǒng)中斷。宕機(jī)45分后問(wèn)題得以解決,現(xiàn)在所有服務(wù)都已恢復(fù)。
互聯(lián)網(wǎng)時(shí)代對(duì)系統(tǒng)的可靠性提出了更高的要求。關(guān)鍵系統(tǒng)往往要求每年的不可用時(shí)間不能超過(guò)53分鐘,而以上事故很多都遠(yuǎn)遠(yuǎn)超過(guò)了故障預(yù)算。
未來(lái),系統(tǒng)架構(gòu)會(huì)越來(lái)越復(fù)雜,整體的數(shù)據(jù)和流量也會(huì)越來(lái)越大,有專家表示,快速響應(yīng)和控制影響半徑,是當(dāng)前的互聯(lián)網(wǎng)需要重視起來(lái)的兩個(gè)實(shí)踐方向。