年中盤點:2020年10大云故障
僅僅幾個月前,新冠病毒就以人們無法預測的方式對云提供商進行了一輪測試。大多數(shù)情況下,云計算產(chǎn)業(yè)已經(jīng)能夠在全球突然開始極大地依賴云服務以繼續(xù)工作、學習和娛樂的時候、保持云服務的可用性和穩(wěn)定性。
在面對前所未有的壓力測試時,公有云已經(jīng)被證明具有極強的彈性,但今年上半年也還是有一些例外。雖然今年到目前為止,只有少數(shù)幾起中斷故障是由于新冠病毒讓云服務使用激增所導致的,但還有一些是由于某些常見的故障引發(fā)的,即使是在特殊時期,這些故障在某些程度上也是不可避免的。
下面就讓我們來看看今年到目前為止給用戶帶來影響的10大云故障。

1、Twitter,2月7日
今年2月Twitter發(fā)生部分服務中斷,導致一些用戶無法發(fā)送推文。
“推文無法發(fā)送,我們正在努力修復,”社交媒體巨頭Twitter的產(chǎn)品經(jīng)理Patrick Traughber發(fā)推文表示。
根據(jù)Downdetector.com的報道,美國東部時間下午5點之前,有關服務中斷的投訴激增至12000起,主要發(fā)生在美國和歐洲。
Twitter支持團隊在推文中說:“我們對這次服務中斷感到抱歉,我們會在恢復正常之后通知您。”
Twitter很快發(fā)現(xiàn),這次服務中斷的罪魁禍首,是最近的一次更新中包含的錯誤代碼,隨后取消了這次更新。美國東部時間下午5:07之前,Twitter支持團隊向用戶發(fā)送通知稱:“您可以繼續(xù)使用Twitter了,問題已經(jīng)得到解決!感謝您繼續(xù)使用。”
2、微軟Azure,3月3日
從美國東部時間上午9:30開始,微軟位于美國東部數(shù)據(jù)中心發(fā)生了6個小時的服務中斷,從而導致美國北部的一些客戶無法使用Azure云服務。
幾天后,微軟稱這次故障應歸咎于冷卻系統(tǒng)故障。微軟解釋說,樓宇自動化控制功能故障導致氣流減少,隨后整個數(shù)據(jù)中心達到峰值,從而影響了網(wǎng)絡設備的性能,使計算和存儲實例無法使用。
微軟最終重置了冷卻系統(tǒng)控制器,一旦溫度降下來,工程師就可以關閉電源,重啟硬件,恢復服務。
3、微軟Teams,3月16日
在新冠病毒大爆發(fā)之際,微軟Teams平臺涌入了大量新用戶,導致該服務在歐洲地區(qū)出現(xiàn)了持續(xù)2個小時的宕機,此次事件也突顯了Teams服務的支持能力問題。
微軟在推特上稱,截至美國東部時間上午4:50,“微軟一直在調查Teams中與通信相關的功能問題”。有報道稱,對歐洲用戶來說,Teams應用程序套件已經(jīng)完全無法使用。
微軟在一份聲明中表示:“我們已經(jīng)采取措施解決部分客戶可能遇到的問題,工程團隊將繼續(xù)積極監(jiān)控性能和使用情況。”
而就在兩周前,微軟剛剛承諾向目前尚無Teams許可的企業(yè)和教育機構免費提供6個月的Office 365 E1訂閱服務。
4、微軟Azure,3月24日至26日
今年3月微軟證實,新冠病毒大爆發(fā)給微軟多項云服務帶來極大的壓力,這導致了歐洲地區(qū)發(fā)生一系列宕機。
這次故障給開發(fā)者帶來的影響特別大,因為3月24日首先“陣亡”的是Azure Pipelines,DevOps團隊使用的持續(xù)交付服務。接下來的幾天里,微軟的軟件開發(fā)管道發(fā)生嚴重的延遲。
微軟后來解釋說:“此次事件是由全球新冠病毒大爆發(fā)引起虛擬機容量受限所導致的,使得設備重新映像的時間增加,可用代理的等待時間也隨之增加。”
當周晚些時候,微軟接受了關于沒能及時解決故障的指責。
微軟工程總監(jiān)Chad Kimes說:“第一天影響最嚴重的時候,我們有大約5個小時都沒有意識到故障的發(fā)生,這比我們設定的10分鐘要糟糕得多。”
5、Google Cloud Platform,3月26日
谷歌用戶從3月26日上午11點開始報告有多項云服務無法訪問的問題。
用戶發(fā)推特稱,他們遇到了Google 500和502錯誤代碼——500代碼代表因內(nèi)部錯誤導致請求失敗;502代碼則代表網(wǎng)關出現(xiàn)故障。
Google最終將這次故障歸咎于“基礎設施組件”問題。
據(jù)Downdetector稱,美國東部沿海地區(qū)的谷歌客戶受到影響似乎最大。
6、Zoom,4月3日
新冠病毒大流行迫使全球開始轉向遠程辦公和遠程學習模式,Zoom作為全球最重要的視頻服務提供商之一,遭遇了平臺需求的激增。
這種壓力似乎導致了4月3日的服務中斷,使得美國東海岸和部分歐洲地區(qū)的Zoom用戶對于無法使用Zoom服務感到震驚。根據(jù)DownDetector.com的報道,美國加利福尼亞州、佛羅里達州、中西部和馬來西亞的部分地區(qū)都出現(xiàn)了的宕機。
登錄嘗試時報告的錯誤消息表明Zoom Web客戶端出現(xiàn)了問題,Zoom的狀態(tài)頁面稱正在維護中。
Zoom在自己的開發(fā)者論壇頁面上表示:“在這個艱難的時期,我們看到人們對Zoom服務的需求出現(xiàn)激增。為了繼續(xù)為客戶和開發(fā)者提供卓越的服務,我們可能會迅速實施一些變更措施。”
此前Zoom一直在為教育機構免費提供視頻服務,為企業(yè)和消費者提供40分鐘的免費視頻會議,這導致3月日活用戶數(shù)量同比增長了151%。

7、Google Cloud Platform,4月8日
這次涉及Google Cloud身份和訪問管理(IAM)API的故障,導致用戶被鎖定在Google Gmail帳戶之外,并影響了其他基于Google Cloud的主流服務。
這次故障從美國東部時間上午10:35開始,持續(xù)了不到90分鐘,導致多個Google服務中斷,包括App Engine、Cloud Functions、BigQuery及其核心Compute Engine IaaS。
Google的姊妹公司Nest不得不向客戶解釋為什么他們的安全攝像機暫時無法使用。而作為Google Cloud的重要客戶,Snapchat完全癱瘓了一個多小時。

8、GitHub,4月21日
微軟旗下的源代碼存儲庫GitHub在4月底發(fā)生了多次宕機。
首先是在4月21日,GitHub苦苦掙扎了一個多小時;第二天,GitHub又發(fā)生了兩次背靠背的宕機,再次讓依賴GitHub平臺的開發(fā)者工作停滯,然后又一次影響了多個GitHub服務一個多小時;第二天又是如此。
軟件工程師在日常工作中所依賴的Git Operations、API請求、拉取請求等功能都出現(xiàn)了級。隨著整周持續(xù)不斷的宕機,開發(fā)者們開始在Twitter抨擊微軟缺乏透明度。
9、Adobe Creative Cloud,5月28日
今年5月,Adobe云平臺(包括Photoshop、InDesign和Premier Pro等備受歡迎的產(chǎn)品)發(fā)生宕機一整天的時間,讓創(chuàng)意專業(yè)人士的工作完全停滯。
Adobe Creative Cloud的故障在數(shù)字設計社區(qū)引發(fā)了有關云服務缺點的討論,很多人在Twitter上開始思考,他們是否應該傾向于這些產(chǎn)品的本地化版本。
從美國東部時間上午9點開始,Adobe客戶報告稱他們無法登錄Adobe Creative Cloud平臺并使用相關服務,有客戶稱,他們因為無法登陸帳戶而無法聯(lián)系到支持人員。
問題曝光的7個多小時之后,Adobe在推特上發(fā)布了該問題的解決方法,但未詳細說明根本原因。

10、IBM Cloud,6月9日
IBM將這次導致很多客戶(包括一些備受歡迎的網(wǎng)站)宕機的云故障歸咎于第三方網(wǎng)絡故障。IBM的一家商業(yè)合作伙伴公司首席執(zhí)行官稱,客戶無法訪問IBM的環(huán)境、狀態(tài)屏幕和控制臺,“根本不知道發(fā)生了什么”。
他說:“這帶來了廣泛的影響,整個環(huán)境都停滯了。”
IBM Cloud狀態(tài)頁面也在故障發(fā)生期間短暫關閉,然后在下午6:30之后報告稱一系列問題已經(jīng)得以解決。
IBM狀態(tài)頁面解釋說:“網(wǎng)絡運營團隊調整了路由策略,解決了第三方提供商引入的問題,從而解決了這次故障。”