2018年十大云宕機(jī)事故盤(pán)點(diǎn):主流公有云無(wú)一幸免
2018 年,公有云服務(wù)模式更加成熟,云計(jì)算市場(chǎng)規(guī)模也在不斷擴(kuò)大,但公有云服務(wù)的故障仍然頻繁發(fā)生,幾大主流公有云無(wú)一幸免。
根據(jù) IDC 今年 7 月份發(fā)布的《中國(guó)公有云服務(wù)市場(chǎng)半年度跟蹤報(bào)告》顯示,阿里云的市場(chǎng)占有率已過(guò) 45%,騰訊云達(dá)到 10%。在全球市場(chǎng),根據(jù) Gartner ***數(shù)據(jù)顯示,亞馬遜 AWS 占全球份額的 51.8%;微軟 Azure 位列第二位,占比 13.3%;阿里云位列第三位,占比 4.6%;谷歌 Cloud 云服務(wù)占比 3.3%;隨后是 IBM,占比 1.9%??梢?jiàn),這幾大主流云供應(yīng)商占據(jù)全球絕大部分市場(chǎng),一旦云服務(wù)出現(xiàn)宕機(jī),受影響的企業(yè)將不計(jì)其數(shù)。
2018 年,云計(jì)算市場(chǎng)不僅發(fā)展迅速,而且問(wèn)題不斷。云供應(yīng)商與開(kāi)源社區(qū)的矛盾不斷升級(jí),主流云廠商均未逃過(guò)宕機(jī)事件,更有甚者一年出現(xiàn)多次服務(wù)宕機(jī),導(dǎo)致企業(yè)對(duì)公有云的信心持續(xù)走低。本文總結(jié)了 2018 年前十大云宕機(jī)事故,歡迎各位補(bǔ)充經(jīng)歷過(guò)的云服務(wù)至暗時(shí)刻。
1 月 18 日:谷歌云自動(dòng)化失效導(dǎo)致宕機(jī)
事故詳情:2018 年 1 月 18 日,谷歌云自動(dòng)化機(jī)制失效,導(dǎo)致其 us-central1 和 europe-west3 兩大可用區(qū)中的計(jì)算引擎停運(yùn) 93 分鐘。谷歌對(duì)此的回應(yīng)是“網(wǎng)絡(luò)編程失效”導(dǎo)致 Autoscaler(自動(dòng)擴(kuò)展器)服務(wù)無(wú)法正常運(yùn)行,該服務(wù)失效意味著新的虛擬機(jī)或剛遷移的虛擬機(jī)無(wú)法與其他可用區(qū)虛擬機(jī)聯(lián)系。
補(bǔ)救措施: 工程團(tuán)隊(duì)手動(dòng)切換到替換任務(wù),以恢復(fù)數(shù)據(jù)持久層正常運(yùn)行。
宕機(jī)時(shí)間:93 分鐘
事件后續(xù): 谷歌承諾,未來(lái)如果配置數(shù)據(jù)過(guò)時(shí),谷歌將停止虛擬機(jī)遷移,數(shù)據(jù)持久層會(huì)在長(zhǎng)時(shí)間運(yùn)行進(jìn)程期間重新解析對(duì)等體(peer),以便故障發(fā)生時(shí)迅速切換到替換任務(wù)。
3 月 2 日:AWS 宕機(jī)致部分 Alexa 失聲
事故詳情:2018 年 3 月 2 日凌晨,依賴 AWS 服務(wù)的部分 Alexa 開(kāi)始出現(xiàn)失聲問(wèn)題,該智能音箱的紅色指示燈不停閃爍表明服務(wù)出現(xiàn)中斷,Alexa 也一直發(fā)出系統(tǒng)內(nèi)置道歉聲。隨后幾小時(shí)內(nèi),Alexa 又接到了成千上萬(wàn)封投訴。據(jù)了解,Alexa 這一故障源于亞馬遜 AWS 的網(wǎng)絡(luò)服務(wù)出現(xiàn)問(wèn)題,其他依賴 AWS 作為骨干網(wǎng)的應(yīng)用在當(dāng)天也受到了影響,包括軟件開(kāi)發(fā)公司 Atlassian,云通訊公司 Twilio 等。
補(bǔ)救措施: 亞馬遜 AWS 的在線支持團(tuán)隊(duì)對(duì)此進(jìn)行了修復(fù)。
宕機(jī)時(shí)間: 數(shù)小時(shí)(因事發(fā)凌晨,未在***時(shí)間發(fā)酵)
事件后續(xù): 亞馬遜 AWS 未對(duì)此故障進(jìn)行詳細(xì)說(shuō)明,只透露與網(wǎng)絡(luò)連接有關(guān)。
5 月 31 日:AWS 北弗吉尼亞地區(qū)數(shù)據(jù)中心出現(xiàn)硬件問(wèn)題
事故詳情:2018 年 5 月 31 日,因北弗吉尼亞地區(qū)的數(shù)據(jù)中心出現(xiàn)硬件故障,AWS 再次出現(xiàn)連接問(wèn)題。在此事故中,AWS 的核心 EC2 服務(wù),Workspaces 虛擬桌面服務(wù)以及 Redshift 數(shù)據(jù)倉(cāng)庫(kù)服務(wù)均受到影響。
補(bǔ)救措施: 人為修復(fù)
宕機(jī)時(shí)長(zhǎng):30 分鐘左右
事件后續(xù): 亞馬遜公司 S3 的副總裁兼總經(jīng)理 Mai-Lan Tomsen Bukovec 近日接受采訪表示,亞馬遜從未見(jiàn)過(guò)數(shù)據(jù)中心崩潰。這意味著,過(guò)去的每一次事故都未曾導(dǎo)致整個(gè)數(shù)據(jù)中心的崩潰,AWS 也在系統(tǒng)設(shè)計(jì)層面進(jìn)行了改進(jìn)以防止此類(lèi)事故發(fā)生。
6 月 17 日:微軟 Azure 愛(ài)爾蘭數(shù)據(jù)中心宕機(jī)
事故詳情:2018 年 6 月 17 日至 18 日,因愛(ài)爾蘭數(shù)據(jù)中心的恒溫系統(tǒng)出現(xiàn)問(wèn)題,微軟 Azure 被高溫影響導(dǎo)致存儲(chǔ)和網(wǎng)絡(luò)中斷。
宕機(jī)時(shí)間:5 小時(shí)以上
6 月 27 日:阿里云故障
事故詳情:2018 年 6 月 27 日 16:21 左右,阿里云出現(xiàn)重大技術(shù)故障,16:50 分開(kāi)始陸續(xù)恢復(fù),官方給出的故障時(shí)間為 30 分鐘左右,恢復(fù)時(shí)間大概花費(fèi)一小時(shí)。經(jīng)過(guò)技術(shù)復(fù)盤(pán),阿里給出的故障原因?yàn)楣こ處焾F(tuán)隊(duì)上線自動(dòng)化運(yùn)維新功能時(shí),執(zhí)行了一項(xiàng)變更驗(yàn)證操作,該操作在測(cè)試環(huán)境中未發(fā)生問(wèn)題,上線后觸發(fā)未知 bug。
補(bǔ)救措施: 人工介入,定位并解決問(wèn)題。
宕機(jī)時(shí)間:30 分鐘,恢復(fù)時(shí)間花費(fèi)一小時(shí)左右。
事件后續(xù): 本次事故被定義為 S1 級(jí)別,即核心業(yè)務(wù)重要功能不可用,影響部分用戶,造成一定損失。阿里云發(fā)布官方聲明,表示“對(duì)于這次故障,沒(méi)有借口,我們不能也不該出現(xiàn)這樣的失誤!我們將認(rèn)真復(fù)盤(pán)改進(jìn)自動(dòng)化運(yùn)維技術(shù)和發(fā)布驗(yàn)證流程,敬畏每一行代碼,敬畏每一份托付。”
7 月 20 日:騰訊云云硬盤(pán)故障
事故詳情:2018 年 8 月 5 日,北京清博數(shù)控科技有限公司(以下簡(jiǎn)稱(chēng)“前沿?cái)?shù)控”)在官方微博發(fā)布了一篇題為《騰訊云給一家創(chuàng)業(yè)公司帶來(lái)的災(zāi)難》的博文,文中表明,2018 年 7 月 20 日,騰訊云云硬盤(pán)發(fā)生故障(騰訊云后期給出的事故原因說(shuō)明),導(dǎo)致該公司存放的數(shù)據(jù)全部丟失,并且不能恢復(fù),這是該創(chuàng)業(yè)公司近千萬(wàn)元級(jí)的平臺(tái)數(shù)據(jù),包括經(jīng)過(guò)長(zhǎng)期推廣導(dǎo)流積累起來(lái)的精準(zhǔn)注冊(cè)用戶以及內(nèi)容數(shù)據(jù)。
補(bǔ)救措施: 騰訊云表示,監(jiān)控到異常后***時(shí)間向用戶告知了故障狀態(tài),并立即組織文件系統(tǒng)專(zhuān)家并聯(lián)合廠商技術(shù)專(zhuān)家嘗試修復(fù)數(shù)據(jù)。但經(jīng)過(guò)多方努力,最終仍有部分?jǐn)?shù)據(jù)完整性校驗(yàn)失敗。
事件后續(xù): 騰訊云提出“賠償 + 補(bǔ)償”方案,并承諾會(huì)繼續(xù)與“前沿?cái)?shù)控”保持溝通,幫助其進(jìn)行業(yè)務(wù)恢復(fù)。
7 月 24 日:騰訊云宕機(jī)
事故詳情:2018 年 7 月 24 日,用戶登錄騰訊云時(shí)反復(fù)出現(xiàn)超時(shí)、退出等情況,即便更換運(yùn)營(yíng)商,結(jié)果也一樣。隨后,騰訊云發(fā)布通知稱(chēng)初步確定是運(yùn)營(yíng)商光纜中斷,運(yùn)營(yíng)商已經(jīng)找到斷點(diǎn),正在連線中,主要受影響的為廣州區(qū)域部分用戶。
補(bǔ)救措施: 運(yùn)營(yíng)商***時(shí)間介入搶修。
宕機(jī)時(shí)間: 宕機(jī)時(shí)間不明,恢復(fù)時(shí)間花費(fèi) 30 至 40 分鐘
Prime Day:亞馬遜 AWS 故障
事故詳情:Prime Day 是亞馬遜在全球范圍內(nèi)啟動(dòng)的為期 36 小時(shí)的會(huì)員促銷(xiāo)活動(dòng),活動(dòng)剛開(kāi)始,亞馬遜網(wǎng)站及 App 就同時(shí)發(fā)生嚴(yán)重宕機(jī),不光電子商務(wù)業(yè)務(wù)受損,亞馬遜的其他產(chǎn)品和服務(wù)都受到了不同程度的影響。亞馬遜對(duì)此給出的解釋是 AWS 管理控制臺(tái)出現(xiàn)全球性問(wèn)題。
宕機(jī)時(shí)間: 故障持續(xù)了將近 6 小時(shí)。
事件后續(xù):AWS 發(fā)言人表示,間歇性的 AWS 管理控制臺(tái)問(wèn)題并未對(duì)亞馬遜的消費(fèi)者業(yè)務(wù)產(chǎn)生任何有意義的影響。
9 月 4 日:微軟 Azure 數(shù)據(jù)中心遭雷劈宕機(jī)
事故詳情:9 月 4 日上午,微軟 Azure 美國(guó)中南區(qū)數(shù)據(jù)中心附近發(fā)生雷擊在內(nèi)的惡劣天氣,影響冷卻系統(tǒng)的電壓,導(dǎo)致多個(gè) Azure 服務(wù)出現(xiàn)連接問(wèn)題,客戶難以訪問(wèn)存儲(chǔ)在該區(qū)數(shù)據(jù)中心的資源。受影響的服務(wù)包括 Office36***ctive Directory、Visual Studio Online、Visual Studio Team Services 等。
補(bǔ)救措施:9 月 5 日上午,微軟工程師已恢復(fù)數(shù)據(jù)中心的電力和大多數(shù)網(wǎng)絡(luò)設(shè)備,其他服務(wù)也在陸續(xù)恢復(fù)中。
宕機(jī)時(shí)間: 超過(guò) 24 小時(shí)
11 月 9 日:谷歌公有云下的 Kubernetes 服務(wù)(GKE)宕機(jī)
事故詳情:11 月 9 日,谷歌公有云上提供的 Kubernetes 服務(wù)(GKE)節(jié)點(diǎn)池建置功能出現(xiàn)異常,維運(yùn)人員無(wú)法透過(guò) Cloud Console UI 建立新節(jié)點(diǎn)。
補(bǔ)救措施: 谷歌派工程團(tuán)隊(duì)調(diào)查故障原因,并開(kāi)始著手維修。谷歌表示,受影響的企業(yè)用戶可以先改為使用 GCP 內(nèi)建的 gcloud command,建置新 Kubernetes 節(jié)點(diǎn)。
宕機(jī)時(shí)間: 接近 19 小時(shí)
寫(xiě)在***對(duì)于很多中小企業(yè)來(lái)說(shuō),自建機(jī)房的人力和維護(hù)成本太高,他們希望利用云計(jì)算的低成本、可擴(kuò)展性、可靠性和便利性等好處,但卻擔(dān)心面臨風(fēng)險(xiǎn)。這些風(fēng)險(xiǎn)通常是相同的,例如安全漏洞、監(jiān)管問(wèn)題,以及缺乏有關(guān)如何構(gòu)建***云計(jì)算基礎(chǔ)設(shè)施的知識(shí)。而在過(guò)去幾年,云供應(yīng)商還發(fā)生過(guò)數(shù)起大大小小的故障,也說(shuō)明企業(yè)的擔(dān)心不是多余的。隨著越來(lái)越多的企業(yè)和政府機(jī)構(gòu)將數(shù)據(jù)上云,即便只是一個(gè)小小的宕機(jī)都可能引發(fā)很大的災(zāi)難。即便是提供 99.9% 可靠性的阿里云,那 0.1% 的宕機(jī)還是發(fā)生了。
考慮到企業(yè)的這些需求,現(xiàn)在混合云的趨勢(shì)也比較明顯,很多公有云廠商都在布局混合云市場(chǎng)。借助混合云,企業(yè)在提高生產(chǎn)力的同時(shí)還能降低成本,也不用完全投入到公有云當(dāng)中。但是混合云也還存在兼容性和安全合規(guī)性方面的挑戰(zhàn),所以為了盡可能地減少故障帶來(lái)的損失,企業(yè)不僅要建立完善的災(zāi)備保障體系,還應(yīng)該對(duì)災(zāi)備系統(tǒng)進(jìn)行定期演練。