自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

2018年十大云宕機(jī)事故盤(pán)點(diǎn)：主流公有云無(wú)一幸免

作者：年終總結(jié)的 2018-12-28 10:15:15

安全云安全

2018 年，公有云服務(wù)模式更加成熟，云計(jì)算市場(chǎng)規(guī)模也在不斷擴(kuò)大，但公有云服務(wù)的故障仍然頻繁發(fā)生，幾大主流公有云無(wú)一幸免。

2018 年，公有云服務(wù)模式更加成熟，云計(jì)算市場(chǎng)規(guī)模也在不斷擴(kuò)大，但公有云服務(wù)的故障仍然頻繁發(fā)生，幾大主流公有云無(wú)一幸免。

根據(jù) IDC 今年 7 月份發(fā)布的《中國(guó)公有云服務(wù)市場(chǎng)半年度跟蹤報(bào)告》顯示，阿里云的市場(chǎng)占有率已過(guò) 45%，騰訊云達(dá)到 10%。在全球市場(chǎng)，根據(jù) Gartner ***數(shù)據(jù)顯示，亞馬遜 AWS 占全球份額的 51.8%;微軟 Azure 位列第二位，占比 13.3%;阿里云位列第三位，占比 4.6%;谷歌 Cloud 云服務(wù)占比 3.3%;隨后是 IBM，占比 1.9%?？梢?jiàn)，這幾大主流云供應(yīng)商占據(jù)全球絕大部分市場(chǎng)，一旦云服務(wù)出現(xiàn)宕機(jī)，受影響的企業(yè)將不計(jì)其數(shù)。

2018 年，云計(jì)算市場(chǎng)不僅發(fā)展迅速，而且問(wèn)題不斷。云供應(yīng)商與開(kāi)源社區(qū)的矛盾不斷升級(jí)，主流云廠商均未逃過(guò)宕機(jī)事件，更有甚者一年出現(xiàn)多次服務(wù)宕機(jī)，導(dǎo)致企業(yè)對(duì)公有云的信心持續(xù)走低。本文總結(jié)了 2018 年前十大云宕機(jī)事故，歡迎各位補(bǔ)充經(jīng)歷過(guò)的云服務(wù)至暗時(shí)刻。

1 月 18 日：谷歌云自動(dòng)化失效導(dǎo)致宕機(jī)

事故詳情：2018 年 1 月 18 日，谷歌云自動(dòng)化機(jī)制失效，導(dǎo)致其 us-central1 和 europe-west3 兩大可用區(qū)中的計(jì)算引擎停運(yùn) 93 分鐘。谷歌對(duì)此的回應(yīng)是“網(wǎng)絡(luò)編程失效”導(dǎo)致 Autoscaler(自動(dòng)擴(kuò)展器)服務(wù)無(wú)法正常運(yùn)行，該服務(wù)失效意味著新的虛擬機(jī)或剛遷移的虛擬機(jī)無(wú)法與其他可用區(qū)虛擬機(jī)聯(lián)系。

補(bǔ)救措施：工程團(tuán)隊(duì)手動(dòng)切換到替換任務(wù)，以恢復(fù)數(shù)據(jù)持久層正常運(yùn)行。

宕機(jī)時(shí)間：93 分鐘

事件后續(xù)：谷歌承諾，未來(lái)如果配置數(shù)據(jù)過(guò)時(shí)，谷歌將停止虛擬機(jī)遷移，數(shù)據(jù)持久層會(huì)在長(zhǎng)時(shí)間運(yùn)行進(jìn)程期間重新解析對(duì)等體(peer)，以便故障發(fā)生時(shí)迅速切換到替換任務(wù)。

3 月 2 日：AWS 宕機(jī)致部分 Alexa 失聲

事故詳情：2018 年 3 月 2 日凌晨，依賴 AWS 服務(wù)的部分 Alexa 開(kāi)始出現(xiàn)失聲問(wèn)題，該智能音箱的紅色指示燈不停閃爍表明服務(wù)出現(xiàn)中斷，Alexa 也一直發(fā)出系統(tǒng)內(nèi)置道歉聲。隨后幾小時(shí)內(nèi)，Alexa 又接到了成千上萬(wàn)封投訴。據(jù)了解，Alexa 這一故障源于亞馬遜 AWS 的網(wǎng)絡(luò)服務(wù)出現(xiàn)問(wèn)題，其他依賴 AWS 作為骨干網(wǎng)的應(yīng)用在當(dāng)天也受到了影響，包括軟件開(kāi)發(fā)公司 Atlassian，云通訊公司 Twilio 等。

補(bǔ)救措施：亞馬遜 AWS 的在線支持團(tuán)隊(duì)對(duì)此進(jìn)行了修復(fù)。

宕機(jī)時(shí)間：數(shù)小時(shí)(因事發(fā)凌晨，未在***時(shí)間發(fā)酵)

事件后續(xù)：亞馬遜 AWS 未對(duì)此故障進(jìn)行詳細(xì)說(shuō)明，只透露與網(wǎng)絡(luò)連接有關(guān)。

5 月 31 日：AWS 北弗吉尼亞地區(qū)數(shù)據(jù)中心出現(xiàn)硬件問(wèn)題

事故詳情：2018 年 5 月 31 日，因北弗吉尼亞地區(qū)的數(shù)據(jù)中心出現(xiàn)硬件故障，AWS 再次出現(xiàn)連接問(wèn)題。在此事故中，AWS 的核心 EC2 服務(wù)，Workspaces 虛擬桌面服務(wù)以及 Redshift 數(shù)據(jù)倉(cāng)庫(kù)服務(wù)均受到影響。

補(bǔ)救措施：人為修復(fù)

宕機(jī)時(shí)長(zhǎng)：30 分鐘左右

事件后續(xù)：亞馬遜公司 S3 的副總裁兼總經(jīng)理 Mai-Lan Tomsen Bukovec 近日接受采訪表示，亞馬遜從未見(jiàn)過(guò)數(shù)據(jù)中心崩潰。這意味著，過(guò)去的每一次事故都未曾導(dǎo)致整個(gè)數(shù)據(jù)中心的崩潰，AWS 也在系統(tǒng)設(shè)計(jì)層面進(jìn)行了改進(jìn)以防止此類(lèi)事故發(fā)生。

6 月 17 日：微軟 Azure 愛(ài)爾蘭數(shù)據(jù)中心宕機(jī)

事故詳情：2018 年 6 月 17 日至 18 日，因愛(ài)爾蘭數(shù)據(jù)中心的恒溫系統(tǒng)出現(xiàn)問(wèn)題，微軟 Azure 被高溫影響導(dǎo)致存儲(chǔ)和網(wǎng)絡(luò)中斷。

宕機(jī)時(shí)間：5 小時(shí)以上

6 月 27 日：阿里云故障

事故詳情：2018 年 6 月 27 日 16:21 左右，阿里云出現(xiàn)重大技術(shù)故障，16:50 分開(kāi)始陸續(xù)恢復(fù)，官方給出的故障時(shí)間為 30 分鐘左右，恢復(fù)時(shí)間大概花費(fèi)一小時(shí)。經(jīng)過(guò)技術(shù)復(fù)盤(pán)，阿里給出的故障原因?yàn)楣こ處焾F(tuán)隊(duì)上線自動(dòng)化運(yùn)維新功能時(shí)，執(zhí)行了一項(xiàng)變更驗(yàn)證操作，該操作在測(cè)試環(huán)境中未發(fā)生問(wèn)題，上線后觸發(fā)未知 bug。

補(bǔ)救措施：人工介入，定位并解決問(wèn)題。

宕機(jī)時(shí)間：30 分鐘，恢復(fù)時(shí)間花費(fèi)一小時(shí)左右。

事件后續(xù)：本次事故被定義為 S1 級(jí)別，即核心業(yè)務(wù)重要功能不可用，影響部分用戶，造成一定損失。阿里云發(fā)布官方聲明，表示“對(duì)于這次故障，沒(méi)有借口，我們不能也不該出現(xiàn)這樣的失誤!我們將認(rèn)真復(fù)盤(pán)改進(jìn)自動(dòng)化運(yùn)維技術(shù)和發(fā)布驗(yàn)證流程，敬畏每一行代碼，敬畏每一份托付。”

7 月 20 日：騰訊云云硬盤(pán)故障

事故詳情：2018 年 8 月 5 日，北京清博數(shù)控科技有限公司(以下簡(jiǎn)稱(chēng)“前沿?cái)?shù)控”)在官方微博發(fā)布了一篇題為《騰訊云給一家創(chuàng)業(yè)公司帶來(lái)的災(zāi)難》的博文，文中表明，2018 年 7 月 20 日，騰訊云云硬盤(pán)發(fā)生故障(騰訊云后期給出的事故原因說(shuō)明)，導(dǎo)致該公司存放的數(shù)據(jù)全部丟失，并且不能恢復(fù)，這是該創(chuàng)業(yè)公司近千萬(wàn)元級(jí)的平臺(tái)數(shù)據(jù)，包括經(jīng)過(guò)長(zhǎng)期推廣導(dǎo)流積累起來(lái)的精準(zhǔn)注冊(cè)用戶以及內(nèi)容數(shù)據(jù)。

補(bǔ)救措施：騰訊云表示，監(jiān)控到異常后***時(shí)間向用戶告知了故障狀態(tài)，并立即組織文件系統(tǒng)專(zhuān)家并聯(lián)合廠商技術(shù)專(zhuān)家嘗試修復(fù)數(shù)據(jù)。但經(jīng)過(guò)多方努力，最終仍有部分?jǐn)?shù)據(jù)完整性校驗(yàn)失敗。

事件后續(xù)：騰訊云提出“賠償 + 補(bǔ)償”方案，并承諾會(huì)繼續(xù)與“前沿?cái)?shù)控”保持溝通，幫助其進(jìn)行業(yè)務(wù)恢復(fù)。

7 月 24 日：騰訊云宕機(jī)

事故詳情：2018 年 7 月 24 日，用戶登錄騰訊云時(shí)反復(fù)出現(xiàn)超時(shí)、退出等情況，即便更換運(yùn)營(yíng)商，結(jié)果也一樣。隨后，騰訊云發(fā)布通知稱(chēng)初步確定是運(yùn)營(yíng)商光纜中斷，運(yùn)營(yíng)商已經(jīng)找到斷點(diǎn)，正在連線中，主要受影響的為廣州區(qū)域部分用戶。

補(bǔ)救措施：運(yùn)營(yíng)商***時(shí)間介入搶修。

宕機(jī)時(shí)間：宕機(jī)時(shí)間不明，恢復(fù)時(shí)間花費(fèi) 30 至 40 分鐘

Prime Day：亞馬遜 AWS 故障

事故詳情：Prime Day 是亞馬遜在全球范圍內(nèi)啟動(dòng)的為期 36 小時(shí)的會(huì)員促銷(xiāo)活動(dòng)，活動(dòng)剛開(kāi)始，亞馬遜網(wǎng)站及 App 就同時(shí)發(fā)生嚴(yán)重宕機(jī)，不光電子商務(wù)業(yè)務(wù)受損，亞馬遜的其他產(chǎn)品和服務(wù)都受到了不同程度的影響。亞馬遜對(duì)此給出的解釋是 AWS 管理控制臺(tái)出現(xiàn)全球性問(wèn)題。

宕機(jī)時(shí)間：故障持續(xù)了將近 6 小時(shí)。

事件后續(xù)：AWS 發(fā)言人表示，間歇性的 AWS 管理控制臺(tái)問(wèn)題并未對(duì)亞馬遜的消費(fèi)者業(yè)務(wù)產(chǎn)生任何有意義的影響。

9 月 4 日：微軟 Azure 數(shù)據(jù)中心遭雷劈宕機(jī)

事故詳情：9 月 4 日上午，微軟 Azure 美國(guó)中南區(qū)數(shù)據(jù)中心附近發(fā)生雷擊在內(nèi)的惡劣天氣，影響冷卻系統(tǒng)的電壓，導(dǎo)致多個(gè) Azure 服務(wù)出現(xiàn)連接問(wèn)題，客戶難以訪問(wèn)存儲(chǔ)在該區(qū)數(shù)據(jù)中心的資源。受影響的服務(wù)包括 Office36***ctive Directory、Visual Studio Online、Visual Studio Team Services 等。

補(bǔ)救措施：9 月 5 日上午，微軟工程師已恢復(fù)數(shù)據(jù)中心的電力和大多數(shù)網(wǎng)絡(luò)設(shè)備，其他服務(wù)也在陸續(xù)恢復(fù)中。

宕機(jī)時(shí)間：超過(guò) 24 小時(shí)

11 月 9 日：谷歌公有云下的 Kubernetes 服務(wù)(GKE)宕機(jī)

事故詳情：11 月 9 日，谷歌公有云上提供的 Kubernetes 服務(wù)(GKE)節(jié)點(diǎn)池建置功能出現(xiàn)異常，維運(yùn)人員無(wú)法透過(guò) Cloud Console UI 建立新節(jié)點(diǎn)。

補(bǔ)救措施：谷歌派工程團(tuán)隊(duì)調(diào)查故障原因，并開(kāi)始著手維修。谷歌表示，受影響的企業(yè)用戶可以先改為使用 GCP 內(nèi)建的 gcloud command，建置新 Kubernetes 節(jié)點(diǎn)。

宕機(jī)時(shí)間：接近 19 小時(shí)

寫(xiě)在***對(duì)于很多中小企業(yè)來(lái)說(shuō)，自建機(jī)房的人力和維護(hù)成本太高，他們希望利用云計(jì)算的低成本、可擴(kuò)展性、可靠性和便利性等好處，但卻擔(dān)心面臨風(fēng)險(xiǎn)。這些風(fēng)險(xiǎn)通常是相同的，例如安全漏洞、監(jiān)管問(wèn)題，以及缺乏有關(guān)如何構(gòu)建***云計(jì)算基礎(chǔ)設(shè)施的知識(shí)。而在過(guò)去幾年，云供應(yīng)商還發(fā)生過(guò)數(shù)起大大小小的故障，也說(shuō)明企業(yè)的擔(dān)心不是多余的。隨著越來(lái)越多的企業(yè)和政府機(jī)構(gòu)將數(shù)據(jù)上云，即便只是一個(gè)小小的宕機(jī)都可能引發(fā)很大的災(zāi)難。即便是提供 99.9% 可靠性的阿里云，那 0.1% 的宕機(jī)還是發(fā)生了。

考慮到企業(yè)的這些需求，現(xiàn)在混合云的趨勢(shì)也比較明顯，很多公有云廠商都在布局混合云市場(chǎng)。借助混合云，企業(yè)在提高生產(chǎn)力的同時(shí)還能降低成本，也不用完全投入到公有云當(dāng)中。但是混合云也還存在兼容性和安全合規(guī)性方面的挑戰(zhàn)，所以為了盡可能地減少故障帶來(lái)的損失，企業(yè)不僅要建立完善的災(zāi)備保障體系，還應(yīng)該對(duì)災(zāi)備系統(tǒng)進(jìn)行定期演練。

責(zé)任編輯：武曉燕來(lái)源：高效開(kāi)發(fā)運(yùn)維

云宕機(jī)事故云計(jì)算

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<cite id="hcyoy"><rp id="hcyoy"><pre id="hcyoy"></pre></rp></cite>