谷歌全球大規(guī)模宕機(jī)4小時(shí),蘋果iCloud也遭殃!
最近,云服務(wù)廠商風(fēng)波不斷!前有亞馬遜 AWS 電纜被挖,今又有谷歌多項(xiàng)服務(wù)發(fā)生宕機(jī)!
6 月 3 日,據(jù)外媒報(bào)道,谷歌云服務(wù)剛剛發(fā)生大規(guī)模宕機(jī),影響了包括北美、英國(guó)、歐洲、南美等全球多地的谷歌服務(wù)。
美國(guó)東海岸用戶率先報(bào)告了這個(gè)問題,但宕機(jī)監(jiān)控器 DownDetector 的報(bào)告表明,可能有更多地區(qū)受此影響。
此次谷歌云服務(wù)斷線影響了諸多谷歌旗下網(wǎng)站與 App 的運(yùn)行,包括世界***的郵件應(yīng)用 Gmail、世界***視頻網(wǎng)站 YouTube 與免費(fèi)辦公套件 G Suite。
此外包括 Discord 和 Snapchat 等依賴谷歌云服務(wù)的第三方 App 也受到了影響。
谷歌對(duì)此發(fā)表了緊急聲明:“我們?cè)诿绹?guó)東部遇到了嚴(yán)重的網(wǎng)絡(luò)擁塞,影響了 Google Cloud,G Suite 和 YouTube 中的多項(xiàng)服務(wù)。用戶可能會(huì)感受到打開卡頓或間歇性報(bào)錯(cuò),我們會(huì)盡快恢復(fù)正常服務(wù)。”
該網(wǎng)絡(luò)問題疑似和 Level 3 公司有關(guān),這是美國(guó)一家 ISP 服務(wù)商,為谷歌數(shù)據(jù)中心提供網(wǎng)絡(luò)服務(wù)。
故障三小時(shí)后,大部分問題修復(fù),四小時(shí)后,谷歌聲稱修復(fù)全部問題。
有意思的是,蘋果公司也受到了此次宕機(jī)的影響。
據(jù)蘋果公司稱,其 iCloud 的許多產(chǎn)品今天下午都出現(xiàn)了問題。蘋果表示,云中的 iCloud Mail、iCloud Drive、iMessage、照片和文檔等功能的運(yùn)行速度比用戶預(yù)期的要慢。
去年,蘋果公司證實(shí),它使用谷歌云作為其部分 iCloud 產(chǎn)品的主干。該公司表示,存儲(chǔ)在谷歌上的數(shù)據(jù)包括聯(lián)系人、日歷、照片、視頻、文檔等。這與今天受停電影響的服務(wù)是一致的。除了谷歌云,蘋果還使用了亞馬遜的 S3 平臺(tái)。
這兩年,各大云服務(wù)商發(fā)生的宕機(jī)事件越來(lái)越頻繁,這對(duì)很多的企業(yè)造成的是直接性的利益受損!
云服務(wù)宕機(jī)大事件
①2018 年 11 月 9 日
谷歌公有云下的 Kubernetes 服務(wù)(GKE)宕機(jī)。
②2019 年 3 月 2 日
阿里云開始出現(xiàn)大規(guī)模故障,這場(chǎng)事故持續(xù)了三個(gè)小時(shí)左右,事后觀察了兩個(gè)小時(shí)。
③2019 年 3 月 12 日
3 月 12 日全球各地的谷歌云用戶反映使用 Gmail、YouTube、Google Drive、谷歌音樂與谷歌的其他服務(wù)時(shí)都遇到了問題,谷歌隨后承認(rèn)出現(xiàn)故障,谷歌云平臺(tái)狀態(tài)頁(yè)面(Google Cloud Status Dashboard)顯示,此次故障影響了谷歌云存儲(chǔ)的所有區(qū)域。
④2019 年 3 月 13 日
3 月 13 日,全球***的社交網(wǎng)絡(luò) Facebook 及其旗下 Instagram 和 WhatsApp 的服務(wù)器均出現(xiàn)故障。部分服務(wù)器故障時(shí)間長(zhǎng)達(dá) 24 小時(shí),這是 Facebook 公司近期遭遇的史上最長(zhǎng)宕機(jī)。
就連前兩天,AWS 國(guó)內(nèi)也出現(xiàn)數(shù)小時(shí)網(wǎng)絡(luò)中斷。
AWS 官方聲明中稱,由于 6 月 1 日晚間 CN-NORTH-1 地區(qū)的隔夜道路施工中有幾處光纜被切斷,導(dǎo)致可用區(qū)無(wú)法鏈接 Internet,進(jìn)而引發(fā)所有可用區(qū)中新的實(shí)例無(wú)法啟動(dòng)的故障。
“多云”部署或成為新的保障
目前越來(lái)越多的企業(yè)將其業(yè)務(wù)系統(tǒng)、數(shù)據(jù)部署在云上,云服務(wù)器一旦宕機(jī),企業(yè)業(yè)務(wù)必然會(huì)受波及,因此安全被各企業(yè)視為頭等要?jiǎng)?wù)。
可靠性和業(yè)務(wù)連續(xù)性一直是電信業(yè)非常重視的指標(biāo),而云廠商對(duì)于服務(wù)可靠性的要求還不夠。
未來(lái)云服務(wù)或?qū)⑾袼娒阂粯映蔀榛A(chǔ)設(shè)施。停電 1 分鐘,對(duì)于一般家庭而言,也許只意味著少看一會(huì)兒電視、少吹一會(huì)兒空調(diào),但對(duì)于企業(yè)而言,或許意味著一條生產(chǎn)線的癱瘓、整個(gè)生產(chǎn)流程的推倒重來(lái)。
同理,云服務(wù)器宕機(jī) 1 分鐘,對(duì)于云服務(wù)提供商來(lái)說是一次運(yùn)維故障,但對(duì)企業(yè)而言,或許意味著客戶的流失甚至破產(chǎn),特別是不可逆的故障不是云服務(wù)提供商賠償就能挽回的。
以下是預(yù)防宕機(jī)發(fā)生的多個(gè)方面:
①云廠商技術(shù)上的完善
云廠商技術(shù)上的完善,即增強(qiáng)云服務(wù)的可靠性和業(yè)務(wù)連續(xù)性,但毋庸置疑的是無(wú)論可靠性達(dá)到幾個(gè) 9 都無(wú)法保證云服務(wù)“永不宕機(jī)”。
②根據(jù)自身特點(diǎn)選擇云災(zāi)備和云保險(xiǎn)服務(wù)
盡量在經(jīng)濟(jì)和人員條件可行的情況下使用這些分散風(fēng)險(xiǎn),如果故障只出現(xiàn)在一個(gè)服務(wù)器集群,如果采用異地災(zāi)備的方案,就可以在最快時(shí)間切換到另一個(gè)集群下,保持系統(tǒng)可用;云保險(xiǎn)則是企業(yè)的***一道保障。
③增強(qiáng)用云規(guī)范意識(shí)
為避免由于人員的誤操作或者相關(guān)人員操作不規(guī)范造成的宕機(jī)事故,相關(guān)企業(yè)和政府機(jī)構(gòu)應(yīng)加強(qiáng)技術(shù)人員的培訓(xùn)和災(zāi)備意識(shí)的建立。
企業(yè)的 IT 人員日常應(yīng)做到異機(jī)備份、數(shù)據(jù)容災(zāi)、業(yè)務(wù)雙活、定期對(duì)災(zāi)備和雙活進(jìn)行演練等,盡可能避免云故障帶來(lái)的損失。