2015年目前為止的十大云計(jì)算故障事件
烏云來襲
隨著云技術(shù)逐漸成熟,云提供商也日益成熟,在大多數(shù)情況下,云的整體正常運(yùn)行時(shí)間和穩(wěn)定性也在提高。
提供商們不斷向他們的SLA數(shù)字后面添加9,企業(yè)正積極對(duì)內(nèi)部部署的基礎(chǔ)設(shè)施實(shí)施虛擬化,創(chuàng)建動(dòng)態(tài)的私有云,用以快速擴(kuò)展到公共基礎(chǔ)設(shè)施。
雖然云故障不像過去幾年那么特別普遍了,但它給企業(yè)客戶帶來的傷害卻比以前更大了。
遷移到云基礎(chǔ)設(shè)施的關(guān)鍵任務(wù)工作負(fù)載數(shù)量激增,這進(jìn)一步加大了短時(shí)間服務(wù)中斷所導(dǎo)致的損害。每次故障,不管如何迅速補(bǔ)救,都會(huì)對(duì)技術(shù)信譽(yù)造成一定影響,阻礙客戶更廣泛的采用。
Verizon云,1月10日和11日

云服務(wù)提供商最擔(dān)心的就是長(zhǎng)時(shí)間中斷,而Verizon卻讓客戶倍感震驚:使云服務(wù)在整個(gè)周末離線長(zhǎng)達(dá)40小時(shí),以實(shí)施一個(gè)全面的系統(tǒng)維護(hù)項(xiàng)目。
然而具有諷刺意味的是,這次對(duì)云基礎(chǔ)設(shè)施進(jìn)行升級(jí)的原因之一,是為了防止未來發(fā)生服務(wù)中斷。
雖然很多客戶對(duì)于他們的提供商故意切斷云服務(wù)感到氣惱,但也有一些人安慰自己,他們知道Verizon花費(fèi)這40個(gè)小時(shí)用于增加無縫升級(jí)能力,這樣未來在不中斷的情況下就可以在實(shí)時(shí)系統(tǒng)上進(jìn)行更新,甚至是不需要重啟服務(wù)器。
Google Compute Engine,2月18日和19日

就在午夜之前谷歌IaaS產(chǎn)品的多個(gè)區(qū)域出現(xiàn)了故障。在大約1個(gè)小時(shí)的中斷之后,在第二天凌晨1點(diǎn)針對(duì)大多數(shù)受影響客戶的服務(wù)恢復(fù)正常。
一些連接問題持續(xù)了大約3個(gè)小時(shí),在這期間大約40分鐘時(shí)間內(nèi),由Google Compute Engine虛擬機(jī)發(fā)送出站的數(shù)據(jù)包不翼而飛。
谷歌表示,這個(gè)問題是“不可接受的”,并向受影響的客戶道了歉。
AOL Mail,2月19日

當(dāng)AOL的電子郵件服務(wù)從美國東部時(shí)間凌晨4點(diǎn)開始出現(xiàn)大范圍故障的時(shí)候,顯然很多人受到了實(shí)際上的影響。
這次故障是從英國開始蔓延至美國的,導(dǎo)致很多AOL用戶無法登錄進(jìn)入他們的帳戶。
Google Compute Engine,3月9日

另一個(gè)讓谷歌IaaS云癱瘓的網(wǎng)絡(luò)錯(cuò)誤,是三周之前由出站流量中斷所導(dǎo)致的。
這次故障的原因是一個(gè)錯(cuò)誤的配置包以谷歌沒有預(yù)料到的方式給一些服務(wù)器造成了影響。服務(wù)中斷是從美國太平洋標(biāo)準(zhǔn)時(shí)間早上10點(diǎn)左右開始,持續(xù)了大約45分鐘。
蘋果iCloud,3月11日

這次故障導(dǎo)致全球有數(shù)百萬人在長(zhǎng)達(dá)12個(gè)小時(shí)內(nèi)無法購買數(shù)字音樂、書籍或者應(yīng)用。所幸的是,他們大多數(shù)人沒有受到太大影響。
蘋果在其道歉中將這次服務(wù)中斷歸咎于一次內(nèi)部的DNS錯(cuò)誤,使得iTunes和蘋果商店服務(wù)癱瘓。一些iCloud電子郵件帳戶也受到短暫影響。
#p#
微軟Azure,3月16日

微軟有兩項(xiàng)Azure公有云服務(wù)中斷了2個(gè)多小時(shí),美國中部客戶受到影響,微軟稱這次故障是“網(wǎng)絡(luò)基礎(chǔ)設(shè)施的問題”。
這次故障從美國中部時(shí)間下午1點(diǎn)開始,影響到微軟Azure虛擬機(jī)(基礎(chǔ)設(shè)施即服務(wù))和Azure云服務(wù)(平臺(tái)即服務(wù))產(chǎn)品的客戶,微軟在其Azure狀態(tài)網(wǎng)頁上面報(bào)告了這次故障。
微軟稱這次故障是“部分服務(wù)中斷”,并表示到美國中部時(shí)間下午3:19這項(xiàng)服務(wù)已經(jīng)完全恢復(fù)到可用狀態(tài)。
微軟Azure,3月17日

微軟的公有云還沒有堅(jiān)持下24個(gè)小時(shí),就發(fā)生了第二次故障,虛擬機(jī)、網(wǎng)站和其他云服務(wù)癱瘓數(shù)天時(shí)間,這一次影響到了客戶更為密集的美國東海岸。
微軟在其Azure狀態(tài)頁面上報(bào)告了這次從美國東部夏季時(shí)間下午1:30開始的故障。微軟作為全球第二大公有云服務(wù)提供商,向客戶通知稱這次服務(wù)故障的根源是存儲(chǔ)發(fā)生了問題。
星巴克,4月24日

當(dāng)然,星巴克并不是一家云提供商,但卻是云服務(wù)的早期采用者,星巴克將自己的CRM系統(tǒng)與POS機(jī)產(chǎn)生的客戶數(shù)據(jù)進(jìn)行了連接。
看起來對(duì)于云基礎(chǔ)設(shè)施的依賴性已相當(dāng)深入,一次故障在某種程度上讓北美數(shù)千個(gè)星巴克門店收款機(jī)無法使用。當(dāng)昏昏沉沉的客戶希望從無處不在的星巴克那里買一杯傍晚的咖啡時(shí),他們卻一無所獲。
客戶數(shù)小時(shí)無法購買咖啡,一些門店早早就關(guān)門了,其他很多門店開始發(fā)放免費(fèi)飲料。
星巴克很快就報(bào)告稱沒有故障了——這只是一次由系統(tǒng)日常刷新引發(fā)的中斷。
蘋果iCloud,5月20日

包括電子郵件在內(nèi)的11項(xiàng)蘋果服務(wù)遭遇了7個(gè)小時(shí)的中斷。一些完全癱瘓了,其他一些只是運(yùn)行地非常非常緩慢。
中斷的服務(wù)包括iCloud Drive、Photos、Documents、Find My iPhone、Back to My Mac、iCloud Backup、iCloud Keychain、iCloud Mail、iMovie Theater以及iWork for iCloud Beta。
根據(jù)iCloud的系統(tǒng)狀態(tài)頁面顯示,全球5億iCloud客戶中有大約40%受到了影響。
微軟Exchange,7月15日

雖然這個(gè)Office 365托管的電子郵件故障似乎涉及范圍并不大,但是也讓微軟在全球合作伙伴大會(huì)上倍感尷尬,云的穩(wěn)定性正是這次大會(huì)的一個(gè)主題。
很多參加這次在佛羅里達(dá)州奧蘭多舉行的合作伙伴大會(huì)的微軟合作伙伴都無法發(fā)送和接收電子郵件。