最嚴(yán)重的十大云服務(wù)宕機事件
云服務(wù)是很討人很喜歡的概念。畢竟,丟棄那些笨重的服務(wù)器,只要給自己弄一只大容量的云硬盤就可以了。反正別人會負責(zé)維修;你想把數(shù)據(jù)放在哪里,就可以放在哪里。
當(dāng)然,現(xiàn)實情況是喜憂參半。一方面,你可以避免維修;但另一方面,你喪失了控制。另外還需要考慮安全問題。但是一旦云服務(wù)宕機,那真的是一個活生生的噩夢。
那只要問一問今年4月受到亞馬遜網(wǎng)絡(luò)服務(wù)的重大宕機事件影響的隨便一家公司。
Nick Franci說:“當(dāng)時我們完全給搞蒙了;我們絕對是毫無防備。”就在亞馬遜出現(xiàn)問題一周前,他的新興公司Help Scout才開業(yè)。
措手不及的并非只有Francis一人。當(dāng)亞馬遜的云服務(wù)出現(xiàn)故障時,像Reddit和Foursquare這些大牌公司同樣動彈不得。
Lew Moorman是Rackspace的首席戰(zhàn)略官,這家云服務(wù)提供商也遇到過宕機事件。他說:“人們覺得云計算是一項切實可用、完全可靠的神奇技術(shù)。事實上,通過云來購買是另一種購買計算的方式,而計算本身是有缺陷的。如果你想確保那些缺陷不會影響到自己,就必須未雨綢繆。”
為了幫助貴公司在云環(huán)境下高枕無憂,我們分享了這些來之不易的經(jīng)驗教訓(xùn),它們源自互聯(lián)網(wǎng)經(jīng)歷的十大云服務(wù)宕機風(fēng)暴。
第一大云服務(wù)宕機事件:亞馬遜網(wǎng)絡(luò)服務(wù)完蛋
可以擺脫繁瑣的網(wǎng)絡(luò)維護工作是在云環(huán)境開展業(yè)務(wù)的一個主要賣點。那有什么缺點嗎?當(dāng)云服務(wù)提供商的日常配置變更導(dǎo)致貴公司的業(yè)務(wù)陷入停頓時,你會有一種孤立無援的感覺。
亞馬遜網(wǎng)絡(luò)服務(wù)的許多客戶在去年4月就經(jīng)歷了這一幕,當(dāng)時亞馬遜建在北弗吉尼亞州的數(shù)據(jù)中心遭到了一個故障,最后徹底歇菜了。
這個錯誤在網(wǎng)絡(luò)升級升級中開始出現(xiàn)了,當(dāng)時流量轉(zhuǎn)移到錯誤的路徑上傳送后,亞馬遜的一組彈性塊存儲(EBS)卷不斷地重新映像,于是它們尋求可用的設(shè)備以便對自己進行備份。結(jié)果就引發(fā)了一連串事件,最終導(dǎo)致該公司在美國東部地區(qū)的服務(wù)大部分癱瘓。
這個問題持續(xù)了大約四天。但是就在許多公司苦苦掙扎的同時,Netflix等其他公司順利渡過了難關(guān)。存活下來的關(guān)鍵是什么呢?那就是在設(shè)計系統(tǒng)時要考慮到這些類型的故障。
Netflix的幾名工程師在《Netflix從亞馬遜網(wǎng)絡(luò)服務(wù)宕機中汲取的經(jīng)驗教訓(xùn)》博文中寫道:“我們的架構(gòu)避免使用EBS作為我們的主數(shù)據(jù)存儲服務(wù),我們實際上依賴的SimpleDB、簡單存儲服務(wù)(S3)和Cassandra服務(wù)沒有受到這次宕機的影響。”無狀態(tài)服務(wù)和數(shù)據(jù)的多個冗余熱副本分散在多個可用區(qū)是避免云服務(wù)故障的關(guān)鍵。
是否認為自己非得像Netflix這等規(guī)模的公司才能保持安全?那你就錯了。Twilio公司專門幫助開發(fā)人員把通信功能集成到自己開發(fā)的Web應(yīng)用程序中,它使用亞馬遜的彈性計算云(EC2)來托管其基礎(chǔ)架構(gòu)的核心部分——不過亞馬遜的宕機事件對于該公司的穩(wěn)定運行幾乎沒什么影響。
Twilio的聯(lián)合創(chuàng)辦人兼首席技術(shù)官Evan Cooke說:“將業(yè)務(wù)建立在云環(huán)境上的基本前提是,要假定網(wǎng)絡(luò)會有這樣那樣的故障和毛病。我們在建立基礎(chǔ)架構(gòu)時就設(shè)想主機可能會出現(xiàn)故障,于是我們沒有依賴核心架構(gòu)中的任何一臺機器或任何一個組件。”
第二大云服務(wù)宕機事件:Sidekick宕機
智能手機讓你出門在外時很容易訪問自己的數(shù)據(jù),但就因為某樣?xùn)|西的名字里面有“智能”(smart),并不意味著它就萬無一失。一個典型例子就是:T-Mobile的Sidekick在2009年秋天前后搞砸了。
還記得那次慘敗嗎?微軟旗下的Sidekick遭遇了服務(wù)將近一周宕機的尷尬,導(dǎo)致用戶們無法訪問電子郵件、日歷信息及其他個人數(shù)據(jù)。后來雪上加霜的是,微軟承認自己完全丟失了存儲在云環(huán)境中的數(shù)據(jù),自己無力恢復(fù)。顯然,來自雷德蒙的那群技術(shù)精英們之前忘了備份數(shù)據(jù)。
也許此后技術(shù)有所發(fā)展,但教訓(xùn)仍然一樣:說到關(guān)鍵數(shù)據(jù),千萬不要想當(dāng)然地以為別人會自動保護你。確保你了解云服務(wù)提供商的災(zāi)難恢復(fù)系統(tǒng);如果你自己作了安排,獨立備份重要數(shù)據(jù),那就更好。
SmartBear旗下AlertSite公司的監(jiān)控產(chǎn)品副總裁Ken Godskind說:“同樣的操作規(guī)則甚至適用于云環(huán)境。使用云服務(wù)的企業(yè)千萬不要想當(dāng)然地以為,就因為數(shù)據(jù)在云環(huán)境中,業(yè)務(wù)連續(xù)性規(guī)劃方面的全部責(zé)任可以一股腦兒地扔給提供商了。”
第三大云服務(wù)宕機事件:Gmail故障
在所有云服務(wù)iv 中,谷歌的Gmail是比較有可能在企業(yè)領(lǐng)域危及微軟預(yù)置型軟件的勁敵之一。把需要精心維護的Exchange服務(wù)器換成由Postini支持的一種廉價而可靠的電子郵件服務(wù)。誰不喜歡呢?
此后出現(xiàn)了一連串令人惱恨的宕機事件,最近一次是15萬個Gmail用戶登錄進入到帳戶,結(jié)果卻發(fā)現(xiàn)里面空空如也:沒有電子郵件,沒有文件夾,沒有什么可以表明他們看到的就是自己的收件箱。值得肯定的是,谷歌定期提供更新版,承諾很快會拿出權(quán)宜之計。但對于一些受到影響的用戶來說,維修過程前后長達四天。
谷歌工程副總裁Ben Treynor當(dāng)時在一篇博文中問道:“如果我們將客戶數(shù)據(jù)的多個副本放在多個數(shù)據(jù)中心,怎么可能會發(fā)生這種事?在一些罕見的情況下,軟件缺陷會同時影響數(shù)據(jù)的數(shù)個副本。這種事偏偏落在了我們頭上。”
谷歌最后不得不使用實際的物理磁帶備份來恢復(fù)數(shù)據(jù)。最終,這家公司的多層數(shù)據(jù)保護體系確實發(fā)揮了效果,卻使得成千上萬個用戶在數(shù)天內(nèi)無法使用電子郵件服務(wù)。
那這是不是可以成為對任何云服務(wù)避而遠之的理由?恐怕不是。但確實有必要認真關(guān)注你自己的數(shù)據(jù)保護措施,考慮立即著手制定一套備份或離線訪問解決方案。
AlertSite公司的Ken Godskind說:“從總體上來看,云成功運行的機率比個人運行要大得多。只不過面對互聯(lián)網(wǎng)時,故障造成的影響會被放大好多倍。”
第四大云服務(wù)宕機事件:Hotmail亂成一團糟
當(dāng)然,盡管微軟大力推行云服務(wù),但它并非總是能夠給出最好的例子。以微軟的Hotmail服務(wù)為例:這項服務(wù)在2010年底同樣遭到了數(shù)據(jù)庫錯誤,導(dǎo)致成千上萬個收件箱在辭舊迎新之際空空如也。
據(jù)微軟聲稱,這個錯誤歸咎于一段腳本,這段腳本原本用于刪除為自動測試設(shè)立的假設(shè)帳戶。但結(jié)果這段腳本誤把17000個真實有效的帳戶當(dāng)成了虛設(shè)帳戶。
微軟花了三天的時間才為大多數(shù)受影響的用戶恢復(fù)服務(wù)。遺憾的是,8%受影響的電子郵件用戶不得不多等三天,之后數(shù)據(jù)才恢復(fù)如初。
面對這樣的棘手問題,連Office助手Clippy都笑不出來。
第五大云服務(wù)宕機事件:Intuit接連兩次宕機
Intuit在去年很不走運:在短短一個月內(nèi),其基于云的服務(wù)接連宕機了兩次,包括TurboTax、Quicken和QuickBooks等大受歡迎的平臺。最糟糕的情況是6月份宕機了整整36個小時。電源故障顯然導(dǎo)致服務(wù)出了毛病,該公司的主系統(tǒng)和備用系統(tǒng)從電網(wǎng)完全斷開。
屋漏偏逢連夜雨,幾個星期后Intuit遇到了另一次明顯的電源故障。除了帶來其他問題外,第二次宕機似乎還引起眾多用戶在網(wǎng)上大爆粗口。
一個用戶當(dāng)時在Twitter上發(fā)送了這樣的消息:“宕機25個小時讓人很難接受。Intuit的一套被動的、缺乏透明的、死板的溝通方法無助于事。”
真是要命。
惠普Secure Advantage計劃的首席戰(zhàn)略師Chris Whitener說:“現(xiàn)實情況是,如果你需要絕對的可用性,現(xiàn)在有比選擇單單一家云服務(wù)提供商更好的解決方案。你沒必要什么都復(fù)制,但是如果另外采取一個步驟(可能是你自己備份關(guān)鍵數(shù)據(jù)),情況就完全不一樣了。”#p#
第六大云服務(wù)宕機事件:微軟的BPOS致歉
如果你那基于云的生產(chǎn)力套件無法使用,工作效率就很難有保障。僅僅幾周前,依賴微軟商業(yè)云服務(wù)解決方案的公司企業(yè)就遭到了這種情況:名為微軟商業(yè)生產(chǎn)力在線標(biāo)準(zhǔn)套件(BPOS)的這項服務(wù)在5月10日前后開始停頓。結(jié)果,付費客戶的電子郵件被延遲了長達9個小時才發(fā)送。
兩天后,就在看起來BPOS沒有故障時,郵件延遲發(fā)送的毛病又來了,發(fā)出去的郵件開始堆積如山。好像嫌這個問題不夠糟糕,微軟遇到了另一個問題:用戶們還無法登錄到微軟基于互聯(lián)網(wǎng)的Outlook門戶網(wǎng)站。
微軟在線服務(wù)部企業(yè)副總裁Dave Thompson在博客中寫道:“對于這些問題明顯帶來的不便,請允許我向諸位、我們的客戶和合作伙伴深表歉意。”
第七大云服務(wù)宕機事件:Salesforce的不幸事故
宕機一個小時聽起來似乎沒什么大不了,但是當(dāng)成千上萬家公司的客戶服務(wù)運營與貴公司息息相關(guān)時,那些客戶勢必會認為那60分鐘漫長得要命。
當(dāng)Salesforce.com的數(shù)據(jù)中心在去年1月宕機時,它對此可是深有體會。新年過后才四天,Salesforce.com就宣布遇到了徹底的故障——這意味著服務(wù)、備份和其他一切都完蛋了。
令人抓狂?絕對如此。令人驚訝?不完全是。
柯尼卡美能達公司旗下All Covered部門的首席信息官Tim Crawford說:“現(xiàn)實情況是,基于云的數(shù)據(jù)中心同樣會停止運行。過去一向如此,將來也是如此。我們一定要從現(xiàn)實的角度看待這個問題。”
Crawford表示,成功的云計算需要有一種不同于傳統(tǒng)服務(wù)器環(huán)境的理念:他認為,決定著貴公司的數(shù)據(jù)能不能經(jīng)受得住偶爾宕機的是你自己,而不是別人;你要確保自己的配置具有避免宕機所需的彈性。
Crawford說:“你在選擇一家云服務(wù)提供商時,必須事先做好功課,了解對方如何提供這些服務(wù);是否能夠提供與你自己能夠?qū)崿F(xiàn)的冗余級別一樣好或更好的冗余級別。如果答案是否定的,那干嘛還要使用它們?”
第八大云服務(wù)宕機事件:Terremark的可怕一天
近期,Terremark可能因被韋里遜(Verizon)斥資數(shù)14億美元收購的交易而見諸報章;但是在2010年初,一起長時間的宕機事件卻讓這家云服務(wù)提供商成為被媒體競相報道的對象。
Terremark在2010年3月17日的圣帕特里克節(jié)走了霉運。這家公司的vCloud Express服務(wù)在那一天一蹶不振,建在邁阿密的數(shù)據(jù)中心宕機了將近7個小時。在這整段期間,廣大用戶無法訪問該數(shù)據(jù)中心里面存儲的數(shù)據(jù)。
不要過于追求冗余,但這起事件表明了冗余機制的重要性——要將你的關(guān)鍵數(shù)據(jù)放在不同數(shù)據(jù)中心的多臺服務(wù)器上;或者更安全的做法是,放在不同地區(qū)的多臺服務(wù)器上。還可以采取進一步的措施:將關(guān)鍵數(shù)據(jù)分散在多個提供商之間,作為一項保險措施。
IBM公司的云安全策略項目首席技術(shù)官Harold Moss提議:“你可以選擇一系列提供商來托管工作負載——某一兩家提供商充當(dāng)后備提供商,另一家提供商充當(dāng)主提供商。然后,你以一種安全的方式將工作負載部署到那里,確保合適的安全機制,隨后開始添加你的彈性功能。”
第九大云服務(wù)宕機事件:PayPal遭遇宕機
想體驗一把帶來很嚴(yán)重的深遠影響的云宕機事件?不妨試試幾小時無法使用PayPal服務(wù)的感覺。
這可不是假設(shè)性的演練:PayPal在2009年夏天確實遭遇宕機,導(dǎo)致世界各地的數(shù)百萬商家根本無法銷售產(chǎn)品和服務(wù)。大概有一小時的光景,其服務(wù)完全無法使用;接下來的幾小時,服務(wù)仍然時斷時續(xù)。PayPal表示,問題出在了硬件故障。
毫無疑問,這種宕機很罕見——但由于所有生意都錯失了,這次不幸的服務(wù)宕機在云計算的恥辱柱上輕松占得一席之地。
第十大云服務(wù)宕機事件:Rackspace的不順年
如果你為像美國科技博客TechCrunch和流行音樂天王Justin Timberlake這樣的知名網(wǎng)站和網(wǎng)絡(luò)紅人提供云服務(wù),最好還是相信這一點:一旦你的服務(wù)器停止運行,人們肯定會注意到。
Rackspace在2009年數(shù)次汲取了這個教訓(xùn)。這家云服務(wù)提供商在那一年前后遭到了四次重大的服務(wù)故障,使得這家公司的眾多客戶的停機時間共長達數(shù)小時。一次故障就足以讓Rackspace不得不向用戶支付相當(dāng)于近300萬美元的服務(wù)折扣。
Rackspace稱這些事件“讓人痛苦不堪,非常失望”,并承諾之后會“提供長時間的高級別服務(wù)”。今天,這家公司繼續(xù)關(guān)注正常運行時間,但同時也在努力幫助用戶為不可避免的云服務(wù)故障作好防備。
Rackspace的Lew Moorman說:“如果你想建立服務(wù)器集群或建立地區(qū)冗余機制,那么現(xiàn)在比以前更容易做到,但你必須切實地采取那些步驟。如果你以前在企業(yè)內(nèi)部做了這些步驟,你也不用擔(dān)心云服務(wù)故障了。”
從各方面考慮起來,云服務(wù)方面最大的教訓(xùn)也許就是,沒有哪一臺服務(wù)器、哪一個數(shù)據(jù)中心或哪一項服務(wù)是絕對可靠的。如果你使用云服務(wù)開展業(yè)務(wù)時沒有考慮到這一點,那么我的朋友,你在完全無視實際存在的危險。