傷不起!亞馬遜史前最大宕機事件的啟示
由于亞馬遜在弗吉尼亞州(Virginia)北部的云計算中心宕機,包括回答服務(wù)Quora、新聞服務(wù)Reddit、Hootsuite和位置跟蹤服務(wù)FourSquare在內(nèi)的一些網(wǎng)站受到了影響。這些網(wǎng)站都依靠亞馬遜的這個云計算中心提供服務(wù)。
亞馬遜服務(wù)頁面顯示Virginia北部的數(shù)據(jù)中心中斷。具體如下:
問題似乎從太平洋時間21日1:41開始:我們正在調(diào)查由于ESB卷引起的延時和錯誤,以及US-EAST-1區(qū)地EC2實例連接失效問題。
最晚的一條更新出現(xiàn)在早上6:09:EBS的API錯誤和卷延遲在受影響的區(qū)域任然存在。我們正在繼續(xù)尋找解決辦法。
這次事件可以說是Amazon史上最嚴重的宕機事件。
亞馬遜沒有表示它將在什么時候修復這個故障的具體時間。北弗吉尼亞州云計算中心是亞馬遜經(jīng)營的許多云計算中心之一。不過,這些系統(tǒng)的設(shè)計通常是一個中心宕機不會中斷其它的云計算中心,也不會影響使用那個服務(wù)的用戶。亞馬遜沒有解釋它為什么沒有繞過北弗吉尼亞州云計算中心的故障把工作量轉(zhuǎn)移到許多其它的云計算中心。
亞馬遜擁有4個不同區(qū)域的不同數(shù)據(jù)中心提供云服務(wù)
截止4月22日,由于技術(shù)原因?qū)е聛嗰R遜計算服務(wù)中斷事故已經(jīng)持續(xù)了兩天,業(yè)界分析師表示這次事故將會
導致許多公司重新斟酌對遠程的、沒有控制權(quán)的計算機的依賴程度。
“這是給云計算提了一個醒”,IDC的分析師Matthew Wastwood表示,云計算是指通過因特網(wǎng)來訪問位于遠程大型數(shù)據(jù)中心的服務(wù)和信息,這些服務(wù)和信息是位于不確定的任何位置,就好像是位于云中。“它將引發(fā)業(yè)界對云計算的重新思考。”
他說,這場思考將很可能會聚焦于什么數(shù)據(jù)和計算操作應(yīng)該放到云上,什么是需要放在公司的防火墻內(nèi)的。
Eastwood認為,這次事件還將會導致重新審查自己的云服務(wù)契約是否合適
是否需要實現(xiàn)備份和恢復服務(wù),包括為不同位置的數(shù)據(jù)中心支付額外的費用。這是為什么呢?分析師表示,很明顯,在本次實踐中受打擊最大的是一些創(chuàng)業(yè)公司,他們?yōu)榱俗非罂焖侔l(fā)展,沒有選擇昂貴的備份和容災(zāi)服務(wù),從而導致數(shù)據(jù)不可恢復。
Amazon五年前創(chuàng)建了它的副業(yè)務(wù):通過網(wǎng)絡(luò)為企業(yè)提供數(shù)據(jù)中心先進的計算資源。今天這家公司成為飛速增長的云計算業(yè)務(wù)的早期領(lǐng)導者。
在企業(yè)當中,云計算模型快速流行起來,因為它能夠讓企業(yè)把計算工作外包出去,從而避免了成本問題和令人頭疼的數(shù)據(jù)中心運維只需按需使用,通過網(wǎng)絡(luò)來獲取計算機處理器和存儲,而不用去擁有自己的機器或這是操作軟件。
亞馬遜有成千上萬個企業(yè)客戶,包括Pfizer和Netflix等,也有大量的創(chuàng)業(yè)公司,它們的業(yè)務(wù)經(jīng)通常依賴于AWS。收到本次事件影響的包括Foursquare,一個本地社交網(wǎng)站;Quora,一個問題和答案服務(wù);Reddit,一個新聞分享網(wǎng)站;和BogDoor,一個專門為網(wǎng)絡(luò)出版商做游戲工具的公司。
這些公司所報告的問題不盡相同,但是都包括了不能訪問數(shù)據(jù)、服務(wù)中斷和網(wǎng)站宕機等。
分析師說,一些已經(jīng)選擇了在Amazon計算機上進行關(guān)鍵操作大公司,傾向于選擇付與計算實例同樣的錢。視頻網(wǎng)站Netfix已經(jīng)成為Amazon云的大客戶,其網(wǎng)站技術(shù)的大多數(shù)用戶電影隊列、搜素工具和喜好等都運行在Amazon數(shù)據(jù)中心。
Netfix表示平安渡過此次事件,“那是因為Netfix能夠充分利用AWS的冗余云架構(gòu)”,這防止了任何位置的技術(shù)故障,Nstflix的發(fā)言人Steve Swasey表示。
BigDoor是位于西雅圖的一個20人左右的創(chuàng)業(yè)公司,因為Amazon的失誤而受到打擊。它有著Amazon的備份和恢復服務(wù),該公司的CEOKeith Smith表示,但是僅限于Amazon位于Virginia的數(shù)據(jù)中心。“總有要有一個權(quán)衡”,Smith說,注意到費用和開發(fā)者的時間將被要求來做更多的事情。
直到星期五早上,BigDoor的大部分用于支撐游戲和獎勵功能的在線出版商的服務(wù)已經(jīng)備份,但是站點任然不可用。
IDC預測,云計算將會以25%d的年增長率增長,到2014年將會到達555億美元。主要技術(shù)供應(yīng)商積極推出不同的云產(chǎn)品一些強調(diào)公用模式的服務(wù),如Amazon,還有一些更集中于向企業(yè)出售硬件和軟件,以幫助企業(yè)實現(xiàn)海量計算工作負載的高效性。后面一種情況,企業(yè)除了使用云計算,還必須擁有這些基礎(chǔ)架構(gòu),因此稱為私有云。
Rackspace公司的首席戰(zhàn)略官和數(shù)據(jù)中心服務(wù)專家Lew Moorman說,亞馬遜的中斷事故跟墜機差不多,屬于普遍事故中的一種。他指出,然而,飛機旅游比開車旅游還是安全一些的就好比云計算比公司私有的數(shù)據(jù)中心要安全。“從世界范圍內(nèi)來看,每天,公司內(nèi)部都會出現(xiàn)宕機事件。”Moorman表示,“每一段時間都很小,但是他們加起來就是更長的中斷時間、金錢損失以及業(yè)務(wù)損失”。
Amazon的挫折將給我們一些很值得借鑒的經(jīng)驗,“我們都有興趣看到亞馬遜處理好這件事情的方法,”Moorman表示,Moorman所在的公司Rachapace在云計算領(lǐng)域是亞馬遜的競爭對手。
【編輯推薦】
- 使用Microsoft Azure 讓云遷移變得簡便的5種方法
- VMware的混合云遷移工具:vCloud Connector
- 企業(yè)CRM等業(yè)務(wù)系統(tǒng)遷移到 "云"中的最佳實現(xiàn)
- 云計算該“遷移”還是“自建”?
- 云遷移全攻略:哪些應(yīng)用適合遷移
- 亞馬遜 谷歌 微軟三大試用云服務(wù)大比拼(上)
- 亞馬遜推出1年免費云計算服務(wù)
- 亞馬遜EC2中斷 “可用區(qū)”遭質(zhì)疑