亞馬遜服務(wù)器宕機(jī)背后:云計(jì)算依然安全嗎?
對(duì)于愿意多付一點(diǎn)錢的云客戶,亞馬遜提供了一項(xiàng)很有誘惑力的提議——將應(yīng)用分布到多個(gè)可用區(qū)上,可獲得一項(xiàng)幾近保證的服務(wù):不會(huì)遭受宕機(jī)之苦。
目前,不少公司正將他們的計(jì)算基礎(chǔ)設(shè)施外包給數(shù)據(jù)中心,以避免瑣事并降低運(yùn)營(yíng)成本。目前,包括輝瑞和Netflix在內(nèi)的數(shù)千家企業(yè)都是亞馬遜云的客戶。
“在分開的可用區(qū)上運(yùn)行實(shí)例,可放置你的應(yīng)用程序在單個(gè)位置上出現(xiàn)故障。”亞馬遜在推廣其彈性計(jì)算云服務(wù)——EC2時(shí)如此說(shuō)道。
只在一個(gè)可用區(qū)上創(chuàng)建應(yīng)用的客戶更容易遭受服務(wù)中斷的故障。但是,多個(gè)可用區(qū)同時(shí)停止運(yùn)行時(shí)將會(huì)怎樣?我們已經(jīng)看到了結(jié)果:一次服務(wù)器宕機(jī)令多家網(wǎng)站無(wú)法訪問(wèn)。
上周四,由于亞馬遜網(wǎng)頁(yè)服務(wù)器出現(xiàn)故障,包括基于位置的社交網(wǎng)站FoureSquare,問(wèn)題和解答服務(wù)商Quora;新聞共享網(wǎng)站Reddit以及為網(wǎng)絡(luò)出版商提供游戲工具的BigDoor癱瘓。
“我們可以確定,在美國(guó)東1地區(qū)的多個(gè)可用區(qū)中,連接故障影響了EC2例程,并且不斷增加的時(shí)延影響了 EBS(彈性塊存儲(chǔ))容量。”周四亞馬遜在其服務(wù)狀態(tài)控制板上指出。
盡管北京時(shí)間4月25日,在亞馬遜***的公告中,我們看到了“'Majority' of Cloud Problems Resolved”——大多數(shù)受到影響的數(shù)據(jù)庫(kù)已經(jīng)得到了恢復(fù),但是對(duì)于牽涉其中的用戶來(lái)說(shuō),這實(shí)在是非常漫長(zhǎng)的煎熬。我們能從此次事件中獲得哪些教訓(xùn)呢?
不要理所當(dāng)然地相信云服務(wù)供應(yīng)商的保證
令人吃驚的是,亞馬遜云服務(wù)中斷將近4天卻沒有違反亞馬遜EC2服務(wù)的服務(wù)等級(jí)協(xié)議(簡(jiǎn)稱SLA)。亞馬遜FAQ問(wèn)答解釋說(shuō),“它確保在365天的服務(wù)期 內(nèi)一個(gè)區(qū)域擁有99.95%的服務(wù)利用率。”由于亞馬遜出現(xiàn)故障的是EBS和RDS服務(wù),而不是EC2服務(wù),因此,從法律上講,它并沒有違反服務(wù)等級(jí)協(xié) 議。這當(dāng)然不能安撫受影響用戶的心,也不能成為他們?cè)撌苡绊懙睦碛伞_@一點(diǎn)的確應(yīng)該引起我們的深思。
IDC的分析師Matthew Eastwood指出,該事件實(shí)際上是再一次敲響了云計(jì)算技術(shù)乃至整個(gè)產(chǎn)業(yè)的警鐘,它將迫使云計(jì)算行業(yè)重新考慮這項(xiàng)遠(yuǎn)程控制技術(shù)所面臨的問(wèn)題。
目前來(lái)看,許多受到影響的用戶都準(zhǔn)備支付額外的費(fèi)用將他們的數(shù)據(jù)保存到多個(gè)可用區(qū)(Availability Zone)。亞馬遜建議用戶這樣做實(shí)際上是為了確保在服務(wù)中斷的情況下能夠及時(shí)恢復(fù)用戶的數(shù)據(jù)。根據(jù)亞馬遜FAQ問(wèn)答,每個(gè)可用區(qū)“都是獨(dú)立運(yùn)行的,其基礎(chǔ)架構(gòu)在物理上都是截然分開的,這樣的工程設(shè)計(jì)是為了確保數(shù)據(jù)的可靠性,即使一個(gè)可用區(qū)的發(fā)電機(jī)和冷卻設(shè)備等出現(xiàn)故障,也不至于影響到其他可用區(qū)的服務(wù)。而且,由于這些可用區(qū)在物理上是截然分開的,因此,即使是像火災(zāi)、龍卷風(fēng)或洪水這樣的極端自然災(zāi)害也只能影響到一個(gè)可用區(qū)。”不幸的是,人們到***才發(fā)現(xiàn)亞馬遜說(shuō)的這一切只是技術(shù)規(guī)范,并沒有成為合同保障。亞馬遜可能需要花費(fèi)一番功夫才能修復(fù)它被此次事件損壞的名聲。
云計(jì)算技術(shù)依然安全嗎?
在去年12月‘匿名’組織弄垮網(wǎng)站的嘗試失敗后,亞馬遜著名的大型服務(wù)器據(jù)說(shuō)是不可能崩潰的。云計(jì)算被宣傳為安全可靠的工具,但是這次中斷似乎動(dòng)搖了客戶對(duì)云計(jì)算服務(wù)的信心。
實(shí)事上,用戶的擔(dān)心并非不無(wú)道理,根據(jù)CSDN之前的一項(xiàng)對(duì)國(guó)內(nèi)云計(jì)算應(yīng)用的調(diào)查顯示,超過(guò)60%的用戶認(rèn)為,云計(jì)算的架構(gòu)缺陷是他們不得不考慮的問(wèn)題。
盡管如此,對(duì)于大多數(shù)用戶來(lái)說(shuō),無(wú)論他們?cè)馐艿搅硕嗝磭?yán)重的影響,他們都會(huì)贊頌亞馬遜,稱其幫助他們用較少的成本和精力運(yùn)營(yíng)著一個(gè)強(qiáng)大的基礎(chǔ)架構(gòu)。許多人在批評(píng)亞馬遜之前都會(huì)首先感謝亞馬遜幫助他們做到的事情。例如,BigDoor公司的***執(zhí)行官凱斯-史密斯(Keith Smith)就說(shuō):“亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)讓我們迅速建立起了復(fù)雜的系統(tǒng),而且非常節(jié)約成本。在任何給定的時(shí)間內(nèi),我們都有12個(gè)數(shù)據(jù)庫(kù)服務(wù)器,45個(gè)應(yīng)用程序服務(wù)器,6個(gè)靜態(tài)服務(wù)器和6個(gè)分析服務(wù)器處于待命狀態(tài)和正在工作。當(dāng)流量或處理要求增加時(shí),我們的系統(tǒng)就會(huì)自動(dòng)增加工作服務(wù)器的數(shù)量;當(dāng)流量減少時(shí),我們的系統(tǒng)就會(huì)自動(dòng)減少工作服務(wù)器的數(shù)量,從而節(jié)約成本。”
對(duì)一些從亞馬遜EC2平臺(tái)上得到了好處的用戶而言,他們認(rèn)為云計(jì)算模式仍然是安全的。Rackspace公司的***戰(zhàn)略官盧穆爾曼表示,亞馬遜數(shù)據(jù)中心服務(wù)中斷事故對(duì)云計(jì)算行業(yè)造成的影響相當(dāng)于一次航空事故,目前航空旅行仍被視為比汽車行駛更安全的交通方式。數(shù)據(jù)中心依舊比那些擁有自己IT基礎(chǔ)設(shè)施的個(gè)別公司更安全。關(guān)鍵的是,業(yè)界應(yīng)該從亞馬遜服務(wù)中斷事故中汲取教訓(xùn)。
準(zhǔn)備多套方案應(yīng)對(duì)云服務(wù)供應(yīng)商可能的故障?
正如技術(shù)出版公司O’Reilly的喬治-瑞斯(George Reese)所說(shuō):“如果你存儲(chǔ)在亞馬遜云中的系統(tǒng)失敗,這不是亞馬遜的錯(cuò)。這要么是你命里該有此一劫,要么是你的系統(tǒng)設(shè)計(jì)不符合亞馬遜的云計(jì)算模型。”因此,用戶很有必要準(zhǔn)備多套方案,應(yīng)對(duì)云服務(wù)供應(yīng)商可能會(huì)出現(xiàn)的故障。
但是,多套方案似乎只是一廂情愿而已,Gartner分析師Drue Reeves指出,客戶應(yīng)與提供多個(gè)地點(diǎn)的多家提供商簽訂協(xié)議,從而可以在單個(gè)銷售商發(fā)生故障時(shí)能夠幸免于難。
這種方式現(xiàn)實(shí)嗎?Reeves給出了否定的回答,只是對(duì)于大多數(shù)客戶是如此。云計(jì)算應(yīng)簡(jiǎn)化應(yīng)用的部署和管理。創(chuàng)建一個(gè)可工作于多家銷售商平臺(tái)上的應(yīng)用需要大量的額外投入。
“無(wú)法在多家云提供商上構(gòu)建應(yīng)用的原因在于,缺少標(biāo)準(zhǔn)和互操作性。”Reeves說(shuō)道:“如果你是應(yīng)用創(chuàng)建者,你需要增加存儲(chǔ)或計(jì)算容量,這些容量的分配、收費(fèi)和使用,對(duì)于每個(gè)提供商都是不同的。這不是做不到,而是非常非常困難。”
據(jù)說(shuō)了解,在亞馬遜服務(wù)中斷事件中,有幾家公司幸免于難。例如,Twilio公司的服務(wù)就沒有關(guān)閉。該公司沒有詳細(xì)說(shuō)明它在北維吉尼亞可用區(qū)的業(yè)務(wù)受到了怎樣的影響,但是它的聯(lián)合創(chuàng)始人兼***技術(shù)運(yùn)營(yíng)官埃文-庫(kù)克(Evan Cooke)在博客中描述了其基礎(chǔ)架構(gòu)的設(shè)計(jì)原則。這些原則包括將資源分解到各個(gè)獨(dú)立的存儲(chǔ)池中,支持超時(shí)連接和重試等待。
另外一個(gè)沒有被關(guān)閉的站點(diǎn)是NetFlix,它的所有基礎(chǔ)架構(gòu)都在亞馬遜云中運(yùn)行。但是,目前也不清楚它的業(yè)務(wù)在該事件中受到影響的程度。
增強(qiáng)恢復(fù)能力需要加大投入
鮑勃-沃菲爾德(Bob Warfield)描述了此前一家公司使用Amazon.com基礎(chǔ)架構(gòu)的方法,該方法能讓這家公司“在一個(gè)可用區(qū)的服務(wù)中斷時(shí),能用另一個(gè)可用區(qū)的數(shù)據(jù)在20分鐘內(nèi)恢復(fù)服務(wù),而且只會(huì)造成不超過(guò)五分鐘的數(shù)據(jù)丟失。”他繼續(xù)說(shuō)道,你選擇的你準(zhǔn)備支持的中斷服務(wù)的時(shí)長(zhǎng),決定了你必須承受的成本。“聰明的用戶和PaaS(平臺(tái)即服務(wù))供應(yīng)商會(huì)多準(zhǔn)備幾個(gè)選擇,因?yàn)槭紫饶悴徽撊绾伪仨氃趤嗰R遜S3服務(wù)器上做個(gè)備份,其次還需要選擇幾個(gè)替代的站點(diǎn)。你所要考慮的只是這些替代站點(diǎn)的服務(wù)能否夠熱情,價(jià)格是否優(yōu)惠。
此外,用戶還需要向云服務(wù)供應(yīng)商問(wèn)一些必要的問(wèn)題,以確保你所依靠的云服務(wù)不會(huì)讓你遇到類似的服務(wù)中斷問(wèn)題(或者即使遇到了,你也能理解它,并愿意以較低廉的成本承擔(dān)相應(yīng)的后果)。鮑勃-沃菲爾德特意提到了NetFlix公司的做法,該公司為了測(cè)試其恢復(fù)能力,通常會(huì)隨機(jī)地破壞其資源和服務(wù)。
“這可能是你需要向你的PaaS(平臺(tái)即服務(wù))和云服務(wù)供應(yīng)商提出的第二個(gè)問(wèn)題——‘你們有沒有通過(guò)破壞生產(chǎn)基礎(chǔ)架構(gòu)的方法來(lái)測(cè)試你們應(yīng)對(duì)故障的能力?”當(dāng)然你會(huì)樂意看到他們進(jìn)行測(cè)試,而不僅僅是聽他們口頭上說(shuō)說(shuō)。
缺乏透明度是亞馬遜的致命弱點(diǎn)
幾位受到影響的用戶抱怨,在服務(wù)中斷期間,亞馬遜并沒有及時(shí)公布***的信息。BigDoor公司***執(zhí)行官基思-史密斯(Keith Smith)寫道:“如果亞馬遜能開誠(chéng)布公地說(shuō)明他們目前正面臨的問(wèn)題,那么我們就能更快地恢復(fù)我們的系統(tǒng)。”GoodData公司的羅馬-斯坦克(Roman Stanek)呼吁亞馬遜拆除保密的墻:
“我們無(wú)法從一些支離破碎的信息中得知究竟該如何組織我們的系統(tǒng),從而提高它的性能、靈活性以及最重要的災(zāi)難恢復(fù)能力……在云計(jì)算基礎(chǔ)架構(gòu)中,IaaS(基礎(chǔ)設(shè)施即服務(wù))、(PaaS平臺(tái)即服務(wù))、SaaS(軟件即服務(wù))和客戶之間不應(yīng)該豎著一堵妨礙相互溝通的墻壁。”
在未來(lái)幾周,亞馬遜將要遇到的挑戰(zhàn)是:它必須向用戶證明它的恢復(fù)工作已經(jīng)準(zhǔn)備就緒。如果亞馬遜不能夠做到這一點(diǎn),而其他云服務(wù)供應(yīng)商卻比它做的更好,那么它將會(huì)逐漸開始失去它目前在IaaS(基礎(chǔ)設(shè)施即服務(wù))供應(yīng)方面的統(tǒng)治地位。
【編輯推薦】
- 使用Microsoft Azure 讓云遷移變得簡(jiǎn)便的5種方法
- VMware的混合云遷移工具:vCloud Connector
- 企業(yè)CRM等業(yè)務(wù)系統(tǒng)遷移到 "云"中的***實(shí)現(xiàn)
- 云計(jì)算該“遷移”還是“自建”?
- 云遷移全攻略:哪些應(yīng)用適合遷移
- 亞馬遜 谷歌 微軟三大試用云服務(wù)大比拼(上)
- 亞馬遜推出1年免費(fèi)云計(jì)算服務(wù)
- 亞馬遜EC2中斷 “可用區(qū)”遭質(zhì)疑
- 傷不起!亞馬遜史前***宕機(jī)事件的啟示
- 云震 -- 亞馬遜4.21事故的反思
- 從亞馬遜云服務(wù)故障中吸取的七個(gè)教訓(xùn)
- 云計(jì)算與集群:是攜手還是爭(zhēng)斗?