亞馬遜EC2中斷 “可用區(qū)”遭質(zhì)疑
原創(chuàng)【2011年4月25日51CTO外電頭條】對(duì)于愿意多付一點(diǎn)錢(qián)的云客戶(hù),亞馬遜提供了一項(xiàng)很有誘惑力的提議:將應(yīng)用分布到多個(gè)可用區(qū)(availability zone)上,可獲得一項(xiàng)幾近保證的服務(wù):不會(huì)遭受宕機(jī)之苦。
“在分開(kāi)的可用區(qū)上運(yùn)行實(shí)例,可放置你的應(yīng)用程序在單個(gè)位置上出現(xiàn)故障。”亞馬遜在推廣其彈性計(jì)算云服務(wù)(Elastic Computer Cloud)時(shí)如此說(shuō)道。
只在一個(gè)可用區(qū)上創(chuàng)建應(yīng)用的客戶(hù)更容易遭受服務(wù)中斷的故障。但是,多個(gè)可用區(qū)同時(shí)停止運(yùn)行時(shí)將會(huì)怎樣?我們已經(jīng)看到了結(jié)果:一次服務(wù)中斷令多家網(wǎng)站無(wú)法訪(fǎng)問(wèn),其中包括 Foursquare、Reddit、Quora 和 Hootsuite。
“我們可以確定,在美國(guó)東1地區(qū)的多個(gè)可用區(qū)中,連接故障影響了 EC2 例程,并且不斷增加的時(shí)延影響了 EBS(彈性塊存儲(chǔ))容量。”周四亞馬遜在其服務(wù)狀態(tài)控制板上指出。
美國(guó)東1地區(qū),位于北弗吉尼亞州,是世界各地的多個(gè)亞馬遜服務(wù)地區(qū)之一。在北加利福尼亞州還有一個(gè)服務(wù)地區(qū)。在東部時(shí)間凌晨 4:41 時(shí),亞馬遜開(kāi)始報(bào)告故障。到下午 1:26 時(shí),亞馬遜稱(chēng)他們“現(xiàn)在看到故障和時(shí)延在顯著地下降”,但是問(wèn)題仍沒(méi)有消失。亞馬遜認(rèn)為是一起“網(wǎng)絡(luò)故障”引發(fā)大量的存儲(chǔ)區(qū)進(jìn)行再次映射,從而造成了容量短缺。
根據(jù)加特納公司(Gartner)分析師德魯•里維斯(Drue Reeves),雖然每個(gè)地區(qū)包含多個(gè)可用區(qū),但對(duì)于每個(gè)可用區(qū),已知的信息很少。在弗吉尼亞地區(qū)有四個(gè)可用區(qū),里維斯說(shuō)道。但是,這些可用區(qū)是否位于不同的數(shù)據(jù)中心?它們之間相距多遠(yuǎn)?數(shù)據(jù)如何跨區(qū)復(fù)制?里維斯稱(chēng),對(duì)于這些問(wèn)題,亞馬遜沒(méi)有保持透明性。不知答案讓顧客的選擇變得困難:創(chuàng)建高可用的應(yīng)用時(shí),使用哪種方式最為有效。
“多年來(lái),亞馬遜一直稱(chēng)為了避免整個(gè)地區(qū)發(fā)生服務(wù)中斷,他們?cè)谝粋€(gè)地區(qū)中運(yùn)行了多個(gè)可用區(qū)。”里維斯說(shuō):“但我們現(xiàn)在還是發(fā)生了故障,而且是整個(gè)地區(qū)的 EC2 出現(xiàn)中斷。”
亞馬遜發(fā)言人尚未對(duì)評(píng)論請(qǐng)求作出回應(yīng)。
也許顯而易見(jiàn),亞馬遜多等級(jí)承諾為每個(gè)地區(qū)提供了 99.95% 的可用性,但并不是對(duì)于每一個(gè)可用區(qū)。對(duì)于許多客戶(hù),這已足夠優(yōu)秀,但還遠(yuǎn)未達(dá)到 5 個(gè) 9 的高可用性標(biāo)準(zhǔn)。
在 EC2 網(wǎng)站的可用區(qū)描述中,亞馬遜稱(chēng),這些可用區(qū)位于“不同的位置,其設(shè)計(jì)將其與其他可用區(qū)故障分離開(kāi)來(lái),并且可提供廉價(jià)的低延遲網(wǎng)絡(luò)連接至同一地區(qū)中的其他可用區(qū)”。
這些都引發(fā)了一個(gè)疑問(wèn):能否創(chuàng)建跨地區(qū)的應(yīng)用,如果需要,可從弗吉尼亞州向加利福尼亞州進(jìn)行故障轉(zhuǎn)移?
云軟件提供商 Enomalv 公司的創(chuàng)始人兼 CTO 魯文•科恩(Reuven Cohen)想得更遠(yuǎn)??蛻?hù)創(chuàng)建的應(yīng)用應(yīng)同時(shí)運(yùn)行在多個(gè)來(lái)自不同銷(xiāo)售商的云平臺(tái)上,他如此說(shuō)。
已知的運(yùn)行在多個(gè)可用區(qū)上的大型網(wǎng)站發(fā)生中斷,這一事實(shí)表明這些可用區(qū)并非萬(wàn)無(wú)一失。
“事情最會(huì)出現(xiàn)問(wèn)題。這是互聯(lián)網(wǎng)自身具有的本質(zhì)。”科恩如此說(shuō):“因?yàn)槟闶莵嗰R遜,你就可以提供 100% 的正常運(yùn)行。這種想法是錯(cuò)誤的。”
“銷(xiāo)售商可能提供了冗余性……但這并不能解決這一問(wèn)題:如果該銷(xiāo)售商的所有方式都出現(xiàn)中斷將會(huì)怎樣?”科恩說(shuō)道。
客戶(hù)應(yīng)與提供多個(gè)地點(diǎn)的多家提供商簽訂協(xié)議,從而可以在單個(gè)銷(xiāo)售商發(fā)生故障時(shí)能夠幸免于難,他指出。
但是,這種方式現(xiàn)實(shí)嗎?里維斯給出了否定的回答,只是對(duì)于大多數(shù)客戶(hù)是如此。云計(jì)算應(yīng)簡(jiǎn)化應(yīng)用的部署和管理。創(chuàng)建一個(gè)可工作于多家銷(xiāo)售商平臺(tái)上的應(yīng)用需要大量的額外投入。
“無(wú)法在多家云提供商上構(gòu)建應(yīng)用的原因在于,缺少標(biāo)準(zhǔn)和互操作性。”里維斯說(shuō)道:“如果你是應(yīng)用創(chuàng)建者,你需要增加存儲(chǔ)或計(jì)算容量,這些容量的分配、收費(fèi)和使用,對(duì)于每個(gè)提供商都是不同的。這不是做不到,而是非常非常困難。”
還有一個(gè)更簡(jiǎn)單的想法:只使用亞馬遜的服務(wù)并且應(yīng)用平衡分布在多個(gè)地區(qū)。但是,這個(gè)想法并不是想象的那么簡(jiǎn)單。亞馬遜沒(méi)有提供必要的工具,可以在地區(qū)之間進(jìn)行負(fù)載平衡,所以客戶(hù)必須在他們亞馬遜例程之上使用額外的軟件,里維斯指出。亞馬遜的負(fù)載平衡服務(wù)可在多個(gè)可用區(qū)上工作(與周四出現(xiàn)故障的那些服務(wù)相同),而不能跨地區(qū)工作。
無(wú)論任何時(shí)候,如果出現(xiàn)云故障,總會(huì)有人質(zhì)疑所有的云計(jì)算服務(wù)。但事實(shí)并非如此,里維斯如此說(shuō),并指出“每個(gè)人都會(huì)有宕機(jī)的時(shí)候”。云計(jì)算的不同之處在于云服務(wù)提供商將風(fēng)險(xiǎn)積聚在一處——許多公司使用一個(gè)平臺(tái)運(yùn)行他們的網(wǎng)站,一旦該平臺(tái)出現(xiàn)服務(wù)中斷,相對(duì)于一家公司內(nèi)部數(shù)據(jù)中心出現(xiàn)故障,將會(huì)吸引更多的注意。
一家云服務(wù)提供商出現(xiàn)故障不應(yīng)抱怨所有的云計(jì)算都不可靠。里維斯指出,這的確令想要使用云服務(wù)的企業(yè)三思,在將服務(wù)轉(zhuǎn)移到云之前進(jìn)行經(jīng)濟(jì)分析,他們會(huì)更加小心。如果公司將主要的業(yè)務(wù)運(yùn)行在亞馬遜平臺(tái)之上,那么發(fā)生中斷故障時(shí)他們將數(shù)百萬(wàn)美元的收入損失,為了不用在公司內(nèi)部創(chuàng)建 IT 服務(wù)以節(jié)省成本而承擔(dān)這種潛在發(fā)現(xiàn)是否值得?
服務(wù)等級(jí)協(xié)議可能會(huì)提供賠償或貸款,但如果中斷故障導(dǎo)致數(shù)千萬(wàn)美元的損失,亞馬遜將不會(huì)提供賠償,里維斯如此說(shuō)道。
【編輯推薦】
- 使用Microsoft Azure 讓云遷移變得簡(jiǎn)便的5種方法
- VMware的混合云遷移工具:vCloud Connector
- 企業(yè)CRM等業(yè)務(wù)系統(tǒng)遷移到 "云"中的***實(shí)現(xiàn)
- 云計(jì)算該“遷移”還是“自建”?
- 云遷移全攻略:哪些應(yīng)用適合遷移
- 亞馬遜 谷歌 微軟三大試用云服務(wù)大比拼(上)
- 亞馬遜推出1年免費(fèi)云計(jì)算服務(wù)