亞馬遜故障頻發(fā) 用戶(hù)該怎么辦?
上周一系列的電力問(wèn)題困擾著的Amazon web服務(wù)與應(yīng)用(AWS)位于Virginia的Ashburn數(shù)據(jù)中心。對(duì)于人為造成的電力故障,Amazon表示此次事件只是一場(chǎng)事故,目前正努力爭(zhēng)取恢復(fù)運(yùn)行,同時(shí)也強(qiáng)調(diào)用戶(hù)應(yīng)該使用AWS工具和服務(wù)備份數(shù)據(jù)以免造成損失。
Amazon發(fā)言人Kay Kinton說(shuō):“這些意外事故總是接二連三地發(fā)生,我們也很難對(duì)如此集中的事故作出合理解釋。但可以肯定的是我們對(duì)運(yùn)營(yíng)的態(tài)度是非常認(rèn)真和謹(jǐn)慎的。”
Kinton表示發(fā)生的事故之間并無(wú)關(guān)聯(lián),每次故障只會(huì)影響單個(gè)區(qū)域中的一小部分用戶(hù)。而且我們?yōu)榭蛻?hù)在單個(gè)區(qū)域中的任意故障提供了緩沖措施。
鑒于之前許諾過(guò)要讓用戶(hù)們充分了解運(yùn)行中發(fā)生的問(wèn)題,AWS對(duì)于每個(gè)故障事件都發(fā)布了詳細(xì)的報(bào)告。
Amzon運(yùn)營(yíng)故障中的奇怪案例
5月5日,在一臺(tái)UPS發(fā)生故障無(wú)法切換至備用電源時(shí),AWS員工進(jìn)行了切換,從而造成了重多服務(wù)的癱瘓。3個(gè)小時(shí)之后,“人為失誤造成了備用發(fā)電機(jī)斷電,從而導(dǎo)致同一區(qū)域的服務(wù)器都斷電。”4天后,電源配電面板發(fā)生短路故障,由于工業(yè)電源面板往往具有防止意外的短路的冗余設(shè)計(jì),所以這是一個(gè)特殊的設(shè)備故障。AWS報(bào)告說(shuō)會(huì)花費(fèi)更多的時(shí)間來(lái)確保面板安全。
事故報(bào)告顯示,“在恢復(fù)電力供應(yīng)之前,設(shè)備工程師必須找到正確的接地故障并予以糾正,而不是急于恢復(fù)供電從而將運(yùn)行置于危險(xiǎn)之中并給本區(qū)域中其他主機(jī)造成影響。”
5月9日的運(yùn)營(yíng)中斷是近期事故持續(xù)時(shí)間最長(zhǎng)的一次,中斷持續(xù)8個(gè)小時(shí)。5月11日的運(yùn)營(yíng)中斷則是由于車(chē)輛撞上電線桿,從而切斷了數(shù)據(jù)中心的電源,其中一臺(tái)設(shè)備在這次中斷中轉(zhuǎn)換電源失敗造成了另一臺(tái)設(shè)備中斷30分鐘。
為什么AWS數(shù)據(jù)中心近期故障頻發(fā)?分析人士表示,即便運(yùn)營(yíng)中斷的原因是如目前所公布的那樣,類(lèi)似這樣的事故在數(shù)據(jù)中心中也不少見(jiàn)。Amazon能如此快速和徹底地解決突發(fā)設(shè)備故障,是應(yīng)該得到褒獎(jiǎng)的。“似乎他們處理事故的能力一向很出眾。”
orrester分析師Andrew Reichman說(shuō)。Amazon正常運(yùn)行時(shí)間紀(jì)錄比其他企業(yè)要好很多,盡管有些難以料的故障發(fā)生,我們還是會(huì)覺(jué)得這是一個(gè)系統(tǒng)性的問(wèn)題。他表示運(yùn)營(yíng)中斷仍舊為AWS帶來(lái)了一定的負(fù)面影響,數(shù)據(jù)中心經(jīng)常發(fā)生這類(lèi)事故,但是你并沒(méi)有聽(tīng)說(shuō)過(guò),因?yàn)檫@已不是新聞了。Reichman認(rèn)為負(fù)面宣傳使得AWS更難以在業(yè)界中推廣云計(jì)算,但是總的來(lái)說(shuō),事故造成的影響并不大。人們對(duì)Amazon web服務(wù)與應(yīng)用愈來(lái)愈感興趣,因?yàn)槟悄軒退麄儗?shí)現(xiàn)更好的規(guī)模經(jīng)濟(jì),我們也相信Amazon將做的更加專(zhuān)業(yè)。”他說(shuō)。Amazon要求用戶(hù)對(duì)可能發(fā)生的故障要有足夠的思想和物質(zhì)準(zhǔn)備。雖然許多用戶(hù)都對(duì)發(fā)生的運(yùn)營(yíng)中斷表示不滿(mǎn),但是受到影響的用戶(hù)數(shù)量卻非常小。
“如同一個(gè)數(shù)據(jù)中心所產(chǎn)生的影響,運(yùn)營(yíng)中斷會(huì)導(dǎo)致一系列新的問(wèn)題發(fā)生。”AWS的老顧客、Python boto項(xiàng)目的作者M(jìn)itch Garnaat說(shuō)。Garnaat認(rèn)為云供應(yīng)商除了要為客戶(hù)提供工作良好的故障轉(zhuǎn)移系統(tǒng),還需要讓客戶(hù)了解諸如控制設(shè)備故障之類(lèi)的信息。Amazon表示它正在重新設(shè)計(jì)其電源系統(tǒng),以減少單臺(tái)設(shè)備故障對(duì)其他服務(wù)器產(chǎn)生的負(fù)面影響,而這些改進(jìn)將在未來(lái)幾個(gè)月由設(shè)計(jì)走向應(yīng)用。它還要求客戶(hù)學(xué)習(xí)運(yùn)行某些故障保護(hù)系統(tǒng)。在第一次運(yùn)營(yíng)中斷之后,Amazon就承諾重新設(shè)計(jì)其電源系統(tǒng)以使更少的服務(wù)器免受單個(gè)設(shè)備故障的影響。第二次的事故后,它要求客戶(hù)對(duì)自己的AWS環(huán)境保持警惕,并表示事實(shí)上用戶(hù)可以采用正確的布局以避免任何的運(yùn)營(yíng)中斷。公開(kāi)的事故報(bào)告顯示:“我們要提醒用戶(hù)充分利用Amazon EC2的優(yōu)勢(shì),該應(yīng)用幫助在多個(gè)區(qū)域橫跨架構(gòu)并能在單個(gè)區(qū)域中承受實(shí)例故障。”用戶(hù)們并不想眼看事故發(fā)生而束手無(wú)策,但是似乎那就是使用AWS產(chǎn)品所需支付的代價(jià)之一。
【編輯推薦】