亞馬遜Web服務(wù):耗盡客戶信任
就像一種常規(guī)事件,位于美國東部的亞馬遜Web服務(wù)于星期一又經(jīng)歷了一次宕機(jī)。此次宕機(jī)導(dǎo)致彈性塊存儲和關(guān)系數(shù)據(jù)庫服務(wù)出現(xiàn)了問題,也導(dǎo)致一些很有分量的客戶退出,包括流行的網(wǎng)站Flipboard、Foursquare和Pinterest。因此,亞馬遜的失敗再一次引人注目,這樣的事情已經(jīng)導(dǎo)致其聲譽(yù)受影響,由此擴(kuò)展開來,一些企業(yè)觀察者認(rèn)為普遍而言公有云信譽(yù)不可靠。
但是在這個案例中,其他產(chǎn)業(yè)觀察者表示看起來好像是缺少可靠性原則,實(shí)際上和一些亞馬遜客戶做出的選擇有關(guān)。
引入冗余來避免宕機(jī)是保護(hù)像周一這樣的宕機(jī)中的業(yè)務(wù)資產(chǎn)的唯一方法,但是這是根據(jù)個別案例基礎(chǔ)做出的決定,亞馬遜合作伙伴SolutionSet副總裁Kent Langley表示,他們已經(jīng)有很多客戶收到了這次事件的影響。“這要求災(zāi)難恢復(fù)的實(shí)現(xiàn)一機(jī)業(yè)務(wù)連續(xù)性計劃和實(shí)施,這些通常都被忽略或者被認(rèn)為是過于昂貴,而且還有不能接受的風(fēng)險成本,”他說,“只有非常少的客戶會希望維護(hù)其業(yè)務(wù)的多區(qū)域部署。”
公平的說,對于此次事件也許存在很好的理由。畢竟,不能將責(zé)任歸咎于Pinterest或者檢查出來Foursquare本身簡直太危險了;在一種精益、平均的Web業(yè)務(wù)模型中來構(gòu)建昂貴的企業(yè)風(fēng)格冗余當(dāng)然不值得。
就拿Yipit為例來說,這是一家Web公司,過濾來自像Groupon這樣的網(wǎng)站的日常交易。該公司的主數(shù)據(jù)庫在最近這次宕機(jī)中受到影響,周一晚上完成了恢復(fù)備份。這也是該公司沒有將其數(shù)據(jù)庫跨多個有效區(qū)域架構(gòu)的直接結(jié)果,根據(jù)該公司負(fù)責(zé)運(yùn)維的開發(fā)者Andrew Gross所述。
“過去很少宕機(jī),我們沒有受到影響,而且我們知道幾乎躲開了危機(jī),因?yàn)樵谶@一點(diǎn)上,我們覺得不值得去花費(fèi)額外的工程經(jīng)理去嘗試和獲取那些可能避免損失的事情,”Gross表示,“我們就把它當(dāng)做一種生活一樣接受并處理了就好了。”
對于像Foursquare和Pinterest這樣的企業(yè),在冗余中區(qū)分新功能可能更有利可圖,根據(jù)Damian Bramanis所言,他是Sentinus咨詢服務(wù)總監(jiān),這是一家澳洲的云計算咨詢公司。“如果這是一種有意的選擇也沒什么奇怪的,”他說。
但是事實(shí)是一些基于Web的業(yè)務(wù)并沒有重點(diǎn)考慮冗余的方式,并不是意味著充足的冗余不能在需要的地方構(gòu)建。在單一的有效區(qū)域構(gòu)建實(shí)際的關(guān)鍵應(yīng)用也沒有任何借口,尤其是在美國東部,過去五年中這是亞馬遜失敗時間的“震中”。
“質(zhì)量、可靠性和安全在企業(yè)和云服務(wù)提供商之間具有連帶責(zé)任,”Bramanis表示,“亞馬遜對于構(gòu)建最佳實(shí)踐、可靠性、失敗冗錯服務(wù)已經(jīng)給出了選擇,在于企業(yè)去做哪種選擇。”
“從這一點(diǎn)上講,我覺得有點(diǎn)人性的問題在里面了,”在談到亞馬遜持續(xù)宕機(jī)的單一可用區(qū)域失敗時,Tier1 Research分析師Carl Brooks表示。“大多數(shù)人知道如何消費(fèi)責(zé)任,”Brooks。“有些人卻不是。”