從亞馬遜云服務(wù)故障中吸取的七個(gè)教訓(xùn)
亞馬遜云服務(wù)故障引發(fā)了人們對(duì)云計(jì)算的擔(dān)憂,快四天了,依然沒有完全恢復(fù)。那么我們能從中吸取哪些教訓(xùn)呢?
1. 認(rèn)真閱讀云服務(wù)提供商的服務(wù)水平協(xié)議
令人叫絕的是近乎四天的故障并沒有違反亞馬遜的EC2服務(wù)水平協(xié)議(SLA),F(xiàn)AQ部分寫著“在一個(gè)區(qū)域內(nèi)一年以內(nèi)保證99.95%的可用性”。而這次發(fā)生故障的是EBS和RDS服務(wù),而不是EC2,所有故障都發(fā)生在單獨(dú)區(qū)域,從法律角度講該協(xié)議沒有問題。 這一點(diǎn)值得思考。
2. 別認(rèn)為服務(wù)商的保障可以做到萬(wàn)無一失
很多受影響用戶向亞馬遜支付額外費(fèi)用把自己的服務(wù)托管在多個(gè)可用區(qū)(Availability Zone)。亞馬遜實(shí)際上也推薦這種做法。亞馬遜稱每個(gè)可用區(qū)都獨(dú)立運(yùn)轉(zhuǎn),有獨(dú)立的基礎(chǔ)設(shè)施,非常可靠。一個(gè)可用區(qū)的發(fā)電機(jī)或冷卻系統(tǒng)出現(xiàn)問題不會(huì)影響其它數(shù)據(jù)中心。此外,這些區(qū)域之間有物理隔絕,即便遇到、龍卷風(fēng)、洪水等自然災(zāi)害也只會(huì)影響一個(gè)可用區(qū)。不幸的是這只是一種技術(shù)指標(biāo),并沒有包括在合同條款。亞馬遜消除此次事件的負(fù)面影響還需要一段時(shí)間。
做到事后諸葛亮不難,但亞馬遜面對(duì)這種故障時(shí)的脆弱或許本可以通過深入的盡職演練加以避免。正如亞馬遜競(jìng)爭(zhēng)對(duì)手Joyent的***科學(xué)家 Jason Hoffman 所言:“這次不是速度變慢,不是云計(jì)算失敗,也不是成長(zhǎng)的煩惱,這是亞馬遜的基礎(chǔ)框架決策導(dǎo)致的可預(yù)見后果。”
3. 大部分顧客仍會(huì)原諒亞馬遜的失敗
不管所受影響多么嚴(yán)重,人們一直在贊美亞馬遜,因?yàn)閬嗰R遜幫助他們用低廉的成本和少量的投入運(yùn)營(yíng)者強(qiáng)大的基礎(chǔ)設(shè)施。很多人在批評(píng)的同時(shí)也會(huì)給予褒獎(jiǎng),比如 BigDoor表示:“AWS幫助我們以極低的成本快速升級(jí)一個(gè)負(fù)責(zé)的系統(tǒng)。在任何時(shí)候我們都有運(yùn)轉(zhuǎn)良好的12臺(tái)數(shù)據(jù)庫(kù)服務(wù)器,45臺(tái)應(yīng)用服務(wù)器,6臺(tái)靜態(tài)服務(wù)器和6臺(tái)分析服務(wù)器。如果流量或處理能力超了我們的系統(tǒng)會(huì)自動(dòng)升級(jí),如果不需要就會(huì)自動(dòng)降級(jí),從而節(jié)省費(fèi)用。”
4. 除了云服務(wù)提供商的恢復(fù)能力之外,還有很多補(bǔ)救措施
正如來自O(shè)’Reilly的 George Reese 指出,如果你的系統(tǒng)在本周的亞馬遜云服務(wù)故障中掛彩的話,那不是亞馬遜的錯(cuò)誤?;蛘吣惆堰@種故障看作是可接受的風(fēng)險(xiǎn),或者你沒能按照亞馬遜云計(jì)算模式進(jìn)行設(shè)計(jì)。查看亞馬遜顧客使用的技術(shù)、避免故障非常有用。
Twilio和NetFlix在此次故障中安然無恙,前者是因?yàn)楦鶕?jù)亞馬遜的技術(shù)規(guī)范進(jìn)行了出色的設(shè)計(jì),后者雖然把所有的基礎(chǔ)設(shè)施都托管在亞馬遜云服務(wù)中,但通過使用多個(gè)數(shù)據(jù)中心的服務(wù)來確保服務(wù)的可靠性。
5. 增加額外的恢復(fù)能力需要更高成本
聰明的用戶和Paas服務(wù)商應(yīng)該準(zhǔn)備多套方案。無論如何你都應(yīng)該備份到亞馬遜S3存儲(chǔ)服務(wù)上,這樣一旦出現(xiàn)問題,你可以從S3中恢復(fù)。
6. 權(quán)衡好利弊關(guān)系可以幫助你提出問題
在選擇一家云服務(wù)之前要提出一些問題,從而判斷該服務(wù)是否靠譜。
比如你可以問這樣的問題:你們會(huì)通過關(guān)閉某些基礎(chǔ)設(shè)施來檢測(cè)你們的自動(dòng)備份能力嗎?當(dāng)然,你***能親眼看到類似測(cè)試。
7. 缺乏透明性是亞馬遜的“軟肋”
很多受到影響的顧客都抱怨在故障期間亞馬遜沒有提供足夠的有用信息。BigDoor CEO Keith Smith 說“如果亞馬遜能預(yù)料到他們目前遭遇的故障的話,我們就可以很快恢復(fù)我們的系統(tǒng)了”。GoodData 的 Roman Stanek 則呼吁亞馬遜推倒神秘的圍墻:
我們的開發(fā)運(yùn)營(yíng)人員不知道如何管理系統(tǒng)的性能、可擴(kuò)展性、以及最重要的應(yīng)急恢復(fù)能力。“合理的”服務(wù)水平協(xié)議和“99.999%承諾”之間的區(qū)別就是臨時(shí)抱佛腳和完全符合我們各自運(yùn)營(yíng)流程之間的區(qū)別……在云設(shè)施中,IaaS,PaaS,SaaS和顧客之間不應(yīng)該有溝通圍墻。
亞馬遜在未來幾周內(nèi)的挑戰(zhàn)就是如何提供用戶所需信息,增強(qiáng)自己的恢復(fù)能力。如果亞馬遜無法滿足這種需求,而且其它公司做得更好的話,它或許會(huì)漸漸失去今天在Iaas領(lǐng)域的統(tǒng)治地位。
【編輯推薦】
- 使用Microsoft Azure 讓云遷移變得簡(jiǎn)便的5種方法
- VMware的混合云遷移工具:vCloud Connector
- 企業(yè)CRM等業(yè)務(wù)系統(tǒng)遷移到 "云"中的***實(shí)現(xiàn)
- 云計(jì)算該“遷移”還是“自建”?
- 云遷移全攻略:哪些應(yīng)用適合遷移
- 亞馬遜 谷歌 微軟三大試用云服務(wù)大比拼(上)
- 亞馬遜推出1年免費(fèi)云計(jì)算服務(wù)
- 亞馬遜EC2中斷 “可用區(qū)”遭質(zhì)疑
- 傷不起!亞馬遜史前***宕機(jī)事件的啟示
- 云震 -- 亞馬遜4.21事故的反思