亞馬遜云服務(wù)故障的教訓(xùn)和思索——你的云服務(wù)如何做更好呢?
原創(chuàng)前不久亞馬遜的云服務(wù)出了故障,這可能會(huì)導(dǎo)致許多公司持保留態(tài)度,不敢將解決方案部署到公共云中。
前不久亞馬遜的云服務(wù)出了故障,這可能會(huì)導(dǎo)致許多公司持保留態(tài)度,不敢將解決方案部署到公共云中。許多公司可能會(huì)關(guān)注私有云解決方案,直到它們認(rèn)為安全了,才會(huì)試水公共云。事后查明,導(dǎo)致亞馬遜云服務(wù)出現(xiàn)停運(yùn)的原因是網(wǎng)絡(luò)基礎(chǔ)設(shè)施的部件配置不當(dāng)。人為錯(cuò)誤導(dǎo)致了重大的云服務(wù)故障和經(jīng)濟(jì)損失。
這次故障表明了云服務(wù)存在一大安全弱點(diǎn)。我在之前一篇有關(guān)災(zāi)難恢復(fù)的文章中提到,關(guān)鍵的基礎(chǔ)設(shè)施產(chǎn)品有太多的功能特性和款式型號(hào)。它們有必要像汽車(chē)那樣采用共同的發(fā)動(dòng)機(jī)配置;換句話說(shuō),云產(chǎn)品也要有共同的功能特性。當(dāng)然,汽車(chē)類(lèi)型或云產(chǎn)品類(lèi)型的數(shù)量要有所限制。
整個(gè)云系統(tǒng)要大大減少不同版本,那樣那些產(chǎn)品的集成就能進(jìn)行合理的測(cè)試,以確保災(zāi)難恢復(fù)效果。版本太多的話,測(cè)試起來(lái)成本過(guò)于高昂。像控制電網(wǎng)的能源管理系統(tǒng)(EMS)這一些軟件有復(fù)雜的有限狀態(tài)機(jī)、高級(jí)的功率算法以及全面的系統(tǒng)故障切換功能。但是與許多軟件產(chǎn)品一樣,一些軟件錯(cuò)誤路徑從來(lái)就沒(méi)有測(cè)試過(guò)。
與EMS系統(tǒng)不同,云服務(wù)必須避免版本未經(jīng)測(cè)試的情況,為此要通過(guò)高級(jí)的模塊化產(chǎn)品來(lái)簡(jiǎn)化集成。復(fù)雜性在產(chǎn)品里面隱藏起來(lái),但是對(duì)集成并不造成負(fù)面影響。與大型航空、電信和國(guó)防項(xiàng)目一樣,我們需要云系統(tǒng)架構(gòu)師來(lái)負(fù)責(zé)對(duì)多家廠商的產(chǎn)品進(jìn)行必要的集成和測(cè)試工作。他們能夠分析產(chǎn)品和集成方面的相關(guān)風(fēng)險(xiǎn)。如果他們看到了安全弱點(diǎn),就能把注意力集中在其他的產(chǎn)品供應(yīng)商。他們還能對(duì)服務(wù)提供商或公司所部署的云服務(wù)版本的數(shù)量進(jìn)行限制。
讓架構(gòu)師參與這些解決方案的設(shè)計(jì)會(huì)給云產(chǎn)品提供商帶來(lái)壓力,不過(guò)這種壓力是積極的、正面的。他們會(huì)影響提供商對(duì)產(chǎn)品的選擇,最終選出來(lái)的是滿足客戶要求、易于集成的產(chǎn)品。不妨把這些產(chǎn)品稱(chēng)之為能夠識(shí)別云(cloud-aware)。這些產(chǎn)品可能擁有數(shù)量有限的預(yù)定義模板,這些模板得到提供商的支持,又能與其他產(chǎn)品很好地集成起來(lái)。使用模板讓這些產(chǎn)品不需要太多的干預(yù)就能集成起來(lái)。
現(xiàn)在用到架構(gòu)師的現(xiàn)象其實(shí)很普遍。那么,云服務(wù)提供商如何著手找到一名優(yōu)秀的架構(gòu)師呢?我建議要物色既洞察“全局”,又是通才的架構(gòu)師。在開(kāi)發(fā)布魯克林大橋這樣的大項(xiàng)目時(shí),項(xiàng)目負(fù)責(zé)人常常是通才型的架構(gòu)師。他們常常不是最聰明的,而許多側(cè)重于小眾領(lǐng)域的架構(gòu)師可能更關(guān)注細(xì)節(jié)??墒撬麄兩瞄L(zhǎng)溝通,關(guān)注關(guān)鍵的設(shè)計(jì)問(wèn)題,并且能夠很好地消除爭(zhēng)議。他們實(shí)施***秀的架構(gòu)師提出來(lái)的想法,并且推動(dòng)項(xiàng)目前進(jìn)。
云系統(tǒng)架構(gòu)師需要擁有類(lèi)似布魯克林大橋設(shè)計(jì)師那樣的技能。他們需要與應(yīng)用架構(gòu)師、平臺(tái)架構(gòu)師、基礎(chǔ)設(shè)施虛擬化架構(gòu)師、存儲(chǔ)和網(wǎng)絡(luò)架構(gòu)師以及關(guān)注災(zāi)難恢復(fù)及其他產(chǎn)品安全問(wèn)題的安全架構(gòu)師加強(qiáng)聯(lián)系。應(yīng)該要從外面請(qǐng)來(lái)多個(gè)顧問(wèn)和外部專(zhuān)家,著手解決云服務(wù)或私有云的設(shè)計(jì)。這筆前期費(fèi)用完全值得花出去,因?yàn)檫@將有助于避免對(duì)災(zāi)難恢復(fù)的需要以及/或者潛在的故障和訴訟。
另外還要更多地考慮云產(chǎn)品如何才能彼此很好地集成起來(lái)。也許云服務(wù)行業(yè)需要像存儲(chǔ)行業(yè)那樣有一個(gè)類(lèi)似存儲(chǔ)網(wǎng)絡(luò)行業(yè)協(xié)會(huì)(SNIA)的組織。我們需要加強(qiáng)交流,討論如何避免故障以及改進(jìn)/簡(jiǎn)化產(chǎn)品。
原文名: 作者:Gregory Machler
【本文乃51CTO精選譯文,轉(zhuǎn)載請(qǐng)標(biāo)明出處!】
【編輯推薦】
- SAP稱(chēng)亞馬遜服務(wù)故障影響其云計(jì)算推廣
- 亞馬遜為宕機(jī)事件道歉 已找到EC2設(shè)計(jì)缺陷
- 亞馬遜服務(wù)器宕機(jī)背后:云計(jì)算依然安全嗎?
- 亞馬遜稱(chēng)云計(jì)算服務(wù)故障已大部分解決
- 云遷移全攻略:哪些應(yīng)用適合遷移
- 亞馬遜 谷歌 微軟三大試用云服務(wù)大比拼(上)
- 亞馬遜推出1年免費(fèi)云計(jì)算服務(wù)
- 亞馬遜EC2中斷 “可用區(qū)”遭質(zhì)疑
- 傷不起!亞馬遜史前***宕機(jī)事件的啟示
- 云震 -- 亞馬遜4.21事故的反思
- 從亞馬遜云服務(wù)故障中吸取的七個(gè)教訓(xùn)
- 云計(jì)算與集群:是攜手還是爭(zhēng)斗?