風(fēng)暴致使亞馬遜云宕機(jī) 淺談云計(jì)算的隱患
6月底的一場風(fēng)暴襲擊美國弗吉尼亞北部,致使超過350萬人失去了電力供應(yīng),而亞馬遜位于弗吉尼亞的US-East-1數(shù)據(jù)中心也隨之癱瘓,由于數(shù)據(jù)中心停止運(yùn)行,亞馬遜的云服務(wù)Amazon Web Services也因此一度中斷服務(wù)。此次亞馬遜云服務(wù)中斷事件再次引發(fā)了對于云服務(wù)的可靠性的疑慮,并且一家網(wǎng)站還因此而放棄了亞馬遜的云服務(wù)。

云服務(wù)
亞馬遜的云服務(wù)Amazon Web Services屬于基礎(chǔ)設(shè)施即服務(wù),作為業(yè)界數(shù)一數(shù)二的云服務(wù)提供商,亞馬遜云有許多客戶,此次風(fēng)暴致使Amazon Web Services中斷,不可避免的使得一些運(yùn)行在其中的網(wǎng)站或是業(yè)務(wù)中斷。
Netflix,Pinterest,Instagram,Heroku,這些利用亞馬遜的基礎(chǔ)設(shè)施云服務(wù)運(yùn)行業(yè)務(wù)的公司,都傳出消息出現(xiàn)中斷服務(wù),其原因正是AWS 數(shù)據(jù)中心由于風(fēng)暴而電力中斷。

Dominion Virginia公司聲明
為亞馬遜US-East-1數(shù)據(jù)中心所在的弗吉尼亞州提供電力的Dominion Virginia公司在聲明中表示,90萬個家庭因?yàn)轱L(fēng)暴而電力中斷。導(dǎo)致亞馬遜數(shù)據(jù)中心電力中斷的這場風(fēng)暴時(shí)速達(dá)80英里每小時(shí),并且伴隨著閃電,風(fēng)暴刮倒的大樹壓斷了電線,引發(fā)弗吉尼亞州北部的電力中斷。
亞馬遜數(shù)據(jù)中心所處的弗吉尼亞北部是此次風(fēng)暴的重災(zāi)區(qū),直到風(fēng)暴的第二天下午,總共83萬2千人中還有38萬5千人沒有電力供應(yīng)。

Amazon Web Services健康狀況公示
至于Amazon Web Services的數(shù)據(jù)中心的電力情況,有消息稱斷電9分鐘就恢復(fù)了,不過其云服務(wù)就沒有那么快恢復(fù)了。亞馬遜有一個專門公布其云計(jì)算服務(wù)的運(yùn)行狀況的網(wǎng)站,名為Amazon Web Services健康公示板,在其中我們可以查看亞馬遜云服務(wù)的運(yùn)行狀況記錄。
根據(jù)Amazon Web Services健康狀況公示,亞馬遜云計(jì)算服務(wù)Elastic Compute Cloud (EC2)在6月29號晚上8點(diǎn)21的時(shí)候開始出現(xiàn)連接問題,8點(diǎn)40的時(shí)候,亞馬遜官方宣布風(fēng)暴而致使亞馬遜數(shù)據(jù)中心電力中斷,不過9分鐘之后,電力得到恢復(fù),亞馬遜就開始重新啟動EC2云服務(wù),并且更新相關(guān)數(shù)據(jù)。

Amazon Web Services健康公示
到晚上11點(diǎn)19分,半數(shù)以上的EC2用戶和三分之一的相關(guān)數(shù)據(jù)得到恢復(fù)。但是 Elastic Load Balancers和Elastic Block Storage受到的影響,需要更多的時(shí)間來維修,30日10點(diǎn)25,亞馬遜宣布大部分受到影響的EC2用戶,由于沒有使用EBS硬盤,其服務(wù)已經(jīng)得到恢復(fù)了正常,不過那些使用EBS硬盤的客戶就沒有那么幸運(yùn)了。
云搜索和相關(guān)數(shù)據(jù)服務(wù)也由于電力中斷而受到了影響到30號早上,這些服務(wù)的的大部分用戶已經(jīng)恢復(fù)了使用。

亞馬遜官方總結(jié)
對已此次亞馬遜云服務(wù)宕機(jī)的時(shí)間,有關(guān)專家指出,考慮云計(jì)算的可靠性,采用過云計(jì)算的IT企業(yè)下一筆預(yù)算很可能是將自己的業(yè)務(wù)放到多家云服務(wù)提供商中,據(jù)悉,近期谷歌、微軟都推出或是更新了基礎(chǔ)設(shè)施即服務(wù)類型的云服務(wù)。
云計(jì)算的可靠性隱患
對于云計(jì)算,亞馬遜Amazon Web Services的EC2云服務(wù)的用戶Okta有一個說法,建成云平臺,客戶會來,建好云平臺,客戶會留下。Okta是一個用戶身份管理服務(wù)商,雖然亞馬遜的EC2服務(wù)因?yàn)轱L(fēng)暴導(dǎo)致電力中斷而宕機(jī),但是Okta是將他的業(yè)務(wù)建立在多個云平臺之上,因此Okta的服務(wù)沒有經(jīng)歷過一次宕機(jī)。

Okta
但是對于亞馬遜云服務(wù)另外一個用戶來說,情況就不是這樣了,一個網(wǎng)上約會網(wǎng)站W(wǎng)hatsyourprice.com,類似于現(xiàn)在中國的婚戀網(wǎng)站,其使用亞馬遜兩個云服務(wù)平臺建立自己的業(yè)務(wù)。此次電力中斷導(dǎo)致其運(yùn)行在亞馬遜云平臺的業(yè)務(wù)中斷,Whatsyourprice.com收到了其顧客的上千條投訴,Whatsyourprice.com的首席執(zhí)行官Brandon Wade在一次接受采訪時(shí)表示,這是Whatsyourprice.com開業(yè)以來從未遇到過的情況。

Whatsyourprice.com
Instagram、Quora、Heroku、Pinterest, Hootsuite以及Netflix等的用戶也在網(wǎng)上或是Twitter中抱怨服務(wù)中斷。
對于Whatsyourprice.com來說,此次風(fēng)暴導(dǎo)致兩個小時(shí)的業(yè)務(wù)中斷成為了壓死駱駝的最后一根稻草,早在6月14號的時(shí)候,Whatsyourprice.com就經(jīng)歷過一次2個小時(shí)的業(yè)務(wù)中斷,那一次是因?yàn)槎虝r(shí)間內(nèi)的大量的用戶活動導(dǎo)致服務(wù)器不堪重負(fù)。
Wade,這位Whatsyourprice.com的CEO,并沒有等到亞馬遜的官方事故分析或是咨詢師的分析,就已經(jīng)把他的系統(tǒng),在亞馬遜基礎(chǔ)設(shè)施云服務(wù)運(yùn)行的10臺虛擬服務(wù)器,轉(zhuǎn)移到了拉斯維加斯的代理主機(jī)上,Whatsyourprice.com的總部就是在拉斯維加斯。
Wade表示:“亞馬遜是一個名譽(yù)非常好的公司,但是我們不能有這些業(yè)務(wù)中斷,對于我們來說,(業(yè)務(wù)的連續(xù)性)是至關(guān)重要的。”
Whatsyourprice.com還將會在拉斯維加斯尋找第二個代理主機(jī),這樣即使在一處的主機(jī)出現(xiàn)故障,他的業(yè)務(wù)也不會下線。這就是Wade在亞馬遜云服務(wù)所需要的架構(gòu)上的物理實(shí)現(xiàn)。
如何提高云計(jì)算可靠性
Wade的公司曾經(jīng)采用的是位于Ashburn的亞馬遜US-East-1數(shù)據(jù)中心的兩個服務(wù)平臺,每個服務(wù)平臺都有自己的網(wǎng)絡(luò)和電力系統(tǒng),來保障即使一個服務(wù)平臺中的,而另外一個還能保持業(yè)務(wù)的連續(xù)性。
位于Ashburn的US-East-1數(shù)據(jù)中心
對于此次亞馬遜云服務(wù)中斷導(dǎo)致Whatsyourprice.com的業(yè)務(wù)下線,Wade在一封郵件中表示,在亞馬遜云服務(wù)中斷期間,他的IT管理人員不能在未收風(fēng)暴斷電影響而正常運(yùn)行的服務(wù)平臺上安裝新的應(yīng)用。并且在這期間,他也不能講大量的數(shù)據(jù)轉(zhuǎn)移備份。因此,即使只有一個服務(wù)平臺出現(xiàn)故障,一些AWS云服務(wù)軟件的不能預(yù)見的其它問題,會使得他們的網(wǎng)站業(yè)務(wù)中斷。
Wade還表示,6月份的兩次亞馬遜云服務(wù)中斷都導(dǎo)致了Whatsyourprice.com整個網(wǎng)站的癱瘓。
Whatsyourprice.com的案例印證了Okta對于云服務(wù)平臺的說法,“建成云平臺,客戶會來,建好云平臺,客戶會留下” 。
Okta同樣經(jīng)歷了6月14號以及19號的亞馬遜云服務(wù)中斷的事件,但是其業(yè)務(wù)卻沒有下線中止。Okta聲稱他的在線用戶管理系統(tǒng)完全值得依賴因?yàn)樗钦嬲牧沐礄C(jī)架構(gòu)。

Okta的零宕機(jī)
Eric Berg,Okta的產(chǎn)品經(jīng)理表示,任何單一獨(dú)立的平臺都會有可能宕機(jī),Eric Berg表示有必要自己保證業(yè)務(wù)的可靠性,因?yàn)轭櫩秃涂蛻舨荒苋萑体礄C(jī),因此Okta才會在采用亞馬遜云服務(wù)的同時(shí)還采用其他云服務(wù)。
不僅僅是亞馬遜云服務(wù),其他的云計(jì)算服務(wù)也會不可避免的出現(xiàn)宕機(jī)。服務(wù)提供商必需使得自己的服務(wù)在云計(jì)算平臺宕機(jī)時(shí)還能繼續(xù)運(yùn)行其服務(wù)業(yè)務(wù)。
Whatsyourprice.com的首席執(zhí)行官Wade表示,不同于你今天錯過電影可以明天再看,約會是需要正確的人和正確的時(shí)間,如果一個在線約會服務(wù)癱瘓,客戶也許就會失去見生命
中另外一半的機(jī)會。
Wade還表示,Whatsyourprice.com將不會再使用亞馬遜的EC2云服務(wù),因?yàn)樗臄?shù)據(jù)中心時(shí)不時(shí)的出現(xiàn)問題。
全文總結(jié):
當(dāng)云計(jì)算越來越受關(guān)注是,其隱患也就越來越顯現(xiàn)在人們面前。是否具有高可靠性是公司在選擇云計(jì)算服務(wù)提供商首先考慮的問題,但是需要指出的是,宕機(jī)是不可避免的問題,一個系統(tǒng)再怎么可靠100%的運(yùn)行時(shí)間是難以保證的。云計(jì)算服務(wù)宕機(jī)的問題之所以被大家重視,是因?yàn)樵品?wù)上面有著諸多企業(yè)的業(yè)務(wù)。影響著諸多用戶和客戶。對于可靠性的要求,就像一句俗語將的一樣,不要把雞蛋都放在一個籃子里面。預(yù)算允許的話,同時(shí)選擇多家云服務(wù)可以降低業(yè)務(wù)中斷的可能性。