前車之鑒:各大云服務(wù)那些“成長的煩惱”
云計(jì)算時(shí)代正迎面而來,但在適應(yīng)這些新型基礎(chǔ)設(shè)施方面,用戶與供應(yīng)商似乎一樣都在摸著石頭過河。
突發(fā)的宕機(jī)、意外的服務(wù)中斷……這些問題隨時(shí)都會(huì)發(fā)生。就連當(dāng)今最大最好的云計(jì)算供應(yīng)商在面對服務(wù)中斷時(shí)都顯得束手無策。
針對以上問題,我們就云計(jì)算服務(wù)中斷問題進(jìn)行深入探討,并揭示隱藏在問題背后的成因,幫助IT管理者與用戶從中吸取經(jīng)驗(yàn)教訓(xùn)。該文總結(jié)了各大云服務(wù)廠商的宕機(jī)事件,并根據(jù)故障的嚴(yán)重性給予了不同評級,希望以此來作為用戶選擇云供應(yīng)商的依據(jù)。
微軟Azure
即使是在測試階段,云服務(wù)也有可能發(fā)生意想不到的服務(wù)中斷故障。2009年3月微軟云服務(wù)就出現(xiàn)了這種狀況,當(dāng)時(shí)Azure中斷了近22個(gè)小時(shí)。幸好只有在試用期的測試應(yīng)用受到了影響,其他應(yīng)用都還沒有造成重大損失。
Azure的服務(wù)中斷發(fā)生在它的成長初期,但是IT管理者學(xué)會(huì)對災(zāi)難與宕機(jī)的處理方法將會(huì)明智之舉。由于Azure尚處在應(yīng)用早期,還沒有人知道這些云計(jì)算問題會(huì)對IT造成怎樣的影響,也不了解這些服務(wù)中斷會(huì)對用戶的信心造成多大打擊。
嚴(yán)重等級:低
#p#
Rackspace
這家由主機(jī)托管商成功轉(zhuǎn)型成云供應(yīng)商的知名企業(yè),在2009年6月同樣遭受了嚴(yán)重的云服務(wù)中斷故障,當(dāng)時(shí)由于跳閘,備份發(fā)電機(jī)失效,不少機(jī)架上服務(wù)器停機(jī)。這場事故造成了嚴(yán)重的后果。
為了挽回公司聲譽(yù),Rackspace更新了所有博客,并在其中詳細(xì)討論了整個(gè)經(jīng)過。但用戶并不樂意接受。
嚴(yán)重等級:高
2009年11月,當(dāng)Rackspace再次發(fā)生重大的服務(wù)中斷后,卻沒有受到輿論攻擊。事實(shí)上,它的用戶是完全有機(jī)會(huì)在服務(wù)中斷后公開指責(zé)這位供應(yīng)商的,但用戶卻表示“該事故并不是什么大事。”看來Rackspace不是走好運(yùn),而是持續(xù)提供了充足更新并快速修復(fù)了這些錯(cuò)誤。
在服務(wù)中斷致使其業(yè)務(wù)脫機(jī)15到20分鐘后,博客服務(wù)提供商Posterous的創(chuàng)建者之一Sachin Agarwal就發(fā)表了自己的觀點(diǎn)。Agarwal對此并不生氣,相反,他表示Rackspace在這件事上做得“很透明”,處理問題也很及時(shí)到位。
看來,一次“溫和”的服務(wù)中斷不會(huì)讓用戶怨聲載道,也為公司在公共領(lǐng)域上帶來了不錯(cuò)印象。如果沒有嚴(yán)重?cái)?shù)據(jù)的丟失,并且服務(wù)快速恢復(fù),用戶依舊保持愉快的使用體驗(yàn)。對于所謂的“100%正常運(yùn)行”,大多數(shù)用戶似乎不會(huì)因?yàn)榕紶柕男∈鹿识艞壒?yīng)商,只是不要將問題堆積起來。
嚴(yán)重等級:低
#p#
Salesforce.com
在2010年1月,幾乎6萬8千名的Salesforce.com用戶經(jīng)歷了至少1個(gè)小時(shí)的宕機(jī)。
公司稱,由于自身數(shù)據(jù)中心的“系統(tǒng)性錯(cuò)誤”,包括備份在內(nèi)的全部服務(wù)發(fā)生了短暫癱瘓的情況。這也露出了Salesforce.com不愿公開的鎖定策略:旗下的PaaS平臺、Force.com不能在Salesforce.com之外使用。所以一旦Salesforce.com出現(xiàn)問題,F(xiàn)orce.com同樣會(huì)出現(xiàn)問題。所以服務(wù)發(fā)生較長時(shí)間中斷,問題將變得很棘手。
這場服務(wù)中斷還沒有對公司造成很大影響,它同VMware合作的VMforce在今年春季引起很大反響,同時(shí)Marc Benioff(Salesforce.com首席執(zhí)行官)在服務(wù)中斷出現(xiàn)后的一個(gè)月內(nèi)又開始宣稱Salesforce.com是“最大的云計(jì)算企業(yè)”。但是我們覺得他們還應(yīng)該吸取足夠的經(jīng)驗(yàn)教訓(xùn)。
嚴(yán)重等級:中等
#p#
Heroku
2010年1月,以Ruby程序語言構(gòu)建的PaaS平臺Heroku的約4萬4千個(gè)運(yùn)行服務(wù)中斷,原因是其價(jià)值2萬美元的高性能Amazon EC2實(shí)例出現(xiàn)了癱瘓。
盡管Amazon在一個(gè)小時(shí)內(nèi)重啟了該實(shí)例,但故障卻給Heroku的產(chǎn)品開發(fā)者Oren Teich造成了影響。Heroku將其全部運(yùn)行實(shí)例都運(yùn)行在一個(gè)單一的可用區(qū)域,這樣很容易發(fā)生服務(wù)中斷故障。同時(shí),缺少云計(jì)算的最佳實(shí)踐造成的服務(wù)中斷將阻礙到公司的發(fā)展。
“雖然我們有應(yīng)急計(jì)劃,但卻還是不了解狀況。”Teich表示。
Heroku吃一塹長一智,對于Amazon的事后處理Teich也并沒有挑剔什么。在它看來,在處理云服務(wù)問題上,謹(jǐn)慎才是首要的指導(dǎo)方針。
嚴(yán)重等級:高
#p#
Terremark
讓我們再回到三月,7小時(shí)的服務(wù)中斷使得VMware的合作伙伴Terremark險(xiǎn)些將vCloud Express的未來斷送掉,受影響用戶稱故障由“連接丟失”導(dǎo)致。據(jù)報(bào)道,運(yùn)行中斷僅僅影響了2%的Terremark用戶,但是造成了受影響用戶的自身服務(wù)癱瘓。此外,用戶對供應(yīng)商在此次事情上的處理方式極為不滿意。
Terremark的企業(yè)客戶Protected Industries的創(chuàng)立者John Kinsella,在抱怨服務(wù)中斷讓他心灰意冷時(shí)稱該供應(yīng)商是“雜貨鋪托管公司”。Kinsella將Terremark與Amazon做了比較,他抱怨說,Terremark才開始考慮使用的狀態(tài)報(bào)告和服務(wù)預(yù)警Amazon早已實(shí)現(xiàn)。
當(dāng)然,在對vCloud Director的大肆宣傳以及VMworld 2010興奮地揭幕過后,Terremark服務(wù)中斷事件似乎只留下了很小的余波。
嚴(yán)重等級:中等
#p#
Intuit
在今年6月,Intuit的在線記賬和開發(fā)服務(wù)經(jīng)歷了大崩潰,公司對此也是大惑不解。包括Intuit自身主頁在內(nèi)的線上產(chǎn)品在內(nèi)近兩天內(nèi)都處于癱瘓狀態(tài),用戶方面更是驚訝于在當(dāng)下備份方案與災(zāi)難恢復(fù)工具如此齊全的年代,竟會(huì)發(fā)生如此大范圍的服務(wù)中斷。
但這才是開始。大約1個(gè)月后,Intuit的QuickBooks在線服務(wù)在停電后癱瘓。這個(gè)特殊的服務(wù)中斷僅僅持續(xù)了幾個(gè)小時(shí),但是在如此短時(shí)間內(nèi)發(fā)生的宕機(jī)事件也引起了人們的關(guān)注。
即使一些用戶要求“武裝”其品牌,Intuit依舊擁有4百萬用戶并繼續(xù)進(jìn)軍PaaS和Web服務(wù)供應(yīng)商之路。公司沒有Amazon和Rackspace這樣的知名度,中斷也沒有造成很大的影響。Intuit主要因Quicken而聞名。
嚴(yán)重等級:高
#p#
Amazon Web Services
相比Amazon Web Services的服務(wù)中斷,其他的云計(jì)算服務(wù)中斷故障簡直就是小兒科。作為所有云服務(wù)供應(yīng)商的“鼻祖”,Amazon在最近幾年同樣遭受著服務(wù)中斷以及各種災(zāi)難的困擾。
2009年6月,一場意外事故導(dǎo)致部分用戶盡5個(gè)小時(shí)不能使用Amazon EC2服務(wù),但是大多數(shù)用戶把這場故障視為“成長中需要經(jīng)歷的痛苦”,但這些令人鼓舞的輿論并沒有持續(xù)很久。分布式拒絕服務(wù)攻擊和郵件失效顯現(xiàn)出Amazon在災(zāi)難應(yīng)對處理和用戶關(guān)系協(xié)調(diào)方面的缺失。
嚴(yán)重等級:高
另外還有一場奇怪的事故,由于Amazon位于弗吉尼亞州(Virginia)的數(shù)據(jù)中心受到雷雨影響,導(dǎo)致系統(tǒng)宕機(jī)了近6個(gè)小時(shí),但Amazon在對該事故的處理方式上進(jìn)步不少。Amazon獲得了Apparent Networks主席Jim Melvin高度評價(jià),他對Amazon的應(yīng)對時(shí)間給予很高評價(jià),并暗示Amazon從服務(wù)中斷中積累了不少成果。
嚴(yán)重等級:中等
隨著云計(jì)算的發(fā)展與擴(kuò)大,問題會(huì)依舊存在。5月份,一系列看似不相關(guān)的事故發(fā)生在Amazon位于弗吉尼亞州(Virginia)的數(shù)據(jù)中心,導(dǎo)致一周之內(nèi)三次服務(wù)中斷。第一次由于不間斷電源(UPS)切換備用電源失敗,同時(shí)造成整架的服務(wù)器停機(jī);第二次服務(wù)中斷發(fā)生在4天之后,當(dāng)時(shí)電力調(diào)度平臺短路,服務(wù)器停機(jī)8小時(shí);最后一次發(fā)生在兩天后,車輛撞上了電線桿,切斷數(shù)據(jù)中心供電達(dá)半小時(shí)之久。對于任何供應(yīng)商來說,在如此短的時(shí)間段內(nèi)發(fā)生三次服務(wù)中斷都是大問題。
嚴(yán)重等級:高
但是經(jīng)歷了這些事件,大部分的用戶似乎寬容地接受了Amazon Web Services。他們采納了Amazon的復(fù)雜技術(shù),雖然這將有可能帶來未知的問題,最重要的是,他們認(rèn)同Amazon價(jià)格合理的云計(jì)算環(huán)境下的工作價(jià)值。
Amazon也的確沒有辜負(fù)用戶的信任。針對2010年4月的服務(wù)中斷故障,Amazon借助可視化支持展現(xiàn)出它成熟的響應(yīng)機(jī)制。相關(guān)的博客推出,AWS狀態(tài)頁面也有服務(wù)中斷背后原因相關(guān)的簡訊、信息以及解決方案定期性地更新。
嚴(yán)重等級:中等(偏低)
總結(jié)
部分云計(jì)算用戶可能已經(jīng)注意到,在前面提到的事故中頻繁出現(xiàn)的服務(wù)中斷大多源自公司的數(shù)據(jù)中心。差別在于有些是由內(nèi)部、成熟技術(shù)發(fā)生事故,有些是非普及、發(fā)展中的未知技術(shù)(比如云計(jì)算)造成的呢。
云計(jì)算并不是完美無缺的,隨時(shí)都會(huì)有服務(wù)中斷故障發(fā)生。上述這些大企業(yè)要做的就是研究這些錯(cuò)誤產(chǎn)生的原因,并改正這些問題,以免被后起之秀取代。
【編輯推薦】