英雄難過安全關(guān) 盤點云計算安全事故
自古英雄難過美人關(guān)。英雄的卓越功勛在世人眼中是有目共睹的,但是惟獨過不了“美人”這一關(guān)。而如今,與此類似,谷歌、亞馬遜以及微軟這樣的國際IT巨頭,一度是何等的威武,但是在面對云計算“安全”這一關(guān),也顯得有些束手無策。從云計算服務誕生的那一天起,頻頻爆出一些安全事件,讓用戶本來就有些狐疑的心更加不安了。
就在上個月,云計算服務提供商Amazon(亞馬遜)公司爆出了史前最大的宕機事件。4月21日凌晨,亞馬遜公司在北弗吉尼亞州的云計算中心宕機,這導致包括回答服務Quora、新聞服務Reddit、Hootsuite和位置跟蹤服務FourSquare在內(nèi)的一些網(wǎng)站受到了影響。
這些網(wǎng)站都依靠亞馬遜的這個云計算中心提供服務。Quora網(wǎng)站周四上午和下午在英國都無法訪問。這個網(wǎng)站完全由亞馬遜的EC2(彈性云計算)服務托管,就像FourSquare和許多其它網(wǎng)站一樣。
受到影響,Hootsuite網(wǎng)站的響應速度很慢,而Reddit網(wǎng)站的搜索服務不能使用。Reddit網(wǎng)站稱,亞馬遜目前正出現(xiàn)服務下降的情況。亞馬遜云服務中斷持續(xù)將近4天,截止編者發(fā)稿時,Hootsuite、Reddit、FourSquare、Quora等網(wǎng)站已經(jīng)基本恢復正常。
根據(jù)分析,亞馬遜的云計算狀態(tài)網(wǎng)頁目前顯示故障發(fā)生在北弗吉尼亞州的云計算中心。這個中心為許多Web 2.0公司提供服務。這次宕機故障發(fā)生在美國西海岸的大約凌晨1點40分,英國夏令時上午9點40分,并且從那時起一直有故障。
分析人士稱,北弗吉尼亞州云計算中心是亞馬遜經(jīng)營的許多云計算中心之一,按照常規(guī),系統(tǒng)的設(shè)計之處應用會考慮,一個中心宕機不會中斷其它的云計算中心,也不會影響使用那個服務的用戶。
此次,亞馬遜云計算中心沒有繞過北弗吉尼亞州云計算中心的故障把工作量轉(zhuǎn)移到許多其它的云計算中心,令人生疑。服務器宕機,這在人們預想當中,沒有那么嚴重。最簡單的,雙機熱備,一臺服務器宕機,另外一臺服務器在短時間內(nèi)可以啟動,并不會影響用戶的服務。但是,亞馬遜的云計算中心這次不同,宕機影響了這么多用戶的正常云服務,而且引起用戶服務中斷的,還是亞馬遜引以為傲的彈性云,這對于云計算服務商剛剛建立起來的信任,絕對是一次沉重的打擊。
經(jīng)過一番緊急的搶救,亞馬遜的云服務恢復了正常。但是,這個事件留給用戶的惡劣影響有些深遠,用戶大呼“傷不起”。
好在亞馬遜的態(tài)度還算坦誠。4月30日,亞馬遜為宕機事件向用戶發(fā)表了5700多字的道歉信,聲稱亞馬遜公司已經(jīng)知道漏洞和設(shè)計缺陷所在的地方,它希望通過修復那些漏洞和缺陷提高EC2(亞馬遜ElasticComputeCloud服務)的競爭力。亞馬遜已經(jīng)對EC2做了一些修復和調(diào)整,并打算在未來幾周里擴大部署,以便對所有的服務進行改善,避免類似的事件再度出現(xiàn)。
在賠償方面,亞馬遜表示,將向在此次故障中受到影響的用戶提供10天服務的點數(shù)(Credit),這些點數(shù)將自動充值到受影響的用戶帳號當中。但是,對于以后如何避免出現(xiàn)類似事件,并沒有提到任何法律上的保證。
據(jù)了解,亞馬遜云服務中斷持續(xù)了近4天,但是在法律上卻沒有違反亞馬遜EC2服務的服務等級協(xié)議(簡稱SLA)。亞馬遜的解釋是,亞馬遜出現(xiàn)故障的是EBS和RDS服務,而不是EC2服務,從法律上講,它并沒有違反服務等級協(xié)議。并且,對于亞馬遜提出的應對宕機事件的建議多點備份,僅僅是一個技術(shù)規(guī)范并非合同保障。這些,似乎都不能給云服務的用戶帶來信心。
表面看來,亞馬遜宕機事件似乎有一個完美結(jié)局:廠商及時修復漏洞,書面道歉,賠償損失。但是,用戶心理上對云服務的恐懼似乎并不那么容易康復,未來,亞馬遜可能不僅僅要在技術(shù)上、還需要在制度和法律上給予用戶更多的保證,才能才能漸漸修復被此次宕機事件損壞的名聲。
歷數(shù)頻頻發(fā)生的云服務事件
不僅亞馬遜,云計算領(lǐng)域充滿競爭的其他公司,如谷歌和微軟等,在近幾年也頻頻發(fā)生云服務“中斷”事件。
#p#
事件一:Google Gmail郵箱爆發(fā)全球性故障
Gmail是Google在2004年愚人節(jié)推出的免費郵件服務,但是自從推出這項服務以來,時有發(fā)生的“中斷”事件就成為業(yè)界的廣泛討論的話題。
2009年2月24日,谷歌的Gmail電子郵箱爆發(fā)全球性故障,服務中斷時間長達4小時。谷歌解釋事故的原因:在位于歐洲的數(shù)據(jù)中心例行性維護之時,有些新的程序代碼(會試圖把地理相近的數(shù)據(jù)集中于所有人身上)有些副作用,導致歐洲另一個資料中心過載,于是連鎖效應就擴及到其它數(shù)據(jù)中心接口,最終釀成全球性的斷線,導致其他數(shù)據(jù)中心也無法正常工作。
事件過去數(shù)日之后,Google宣布針對這一事件,谷歌向企業(yè)、政府機構(gòu)和其他付費GoogleAppsPremier Edition客戶提供15天免費服務,補償服務中斷給客戶造成的損失,每人合計2.05美元。
#p#
事件二:微軟的云計算平臺Azure停止運行。
2009年3月17日,微軟的云計算平臺Azure停止運行約22個小時。
雖然,微軟沒有給出詳細的故障原因,但有業(yè)內(nèi)人士分析,Azure平臺的這次宕機與其中心處理和存儲設(shè)備故障有關(guān)。Azure平臺的宕機可能引發(fā)微軟客戶對該云計算機服務平臺的安全擔憂,也暴露了云計算的一個巨大隱患。
不過,當時的Azure尚處于“預測試”階段,所以出現(xiàn)一些類似問題也是可接受。提前暴露的安全問題,似乎也給微軟的Azure團隊敲了一次警鐘,在云計算平臺上,安全是客戶最看重的環(huán)節(jié)。
2010年,Azure平臺正式投入商用,成為開發(fā)者喜愛的云平臺之一。
#p#
事件三:Rackspace云服務中斷。
2009年6月,Rackspace遭受了嚴重的云服務中斷故障。供電設(shè)備跳閘,備份發(fā)電機失效,不少機架上服務器停機。這場事故造成了嚴重的后果。
為了挽回公司聲譽,Rackspace更新了所有博客,并在其中詳細討論了整個經(jīng)過。但用戶并不樂意接受。
同年11月,Rackspace再次發(fā)生重大的服務中斷后。事實上,它的用戶是完全有機會在服務中斷后公開指責這位供應商的,但用戶卻表示“該事故并不是什么大事。”看來Rackspace不是走好運,而是持續(xù)提供了充足更新并快速修復了這些錯誤。
在服務中斷致使其業(yè)務脫機15到20分鐘后,博客服務提供商Posterous的創(chuàng)建者之一Sachin Agarwal就發(fā)表了自己的觀點。Agarwal對此并不生氣,相反,他表示Rackspace在這件事上做得“很透明”,處理問題也很及時到位。
看來,如果沒有嚴重數(shù)據(jù)的丟失,并且服務快速恢復,用戶依舊保持愉快的使用體驗。對于所謂的“100%正常運行”,大多數(shù)用戶似乎不會因為偶爾的小事故而放棄供應商,只是不要將問題堆積起來。
#p#
事件四:Salesforce.com宕機。
2010年1月,幾乎6萬8千名的Salesforce.com用戶經(jīng)歷了至少1個小時的宕機。
Salesforce.com由于自身數(shù)據(jù)中心的“系統(tǒng)性錯誤”,包括備份在內(nèi)的全部服務發(fā)生了短暫癱瘓的情況。這也露出了Salesforce.com不愿公開的鎖定策略:旗下的PaaS平臺、Force.com不能在Salesforce.com之外使用。所以一旦Salesforce.com出現(xiàn)問題,F(xiàn)orce.com同樣會出現(xiàn)問題。所以服務發(fā)生較長時間中斷,問題將變得很棘手。
這場服務中斷還沒有對公司造成很大影響,它同VMware合作的VMforce在今年春季引起很大反響,同時Salesforce.com首席執(zhí)行官在服務中斷出現(xiàn)后的一個月內(nèi)又開始宣稱Salesforce.com是“最大的云計算企業(yè)”。
這次中斷事故讓人們開始質(zhì)疑Salesfore.com的軟件鎖定行為,即將該公司的Force.com平臺綁定到Salesforce.com自身的服務。但總之,這次事件只是又一次地提醒人們:百分之百可靠的云計算服務目前還不存在。
#p#
事件五:Terremark宕機事件。
2010年3月,VMware的合作伙伴Terremark就發(fā)生了七小時的停機事件,讓許多客戶開始懷疑其企業(yè)級的vCloud Express服務。此次停機事件,險些將vCloud Express的未來斷送掉,受影響用戶稱故障由“連接丟失”導致。據(jù)報道,運行中斷僅僅影響了2%的Terremark用戶,但是造成了受影響用戶的自身服務癱瘓。此外,用戶對供應商在此次事情上的處理方式極為不滿意。
Terremark官方解釋是:“Terremark失去連接導致邁阿密數(shù)據(jù)中心的vCloud Express服務中斷。"關(guān)鍵問題是Terremark是怎么解決這個突發(fā)事件的,這家公司并沒有明確的方案,只是模糊地對用戶擔保,并對收到影響的用 戶進行更新。如果一個運供應商想要說服企業(yè)用戶在關(guān)鍵時刻使用它們的服務,這樣的方式是達不到目的的。
Terremark的企業(yè)客戶Protected Industries的創(chuàng)立者John Kinsella,在抱怨服務中斷讓他心灰意冷時稱該供應商是“雜貨鋪托管公司”。Kinsella將Terremark與Amazon做了比較,他抱怨說,Terremark才開始考慮使用的狀態(tài)報告和服務預警Amazon早已實現(xiàn)。
當然,在對vCloud Director的大肆宣傳以及VMworld 2010興奮地揭幕過后,Terremark服務中斷事件似乎只留下了很小的余波。
#p#
事件六:Intuit因停電造成服務中斷。
2010年6月,Intuit的在線記賬和開發(fā)服務經(jīng)歷了大崩潰,公司對此也是大惑不解。包括Intuit自身主頁在內(nèi)的線上產(chǎn)品在內(nèi)近兩天內(nèi)都處于癱瘓狀態(tài),用戶方面更是驚訝于在當下備份方案與災難恢復工具如此齊全的年代,竟會發(fā)生如此大范圍的服務中斷。
但這才是開始。大約1個月后,Intuit的QuickBooks在線服務在停電后癱瘓。這個特殊的服務中斷僅僅持續(xù)了幾個小時,但是在如此短時間內(nèi)發(fā)生的宕機事件也引起了人們的關(guān)注。
即使一些用戶要求“武裝”其品牌,Intuit依舊擁有4百萬用戶并繼續(xù)進軍PaaS和Web服務供應商之路。公司沒有Amazon和Rackspace這樣的知名度,中斷也沒有造成很大的影響。Intuit主要因Quicken而聞名。
#p#
事件七:微軟爆發(fā)BPOS服務中斷事件。
2010年9月,微軟在美國西部時間周三對在過去幾周時間內(nèi)出現(xiàn)至少三次托管服務中斷向用戶致歉。這是微軟首次爆出重大的云計算數(shù)據(jù)突破事件。
最近,用戶訪問BPOS(Business Productivity Online Suite)服務所遇到的問題,他寫道“未預見的問題影響了對某些服務的訪問”。通過使用微軟北美設(shè)施訪問服務的客戶可能遇到了問題,故障持續(xù)了兩個小時。雖然微軟工程師解決了這一問題,但是沒有解決根本問題,因而又產(chǎn)生了9月3日和9月7日服務再次中斷。
目前微軟有一套RSS反饋系統(tǒng),當服務受到影響時系統(tǒng)提供故障信息,但有些用戶抱怨故障信息太模糊,有時會延遲。寇爾稱,微軟已經(jīng)開始對這些故障信息增加更多細節(jié)。
微軟宣布稱,微軟BPOS(商務辦公在線套裝軟件)中包含的數(shù)據(jù)已經(jīng)被非授權(quán)用戶下載。
人們對這種事件的直接反應也許是責怪黑客。但是,這次的事件卻與黑客無關(guān)。微軟的Clint Patterson說,這次數(shù)據(jù)突破事件是由于微軟在美國、歐洲和亞洲的數(shù)據(jù)中心的一個沒有確定的設(shè)置錯誤造成的。BPOS軟件中的離線地址簿在"非常特別的情況下"提供給了非授權(quán)用戶。這個地址簿包含企業(yè)的聯(lián)絡人信息。Patterson對于這個錯誤表示道歉。
微軟稱,這個錯誤在發(fā)現(xiàn)之后兩個小時就修復了。微軟稱,它擁有跟蹤設(shè)施,使它能夠與那些錯誤地下載這些數(shù)據(jù)的人取得聯(lián)系以便清除這些數(shù)據(jù)。
然而,整個事件讓那些考慮在明年使用云計算的人感到擔心,特別是讓考慮使用與Office套裝軟件捆綁在一起的微軟主要云計算產(chǎn)品Office 365的那些人感到擔心。
業(yè)內(nèi)人士稱,在考慮使用任何廠商的提供的云計算服務的時候,有三個基本的威脅會導致數(shù)據(jù)泄漏:第一,云計算軟件的配置錯誤或者軟件中的瑕疵。第二,黑客竊取數(shù)據(jù),為了取樂或者賺錢。第三,員工處理數(shù)據(jù)的疏忽。
云計算的應用還有許多問題。很難相信一些人所說的2011年將是云計算成為主流的一年。
#p#
事件八:谷歌郵箱再次爆發(fā)大規(guī)模的用戶數(shù)據(jù)泄漏事件。
2011年3月,谷歌郵箱再次爆發(fā)大規(guī)模的用戶數(shù)據(jù)泄漏事件,大約有15萬Gmail用戶在周日早上發(fā)現(xiàn)自己的所有郵件和聊天記錄被刪除,部分用戶發(fā)現(xiàn)自己的帳戶被重置,谷歌表示受到該問題影響的用戶約為用戶總數(shù)的0.08%。
谷歌在Google Apps狀態(tài)頁面表示:"部分用戶的Google Mail服務已經(jīng)恢復過來,我們將在近期拿出面向所有用戶的解決方案。"它還提醒受影響的用戶說:"在修復帳戶期間,部分用戶可能暫時無法登錄郵箱服務。"
Google過去也曾出現(xiàn)故障,但整個帳戶消失卻是第一次。在2009年出現(xiàn)最嚴重的一次故障,有兩個半小時服務停頓,許多人當時曾向Google投訴需用這個系統(tǒng)工作。接二連三出錯,令全球用戶數(shù)小時不能收發(fā)電郵。Google及微軟等科技企業(yè)近年大力發(fā)展云計算,盼吸引企業(yè)客戶,但云計算儲存多次出事,恐打擊用戶信心。
#p#
事件九:亞馬遜云數(shù)據(jù)中心服務器大面積宕機。
2011年4月22日,亞馬遜云數(shù)據(jù)中心服務器大面積宕機,這一事件被認為是亞馬遜史上最為嚴重的云計算安全事件。
由于亞馬遜在北弗吉尼亞州的云計算中心宕機,包括回答服務Quora、新聞服務Reddit、Hootsuite和位置跟蹤服務FourSquare在內(nèi)的一些網(wǎng)站受到了影響。
4月30日,針對上周出現(xiàn)的云服務中斷事件,亞馬遜周五在網(wǎng)站上發(fā)表了一份長達近5700字的報告,對故障原因進行了詳盡解釋,并向用戶道歉。亞馬遜還表示,將向在此次故障中受到影響的用戶提供10天服務的點數(shù)(Credit),將自動充值到受影響的用戶帳號當中。
亞馬遜在周五的報告中指出,公司已經(jīng)知道漏洞和設(shè)計缺陷所在的地方,它希望通過修復那些漏洞和缺陷提高EC2(亞馬遜ElasticComputeCloud服務)的競爭力。亞馬遜已經(jīng)對EC2做了一些修復和調(diào)整,并打算在未來幾周里擴大部署,以便對所有的服務進行改善,避免類似的事件再度出現(xiàn)。
此事件也引起人們對轉(zhuǎn)移其基礎(chǔ)設(shè)施到云上的擔憂:完全依靠第三方來去報應用程序的可用性是否可行。
#p#
用戶心理承受底線是否被打破?
早在2010年5月份,埃森哲與中國電子學會共同發(fā)布了一份名為《中國云計算發(fā)展的務實之路》的報告。報告指出,安全問題是全球?qū)υ朴嬎阕畲蟮馁|(zhì)疑。而這種擔憂在中國尤為突出,"以至于首席信息官們?nèi)缏谋”貏e是面對公有云服務時"。
云安全問題一直是全球政府和企業(yè)都較為頭痛的難題,如果能夠跨越這一關(guān),那么,云服務則能夠順利地得到大范圍應用,反之則止步不前。所以,可以斷定亞馬遜宕機事件,將使得其在全球特別是在中國推廣云服務業(yè)務更加困難。這里,國內(nèi)很多企業(yè)和政府更加相信私有云的安全性。
宕機事件使得人們進一步思考,公有云面臨的安全問題。盡管公共云擁有眾所周知的成本優(yōu)勢,但是用戶不得不提防其存在的安全性、法規(guī)遵從和服務質(zhì)量的隱患。既然數(shù)據(jù)由第三方托管,客戶就希望服務提供商保證數(shù)據(jù)安全,既不丟失也不被非法訪問,遵從法規(guī)對存儲系統(tǒng)和數(shù)據(jù)保存位置的要求,并通過網(wǎng)絡提供低延遲、高可用的服務。
一波敢于第一個“吃螃蟹”的企業(yè)或政府的CIO,也仿佛成為了人們眼中的“自殺”者。
但是,如果僅僅從這些云服務宕機事件,就得出結(jié)論:云計算一無是處,不該被推廣!這似乎有些太過于武斷。安全事件,并不僅僅是云計算的專利,任何IT系統(tǒng)都將承受來自安全方面的壓力,不管是來自于天災,還是人禍。
可以說,不僅僅是云服務,基本所有的互聯(lián)網(wǎng)服務都逃避不了“安全”問題。既然不能避免,那么,服務提供商只能勇敢面對。未來云服務提供商除了要在云服務架構(gòu)和技術(shù)上不斷完善,還要不斷為用戶提供服務保障體系。
曾經(jīng)采訪國內(nèi)一家云服務提供商副總裁,他打趣地說:“非常想給公司提供的云服務上一個保險,這樣用戶數(shù)據(jù)受到損失,服務出現(xiàn)了問題,可以給用戶實實在在的賠償。”
俗話說:拿人錢財替人消災!很多云服務提供商也正在積極尋求一種讓用戶信賴的服務保障體系。只不過,完善這一過程仍然需要一段時間,2011年可能無法見到多大的進展。
一系列的宕機事件,讓我們不禁要問,用戶心理承受底線是否被打破了?答案是沒有。目前,即使出現(xiàn)了嚴重的宕機事件,國外一些用戶仍然熱衷于使用例如亞馬遜等公司的公有云服務,他們對于類似亞馬遜宕機事件看得很淡,他們認為這樣的事件就如同飛機墜毀一樣的偶然,相對于開汽車旅游還是飛機旅游安全系數(shù)更高。
相對于高速發(fā)展的企業(yè)對于IT系統(tǒng)的需求成本,有些企業(yè)更加愿意嘗試創(chuàng)新的IT技術(shù)和服務,以換來企業(yè)更快速的發(fā)展,即使出現(xiàn)數(shù)據(jù)丟失和泄露,他們也已經(jīng)做好了應對策略或甘愿承受這種風險。如此看來,盡管云計算服務目前仍然存在諸多不確定因素(天災、人禍的影響),但是仍然不可否認它的革命性和創(chuàng)新性,它滿足了一部分“輕”公司的發(fā)展需求。隨著其邁過“安全”這最后一道關(guān),必將迎來大規(guī)模發(fā)展。
【編輯推薦】
- 使用Microsoft Azure 讓云遷移變得簡便的5種方法
- VMware的混合云遷移工具:vCloud Connector
- 企業(yè)CRM等業(yè)務系統(tǒng)遷移到 "云"中的最佳實現(xiàn)
- 云計算該“遷移”還是“自建”?
- 云遷移全攻略:哪些應用適合遷移
- 亞馬遜 谷歌 微軟三大試用云服務大比拼(上)
- 亞馬遜推出1年免費云計算服務
- 亞馬遜EC2中斷 “可用區(qū)”遭質(zhì)疑
- 傷不起!亞馬遜史前最大宕機事件的啟示
- 云震 -- 亞馬遜4.21事故的反思
- 從亞馬遜云服務故障中吸取的七個教訓
- 云計算與集群:是攜手還是爭斗?