從香港宕機事件,看企業(yè)如何選擇云服務(wù)
接踵而來的宕機事件對于云服務(wù)提供商和他們的用戶來說,2015年的夏天就像當前的股市一樣,顯得極不尋常和讓人心驚肉跳。
在經(jīng)歷了接踵而來的陌陌、網(wǎng)易、支付寶、攜程網(wǎng)、藝龍網(wǎng)、招商證券、同花順、齊魯證券網(wǎng)絡(luò)故障之后,2015年的5月被不少圈內(nèi)人士揶揄為“黑色五月”。然而在“黑色五月”過去之后,宕機事件卻并沒有就此平息。
2015年6月6日下午,青云的服務(wù)商睿江科技機房因雷暴天氣引發(fā)電力故障,導(dǎo)致青云廣東1區(qū)全部硬件設(shè)備意外關(guān)機重啟,青云官網(wǎng)及控制臺短時無法訪問、部署于GD1的用戶業(yè)務(wù)暫時不可用。
2015年6月21日,阿里云香港節(jié)點出現(xiàn)全線宕機,業(yè)務(wù)中斷超過12小時,甚至有部分用戶數(shù)據(jù)出現(xiàn)損毀,在業(yè)界引發(fā)轟然大波。
阿里云事故發(fā)生伊始,坊間就傳出了令人眼花繚亂的各種解釋,包括光纖挖斷、電力故障、消防警報等等,不一而足,讓一起機房宕機事故演變成了一出“羅生門”。
6月21日晚,阿里云發(fā)布公告稱,本次故障因香港運營商IDC電力問題所致,阿里云已責(zé)成香港運營商盡快完成機房整改措施,規(guī)避此類問題的再次發(fā)生。
阿里云的香港數(shù)據(jù)中心服務(wù)商名氣通則聲稱,其香港二號數(shù)據(jù)中心于2015年6月21日上午9點40分因電力故障導(dǎo)致部分客戶服務(wù)中斷。名氣通***時間啟動應(yīng)急方案進行緊急搶修,下午2點恢復(fù)部分客戶服務(wù),晚上9點50分完全恢復(fù)電力供應(yīng),客戶服務(wù)全部恢復(fù)正常。
對于這起宕機事故,業(yè)內(nèi)人士普遍表示“難以置信”。因為對于中斷1分鐘都可能讓客戶難以忍受的云服務(wù)來說,這類故障通常在幾分鐘之內(nèi)就能解決,12個小時顯然有些不可思議了。
但是,阿里云還不是最慘的。有用戶反映,其租用的恒創(chuàng)主機在本次事故中癱瘓超過24小時。對此,我們也許只能用“沒有最慘,只有更慘”來形容了。
為什么香港倍受青睞6月21日的宕機事故,將香港數(shù)據(jù)中心一下子推到了風(fēng)口浪尖。那么問題就來了:為什么香港經(jīng)常有臺風(fēng)等自然災(zāi)害,但還是有越來越多的企業(yè)選擇香港數(shù)據(jù)中心?
總結(jié)歸納一番,其原因不外乎以下幾點:
一、香港的國際金融中心地位。這一點自然不用多說,只要是想要開拓金融行業(yè)客戶的云服務(wù)商,自然都不會放棄香港。而另一方面,金融行業(yè)對計算能力、穩(wěn)定性及數(shù)據(jù)安全的要求是所有行業(yè)中最為嚴苛的,因此只要能夠搞定這些金融客戶,對于云服務(wù)商本身也是一個很好的正面宣傳。
二、香港的黃金地理位置。作為“東方之珠”的香港,在地理位置方面也有著得天獨厚的優(yōu)勢。香港是亞太地區(qū)海底光纜集中交匯地區(qū),基礎(chǔ)設(shè)施完善,通訊覆蓋全面,并建有多個***的數(shù)據(jù)中心,可滿足國際化用戶的需求。這也使得香港除了國際金融中心之外,還儼然有成為亞洲數(shù)據(jù)中心樞紐之勢。
三、香港政府的大力支持。對于數(shù)據(jù)中心建設(shè),香港政府一直都是鼎力支持,不但在選址、價格等各方面都有各種優(yōu)惠政策,而且還為很多機房提供了免費的制冷供電。
四、企業(yè)的海外業(yè)務(wù)需求。近年來,包括消費電子、游戲開發(fā)、電子商務(wù)等眾多領(lǐng)域的中國企業(yè),都對拓展海外市場業(yè)務(wù)有著旺盛的需求,因此將香港作為走出***的***站,實在是再合適不過了。
五、減少麻煩和規(guī)避風(fēng)險。除了以上原因之外,還有一點是許多企業(yè)通常都不太愿意提及的,那就是可以繞過內(nèi)地的數(shù)據(jù)備案制度。
正是因為有著諸多的優(yōu)勢,再加上如今“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”的主旋律,所以即使是在發(fā)生宕機事件之后,香港數(shù)據(jù)中心未來還是會有大批創(chuàng)業(yè)公司和想要拓展海外市場的企業(yè)不斷涌入。
宕機事件暴露的問題
長久以來,香港數(shù)據(jù)中心在云服務(wù)商和廣大企業(yè)用戶心目中的形象都非??孔V。但是這一次的宕機事件,卻暴露出了相當嚴重的問題。
按照阿里云的官方公告,本次故障因香港運營商IDC電力問題所致。但是為了保證數(shù)據(jù)中心7×24小時的不間斷運轉(zhuǎn),像阿里云這樣規(guī)模的云服務(wù),名氣通應(yīng)該為其配備兩個獨立的變電站或者一個變電站二個獨立倉位出來的供電線路,也就是雙路供電。這樣即使其中一條線路出現(xiàn)電力故障,數(shù)據(jù)中心也可以瞬間切換到另一條供電線路,用戶根本察覺不到影響。
就算是遇到了不可預(yù)料的重大自然災(zāi)害,兩條供電線路都被切斷,那么也用不著驚慌,因為數(shù)據(jù)中心可以通過備用的柴油發(fā)電機為機房供電。
如果“屋漏偏逢連夜雨”,連柴油發(fā)電機也出現(xiàn)了故障……好吧,那就只有靠***一招——UPS了。不過考慮到大型數(shù)據(jù)中心不斷攀升的功耗,這可撐不了多久。
正是因為有著完備的防范措施,所以在正常情況下像電力故障這類問題,數(shù)據(jù)中心通常只需要幾分鐘就可以解決,這也是業(yè)內(nèi)人士對阿里云香港機房斷電12小時普遍感到“難以置信”的原因。因此有資深人士推測,在宕機事故的背后可能還有更深層次的因素,譬如出現(xiàn)了難以維修的控電設(shè)備故障、備用柴油發(fā)電機故障、阿里云與名氣通之間的協(xié)調(diào)溝通不暢導(dǎo)致工作效率較低、修復(fù)進度受阻等等。
關(guān)于數(shù)據(jù)中心應(yīng)該自建還是外包這個問題,業(yè)界一直眾說紛紜,莫衷一是。就在上個月,針對Zynga先租用亞馬遜云服務(wù)、再自建數(shù)據(jù)中心、而后又關(guān)閉數(shù)據(jù)中心重新使用亞馬遜一事,我還寫了一篇《兩小兒辯云:數(shù)據(jù)中心該自建還是外包?》做了一番調(diào)侃。目前看來,在香港宕機事件發(fā)生之后,關(guān)于數(shù)據(jù)中心是否應(yīng)該自建這個話題的爭論勢必還將繼續(xù)下去。
什么樣的云服務(wù)才可靠
身處“互聯(lián)網(wǎng)+”時代,互聯(lián)網(wǎng)已經(jīng)像吃飯睡覺一樣,成為了許多人生活中不可或缺的一部分。這在對相關(guān)云服務(wù)提供商提出越來越高要求的同時,其所要承擔(dān)的風(fēng)險也在急劇增加。以金融行業(yè)為例,如果某銀行系統(tǒng)中斷1小時,將直接影響其基本支付業(yè)務(wù);中斷1天,將對其聲譽造成極大傷害;中斷2-3天以上不能恢復(fù),將直接危及其他銀行乃至整個金融系統(tǒng)的穩(wěn)定。由此我們不難想見,一旦云服務(wù)出現(xiàn)故障,用戶將會多么抓狂。
正是因為對業(yè)務(wù)持續(xù)性有著極高的要求,業(yè)界對數(shù)據(jù)中心供電提出了“5個9”的可用性標準,即一年之內(nèi)保持99.999%的時間不斷電。換句話來說,也就是數(shù)據(jù)中心一年之內(nèi)斷電時長不超過5分鐘。不過即使是亞馬遜AWS這樣的巨頭,也很難達到這樣高的標準。
為了更好地對不同標準的數(shù)據(jù)中心基礎(chǔ)設(shè)施進行區(qū)分,國際正常運行時間協(xié)會(the Uptime Institute,簡稱UI)將其劃分為從T1到T4等四個級別:
一、T1***級數(shù)據(jù)中心:基礎(chǔ)類型
T1有計算機電力配送和制冷,但不一定配備架空地板、UPS或發(fā)電機。即使有UPS或發(fā)電機也是單模塊系統(tǒng),具有多處單點故障。為了進行預(yù)防性的維護和維修,一般基礎(chǔ)設(shè)施每年需要完全關(guān)閉一次,在緊急情況下甚至可能需要頻繁關(guān)機。對各部件的操作錯誤或自然故障,將導(dǎo)致整個數(shù)據(jù)中心運行中斷。T1數(shù)據(jù)中心的可用性為99.671%。
二、T2第二級數(shù)據(jù)中心:組件冗余
T2配備架空地板、UPS和發(fā)電機,并具有一些冗余組件,因而引發(fā)數(shù)據(jù)中心中斷的可能性小于T1數(shù)據(jù)中心。不過T2的UPS和發(fā)電機的設(shè)計容量是N+1且為單回路設(shè)計,有單點中斷可能。對關(guān)鍵電路和其他基礎(chǔ)設(shè)施進行維護,需要程序式地關(guān)閉設(shè)備。T2數(shù)據(jù)中心的可用性為99.741%。
三、T3第三級數(shù)據(jù)中心:在線維護
T3可以在不引起計算機硬件運行中斷的情況下進行所有的計劃性現(xiàn)場活動,包括保護性和程序式的維護、維修和元件替換,增加或減少與處理能力相關(guān)的部件,對部件和系統(tǒng)進行測試以及更多活動。使用水冷的大型系統(tǒng)需要兩個獨立通路提供充足的處理能力和配電通路,允許在一條通路承擔(dān)負載工作的同時,用另一條通路進行維護和測試。不過操作錯誤或設(shè)施部件自然故障等非計劃活動,還是會引起數(shù)據(jù)中心的中斷。T3數(shù)據(jù)中心的可用性為99.982%。
四、T4第四級數(shù)據(jù)中心:容錯系統(tǒng)
T4需要所有的硬件都具備雙路供電,其容錯能力不但可以保證任何的計劃性活動不會引起關(guān)鍵負載的中斷,而且還能為基礎(chǔ)設(shè)施提供至少可以忍受一次的最糟糕情況——非計劃性故障或非關(guān)鍵性負載事件的沖擊的能力。這需要同時活動的兩條配送途徑,通常是雙系統(tǒng)(S+S)配置,從電力角度來說則需要兩個獨立的(N+1)UPS系統(tǒng)。不過根據(jù)消防和供電安全規(guī)范的要求,還是會有因為火災(zāi)報警或啟動緊急停電程序而導(dǎo)致的停機時間發(fā)生。T4數(shù)據(jù)中心的可用性為99.995%。
目前常見的數(shù)據(jù)中心基礎(chǔ)設(shè)施,其等級大多介于T3和T4之間。而選擇亞馬遜、阿里云、騰訊云這類IaaS(Infrastructure as a Service,基礎(chǔ)設(shè)施即服務(wù))云服務(wù)提供商的企業(yè),則是租用其提供的服務(wù)器,然后自行安裝配置各種軟件環(huán)境。其中作為眾多同行學(xué)習(xí)的行業(yè)標桿,亞馬遜AWS用的是自建數(shù)據(jù)中心,功能很強但是價格也偏貴;而由于規(guī)模原因,阿里云、騰訊云等國內(nèi)互聯(lián)網(wǎng)巨頭在香港的數(shù)據(jù)中心則是租用了合作伙伴的,這種非自建的租用模式對合作伙伴的能力和內(nèi)部協(xié)調(diào)效率都是一種考驗。最近兩個月來一連串的宕機事件也說明,大廠商、大品牌并不一定可靠,構(gòu)建多IDC的同城災(zāi)備或異地災(zāi)備系統(tǒng)才是王道。不過包括阿里云和騰訊云在內(nèi),其在香港都是單一數(shù)據(jù)中心,尚未構(gòu)建同城災(zāi)備系統(tǒng)。
有意思的是,阿里云、騰訊云均聲稱目前正在籌建香港的第二個數(shù)據(jù)中心。這也從另一個側(cè)面體現(xiàn)了多IDC災(zāi)備系統(tǒng)的重要性。
云服務(wù)商香港節(jié)點對比
俗話說得好:“不怕不識貨,就怕貨比貨。”在本篇文章的***,筆者列出了幾家國內(nèi)云服務(wù)商在香港節(jié)點的對比介紹,希望可以為近期想要租用或更換云服務(wù)的企業(yè)提供借鑒與參考。
一、阿里云
2014年5月12日,作為阿里云邁向全球化的***站,阿里云香港數(shù)據(jù)中心正式投入使用,并與亞馬遜AWS、微軟Azure等展開正面競爭。香港數(shù)據(jù)中心為Tier3+級別,由阿里云與香港名氣通電訊共同建設(shè)運營,后者不但擁有多個***數(shù)據(jù)中心,而且具備服務(wù)Facebook、YouTube等互聯(lián)網(wǎng)企業(yè)的豐富經(jīng)驗。網(wǎng)絡(luò)光纖除接通中國大陸外,還包括香港、新加坡、英國、美國及歐洲等***電信商,可為香港、東南亞乃至全球用戶提供快速、穩(wěn)定的云計算服務(wù)。
二、騰訊云
早在2005年,騰訊云就開始在香港搭建IDC。2014年6月,騰訊云香港數(shù)據(jù)中心正式啟用,并于7月1日香港回歸紀念日推出香港云服務(wù)器限量開售活動。騰訊云香港數(shù)據(jù)中心采用的是“租用+定制化”模式和國際BGP線路,主要針對亞太和歐美地區(qū)的企業(yè)提供云服務(wù),解決企業(yè)開展海外業(yè)務(wù)時遇到的網(wǎng)絡(luò)服務(wù)難題,并且提供本地硬盤,價格相對于其他云服務(wù)提供商更具競爭力,用戶還可根據(jù)實際需求自定義選擇機型。在電力供應(yīng)方面,騰訊云的香港機房具備雙路供電、2N設(shè)計UPS,機房電力可靠性超過99.999%。
三、UCloud
2013年,UCloud與香港***大網(wǎng)絡(luò)接入商HGC和記環(huán)球電訊攜手正式啟動了亞太數(shù)據(jù)中心的運營,成為中國***家走向海外的云計算公司。隨著近年來海外市場的不斷拓展,大批中國移動互聯(lián)網(wǎng)企業(yè),特別是手機游戲公司都將UCloud云服務(wù)作為了***。目前在UCloud亞太數(shù)據(jù)中心的客戶當中,手機游戲開發(fā)者、移動互聯(lián)網(wǎng)和電子商務(wù)領(lǐng)域占到了多數(shù)。2015年4月13日,UCloud又與NTT com Asia達成合作,在香港唯一的T4級商用數(shù)據(jù)中心——香港金融數(shù)據(jù)中心增設(shè)了T4級亞太節(jié)點,在香港節(jié)點的同城災(zāi)備方案上又向前邁進了一大步。