數(shù)據(jù)中心斷電事故頻發(fā) 你的機房真的保險嗎?
如今企業(yè)的信息系統(tǒng)已經(jīng)更多的集中到以數(shù)據(jù)中心為核心的系統(tǒng)平臺。與此同時,全球化令企業(yè)業(yè)務(wù)規(guī)??焖侔l(fā)展,也使得系統(tǒng)平臺更加龐大,所需要處理的數(shù)據(jù)規(guī)模呈現(xiàn)爆炸性增長的需求,企業(yè)業(yè)務(wù)對系統(tǒng)平臺的依賴性與日俱增,這就對以數(shù)據(jù)中心為核心的系統(tǒng)平臺的可靠性提出了非常高的要求,一旦數(shù)據(jù)中心有任何閃失,隨之而來的將是收入損失、停產(chǎn)、生產(chǎn)力降低、處罰/訴訟、客戶丟失等有形損失,以及會產(chǎn)生負面效應(yīng)、客戶不滿、企業(yè)信譽降低等無形損失,可謂是牽一發(fā)動全身,確保企業(yè)業(yè)務(wù)連續(xù)性已經(jīng)是當今企業(yè)最重要的課題。
企業(yè)數(shù)據(jù)中心建設(shè)涉及建筑施工、強電、弱電、暖通制冷、網(wǎng)絡(luò)、消防、監(jiān)控、機柜微環(huán)境和裝飾裝修等多個工序,幾十個關(guān)鍵環(huán)節(jié),上千種產(chǎn)品和型號,這些基礎(chǔ)設(shè)施還要與上層服務(wù)器、存儲和網(wǎng)絡(luò)等IT系統(tǒng)進行有機的配合,其復(fù)雜性已經(jīng)遠遠超出了一般企業(yè)IT技術(shù)人員的能力范圍,沒有高水平的技術(shù)人員以及豐富的實踐經(jīng)驗是沒有辦法應(yīng)對數(shù)據(jù)中心高可靠性運營需要的。與此同時,居高不下的運維成本,也使得企業(yè)數(shù)據(jù)中心很難依靠自身的力量管理發(fā)展。在這種情況下,越來越多的企業(yè)開始把目光投向了那些具有高可用等級的公共數(shù)據(jù)中心服務(wù),為了與現(xiàn)有IDC數(shù)據(jù)中心業(yè)務(wù)進行區(qū)分,人們將具有高可用等級的公共數(shù)據(jù)中心服務(wù)稱為EDC。
與IDC業(yè)務(wù)相比,EDC具有更高級別的數(shù)據(jù)中心可靠性,具有更加完善的基礎(chǔ)設(shè)施平臺,以高效可靠供電為例,EDC會提供雙路市電,外加柴油發(fā)電機的供電保護,其中每一路市電均配有N或者N+1的UPS供電保護,如此一來,任何一路市電供電中斷,都不會影響IT系統(tǒng)的供電。即使兩路市電同時中斷,也還有柴油發(fā)電機的供電保護,按照設(shè)計要求,柴油發(fā)電機通常有不低于72小時的油料儲備,同時這些數(shù)據(jù)中心還與其附件的加油站簽署有油料保障協(xié)議,幾乎可以做到萬無一失。
但真的是這樣嗎?我們不幸地看到,不斷有高等級數(shù)據(jù)中心宕機事件見諸報端,如2011年12月13日,亞馬遜旗下英國、法國、德國和西班牙數(shù)據(jù)中心宕機超過一個半小時,在過去的幾年時間內(nèi),全球***的支付平臺PayPal、Google gmail系統(tǒng)、微軟數(shù)據(jù)中心、iWeb CL數(shù)據(jù)中心、Chase.com網(wǎng)上銀行、knocked Intuit網(wǎng)站數(shù)據(jù)中心均發(fā)生過嚴重的宕機事件,有些宕機時間甚至超過了24小時。國內(nèi)的高等級數(shù)據(jù)中心也不能夠幸免,有些具有2(N+1)外加柴油發(fā)電機的可靠供電保障的數(shù)據(jù)中心,也一度發(fā)生了電力中斷的事件。
談到數(shù)據(jù)中心高可用性,萬國數(shù)據(jù)副總裁梁艷表示:"數(shù)據(jù)中心高可靠性并不僅僅是高等級數(shù)據(jù)中心設(shè)計以及產(chǎn)品設(shè)備的簡單堆砌,高投入并不一定帶來高可靠。數(shù)據(jù)中心的高可用性需要一整套管理的方法論和指標體系,其中,很多需要進行量化。為此,萬國數(shù)據(jù)創(chuàng)造性地提出了適用性的概念,強調(diào)可用性的建設(shè)應(yīng)該圍繞業(yè)務(wù)發(fā)展的需求,通過整合ISO20000、ISO27001、BS25999標準在可用性方面的要求,結(jié)合自身多年的實踐,創(chuàng)造了業(yè)界首套IT高可用管理體系方法論,從評估、規(guī)劃、實施、運行與監(jiān)控等5個層面實現(xiàn)。同時,通過引入制造業(yè) SOP的管理方式,對數(shù)據(jù)中心的標準作業(yè)進行管理,從而為用戶提供專業(yè)化的指導(dǎo)和安全高可用的保障。"
仍以高可靠供電為例,2(N+1)外加柴油發(fā)電機的保護只是基礎(chǔ),還需要高可用的管理體系,依靠運行管理,及時發(fā)現(xiàn)系統(tǒng)在運行中的隱患。目前很多數(shù)據(jù)中心還停留在事后告警的階段,即發(fā)生了故障或錯誤提供告警,根本不具備主動式高可用實時監(jiān)控服務(wù)的能力。如果監(jiān)管水平到位,將可以有效提高數(shù)據(jù)中心的可用性,避免數(shù)據(jù)中心中斷給用戶帶來的損失。
對于用戶而言,也需要挑選哪些真正具有高可用等級保障的公共數(shù)據(jù)中心服務(wù),有些數(shù)據(jù)中心對外宣傳具有高效可靠供電的保障,設(shè)計了2(N+1)外加柴油發(fā)電機的 安全保障,但實際上,僅是在某一個特定區(qū)域按照2(N+1)設(shè)計,用作樣板工程和對外宣傳,這就需要用戶在柴油發(fā)電機配置臺數(shù)和總功率方面認真加以核算,挑選哪些真正具有高水平的保障的數(shù)據(jù)中心。