防止數(shù)據(jù)中心停機需要采取什么措施
日前,據(jù)調(diào)研機構(gòu)對于數(shù)據(jù)中心的運營調(diào)查報告中表示,某些數(shù)據(jù)中心宕機事件本不應該發(fā)生。而其宕機的主要原因并不是由于惡劣天氣、計劃外維護、甚至電網(wǎng)故障等因素導致,相反,這是一些組織糟糕的計劃和維護不當造成的。從航空公司到互聯(lián)網(wǎng)巨頭,這些主要的用戶和企業(yè)都已經(jīng)成為了停機中斷事件的受害者,并且也深刻感受到這些可以預防的數(shù)據(jù)中心中斷事件的影響。然而不幸的是,這種情況并不少見。
數(shù)據(jù)中心行業(yè)廠商通過對歐洲各國IT和數(shù)據(jù)中心管理人員的調(diào)查表明:27%的受訪者表示在過去的三個月遭遇過長時間的中斷,對組織業(yè)務(wù)產(chǎn)生了不利的影響。絕大多數(shù)受訪者(82%)認為大多數(shù)關(guān)鍵業(yè)務(wù)流程依賴于IT服務(wù),74%的受訪者表示數(shù)據(jù)中心的健康狀況直接影響到IT服務(wù)的質(zhì)量。組織業(yè)務(wù)主要取決于IT服務(wù)和IT設(shè)備依賴于數(shù)據(jù)中心的功能。事實上,四分之一以上的數(shù)據(jù)中心遭受長時間的中斷事件表明在行業(yè)層面上有些方法措施是錯誤的。
(1) 事先規(guī)劃防止電力供應中斷
正如關(guān)鍵業(yè)務(wù)流程依賴IT服務(wù)一樣,數(shù)據(jù)中心本身也必須提供彈性以保持業(yè)務(wù)運行。它是任何企業(yè)風險管理戰(zhàn)略中的核心資產(chǎn)。
工作人員的失誤,備用發(fā)電機沒有啟動,驚慌失措的決定等這些錯誤都可以通過正確的流程和完善的電力系統(tǒng)設(shè)計來防止。然而,組織往往并沒有遵循數(shù)據(jù)中心電力管理的黃金法則:行動獲得結(jié)果和產(chǎn)生后果需要采取行動。
組織需要災難恢復流程,并明確規(guī)定在重新啟動數(shù)據(jù)中心時應采取哪些步驟。在數(shù)據(jù)中心停機中斷的情況下,工作人員可能處于忙碌緊張狀態(tài),并面臨恢復正常服務(wù)的壓力。畢竟,工作人員的主要目標是盡可能快地恢復正常運營。因此,災難恢復流程有助于避免延長停電時間。
(2) 提高工作人員的技能
實際上,數(shù)據(jù)中心缺乏電源管理意識和理解是一個常見的問題。參與調(diào)查的數(shù)據(jù)中心專業(yè)人員中有三分之二的人表明對電力保障沒有充分的信心。而在組織在能夠掌握電源管理(從UPS維護到電池檢查)之前,可能會有更多的與電源相關(guān)的停電事件發(fā)生。
但是,工作人員的技能對于提高電源可用性有著至關(guān)重要的作用。許多組織發(fā)現(xiàn),無論是在能源效率設(shè)計、持續(xù)管理消費,或快速有效地處理與電力有關(guān)的故障,以避免和減輕停電方面,都很難招募和保留相關(guān)的專業(yè)人員或人才。
(3) 更新升級基礎(chǔ)設(shè)施
除了提高技能和保障電力之外,數(shù)據(jù)中心基礎(chǔ)設(shè)施本身經(jīng)常需要更新升級,以滿足企業(yè)對其效率,可靠性和靈活性的期望。在這個調(diào)查中,大約一半受訪者表示,他們的核心IT基礎(chǔ)架構(gòu)需要加強,而近三分之二的受訪者表示需要加強電力和冷卻等方面的設(shè)施。
電源管理越來越成為一種軟件定義的活動。鑒于工作人員的技能方面的差距,軟件可以通過IT人員熟悉的儀表板來提供電源管理選項,以彌合IT部門和電源之間的鴻溝,從而更輕松地進行管理,并實現(xiàn)電力基礎(chǔ)設(shè)施管理的自動化。采用這種技術(shù)可以減少或消除數(shù)據(jù)中心的停機時間。
行業(yè)廠商已經(jīng)向數(shù)據(jù)中心的虛擬化環(huán)境方向發(fā)展。IT和數(shù)據(jù)中心的專業(yè)人員如今已經(jīng)非常熟悉使用虛擬化技術(shù)來維護硬件。那么為什么不使用同樣的原則呢?所有的配電設(shè)計和相關(guān)的彈性軟件工具必須與主要虛擬化供應商的產(chǎn)品相兼容,促進基礎(chǔ)設(shè)施的未來發(fā)展。這種方法將使數(shù)據(jù)中心專業(yè)人員可以持續(xù)地維護系統(tǒng),從而減少基礎(chǔ)設(shè)施陳舊過時的風險。
更好的準備和災難恢復過程可能會阻止許多中斷事件的發(fā)生。數(shù)據(jù)中心行業(yè)用戶必須從這些事件中吸取教訓,并采取必要的措施。因此,為了減少數(shù)據(jù)中心的中斷事件,有效實施電源管理是一個必備措施。