搞定災(zāi)難恢復(fù)規(guī)劃:實用性建議匯總
譯文
【2013年5月30日 51CTO外電頭條】災(zāi)難恢復(fù)規(guī)劃外加不間斷電源(簡稱UPS)、主機托管服務(wù)、數(shù)據(jù)鏡像、熱備份技術(shù)等常備方案的結(jié)合,已經(jīng)足以在理論上幫助基礎(chǔ)設(shè)施抵御任何自然之力的破壞。然而僅靠備份系統(tǒng)、復(fù)制規(guī)則以及快速故障切換解決方案三者就真能高枕無憂了嗎?
任何一位已經(jīng)實施了災(zāi)難恢復(fù)解決方案的數(shù)據(jù)中心經(jīng)理都清楚,意外情況永遠無法徹底被根除。舉例來說,為了節(jié)約成本,發(fā)電機與本地本地協(xié)助設(shè)施都只能設(shè)計為支持某些服務(wù)的特定部分。也就是說當(dāng)停機事故發(fā)生時,只有某些關(guān)鍵性功能可以繼續(xù)運轉(zhuǎn)。為了確保意外情況根據(jù)實際事態(tài)始終處于控制之下,災(zāi)難恢復(fù)規(guī)劃能一直與動態(tài)業(yè)務(wù)保護需求保持一致,我們將與大家分享以下幾項關(guān)注重點。
* 以精確數(shù)據(jù)指導(dǎo)應(yīng)急預(yù)案。我們首先需要正確理解正常情況下的設(shè)施功耗水平,并根據(jù)相應(yīng)數(shù)據(jù)對IT與設(shè)施進行定位,從而確保珍貴的備用電力能在災(zāi)難發(fā)生時高效分配給最重要的環(huán)節(jié)。
技術(shù)供應(yīng)商當(dāng)然了解這一需求,他們在數(shù)據(jù)中心解決方案中加入了基準(zhǔn)電源管理機制,能夠幫助管理者查詢設(shè)備溫度及功耗水平,并利用各種監(jiān)視及控制工具把握現(xiàn)場情況。IT管理者得以借助這些創(chuàng)新技術(shù)以或簡單或復(fù)雜的方式進一步提高災(zāi)難恢復(fù)效果。一般來說,管理者至少要能夠檢查空調(diào)機組的回流空氣溫度,并收集數(shù)據(jù)中心內(nèi)各機架的單獨功耗數(shù)據(jù)。
另外,全局能源及冷卻管理方案將基礎(chǔ)設(shè)施劃分為不同單元,借以嚴(yán)格把握各服務(wù)器進風(fēng)溫度。出色的能源管理解決方案還可以匯總服務(wù)器的實時進風(fēng)溫度以及數(shù)據(jù)中心整體的功耗水平。
全局能源管理方案能為我們提供實時及遠期觀察結(jié)論。歸納得出的溫度與功耗數(shù)據(jù)可以通過整理形成發(fā)熱量及能源分配圖,幫助管理者以直觀方式把握數(shù)據(jù)中心內(nèi)的主要發(fā)熱點以及用電大戶。隨著時間的推移,這些數(shù)據(jù)將在趨勢分析工具的匯總下成為災(zāi)難規(guī)劃的重要依據(jù)。全局方案能根據(jù)實際用電數(shù)據(jù)提供非常精確的數(shù)據(jù)中心管理意見,并以此為基礎(chǔ)生成可供能源管理方案使用的理論模型。
*識別并保護高優(yōu)先級資源。擁有實時查看能源使用與溫度模式的能力,同時又具備長時間運行所積累下來的豐富數(shù)據(jù),數(shù)據(jù)中心管理者得以借此識別哪些才是停電期間最需要優(yōu)先甚至是額外保護的關(guān)鍵性資源。關(guān)鍵資源中通常包括關(guān)鍵性業(yè)務(wù)員工團隊的相關(guān)系統(tǒng)或者可能對高優(yōu)先級交易造成影響的重要應(yīng)用程序。
在日常運維的基礎(chǔ)上,監(jiān)控機制保證數(shù)據(jù)中心管理者能以更積極的姿態(tài)應(yīng)對突發(fā)情況。只有盡早發(fā)現(xiàn)高熱區(qū)域,才能在溫度達到臨界水平之前及時處理,從而最大程度減少高溫對設(shè)備及用戶服務(wù)的負(fù)面影響或者讓預(yù)先準(zhǔn)備好的預(yù)防措施有用武之地。除此之外,高度關(guān)注功耗與溫度情況還能幫助大家識別哪些硬件能耗過高,并通過系統(tǒng)更替將能耗控制在合理范圍之內(nèi)。
這類解決方案不僅改善了信息直觀度,還能夠引進更理想的電源控制機制。對電力的合理控制能夠避免停機事故--例如將溫度控制在較低水平--而且即將停機事故無法避免,方案也可以保證關(guān)鍵性業(yè)務(wù)系統(tǒng)始終擁有電力供給。作為災(zāi)難恢復(fù)解決方案的關(guān)鍵性組成部分,電源控制機制既避免本地協(xié)助設(shè)施將非必要性系統(tǒng)復(fù)制進來,也有助于實現(xiàn)可用系統(tǒng)的最大化發(fā)揮。
這里我們介紹一種粗略的功率控制方法:將功耗主要提供給高優(yōu)先級服務(wù)器及相關(guān)空氣冷卻設(shè)備,這種處理方式在任何危機下都能發(fā)揮不錯的能源節(jié)約效果。由于性能往往與功耗水平直接相關(guān),因此能源管理方案的智能化水平越高、IT人士就越能更好地以動態(tài)方式在功耗與性能之間找到平衡點。
最理想的能源管理方案會通過對實際功耗的連續(xù)監(jiān)測獲取精確數(shù)據(jù),并利用動態(tài)調(diào)整機制為CPU設(shè)定工作頻率,這才是最理想的平衡控制方式。解決方案與操作系統(tǒng)或者基于閾值警告的管理程序相交互,并最終將電力短缺狀況給應(yīng)用程序及終端用戶帶來的影響降到最低。
* 更好的災(zāi)難抵御能力。能源限制與節(jié)流機制能夠最大程度保證高優(yōu)先級業(yè)務(wù)應(yīng)用的可用性,反過來IT部門需要在電力供應(yīng)緊張時暫時禁用或者調(diào)低非關(guān)鍵性服務(wù)器的處理性能。作為對自然災(zāi)難的回應(yīng),這些控制手段能夠有效減少終端用戶與關(guān)鍵性應(yīng)用程序在災(zāi)難中受到的影響。
* 容量管理。能源管理解決方案在平衡功耗與性能之余,還能以其它方式增強基礎(chǔ)設(shè)施的災(zāi)難抵御能力。通過幫助數(shù)據(jù)中心架構(gòu)師深入了解功耗需求,這類解決方案能夠精確計算并提供理想的機架配置密度,最終在停電過程中盡量延長基礎(chǔ)設(shè)施的運行時間。這部分調(diào)整不僅能提高停電期間運轉(zhuǎn)組件的執(zhí)行效率,更能將UPS的續(xù)航壽命延長約25%--這一數(shù)字來自數(shù)據(jù)中心能源管理方案的概念驗證測試。
最大的回報
停機事件帶來的高額損失正是很多企業(yè)投資部署全局性能源管理解決方案的最大動力。然而除了應(yīng)急情況,這類方案也能從其它方面給業(yè)務(wù)系統(tǒng)帶來改善。其中最明顯的一點在于,出色的能源管理方案會始終幫助基礎(chǔ)設(shè)施實現(xiàn)能源節(jié)約,而不僅僅是在電力中斷的情況下。
事實上,我們已經(jīng)在觀察中發(fā)現(xiàn)智能化能源管理方案足以將基礎(chǔ)設(shè)施的能源消耗降低20%到40%。這還只是很保守的估計,即認(rèn)為數(shù)據(jù)中心中的服務(wù)器有10%到15%處于閑置狀態(tài)。由于典型服務(wù)器設(shè)備的運轉(zhuǎn)功率普遍為400瓦,因此每臺服務(wù)器每年光是能源成本就達到800美元以上。在運營過程中能夠限制機制降低這部分能源損耗能夠顯著減少基礎(chǔ)設(shè)施使用成本。
我們有理由提高數(shù)據(jù)中心的能源控制力度,這不僅僅是為了將能源使用成本約束在合理范圍之內(nèi)。服務(wù)器數(shù)量的不斷提升已經(jīng)令數(shù)據(jù)中心的用電開支成為運營成本中一筆不容忽視的龐大投入。大家顯然有必要在自然災(zāi)難降臨或者電費支出居高不下時考慮業(yè)務(wù)系統(tǒng)的健康運轉(zhuǎn),因此在現(xiàn)代化數(shù)據(jù)中心內(nèi)推廣全局能源管理方案擁有非常積極的現(xiàn)實意義。
原文鏈接:
http://www.networkworld.com/news/tech/2013/052013-disaster-recovery-269953.html