數(shù)據(jù)中心操作和維護(hù)關(guān)鍵設(shè)施的較佳實踐
如今,數(shù)據(jù)中心關(guān)鍵設(shè)施的運營和維護(hù)(O&M)被人們認(rèn)為與復(fù)雜場地的工程和設(shè)計階段同等重要。
隨著關(guān)鍵基礎(chǔ)設(shè)施的穩(wěn)健性和相關(guān)復(fù)雜性不斷提高,提高容錯能力和并行維護(hù)能力,建立強(qiáng)大的運維管理實踐來管理數(shù)據(jù)中心設(shè)施的重要性日益顯現(xiàn)。研究表明,60%或更多關(guān)鍵任務(wù)受到影響的“破壞事件”與工作人員的行為有關(guān)。這項活動包括關(guān)鍵系統(tǒng)的日常切換和重新配置、維護(hù)任務(wù),當(dāng)然還有人為錯誤。
支持?jǐn)?shù)據(jù)中心持續(xù)運營所需的員工和流程必須在其開通運營的***天就位,并且必須持續(xù)到關(guān)鍵業(yè)務(wù)運營的***一天。這就要求在設(shè)施開始運營之前就開始努力建立這些流程,***在現(xiàn)場規(guī)劃和需求定義階段開始。
數(shù)據(jù)中心的設(shè)計考慮
提高數(shù)據(jù)中心關(guān)鍵設(shè)施的高可用性通常需要部署復(fù)雜的冗余方案,例如2N、2(N+1)或甚至2(N+1)/ 3配置。即使關(guān)鍵設(shè)備或系統(tǒng)出現(xiàn)故障,也需要足夠的冗余來支持不間斷的操作。
但如果受影響的基礎(chǔ)設(shè)施沒有足夠的措施來隔離失效的設(shè)備,并且隨后在持續(xù)運行期間無法訪問、修理或更換設(shè)備,則仍會發(fā)生中斷。這意味著在操作開始之前,在數(shù)據(jù)中心設(shè)施的整個使用壽命期間維持關(guān)鍵操作的要求必須包含在設(shè)計和建造中。這就是所謂的可維護(hù)性設(shè)計。
施工、啟動和調(diào)試
數(shù)據(jù)中心設(shè)施進(jìn)行了***的規(guī)劃設(shè)計并不等同于建造過程中***的設(shè)計。需要對施工過程進(jìn)行嚴(yán)格的監(jiān)督和質(zhì)量控制,需要在施工過程中頻繁進(jìn)行現(xiàn)場進(jìn)度檢查。此外,必須由合格的技術(shù)人員進(jìn)行全面的啟動和測試,以便在設(shè)備可以通過認(rèn)證準(zhǔn)備開始關(guān)鍵操作之前進(jìn)行正式驗收測試。這一過程稱為調(diào)試,它還包括確保項目具有適當(dāng)?shù)娜藛T配備,并為工作人員提供現(xiàn)場特定培訓(xùn),并提供準(zhǔn)確的現(xiàn)場文件。
正式調(diào)試在設(shè)計階段開始(如果不是更早的話),以提供可施工性、可維護(hù)性和確保設(shè)計意圖(基于設(shè)計文檔的基礎(chǔ))符合業(yè)主對設(shè)備性能的要求和期望的審查。調(diào)試還包括不同級別的測試和驗證,其中包括工廠驗收測試、運輸和接收要求、現(xiàn)場進(jìn)度檢查、功能性和功能性性能測試,以及***的集成系統(tǒng)測試。
現(xiàn)場運行維護(hù)人員應(yīng)在整個施工、啟動和驗收測試過程中參與調(diào)試過程。這為運營維護(hù)人員提供了寶貴的,有時是***的機(jī)會,使他們能夠參與到可以學(xué)習(xí)將來在關(guān)鍵運營中負(fù)責(zé)工作的活動中。沒有比現(xiàn)在更好的機(jī)會進(jìn)行實踐培訓(xùn),并深入了解特定地點的細(xì)微差別。
運營和維護(hù)人員和組織
分配到運營和維護(hù)關(guān)鍵設(shè)施的工作人員應(yīng)該與過程的其他任何方面一樣有遠(yuǎn)見、考量和關(guān)注。運營和維護(hù)人員應(yīng)在網(wǎng)站上線之前進(jìn)行識別、組織和培訓(xùn)。一些重要的考慮因素是運營和維護(hù)網(wǎng)站需要哪些技能?這個部門應(yīng)該向誰匯報?工作人員將負(fù)責(zé)哪些工作以及將外包什么工作,包括服務(wù)級別協(xié)議?
首要問題之一應(yīng)該是:“運營和維護(hù)組織將如何區(qū)分為關(guān)鍵基礎(chǔ)設(shè)施提供運維服務(wù)的員工,還是組織涵蓋的所有關(guān)鍵和非關(guān)鍵的運維活動?”在理想情況下,專門的工作人員被指派成為負(fù)責(zé)關(guān)鍵基礎(chǔ)設(shè)施和非關(guān)鍵基礎(chǔ)設(shè)施的獨立工作人員。持續(xù)運營需要時刻保持警惕,并將重點放在關(guān)鍵的7/24的持續(xù)運營系統(tǒng)上。盡管一些發(fā)生事件可能很緊急,尤其是當(dāng)其位于非常明顯的位置時,可能會使工作人員分心,但其應(yīng)該完全專注于關(guān)鍵操作。同樣,關(guān)鍵的運營和維護(hù)預(yù)算不應(yīng)該爭奪稀缺的資源,其中可能包括辦公用具、美化環(huán)境和其他必要的支出。
運營和維護(hù)流程
關(guān)鍵設(shè)施的運營和維護(hù)不僅僅是一套程序。這是一項戰(zhàn)略,應(yīng)該包括明確的目標(biāo)和宗旨,明確的角色和責(zé)任,專注于持續(xù)運營的組織,以及足夠的資源來實現(xiàn)目標(biāo)。
數(shù)據(jù)中心最脆弱的時候是什么?在夜晚和周末,承包商、供應(yīng)商和零件是否難以抵達(dá)?或者在工作日期間,停電可能產(chǎn)生的***影響是什么?顯然,其答案與數(shù)據(jù)中心的使命有關(guān)。如果數(shù)據(jù)中心確實支持在正常工作時間內(nèi)更有價值的業(yè)務(wù)活動,就可能會得到一個答案。另一方面,如果該數(shù)據(jù)中心具有一個真正的全天候運營的任務(wù),其中星期一上午9點并不比星期六下午9點重要。
這些問題的答案可能會產(chǎn)生更多問題。例如,運營商將在哪里儲存關(guān)鍵備件?他們是否需要環(huán)境調(diào)節(jié)或日常維護(hù)?數(shù)據(jù)中心是否需要行業(yè)專家來管理復(fù)雜的監(jiān)控和控制系統(tǒng),或者操作系統(tǒng)需要什么?
哪些備件將被視為關(guān)鍵并需要在現(xiàn)場維護(hù)?需要什么工具、設(shè)備和庫存?是否會使用計算機(jī)維護(hù)管理系統(tǒng),如果是,誰來構(gòu)建和配置?
一般數(shù)據(jù)中心設(shè)施的維護(hù)方案也有很大差異,其關(guān)鍵設(shè)施趨向于高端。大多數(shù)的數(shù)據(jù)中心設(shè)施都具有一定程度的計劃維護(hù)?;跁r間間隔或頻率的常規(guī)任務(wù)被稱為預(yù)防性維護(hù)。例如,在特定的設(shè)備上,可能每月進(jìn)行一次檢查,每半年檢查一次傳送帶并進(jìn)行調(diào)整,每六個月更換一次過濾器,并每年對內(nèi)部清潔、校準(zhǔn)檢查和傳感器進(jìn)行校準(zhǔn)。這里的缺點是無論實際操作條件如何,任務(wù)都會發(fā)生。這些程序可以根據(jù)實際的設(shè)備運行時間進(jìn)行改進(jìn),但仍不考慮實際運行條件。
一項改進(jìn)是實施基于條件的監(jiān)測技術(shù),以便根據(jù)實際運行條件進(jìn)行維護(hù)。一個簡單的例子就是使用差壓傳感器來監(jiān)控過濾條件。當(dāng)過濾器加載時,Δ-P增加,并需要在適當(dāng)時更換過濾器。
當(dāng)使用這些狀態(tài)監(jiān)測技術(shù)并且數(shù)據(jù)趨于趨勢時,運營商可以提前預(yù)測何時需要進(jìn)行維護(hù)。這被稱為預(yù)測性維護(hù)??梢詾榫瘓蠛途瘓髼l件分配閾值,并且通過分析趨勢,可以預(yù)測何時會超出閾值甚至預(yù)測故障。
運行狀態(tài)監(jiān)測技術(shù)的一些技術(shù)包括振動分析、摩擦學(xué)(潤滑分析)和紅外熱掃描。這些技術(shù)可以在設(shè)備處于聯(lián)機(jī)狀態(tài)時揭示對設(shè)備運行狀況的見解,而不需要停機(jī)或中斷維護(hù)。
結(jié)論
數(shù)據(jù)中心設(shè)施運營和維護(hù)的所有方面都必須在現(xiàn)場要求的制定中盡早考慮。否則,可能會丟失機(jī)會,以將必要的運行維護(hù)要求嵌入到數(shù)據(jù)中心設(shè)施的設(shè)計和建造中。顯而易見的是,由于當(dāng)今設(shè)計、建造和使用在線關(guān)鍵設(shè)施所需的巨大資金投入,并且考慮到與這些數(shù)據(jù)中心設(shè)施相關(guān)的任務(wù)的重要性,因此,工作人員、計劃和資源等將被委托在其預(yù)定的使用壽命內(nèi)運營和維護(hù)數(shù)據(jù)中心。