2012春節(jié)長假IT系統(tǒng)運維支招之管理篇
春節(jié)將近,辛苦勞作一整年的IT人終于可以著手準(zhǔn)備期待已久的春節(jié)長假,或收拾行裝準(zhǔn)備回家或約上幾多好友安排春節(jié)娛樂項目,工作隨著年關(guān)將近開始放松下來。春節(jié)長假的到來不僅對于人來說,對于IT系統(tǒng)、設(shè)備也可以適當(dāng)進(jìn)入短暫難得的休息階段。然而越是這種輕松的環(huán)境,越容易釀成大問題,過去血粼粼的教訓(xùn)教導(dǎo)我們無論是對人還是對設(shè)備都要做好經(jīng)受無人值守考驗的準(zhǔn)備。
很多企業(yè)會建立規(guī)?;虼蠡蛐〉臋C房以承載為業(yè)務(wù)部門服務(wù)的應(yīng)用,長假期間雖說大部分的企業(yè)業(yè)務(wù)部門都放假,很多企業(yè)為了響應(yīng)和倡導(dǎo)節(jié)能減排的綠色I(xiàn)T會選擇讓IT系統(tǒng)都進(jìn)入停機狀態(tài),但是還是有很多行業(yè)無法進(jìn)入完全停機的狀態(tài),較為明顯的是金融銀行業(yè)、石油業(yè)、通信業(yè)、電商等其他要求在線服務(wù)的行業(yè)都無法完全進(jìn)入休假狀態(tài)。有這么多無法暫停的業(yè)務(wù)造成了如今IT系統(tǒng)運維在長假期間的難度,面對這樣的困難IT經(jīng)理與高層領(lǐng)導(dǎo)年復(fù)一年的忙于應(yīng)付。長此以往,很難保證IT系統(tǒng)的運維工作穩(wěn)定與高效。
重新認(rèn)識系統(tǒng)運維
無論工作日還是長假我們都要清楚的認(rèn)識到IT運維所包含的內(nèi)容和范圍,當(dāng)然每個企業(yè)都有不同的業(yè)務(wù)模式,IT系統(tǒng)的運維內(nèi)容會有所不同,但是廣義上對于IT系統(tǒng)運維理論指導(dǎo)則包含八個主要方面。
1.設(shè)備管理,主要是對網(wǎng)絡(luò)設(shè)備、服務(wù)器設(shè)備、操作系統(tǒng)運行狀況進(jìn)行監(jiān)控和管理;
2.應(yīng)用/服務(wù)管理,包括各種應(yīng)用支持軟件如數(shù)據(jù)庫、中間件、群件以及各種通用或特定服務(wù)的監(jiān)控管理,如郵件系統(tǒng)、DNS、Web等的監(jiān)控與管理;
3.數(shù)據(jù)/存儲/容災(zāi)管理,主要針對系統(tǒng)和業(yè)務(wù)數(shù)據(jù)進(jìn)行統(tǒng)一存儲、備份和恢復(fù);
4.業(yè)務(wù)管理,包含對企業(yè)自身核心業(yè)務(wù)系統(tǒng)運行情況的監(jiān)控與管理,對于業(yè)務(wù)的管理, 主要關(guān)注該業(yè)務(wù)系統(tǒng)的 CSF(關(guān)鍵成功因素 Critical Success Factors)和KPI(關(guān)鍵績效指 標(biāo)Key Performance Indicators);
5.目錄/內(nèi)容管理,該部分主要對于企業(yè)需要統(tǒng)一發(fā)布或因人定制的內(nèi)容管理和對公共信息的管理,如企業(yè)門戶發(fā)布的對公對私的公告、行文等;
6.資源資產(chǎn)管理,管理企業(yè)中各 IT 系統(tǒng)的資源資產(chǎn)情況,這些資源資產(chǎn)可以是物理存在的,也可以是邏輯存在的;
7.信息安全管理,目前信息安全管理根據(jù)國際標(biāo)準(zhǔn)涵蓋了信息安全管理的十大控制方面,36個控制目標(biāo)和 127種控制方式,如企業(yè)安全組織方式、資產(chǎn)分類與控制、人員安全、物理與環(huán)境安全、通信與運營安全、訪問控制、業(yè)務(wù)連續(xù)性管理等;
8.日常工作管理,主要用于規(guī)范和明確運維人員的崗位職責(zé)和工作安排、提供績效考核量化依據(jù)、提供解決經(jīng)驗與知識的積累與共享手段.
IT系統(tǒng)運維是一項系統(tǒng)的工程,內(nèi)容雖然繁多,不是三言兩語的簡單描述就可盡收與本文。理論畢竟是對具體工作的指導(dǎo),但明確了工作的重要性和復(fù)雜度,能更好的幫助企業(yè)規(guī)劃自身的運維工作,尤其是長假期間運維工作。
盤點系統(tǒng)、設(shè)備,規(guī)劃運維點
平日中IT系統(tǒng)的運維工作縱然有完善的巡查、記錄體系,但遇到長假運維人員不能像正常工作日一樣不停的關(guān)注系統(tǒng)運行的狀態(tài),因此需要徹底清點盤查系統(tǒng)和設(shè)備。清點不意味著簡單計數(shù),常見的有以下幾方面:
1.盤點計數(shù),包括有多少套應(yīng)用/服務(wù)在運行中,多少應(yīng)用可以再長假期間停止服務(wù)。另外,還應(yīng)業(yè)務(wù)系統(tǒng)中流轉(zhuǎn)的業(yè)務(wù)流程數(shù)等能夠量化的業(yè)務(wù)數(shù)據(jù);
2.盤點狀態(tài),主要針對應(yīng)用/服務(wù)和設(shè)備兩方面,前者在停機前是否是完整系統(tǒng)、版本號、是否在此次停機過程中部署更新等狀態(tài)信息,后者主要記錄硬件設(shè)備環(huán)境及運行狀態(tài)如內(nèi)存、硬盤狀態(tài)是否有損壞更換等;
3.規(guī)劃壓力調(diào)整設(shè)備投入,根據(jù)業(yè)務(wù)在長假期間不間斷服務(wù)要求,結(jié)合平時休息日業(yè)務(wù)系統(tǒng)的壓力進(jìn)行預(yù)估,規(guī)劃設(shè)備投入量保證業(yè)務(wù)不間斷的基本要求。
4.規(guī)劃運維等級和工作分?jǐn)偅凑展ぷ魅照_\維工作等級適當(dāng)調(diào)整級別和工作分配,將必要運維工作進(jìn)行分?jǐn)偅M量減少人員的直接占用。
5.規(guī)劃設(shè)備檢修更換,針對硬件設(shè)備的更換在很多要求IT服務(wù)7*24小時的企業(yè)中多半會在夜間進(jìn)行,也有的設(shè)備因為應(yīng)用的重要性和壓力等原因在某些硬件設(shè)備允許的情況下是帶病工作的,因此可以規(guī)劃長假前將存在隱患的硬件設(shè)備進(jìn)行維護與更換。
6.規(guī)劃UPS承載,UPS全稱Uninterruptible Power Supply顧名思義不間斷電源,在長假期間難免遇到突發(fā)情況,UPS的作用不言而喻。因為在工作日服務(wù)器全部運轉(zhuǎn)情況下UPS可能維持幾十分鐘或幾小時,而在長假期間能夠保證多少臺服務(wù)器運轉(zhuǎn)多少時間是需要根據(jù)實際情況重新計算并規(guī)劃的。#p#
案例分析:
圖1是國內(nèi)某出版機構(gòu)在很多IT系統(tǒng)中邏輯結(jié)構(gòu)比較線性的“圖書資源管理與發(fā)布系統(tǒng)”的邏輯模型,其中最前端的是“發(fā)布與存儲系統(tǒng)”采用2U服務(wù)器掛載磁盤陣列服務(wù)器的簡單模式實現(xiàn)。工作日期間該完整系統(tǒng)的維護人員保持4人左右的團隊規(guī)模,而長假期間經(jīng)過盤點發(fā)現(xiàn):
1.長假期間資源數(shù)據(jù)來源停止轉(zhuǎn)換數(shù)據(jù);
2.資源維護系統(tǒng)無新數(shù)據(jù)可維護,老數(shù)據(jù)可以安排長假結(jié)束繼續(xù)完成,系統(tǒng)可以暫停;
3.三方數(shù)據(jù)公司屬于第三方機構(gòu)無法安排加班等因此無介入數(shù)據(jù),系統(tǒng)也可暫停;
因此,只有“發(fā)布與存儲系統(tǒng)”和“安全監(jiān)控系統(tǒng)”需要運行。而“安全監(jiān)控系統(tǒng)”又與機房內(nèi)其他應(yīng)用服務(wù)的監(jiān)控是整體部署,由于業(yè)務(wù)需要前端系統(tǒng)需要保證長假期間不間斷服務(wù),因此實際上僅需要單獨維護“發(fā)布與存儲系統(tǒng)”。如果沒有盤點確實很難在眾多系統(tǒng)中正確辨明真正需要長假期間維護的系統(tǒng)。
▲圖 1出版機構(gòu)資源管理系統(tǒng)
總之,IT系統(tǒng)運維是一項系統(tǒng)工程,按照IT運維理論中要求的其實遠(yuǎn)不止上述6點需要盤點規(guī)劃的地方,但是企業(yè)是經(jīng)營之所,要根據(jù)自身情況平衡長假期間投入的資源能力而量力而行。切忌長假期間沒有業(yè)務(wù)使用但仍然開機運行不予維護,很多安全問題尤其是信息安全重大問題往往就在這個時刻發(fā)生,所以長假期間的盤點與規(guī)劃是必須落實的。本文僅以盤點軟件應(yīng)用和硬件設(shè)備方面拋磚引玉,后續(xù)會有更詳細(xì)分析與落實的報道,讓長假成為IT運維工作的一個部分,長假前不再讓運維部門抓耳撓腮,長假中不再讓運維部門從上到下忐忑不安。
【編輯推薦】