運(yùn)維管理:認(rèn)清什么才是“主動(dòng)”
盡管IT運(yùn)維管理的技術(shù)在不斷進(jìn)步,但實(shí)際上,很多系統(tǒng)工程師并沒有真正解脫出來,原因并不復(fù)雜:“雖然已經(jīng)能夠獲取網(wǎng)絡(luò)設(shè)備、服務(wù)器、網(wǎng)絡(luò)流量,甚至數(shù)據(jù)庫的警告信息,但成千條警告信息堆積在一起更本沒法判斷問題的根源在哪里?”“雖然不少產(chǎn)品提供了告警過濾和壓縮,但結(jié)果卻并不盡人意”。面對(duì)這樣的抱怨,難道我們的工程師將永遠(yuǎn)無法走出“被動(dòng)的怪圈”嗎?
企業(yè)為何喪失了主動(dòng)管理的先機(jī)?
如今,在IT運(yùn)維領(lǐng)域中,“主動(dòng)”并不是一個(gè)新鮮的概念。幾乎所有的宣傳、產(chǎn)品、用戶、理念都在宣揚(yáng)“主動(dòng)”,從被動(dòng)到主動(dòng)管理的升華是每個(gè)企業(yè)針對(duì)信息系統(tǒng)如何提高IT服務(wù)水平、如何提高系統(tǒng)可用性、降低運(yùn)維成本,實(shí)現(xiàn)IT科學(xué)性的過程。很多企業(yè)在選擇IT管理工具時(shí)將最終目標(biāo)就定位在“主動(dòng)”,希望業(yè)務(wù)系統(tǒng)能夠“無憂”,但真正能夠達(dá)成IT與業(yè)務(wù)融合的企業(yè)卻是很少。
很多IT運(yùn)維廠商都強(qiáng)調(diào),“傳統(tǒng)被動(dòng)式”的類似“救火員”角色的IT系統(tǒng)運(yùn)維方式,根本不能適應(yīng)目前需求,那么企業(yè)到底怎樣才能實(shí)現(xiàn)真正的“主動(dòng)”呢?我們知道,對(duì)于IT系統(tǒng)真正的主動(dòng)管理,是實(shí)現(xiàn)業(yè)務(wù)服務(wù)管理中最重要的基石之一。但有些用戶在修正現(xiàn)有的IT管理目標(biāo)是比較盲目的,因?yàn)樵葲]有一致而且正式的運(yùn)維程序與原則,因此根本無法擬出服務(wù)等級(jí)(Service Level Agreement,SLA)。 如果沒有 SLA,實(shí)現(xiàn)業(yè)務(wù)測(cè)量運(yùn)營(yíng)績(jī)效與確立IT目標(biāo)幾乎是不可能的,也就不可能為主動(dòng)管理排出精準(zhǔn)的規(guī)劃。
早在2003年,業(yè)內(nèi)就提出了BSM業(yè)務(wù)服務(wù)管理這一理念,將“IT與業(yè)務(wù)融合進(jìn)行到底”的路線一直延續(xù)下來。但在那個(gè)時(shí)候,很多IT管理工具并沒有將業(yè)務(wù)放在***位,設(shè)計(jì)的核心沒有用業(yè)務(wù)指導(dǎo)網(wǎng)絡(luò)運(yùn)維,因此從一開始有些人就站在了相反的起跑線上,即使用了***進(jìn)的IT運(yùn)維管理系統(tǒng),如今還仍然是在做底層獲取的工作,無休止的獲取,如果得不到提煉,則必將無法實(shí)現(xiàn)上層流程的管理工作,業(yè)務(wù)的保障和管理就會(huì)成為無本之木。就如我們共知的那樣,IT問題的發(fā)生是必然的,但未能根據(jù)業(yè)務(wù)進(jìn)行基礎(chǔ)監(jiān)控的用戶,將喪失在問題造成業(yè)務(wù)中斷之前,就予以防止的契機(jī),也就喪失了“主動(dòng)”的條件。
主動(dòng)管理的前提是化繁為簡(jiǎn)
就如前面說明的那樣,如果在IT系統(tǒng)中沒有出現(xiàn)問題,也就沒有告警信息,但這是不可能存在的一種假設(shè)。出現(xiàn)無數(shù)的警告信息實(shí)際上是非常正常的,這就如人生病一樣,很多疾病都會(huì)造成身體上多處特征的不良反應(yīng),醫(yī)生會(huì)開出多得讓你厭惡的檢查表格讓你檢查,實(shí)際上這就是瞧病過程中找到病源的過程。但這個(gè)過程越長(zhǎng),你就越加無法忍受。企業(yè)的業(yè)務(wù)系統(tǒng)也是如此,在問題出現(xiàn)時(shí),不能將問題迅速歸類,不能發(fā)現(xiàn)***特征的表象,也就遲遲無法做出問題改善,“主動(dòng)”也就失去了意義。
很多企業(yè)用戶都存在疑問,化繁為簡(jiǎn)應(yīng)該不能只是空談,但如何做到實(shí)踐、也就是說如何用呢?針對(duì)這樣的問題,在北塔BTIM中提出了對(duì)告警事件壓縮和智能提取的獨(dú)有技術(shù),在告警信息管理中,北塔BTIM還包括了單點(diǎn)告警、復(fù)合告警、基線告警結(jié)合使用的技術(shù)優(yōu)勢(shì),告警事件關(guān)聯(lián)抑制功能真正做到了事件根原因分析,從而準(zhǔn)確定位事件故障源,如:某業(yè)務(wù)系統(tǒng),由于關(guān)注參數(shù)很多,為減輕工作量,平時(shí)只關(guān)注ping通是否正常,當(dāng)ping告警觸發(fā)時(shí),抑制該業(yè)務(wù)系統(tǒng)服務(wù)器的CPU、MEM告警,以免這些告警信息干擾故障源判斷,同時(shí)立刻關(guān)聯(lián)該業(yè)務(wù)系統(tǒng)核心網(wǎng)絡(luò)設(shè)備情況,再關(guān)聯(lián)該業(yè)務(wù)系統(tǒng)連接網(wǎng)絡(luò)設(shè)備端口情況,最終的結(jié)果可以發(fā)現(xiàn),是該端口為關(guān)閉狀態(tài)從而觸發(fā)了告警,原來有人誤操作關(guān)閉了該端口,激活該端口則恢復(fù)正常。由此可以看到,正是通過告警關(guān)聯(lián)與抑制方式實(shí)現(xiàn)了先進(jìn)的問題根源定位能力,從而使得主動(dòng)管理不再是紙上談兵。
脫離每天被繁冗的警告和報(bào)表所包圍的現(xiàn)狀,利用“主動(dòng)管理”高效而清晰地描述業(yè)務(wù)系統(tǒng)的運(yùn)行狀況,立即把所有的警告信息繁為簡(jiǎn),一目了然。IT 部門必須能夠提供追蹤問題改善狀況的評(píng)估方式,以便達(dá)成持續(xù)的改進(jìn)成果,這才是“主動(dòng)”的內(nèi)涵。
當(dāng)你迅速地解決系統(tǒng)故障,端起一杯咖啡時(shí),那溫暖的愜意,也許正是IT運(yùn)維中關(guān)于“主動(dòng)管理”一詞最直接、***說服力的解釋。