運維管理:尋找真正的“主動”之路
盡管IT運維管理的技術在不斷進步,但實際上,很多系統(tǒng)工程師并沒有真正解脫出來,原因并不復雜:“雖然已經(jīng)能夠獲取網(wǎng)絡設備、服務器、網(wǎng)絡流量,甚至數(shù)據(jù)庫的警告信息,但成千條警告信息堆積在一起更本沒法判斷問題的根源在哪里?”“雖然不少產(chǎn)品提供了告警過濾和壓縮,但結果卻并不盡人意”。面對這樣的抱怨,難道我們的工程師將永遠無法走出“被動的怪圈”嗎?
如今,在IT運維領域中,“主動”并不是一個新鮮的概念。幾乎所有的宣傳、產(chǎn)品、用戶、理念都在宣揚“主動”,從被動到主動管理的升華是每個企業(yè)針對信息系統(tǒng)如何提高IT服務水平、如何提高系統(tǒng)可用性、降低運維成本,實現(xiàn)IT科學性的過程。很多企業(yè)在選擇IT管理工具時將最終目標就定位在“主動”,希望業(yè)務系統(tǒng)能夠“無憂”,但真正能夠達成IT與業(yè)務融合的企業(yè)卻是很少。很多IT運維廠商都強調(diào),“傳統(tǒng)被動式”的類似“救火員”角色的IT系統(tǒng)運維方式,根本不能適應目前需求,那么企業(yè)到底怎樣才能實現(xiàn)真正的“主動”呢?
為何喪失了“主動”的先機?
在虛擬化、云計算等新興技術的刺激下,IT正在走向一種整合的發(fā)展趨勢。當然,這種整合并不局限于幾臺服務器的集群或組成1個數(shù)據(jù)中心,而是更多地指向了有序、有效地集中,但也就會導致原有的問題也會集中在一起。中國的IT工程師習慣于將工作重心放在性能而不是質(zhì)量上,放在提供支持而不是消除問題上。
在“傳統(tǒng)被動式”的管理中,就有一些技術工程師將自己查找日志而排除問題的能力拿出來炫耀,但在“業(yè)務集中之后”,這種排查日志的技能幾乎葬送了自己所有的工作時間。因此對于“問題管理”,在“集中之后”更多的企業(yè)不但需要職能的發(fā)現(xiàn)業(yè)務系統(tǒng)的問題,更是需要聯(lián)動式解決問題的辦法,實現(xiàn)減少問題發(fā)生次數(shù)的目標。將IT基礎架構內(nèi)由錯誤引起的事件和問題對業(yè)務的負面影響減到最小,并預防這些相關的事件、問題和錯誤的再度發(fā)生,這才是主動管理的精髓。
我們知道,對于IT系統(tǒng)真正的主動管理,是實現(xiàn)業(yè)務服務管理中最重要的基石之一。但有些用戶在修正現(xiàn)有的IT管理目標是比較盲目的,因為原先沒有一致而且正式的運維程序與原則,因此根本無法擬出服務等級(Service Level Agreement,SLA)。 如果沒有 SLA,實現(xiàn)業(yè)務測量運營績效與確立IT目標幾乎是不可能的,也就不可能為主動管理排出精準的規(guī)劃。
早在2003年,業(yè)內(nèi)就提出了BSM業(yè)務服務管理這一理念,將“IT與業(yè)務融合進行到底”的路線一直延續(xù)下來。但在那個時候,很多IT管理工具并沒有將業(yè)務放在***位,設計的核心沒有用業(yè)務指導網(wǎng)絡運維,因此從一開始有些人就站在了相反的起跑線上,即使用了***進的IT運維管理系統(tǒng),如今還仍然是在做底層獲取的工作,雖然擁有了海量龐雜的相關數(shù)據(jù),如果得不到提煉,則上層流程的“主動”管理必將成為空談,業(yè)務的保障和管理就會成為無本之木。
就如我們共知的那樣,IT問題的發(fā)生是必然的,但未能根據(jù)業(yè)務進行基礎監(jiān)控的用戶,將喪失在問題造成業(yè)務中斷之前,就進行防止的契機,也就喪失了“主動”的條件。
“主動”怎樣落到實處?
IT技術正在成為企業(yè)的神經(jīng)中樞,越來越多的企業(yè)希望借助IT技術這一關鍵的戰(zhàn)略資源提供對關鍵業(yè)務的支持,提升公司的競爭優(yōu)勢,進而實現(xiàn)公司的戰(zhàn)略目標。然而由于今天的IT組織面臨著諸如日益增長的基礎設施復雜性、技能方面的限制以及資金短缺等相當多的問題,因此要實現(xiàn)這一點并不容易。
就如前面說明的那樣,如果在IT系統(tǒng)中沒有出現(xiàn)問題,也就沒有告警信息,但這是不可能存在的一種假設。當所有的業(yè)務系統(tǒng)集中起來的時候,出現(xiàn)無數(shù)的警告信息實際上是非常正常的,這就如人生病一樣,很多疾病都會造成身體上多處特征的不良反應,醫(yī)生會開出多得讓你厭惡的檢查表格讓你檢查,實際上這就是瞧病過程中找到病源的過程。但這個過程越長,你就越加無法忍受。企業(yè)的業(yè)務系統(tǒng)也是如此,在問題出現(xiàn)時,不能將問題迅速歸類,不能發(fā)現(xiàn)***特征的表象,也就遲遲無法做出問題改善,“主動”也就失去了意義。
很多企業(yè)用戶都存在疑問,化繁為簡應該不能只是空談,但如何做到實踐、也就是說如何用呢?針對這樣的問題,在北塔BTIM中提出了對告警事件壓縮和智能提取的獨有技術,在告警信息管理中,北塔BTIM還包括了單點告警、復合告警、基線告警結合使用的技術優(yōu)勢,告警事件關聯(lián)抑制功能真正做到了事件根原因分析,從而準確定位事件故障源,如:某業(yè)務系統(tǒng),由于關注參數(shù)很多,為減輕工作量,平時只關注ping通是否正常,當ping告警觸發(fā)時,抑制該業(yè)務系統(tǒng)服務器的CPU、MEM告警,以免這些告警信息干擾故障源判斷,同時立刻關聯(lián)該業(yè)務系統(tǒng)核心網(wǎng)絡設備情況,再關聯(lián)該業(yè)務系統(tǒng)連接網(wǎng)絡設備端口情況,最終的結果可以發(fā)現(xiàn),是該端口為關閉狀態(tài)從而觸發(fā)了告警,原來有人誤操作關閉了該端口,激活該端口則恢復正常。由此可以看到,正是通過告警關聯(lián)與抑制方式實現(xiàn)了先進的問題根源定位能力,從而使得主動管理不再是紙上談兵。
脫離每天被繁冗的警告和報表所包圍的現(xiàn)狀,利用“主動管理”高效而清晰地描述業(yè)務系統(tǒng)的運行狀況,立即把所有的警告信息繁為簡,一目了然。IT 部門必須能夠提供追蹤問題改善狀況的評估方式,以便達成持續(xù)的改進成果,這才是“主動”的內(nèi)涵。
當你迅速地解決系統(tǒng)故障,端起一杯咖啡時,那溫暖的愜意,也許正是IT運維中關于“主動管理”一詞最直接、***說服力的解釋。