IT運維管理如何擺脫“不怕壞,就怕慢”的魔咒?
IT運維工程師之間一直流傳著“不怕壞,就怕慢”的魔咒。如果是網(wǎng)絡(luò)發(fā)生信息不通、網(wǎng)頁不能瀏覽等連通性故障,運維排錯的任務(wù)并不困難??僧斁W(wǎng)絡(luò)連通性并無問題,業(yè)務(wù)系統(tǒng)的響應(yīng)和訪問速度卻在一步一步變慢,IT運維人員就很難處理這種“軟故障”。
對此,作為國內(nèi)領(lǐng)先的IT運維管理專家,北塔軟件認為:管理員應(yīng)***限度的保障數(shù)據(jù)中心的運行效率,不能讓“軟故障”成為阻礙用戶應(yīng)用的屏障。管理者應(yīng)站在業(yè)務(wù)應(yīng)用的全局角度上指導(dǎo)運維細節(jié),建立業(yè)務(wù)系統(tǒng)與基礎(chǔ)網(wǎng)絡(luò)的映射關(guān)系,使用更先進的IT運維管理分析方法和手段,盡量縮短排除故障的時間,進而提升服務(wù)的質(zhì)量和用戶的體驗效果。
案例分析:被“怪病”纏身的服務(wù)器
小劉,是一家大型企業(yè)的運維工程師,但他最近遇到了一種“網(wǎng)絡(luò)怪病”。業(yè)務(wù)部門反映,已經(jīng)上線4年多的CRM(客戶關(guān)系管理)系統(tǒng)常常出現(xiàn)訪問異常緩慢,用戶終端需要反復(fù)刷新頁面,有時還會出現(xiàn)徹底無法訪問(訪問超時)的問題。另外,還有些業(yè)務(wù)人員反映,在更新用戶聯(lián)系信息后,已經(jīng)被更改的用戶資料并沒有得到更新。而且,這些問題已經(jīng)被反映到集團老板那里,IT運維部門的領(lǐng)導(dǎo)帶著一臉沮喪,要求他迅速查出原因,因為CRM系統(tǒng)的“怪病”嚴重影響了公司業(yè)務(wù)處理的效率。
小劉采用的多種方法開始排查故障的源頭,例如:業(yè)務(wù)部門PC終端故障、檢查服務(wù)器端的性能、找程序開發(fā)人員挖BUG、檢查數(shù)據(jù)庫、檢查交換機、給服務(wù)器殺毒、翻閱之前的所有日志、架上流量監(jiān)控軟件……花費了大量的時間,最終也只是找到故障根源可能存在的方向。因為在拔掉交換機上鏈接服務(wù)器的線纜后, FCS幀就會瞬間減少。這應(yīng)該是網(wǎng)卡損壞(包括協(xié)議、驅(qū)動、硬件)故障或者連接服務(wù)器的網(wǎng)線(包括RJ45頭)部分出現(xiàn)了問題,但排除問題所消耗的時間實在讓人無法忍受。
北塔軟件認為:雖然小劉已經(jīng)知道了“方向”,但這種拖延的后果,無疑還是把矛頭指向了IT運維部門的服務(wù)質(zhì)量。業(yè)務(wù)系統(tǒng)反應(yīng)越來越慢的現(xiàn)象,對于系統(tǒng)維護部門的壓力將直接集中在故障恢復(fù)的時效性上。因此,IT運維管理應(yīng)該利用主動發(fā)現(xiàn)的智能機制,以業(yè)務(wù)為核心建立一體化的管理體系,才能避免這種“軟故障”在數(shù)據(jù)中心的為非作歹。
北塔BTIM三步解決“軟故障”
業(yè)務(wù)系統(tǒng)是一個整體,造成其緩慢的原因會由多種因素組成,如果利用OSI模型排錯,一層一層的來,勢必影響故障定位的效率。那么,利用支持業(yè)務(wù)服務(wù)管理(BSM)的工具是否能夠?qū)崿F(xiàn)更簡單有效的故障分析呢?下面以北塔BTIM(Betasoft Integrated Management,IT綜合管理軟件)為例,看看另外一種解決這種軟故障的方式:
第1步:利用北塔BTIM,分別對監(jiān)控對象設(shè)置事件觸發(fā),特別是性能閥值監(jiān)控這些最容易出問題的地方,形成設(shè)備層面的性能監(jiān)控;
第2步:把業(yè)務(wù)系統(tǒng)涉及的每一個對象都合并起來,將所有運維監(jiān)控對象按照業(yè)務(wù)訪問路徑綜合起來,形成綜合業(yè)務(wù)視圖,并讓讓整體性能和用戶體驗關(guān)聯(lián)起來。
第3步:北塔BTIM會智能的發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)緩慢,***時間通知管理員,而“BTIM故障根源分析策略”便可幫助管理員依據(jù)實體業(yè)務(wù)流分析邏輯,逐層擴大數(shù)據(jù)采集的深度和廣度,層層深入,直達故障根源。
如今,IT運維一體化、智能化管理已是大家普遍關(guān)注的熱門話題,那些傳統(tǒng)分散式、粗粒度、低效率的IT運維管理模式已經(jīng)難以滿足大規(guī)模、多層級、全覆蓋的運維管理需求。所以,通過建立與IT架構(gòu)、管理模式等相適應(yīng)的業(yè)務(wù)服務(wù)模型,不但能夠清晰地描述業(yè)務(wù)與IT之間的關(guān)聯(lián),更能讓主動運維的IT人不懼怕這種“軟故障”,進而幫助IT管理人員和業(yè)務(wù)部門形成合力。