北塔軟件IT運維管理:故障處理的良方
IT運維管理人員幾乎每天都在與“故障”打交道,而當業(yè)務(wù)系統(tǒng)足夠復雜的時候,僅憑“感覺”往往無法再判別出故障的根源。那么,如何才能讓IT運維管理跳出“手工作坊”階段,在故障發(fā)生時準確定位、快速修復,乃至利用更先進的IT運維管理工具避免非計劃性的停機事故呢?
“與時鐘賽跑”的故障處理
我們身處在一個高度依賴網(wǎng)絡(luò)的社會,一旦網(wǎng)絡(luò)出現(xiàn)故障,企業(yè)員工可能會無法正常工作、無法交易導致公司訂單丟失、企業(yè)可能會失去大量的客戶等等嚴重問題。然而,IT系統(tǒng)本身的復雜性、層級性和關(guān)聯(lián)性,又決定了“故障”必然存在的現(xiàn)實。不過,當故障發(fā)生時,IT運維管理人員身背著的***壓力并不是技術(shù)層面的,這來自于修復故障的“時長”。如果一筆業(yè)務(wù)不能完成的時間長達一天或者數(shù)周,就可能引發(fā)“多米諾骨牌”式的傳遞效應(yīng),最終讓企業(yè)運營遭受重創(chuàng)。
一般來說,與故障分析難度成正比的,是系統(tǒng)的復雜性。業(yè)務(wù)系統(tǒng)越復雜,涉及的設(shè)備、軟件、廠家、人員就越多,可能帶來的故障分析難度也就越大,恢復的時間也就越長。雖然,有些網(wǎng)絡(luò)故障解決辦法是相通的,人的作用非常大,但從隨時變化的網(wǎng)絡(luò)架構(gòu)和業(yè)務(wù)系統(tǒng)實際運行的復雜環(huán)境來看,解決相同現(xiàn)象的故障,方法可能迥然不同。如果我們在IT運維管理的過程中,過多的依靠個人經(jīng)驗,或者PING、TRACER等命令,都會讓排錯的時間變得不可控,并造成IT運維服務(wù)質(zhì)量停滯不前的尷尬局面。
作為國內(nèi)領(lǐng)先的IT運維管理專家,北塔軟件認為:“依靠個人能力進行運維管理有許多缺點,比如無法做到事前發(fā)現(xiàn)、無法做到準確定位、故障原因可能出現(xiàn)誤判、響應(yīng)時間慢等等。因此,要想與時間賽跑,就需要一個高效而準確的故障發(fā)現(xiàn)機制,一個能夠支撐故障分析策略的工具,這是企業(yè)建立故障處理體系的***步。”
以“路徑”為核心的故障分析方法
基于ICMP的管理,只能對服務(wù)器和網(wǎng)絡(luò)設(shè)備的連通性進行簡單性測試,在網(wǎng)絡(luò)建設(shè)階段的作用很大,但在業(yè)務(wù)逐漸復雜的管理階段就顯得力不從心了。為此,北塔軟件在其發(fā)布的北塔BTIM產(chǎn)品中包含了化解故障處理復雜性的“故障根源分析策略”、TFS管理系統(tǒng)、業(yè)務(wù)流量視圖。再復雜的系統(tǒng),都有數(shù)據(jù)行走的路線,所以北塔BTIM的三大功能設(shè)計都以“路徑”為核心,通過日常高頻度監(jiān)測少量關(guān)鍵指標,控制被管系統(tǒng)管理壓力,一旦發(fā)現(xiàn)問題,依據(jù)業(yè)務(wù)流量實際流量路徑,按分析需要逐層擴大數(shù)據(jù)采集的深度和廣度,層層深入,直達故障根源。
首先,通過TFS管理系統(tǒng),實現(xiàn)了對網(wǎng)絡(luò)設(shè)備、主機、數(shù)據(jù)庫、中間件以及應(yīng)用管理的實時監(jiān)控。管理人員在業(yè)務(wù)層就能查看所有關(guān)鍵信息,而一旦出現(xiàn)告警事件,管理人員就可以通過TFS故障診斷路徑直接定位源頭。
其次,在故障處理的操作層面,北塔BTIM提供了業(yè)務(wù)流量分布圖,它以物理拓撲為基礎(chǔ),業(yè)務(wù)流量為骨干,透明化的展現(xiàn)了業(yè)務(wù)數(shù)據(jù)在網(wǎng)絡(luò)中的真實路徑,并實時展示各路徑上的業(yè)務(wù)流量及用戶接入設(shè)備。利用業(yè)務(wù)流量的路徑圖實現(xiàn)主動監(jiān)測,更可以在龐大而復雜的網(wǎng)絡(luò)中,發(fā)現(xiàn)隱患。管理員可以對業(yè)務(wù)各關(guān)鍵路徑7X24小時監(jiān)控,通過對于各關(guān)鍵路徑的響應(yīng)時間分析,并結(jié)合支撐組件的情況進行智能梳理,可幫助運維人員直擊可能引發(fā)非計劃性宕機的隱患點。
針對故障管理,北塔軟件還提醒廣大企業(yè)用戶:傳統(tǒng)的故障處理模式只能導致出現(xiàn)問題后的被動響應(yīng),而IT運維管理部門的真正價值并不是出現(xiàn)故障之后的處理,而是在故障發(fā)生前能夠準確判斷,排除隱患,并避免故障的發(fā)生。所以,針對IT運維人員和管理者都需要的統(tǒng)計和分析方式,北塔BTIM系統(tǒng)提供了實時TOPN分析、指標歷史數(shù)據(jù)分析,以及詳細的分析報表,幫助用戶定位到IT系統(tǒng)瓶頸,及時調(diào)整策略,提前避免故障的產(chǎn)生。