北塔BTIM綜合管理:事件故障管理
企業(yè)IT信息管理人員大多是多重身份,他可能既是管理者又是具體執(zhí)行者,不可能24小時緊盯監(jiān)控頁面,實時對所有運行監(jiān)控參數(shù)進(jìn)行分析。管理軟件如果能提供智能分析,幫信息管理人員及時預(yù)警故障隱患,才算是真正起到作用。BTIM系統(tǒng)從以下四個方面做了重點考慮:
事件的發(fā)現(xiàn)的范圍是不是夠廣闊,作為重要的事件管理功能拒絕漏網(wǎng)之魚是走出成功的第一步。
是否有能有一個高效而準(zhǔn)確的發(fā)現(xiàn)機(jī)制,對于事件發(fā)現(xiàn)來說,高效即時是一個很重要的指標(biāo),但是因為要即時的發(fā)現(xiàn)實件而產(chǎn)生了大量的誤高或者無用的垃圾事件,這樣的高效即時的發(fā)現(xiàn)就沒有意義了。怎么去平衡即時和準(zhǔn)確是事件發(fā)現(xiàn)機(jī)制的一個關(guān)鍵點。
事件發(fā)生后需要輸出,需要告訴相關(guān)的人員。事件輸送的時間、方式、對象等這些事件發(fā)生中需要關(guān)注的信息點是否能靈活的組合和配置是需要關(guān)注的。
事件的后續(xù)處理也應(yīng)該納入事件管理的考慮范圍。對于事件管理來說,如果系統(tǒng)能幫忙判斷一些故障,能自動定位某些故障點,甚至是能自動的解決一些常見的問題,這樣的處理方式就比較完美。最后,事件一定要和流程管理相銜接,和ITIL流程管理兼容,具有ITIL的管理思路。
1 事件廣泛監(jiān)控
對于事件來說,首先我們要關(guān)注的是事件收集的廣泛性。對于業(yè)務(wù)的事件來說,從上面的分析我們也可以看的出,沒有任何的事件可以說完全的不重要可以忽略不理會的。那既然是這樣,我們就要把所有的和業(yè)務(wù)系統(tǒng)相關(guān)的事件進(jìn)行收集,納入到系統(tǒng)層面進(jìn)行分析考慮,這樣也就要求對于事件的收集要達(dá)到事無大小,一覽無余的地步。
事件收集的對象包括了從底層的網(wǎng)絡(luò)設(shè)備、線路、流量、到主機(jī)的硬件、端口、基于主機(jī)上的操作系統(tǒng)、數(shù)據(jù)庫、中間件等等。
然后我們需要考慮的事件收集的是手段問題,在這么廣泛的事件收集中我們可以通過以下多種方式來支持事件的收集。
支持Event Log、Syslog。Window主機(jī)的Event Log和Unix、Linux主機(jī)的Syslog反應(yīng)了系統(tǒng)的運行狀況,可以及時反應(yīng)系統(tǒng)運行中的問題,系統(tǒng)支持Event Log和Syslog日志的關(guān)鍵字檢索功能,用戶可以定義自己關(guān)心的關(guān)鍵字,當(dāng)日志中出現(xiàn)相應(yīng)的關(guān)鍵字時,系統(tǒng)產(chǎn)生告警。
無代理監(jiān)控技術(shù)是真正的無代理,不需要在被管理的主機(jī)或者應(yīng)用上安裝任何的軟件。代理技術(shù)采用多種采集方式達(dá)到對網(wǎng)絡(luò)設(shè)備、機(jī)房環(huán)境、主機(jī)、應(yīng)用和數(shù)據(jù)庫的監(jiān)控,這些技術(shù)包括:
WMI
PerfMon
HTTP/HTTPS
SQL
Ping
DNS
SNMP
Secure Shell (SSH)
TELNET
JDBC
ODBC等
2 事件發(fā)現(xiàn)機(jī)制
對于事件發(fā)現(xiàn)的機(jī)制,目前我們使用的比較多的,也是比較常見的技術(shù)有兩種,一種是被動的接受,把所有的事件先接收下來,然后在進(jìn)行分析。另外一種是主動分析,把需要進(jìn)行分析的事件先安排好,讓需要分析的事件按照計劃進(jìn)行采集。下面我們比較細(xì)致的來解釋這兩種事件機(jī)制的優(yōu)點和缺點。
2.1、被動事后分析模式
被動事后分析模式是指:所有接收的事件都是系統(tǒng)被動的接受的,主動發(fā)出的在設(shè)備一方,這種工作模式比較通常的是設(shè)備以syslog或者Trip的方式把設(shè)備上所有產(chǎn)生的海量事件全部發(fā)送給接收端,接受端首先要有一個海量的存儲空間來放下這些事件信息,而且需要若干臺服務(wù)器來進(jìn)行密集的運算來分析這些事件,把這些事件進(jìn)行分析、壓縮、過濾,關(guān)聯(lián)等等動作。
這種事件處理的模式典型的優(yōu)點就是接受的事件全,基本上發(fā)生過的事件都沒有遺漏的接收了下來。有利用后期的分析,特別是對一些不可預(yù)知事件的分析。但是缺點也是很明顯的對于投資特別大,隨著設(shè)備增加,會對網(wǎng)絡(luò)的負(fù)荷,存儲空間的大小,事件處理服務(wù)器的運算能力都有極高的要求。而且這類分析模式由于事件的雜亂性,后期的分析效率比較低,容易造成事件風(fēng)暴來困擾管理人員。
這類事件處理方式主要用于對于事件需要進(jìn)行精細(xì)分析,而對于投資并不敏感的用戶,例如:電信運營商等。
2.2、主動分析事件模式
主動分析事2.件模式是指:在系統(tǒng)預(yù)先建立好事件的發(fā)現(xiàn)模式,根據(jù)管理人員的要求,主動的去采集一些事件,然后進(jìn)行分析。這類處理模式發(fā)起端通常在事件處理中心以SNMP輪詢的方式通過一個或者多個線程來進(jìn)行事件采集。把這些數(shù)據(jù)采集回來以后,然后再由事件中心進(jìn)行事件分析,關(guān)聯(lián),壓縮等等動作。
這類事件處理模式的優(yōu)點是,事件的產(chǎn)生量小,對于資源的效率量大大的降低。而且由于是預(yù)先建立的事件發(fā)現(xiàn)模式,對于分析這些事件相對效率提高很多,最明顯的優(yōu)點是簡單、明確。這類事件處理模式的缺點恰恰是被動事后分析模式的優(yōu)先,由于是預(yù)先定義的事件采集模式,并不是所有的事件都進(jìn)行采集,這樣就有可能會產(chǎn)生遺漏。
這類事件處理方式主要用于對于事件需要進(jìn)行廣度分析,對于事件的類型并不是太復(fù)雜,基本通過工作中的經(jīng)驗推斷一些事件的發(fā)生的。例如:企業(yè)用戶等。
3 靈活的事件輸出
事件發(fā)生后,的事件輸出最為重要的是通知相關(guān)的人員,這是整個事件輸出的首要任務(wù)。在這個前提下事件中心應(yīng)提供靈活的報警定義,可滿足各種業(yè)務(wù)需求。管理人員可以根據(jù)監(jiān)控需要,定義故障事件是否觸發(fā)報警、發(fā)送給哪個角色或人員、以及發(fā)送的時間段、發(fā)送的內(nèi)容等等 。用戶還可設(shè)置多種報警方式,當(dāng)事故發(fā)生時,不僅以傳統(tǒng)方式習(xí)慣的彈出式窗口方式來進(jìn)行通知用戶,還可通過短信、語音、郵件等多種報警方式,全面及時的通知用戶。這樣就覆蓋到客戶的對于事件輸出的個性話需要,管理人員可以自由的組合某個事件告警可以在不同的時間范圍內(nèi),通過不同的輸出方式,給到不同的人員,顯示出不同的事件描述語句。甚至是在管理人員在未確認(rèn)接受到事件的情況下,事件能定時重復(fù)送達(dá),以保證相應(yīng)的管理人員能收到事件內(nèi)容。
4 事件的后續(xù)處理機(jī)制
4.1、提供處理意見
事件通知到管理員后能,按照通常的做法只是提高一個事件的內(nèi)容就完成了事件告知的任務(wù),但是從管理的角度上來說,都經(jīng)常說要提供一個知識庫之類的說法,但是這種知識庫都是結(jié)合在系統(tǒng)中的,還需要管理人家進(jìn)行檢索和查詢并進(jìn)行分析后才能找到相應(yīng)的解決方案。但是我們換一個思路來想問題,如果在事件的告知的同時系統(tǒng)就能夠提供出相應(yīng)的事件處理意見將會為管理人員節(jié)省大量的時間,能夠更高效率的處理問題。
4.2、主動定位故障位置
當(dāng)我們了解到業(yè)務(wù)服務(wù)發(fā)生故障的時候,首先我們是想是不是能快速的進(jìn)行故障的定位處理,只有故障進(jìn)行了準(zhǔn)確的定位。接下來才有可能談起故障的排除和恢復(fù)。
對于故障的定位,我們最長見的做法可能是直觀的看告警信息,當(dāng)然這對于一些比較容易判斷比較簡單的故障可以這樣看待。例如:某設(shè)備的溫度過高,直接的處理辦法就是調(diào)整這個區(qū)域的空調(diào)的溫度控制值,以達(dá)到合理的工作范圍。這樣的判斷是最簡單的,但是不幸的是經(jīng)過統(tǒng)計這樣簡單的判斷在整個事件處理的比例里面占有不到15%。
更多故障是無法通過告警信息來進(jìn)行判斷的,是要通過管理人員的經(jīng)驗和排查才能解決這些看似乎簡單的問題。
4.3、自動啟動應(yīng)急預(yù)案
事件的發(fā)生是復(fù)雜的,但是又是具有一定的規(guī)類的。在實際的運維工作當(dāng)中發(fā)現(xiàn)在一些特定的事件發(fā)生后,只要制定相應(yīng)的結(jié)合應(yīng)急預(yù)案就能在第一事件內(nèi)通過一些自動化的手段來快速的恢復(fù)服務(wù)的問題。
特點:
支持監(jiān)控密度可更改的各類信息點監(jiān)控,包括所有可訪問的SNMP MIB信息點,包括所有BTIM 支持的各類應(yīng)用、主機(jī)、中間件、數(shù)據(jù)庫參數(shù)點
支持針對性附加解決方案,支持定義事件的影響度、緊急度
提供接口規(guī)范,支持第三方事件檢測程序的聯(lián)入
支持事件的過濾
支持各類檢測手段的組合判斷,預(yù)置事件分析方法
通過告警關(guān)聯(lián)與抑制,提供更廣泛的層次化高級智能事件分析能力
支持多渠道(語音、短信、E_mail、屏幕、第三方程序)的故障告警輸出,不同對象、不同時段通過不同渠道可以得到附加處理意見的不同事件告警信息
支持事件直接驅(qū)動預(yù)置處理,聯(lián)動故障斷網(wǎng)隔離處理
除支持門限式事件檢測外,BTIM 支持基線告警管理