透過現(xiàn)象抓本質(zhì),看北塔BTNM如何解決銀行網(wǎng)絡(luò)運(yùn)維難題
近年來隨著我國加入WTO,國內(nèi)銀行特別是長期處于政府保護(hù)之中的國有商業(yè)銀行,面臨的競爭壓力是越來越大。除了外資銀行不斷引入的挑戰(zhàn)外,國有商業(yè)銀行改革的挑戰(zhàn)也是不能忽視。如何提升國有商業(yè)銀行的戰(zhàn)斗力呢?大多數(shù)人都認(rèn)為還是要提升銀行的服務(wù)水平入手,只有保障良好的金融網(wǎng)絡(luò)運(yùn)行環(huán)境,才能提高銀行自身的生存能力。作為IT運(yùn)維管理專家,北塔軟件針對金融行業(yè)提供了專業(yè)的運(yùn)維管理解決方案,為維護(hù)良好的金融網(wǎng)絡(luò)運(yùn)行環(huán)境做出了優(yōu)異的成績和應(yīng)有的貢獻(xiàn)。
下面我們舉例一個(gè)北塔軟件在某銀行的金融網(wǎng)絡(luò)中發(fā)現(xiàn)問題和排查問題的過程:
告警描述:某銀行網(wǎng)絡(luò)出現(xiàn)故障,多臺(tái)交換設(shè)備不能獲取SNMP信息,發(fā)生告警;伴隨著一些業(yè)務(wù)有連接振蕩現(xiàn)象(連接時(shí)通時(shí)不通)。
管理人員立即啟用北塔BTNM進(jìn)行了層層深入的剖析,并最終發(fā)現(xiàn)了問題的根源所在:
某銀行的網(wǎng)絡(luò)架構(gòu)圖
第一回合:
問題分析:出現(xiàn)問題的設(shè)備型號(hào)不一致、網(wǎng)絡(luò)所在位置不相同,沒有固定規(guī)律,管理員懷疑是網(wǎng)管機(jī)中病毒的原因,導(dǎo)致處理數(shù)度緩慢不能接收某些交換機(jī)SNMP信息。
測試手段:管理員更換新安裝網(wǎng)管軟件的網(wǎng)管機(jī)。
結(jié)果:問題依舊,有問題的交換機(jī)還有取不到數(shù)據(jù),正常的交換機(jī)取數(shù)仍然正常。
第二回合:
問題分析:網(wǎng)管機(jī)沒有病毒,管理員考慮是否監(jiān)控設(shè)備數(shù)量過多,導(dǎo)致處理數(shù)度緩慢不能接收某些交換機(jī)SNMP信息。
測試手段:于是減少了網(wǎng)管機(jī)的監(jiān)控設(shè)備數(shù)量(只監(jiān)控核心路由B、存在故障和無故障的營業(yè)點(diǎn)交換機(jī)各一臺(tái))。
測試結(jié)果:問題依舊,
第三回合:
問題分析:在排除網(wǎng)管機(jī)中毒的可能性后,問題還是回到網(wǎng)絡(luò)層面上來。管理員陷入了沉思,在過往的工作經(jīng)驗(yàn)中有因防火墻不能處理過多SNMP包,而導(dǎo)致丟包現(xiàn)象,或許是這個(gè)原因?
測試手段:管理員更改了線路連接方法,讓網(wǎng)管機(jī)直接連接到有問題的“核心路由B”上。
測試結(jié)果:“核心路由B”能夠獲取SNMP數(shù)據(jù),但是營業(yè)點(diǎn)的交換機(jī)還是存在故障的不能取到數(shù)據(jù),正常交換機(jī)沒有異常,一樣能取到數(shù)據(jù)。
第四回合:
問題分析:防火墻導(dǎo)致丟包可能性被排除后,問題落在“核心路由B”上了,設(shè)備“核心路由B”以前一直能夠奪取到SNMP數(shù)據(jù),最近沒有作過IOS升級(jí),不可能是設(shè)備的自身問題;
如果設(shè)備“核心路由B”真的有問題,是否表示只要經(jīng)過該設(shè)備,進(jìn)行數(shù)據(jù)交換的營業(yè)點(diǎn)交換機(jī)就出現(xiàn)問題呢?
測試手段:管理員通過靜態(tài)路由方式,讓存在故障的營業(yè)點(diǎn)交換機(jī)的路由,通過“核心路由A”來交換,同時(shí)再讓正常工作的營業(yè)點(diǎn)交換機(jī)的路由,通過“核心路由B”來交換。
測試結(jié)果:好的營業(yè)點(diǎn)交換機(jī)通過有問題的“核心路由B” 來交換數(shù)據(jù),變壞了;有問題的營業(yè)點(diǎn)交換機(jī)通過好的“核心路由A”來交換,故障消失。
第五回合:
問題分析:問題已經(jīng)鎖定在設(shè)備“核心路由B”上,那樣到底是設(shè)備“核心路由B”的處理能力問題?還是訪問列表等配置問題呢?
測試手段:查看CPU處理值,查看訪問列表
測試結(jié)果:CPU只有19%的占用率,不是性能問題。網(wǎng)管員只能查看數(shù)百條的訪問列表配置了,最終還是找到了有沖突的訪問列表,修正后所有的設(shè)備SNMP取數(shù)回復(fù)正常。
問題總結(jié):由于網(wǎng)絡(luò)管理員過多使用訪問列表,或使用訪問列表不當(dāng),導(dǎo)致出現(xiàn)上述問題,通常這種“軟故障”是最難處理的,但是在通過北塔軟件有效的監(jiān)控手段下,是能夠及時(shí)的發(fā)現(xiàn)這種“軟故障”。并且還通過北塔BTNM網(wǎng)絡(luò)拓?fù)鋱D,管理人員能夠快速定位哪些設(shè)備同時(shí)出現(xiàn)了該問題,并快速判斷這些設(shè)備是否在同一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)層面上,是否同型號(hào)的設(shè)備等數(shù)據(jù)分析結(jié)論。
所以說,北塔BTNM不但能夠自動(dòng)地發(fā)現(xiàn)網(wǎng)絡(luò)上地問題,還能夠?yàn)楣芾砣藛T提供數(shù)據(jù)分析,并最終圓滿解決問題,成為管理人員保障好金融網(wǎng)絡(luò)系統(tǒng)的得力助手。北塔BTNM從網(wǎng)絡(luò)管理的角度提升了科技競爭實(shí)力,有力推動(dòng)了國內(nèi)商業(yè)銀行的信息化建設(shè)。