科來:能源行業(yè)倉庫管理系統(tǒng)故障分析
概述
當(dāng)用戶發(fā)現(xiàn)企業(yè)內(nèi)某些應(yīng)用系統(tǒng)故障時(shí),多數(shù)時(shí)候***反應(yīng)就是網(wǎng)絡(luò)出現(xiàn)了故障。網(wǎng)絡(luò)管理人員通過常規(guī)的手段又不能找到證明網(wǎng)絡(luò)正常的證據(jù),也不能定位應(yīng)用系統(tǒng)故障的原因,這時(shí)就需要用到網(wǎng)絡(luò)分析類的產(chǎn)品,對(duì)鏈路及應(yīng)用進(jìn)行長期監(jiān)控,完整還原故障數(shù)據(jù),能夠最快的分析出網(wǎng)絡(luò)及應(yīng)用的故障。
科來回溯分析系統(tǒng)能夠透視網(wǎng)絡(luò)流量、分析完整應(yīng)用會(huì)話,從而快速判斷應(yīng)用故障的根本原因。以下就是通過科來回溯分析系統(tǒng)快速定位業(yè)務(wù)系統(tǒng)故障的案例。
案例分析
某能源集團(tuán)倉庫管理系統(tǒng)對(duì)整個(gè)倉儲(chǔ)環(huán)節(jié)實(shí)施全過程控制管理,倉儲(chǔ)在企業(yè)的整個(gè)供應(yīng)鏈中起著至關(guān)重要的作用, 但是廠區(qū)的內(nèi)多個(gè)用戶能夠通過客戶端打開倉儲(chǔ)管理系統(tǒng)時(shí)能夠正常登陸,但在進(jìn)行查詢庫存量等操作時(shí)經(jīng)常出現(xiàn)“卡死“狀態(tài)。嚴(yán)重的影響了工作效率。
網(wǎng)絡(luò)管理人員通過分析用戶的操作方式、查看防火墻策略、查看交換機(jī)工作狀態(tài)、更換出現(xiàn)故障的多個(gè)用戶線路等多種常規(guī)方法,歷時(shí)1個(gè)多月的時(shí)間,最終還是未能確定問題原因。
我們通過在用戶接入交換機(jī)上部署科來網(wǎng)絡(luò)回溯分析系統(tǒng),實(shí)時(shí)抓取用戶訪問倉儲(chǔ)管理系統(tǒng)的流量,分析可能的故障原因。
如上圖,可以說明網(wǎng)絡(luò)傳輸效率很好。數(shù)據(jù)傳輸過程數(shù)據(jù)傳送也十分迅速,不存在大量丟包的問題。
如上圖,我們定位到發(fā)生問題的TCP會(huì)話,發(fā)現(xiàn)在服務(wù)器向客戶端發(fā)送完數(shù)據(jù)之后,客戶端立即向服務(wù)器端發(fā)送了RST(重置)數(shù)據(jù)包,中斷了TCP會(huì)話。
至此我們基本可以判斷倉庫管理系統(tǒng)故障主要是由客戶端的異常中斷造成的。
找到問題的根源后,我們找到了經(jīng)常出現(xiàn)問題的幾臺(tái)用戶PC,通過完全刪除客戶端程序后重新下載安裝客戶端的方法,徹底解決了倉庫管理系統(tǒng)的的故障現(xiàn)象。
案例總結(jié)
由于業(yè)務(wù)系統(tǒng)情況復(fù)雜,可能出現(xiàn)問題的節(jié)點(diǎn)較多,使用常規(guī)分析手段不能夠快速的找到問題根源,同時(shí)增加了很多排障的時(shí)間及人力成本。但通過上述案例可以看出,該應(yīng)用問題困擾了用戶一個(gè)月的時(shí)間,但通過部署科來網(wǎng)絡(luò)回溯分析系統(tǒng)只用了短短幾分鐘的時(shí)間就能夠快速找到問題根源,解決了用戶的燃眉之急。