利用科來(lái)網(wǎng)絡(luò)回溯分析技術(shù)診斷網(wǎng)絡(luò)設(shè)備異常丟包故障
作者:佚名
某大型集團(tuán)公司縣公司信息內(nèi)網(wǎng)PC在訪問(wèn)省公司業(yè)務(wù)和市公司業(yè)務(wù)時(shí)間歇性出現(xiàn)訪問(wèn)連接非常慢的情況,以及使用內(nèi)網(wǎng)PC對(duì)省公司DNS服務(wù)器和市公司官網(wǎng)IP持續(xù)ping操作時(shí)出現(xiàn)不定時(shí)丟包現(xiàn)象,但縣公司訪問(wèn)其內(nèi)部服務(wù)器并無(wú)故障現(xiàn)象。訪問(wèn)連接慢嚴(yán)重影響信息內(nèi)網(wǎng)的正常業(yè)務(wù)交互,尤其是營(yíng)銷部門對(duì)省公司收費(fèi)系統(tǒng)服務(wù)器的請(qǐng)求訪問(wèn)。
案例背景
某大型集團(tuán)公司縣公司信息內(nèi)網(wǎng)PC在訪問(wèn)省公司業(yè)務(wù)和市公司業(yè)務(wù)時(shí)間歇性出現(xiàn)訪問(wèn)連接非常慢的情況,以及使用內(nèi)網(wǎng)PC對(duì)省公司DNS服務(wù)器和市公司官網(wǎng)IP持續(xù)ping操作時(shí)出現(xiàn)不定時(shí)丟包現(xiàn)象,但縣公司訪問(wèn)其內(nèi)部服務(wù)器并無(wú)故障現(xiàn)象。訪問(wèn)連接慢嚴(yán)重影響信息內(nèi)網(wǎng)的正常業(yè)務(wù)交互,尤其是營(yíng)銷部門對(duì)省公司收費(fèi)系統(tǒng)服務(wù)器的請(qǐng)求訪問(wèn)。
網(wǎng)絡(luò)拓?fù)鋱D,如圖1:
圖 1某大型企業(yè)網(wǎng)絡(luò)拓?fù)鋱D
將科來(lái)網(wǎng)絡(luò)回溯分析系統(tǒng)旁路接入到縣公司信息內(nèi)網(wǎng)的核心交換機(jī)上,由于故障發(fā)生的間歇性需要對(duì)縣公司到市公司的主干出口流量做長(zhǎng)時(shí)間捕獲。并利用科來(lái)網(wǎng)絡(luò)分析系統(tǒng)不間斷的捕獲市公司核心交換機(jī)與C路由器的下行接口流量。利用對(duì)比分析法,在故障發(fā)生時(shí)段,分別對(duì)兩處捕獲到的流量做精確分析。
案例分析
一、出口流量分析
通過(guò)科來(lái)網(wǎng)絡(luò)回溯分析系統(tǒng)對(duì)通訊流量的長(zhǎng)時(shí)間存儲(chǔ),我們對(duì)故障時(shí)段的通訊流量進(jìn)行故障重現(xiàn)。我們?cè)诳h公司捕獲點(diǎn),對(duì)故障時(shí)段數(shù)據(jù)進(jìn)行回溯。選擇4分鐘分析窗口(流量統(tǒng)計(jì)精度為1秒),未見(jiàn)突發(fā)流量和通訊流量為0的情況。廣播與組播流量正常,TCP SYN比值屬于正常范圍。
對(duì)該時(shí)段的網(wǎng)絡(luò)應(yīng)用進(jìn)行分析,流量占用***網(wǎng)絡(luò)應(yīng)用為:HTTP、未知TCP、HTTP Proxy,屬正常業(yè)務(wù)行為。網(wǎng)絡(luò)應(yīng)用中存在CIFS掃描,但該應(yīng)用的通訊數(shù)據(jù)包少,對(duì)主干鏈路的傳輸影響不大,網(wǎng)絡(luò)安全事件不是造成丟包的原因。
對(duì)縣公司訪問(wèn)關(guān)鍵業(yè)務(wù)標(biāo)準(zhǔn)應(yīng)用監(jiān)控梳理,網(wǎng)絡(luò)鏈路傳輸質(zhì)量良好,排除鏈路擁塞造成丟包現(xiàn)象。但客戶端訪問(wèn)10.176.X.X服務(wù)器的TCP會(huì)話中存在98次TCP重傳,上行重傳次數(shù)為97次。大量的TCP重傳造成會(huì)話延遲確認(rèn),嚴(yán)重影響會(huì)話質(zhì)量。TCP重傳大部分發(fā)生在上行,說(shuō)明丟包位置在縣公司到省公司之間。
二、TCP會(huì)話解碼
對(duì)應(yīng)用請(qǐng)求的TCP會(huì)話進(jìn)行解碼以確定訪問(wèn)延遲的具體原因。選取故障時(shí)段,縣公司信息內(nèi)網(wǎng)PC主機(jī)10.178.x.x訪問(wèn)10.176.X.X的應(yīng)用通訊流量,客戶端10.178.x.x使用2487端口訪問(wèn)10.176.x.x的TCP 80端口,網(wǎng)絡(luò)鏈路傳輸質(zhì)量良好,無(wú)鏈路擁塞。
持續(xù)向下分析,我們發(fā)現(xiàn)縣公司捕獲點(diǎn)TCP會(huì)話的77號(hào)數(shù)據(jù)包在271ms后對(duì)73號(hào)數(shù)據(jù)包Seq4245726722進(jìn)行了重傳,73號(hào)數(shù)據(jù)包已達(dá)到縣公司信息內(nèi)網(wǎng)辦公核心交換機(jī)出口。而同一會(huì)話在市公司捕獲點(diǎn)客戶端10.178.x.x發(fā)送的數(shù)據(jù)包中Seq4245726722的數(shù)據(jù)包只捕獲了一次,該包并未出現(xiàn)在Seq4245725830與Seq4245728182之間,而是間隔200多毫秒后才出現(xiàn)了一次,說(shuō)明在市公司只捕獲到了重傳的數(shù)據(jù)包,客戶端10.178.x.x***次發(fā)送的Seq4245726722數(shù)據(jù)包在縣公司到市公司之間被丟棄。
我們對(duì)兩次捕獲TCP會(huì)話進(jìn)行對(duì)比分析,如圖2:
圖 2捕獲的兩次TCP會(huì)話
該TCP會(huì)話中存在大量的TCP重傳,通過(guò)對(duì)兩處捕包點(diǎn)的TCP會(huì)話對(duì)比分析,確定造成丟包位置在縣公司與市公司之間某一中間件網(wǎng)絡(luò)設(shè)備。整個(gè)TCP會(huì)話過(guò)程中客戶端和服務(wù)器響應(yīng)時(shí)間未見(jiàn)異常,結(jié)合前面對(duì)網(wǎng)絡(luò)鏈路傳輸質(zhì)量的分析,確定縣公司對(duì)省市公司的業(yè)務(wù)訪問(wèn)出現(xiàn)間歇性延遲的原因是由于中間件網(wǎng)絡(luò)設(shè)備對(duì)數(shù)據(jù)包的丟棄造成。
三、故障定位
根據(jù)拓?fù)鋱D,縣公司路由到市公司核心交換機(jī)之間需要經(jīng)過(guò)3臺(tái)路由器進(jìn)行轉(zhuǎn)發(fā)。我們對(duì)故障發(fā)生時(shí)段接入B路由器的其他區(qū)縣信息內(nèi)網(wǎng)PC訪問(wèn)省市公司業(yè)務(wù)系統(tǒng)的TCP會(huì)話進(jìn)行解碼分析。三次握手時(shí)間7.9ms,網(wǎng)絡(luò)傳輸質(zhì)量良好,未見(jiàn)鏈路擁塞。TCP會(huì)話中未見(jiàn)丟包重傳,客戶端和服務(wù)器響應(yīng)正常。說(shuō)明故障時(shí)段,只有該縣公司信息內(nèi)網(wǎng)出現(xiàn)訪問(wèn)丟包現(xiàn)象。因此,故障范圍縮小為縣公司→A路由器→B路由器之間。
我們對(duì)縣公司到B路由的各個(gè)路由接口進(jìn)行逐一檢查,發(fā)現(xiàn)A路由器與縣公司連接的下行接口光模塊在Input方向有大量CRC校驗(yàn)碼錯(cuò)誤日志。
CRC循環(huán)冗余校驗(yàn)碼錯(cuò)誤有三種可能:
1、 雙方網(wǎng)卡工作模式不同;
2、 鏈路通道信號(hào)衰減嚴(yán)重;
3、 網(wǎng)卡故障。
我們又對(duì)縣公司至A路由上行接口進(jìn)行檢查,光模塊工作模式與對(duì)端A路由器相同,排除***種可能。對(duì)縣公司與A路由器之間的光纖通道進(jìn)行衰減測(cè)試,通道正常。排除第二種可能。
CRC校驗(yàn)碼錯(cuò)誤日志是在A路由器與縣公司的下行接口的Input方向上檢查到,說(shuō)明縣公司的路由器的上行接口在對(duì)數(shù)據(jù)包進(jìn)行CRC循環(huán)冗余校驗(yàn)碼封裝時(shí)出現(xiàn)間歇性故障,導(dǎo)致A路由器下行接口在對(duì)數(shù)據(jù)包進(jìn)行CRC校驗(yàn)碼解碼時(shí)發(fā)現(xiàn)錯(cuò)誤。對(duì)錯(cuò)誤CRC校驗(yàn)碼數(shù)據(jù)包丟棄。
四、故障處理
將縣公司到A路由器的光模塊進(jìn)行更換,恢復(fù)通訊一段時(shí)間后,對(duì)A路由器下行接口進(jìn)行檢查,CRC循環(huán)冗余校驗(yàn)碼數(shù)值不再增加。對(duì)縣公司訪問(wèn)省市公司業(yè)務(wù)系統(tǒng)的TCP會(huì)話進(jìn)行解碼,雙方通訊交互正常。TCP會(huì)話統(tǒng)計(jì)信息中無(wú)重傳和丟包。縣公司與省市公司之間的通訊恢復(fù)正常。
案例結(jié)論
1、縣公司到市公司之間的鏈路流量值不大,流量趨勢(shì)不穩(wěn)定,對(duì)縣公司至市公司之間的業(yè)務(wù)交互的TCP會(huì)話分析后,客戶端RTT值正常,服務(wù)器RTT值正常,未見(jiàn)鏈路擁塞情況;
2、通過(guò)在縣公司和市公司的對(duì)比抓包分析,發(fā)現(xiàn)業(yè)務(wù)交互的TCP會(huì)話存在嚴(yán)重丟包現(xiàn)象,經(jīng)過(guò)定位分析,發(fā)現(xiàn)縣公司邊界路由器出口光模塊存在CRC校驗(yàn)和錯(cuò)誤;
3、將縣公司邊界路由器出口光模塊更換以后,CRC校驗(yàn)和錯(cuò)誤提示不再增加,對(duì)業(yè)務(wù)交互流量分析,未見(jiàn)丟包現(xiàn)象,業(yè)務(wù)通訊恢復(fù)正常。
責(zé)任編輯:鳶瑋
來(lái)源:
科來(lái)軟件