自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

利用科來(lái)網(wǎng)絡(luò)分析技術(shù)診斷BOSS系統(tǒng)故障

企業(yè)動(dòng)態(tài)
某運(yùn)營(yíng)商Boss系統(tǒng)向服務(wù)器提交訂單,本文介紹了如何通過(guò)科來(lái)網(wǎng)絡(luò)分析技術(shù)來(lái)診斷BOSS系統(tǒng)故障。
案例背景
1、故障描述
 
·某運(yùn)營(yíng)商Boss系統(tǒng)向服務(wù)器提交訂單,每天會(huì)有600個(gè)左右不成功的訂單,不成功的訂單需手工錄入,極大的影響工作效率;該情況已持續(xù)2-3個(gè)月;
·持續(xù)ping服務(wù)器和boss,未出現(xiàn)任何的丟包現(xiàn)象;
·應(yīng)用部門和應(yīng)用廠商檢查應(yīng)用程序和規(guī)則說(shuō)一切正常;
·網(wǎng)管人員檢查網(wǎng)絡(luò)設(shè)備的性能,設(shè)置(MTU、MSS等)一切正常;
·管理人員在boss系統(tǒng)上抓取的同步數(shù)據(jù)包大于在PIX之前抓取的數(shù)據(jù)包,懷疑有丟包,但其它應(yīng)用和ping都正常,網(wǎng)絡(luò)丟包沒(méi)有說(shuō)服力。
 
2、網(wǎng)絡(luò)拓?fù)?/strong>
 

圖 1 網(wǎng)絡(luò)拓?fù)鋱D
 
案例分析
 
訂單提交不成功有兩種情況,一是服務(wù)端未收到boss的請(qǐng)求,二是服務(wù)端收到請(qǐng)求后未響應(yīng),由于用戶反映在boss和pix上抓包不一致,遂選擇在boss和pix上進(jìn)行抓包(將便攜式和回溯系統(tǒng)的時(shí)間同步)。
 
分別提取回溯系統(tǒng)和便攜式上的數(shù)據(jù)包,進(jìn)行對(duì)比分析。
 
在6503上捕獲到10.238.230.50和10.238.103.86的會(huì)話中,存在多個(gè)syn包無(wú)響應(yīng)的會(huì)話,從而證實(shí)確實(shí)存在訂單提成不成功的問(wèn)題,而在PIX的入口并沒(méi)有捕獲到該會(huì)話,也就是說(shuō)服務(wù)端并未收到boss的應(yīng)用請(qǐng)求,所以該現(xiàn)像與服務(wù)器端無(wú)關(guān)。
 
如圖2:
 

圖 2 boss端TCP會(huì)話
 
再來(lái)看在PIX前抓取的數(shù)據(jù):
 

圖 3 pix端TCP會(huì)話
 
服務(wù)端沒(méi)有收到boss系統(tǒng)的請(qǐng)求包,是不是因?yàn)榘粊G棄了?從拓?fù)渖峡?,?shù)據(jù)經(jīng)過(guò)的都是路由、交換設(shè)備,該數(shù)據(jù)包并未到達(dá)防火墻,且該鏈路上的其它應(yīng)用一切正常,網(wǎng)絡(luò)丟包沒(méi)有說(shuō)服力。
 
進(jìn)一步分析發(fā)現(xiàn)網(wǎng)絡(luò)中存在大量的FIN數(shù)據(jù)包,4452個(gè)數(shù)據(jù)包就有2498個(gè)包帶FIN標(biāo)記。
 
過(guò)濾FIN數(shù)據(jù)包,發(fā)現(xiàn)絕大部份FIN數(shù)據(jù)包都是由boss服務(wù)器發(fā)出來(lái)的。
 
再定位到TCP會(huì)話,通過(guò)時(shí)序圖查看會(huì)話中FIN包的情況,可以看到在一個(gè)會(huì)話中存在多個(gè)FIN位置1的數(shù)據(jù)包,而且沒(méi)收到對(duì)端的確認(rèn),這表示該會(huì)話沒(méi)有正常關(guān)閉。
 
網(wǎng)絡(luò)中存在大量的在一個(gè)會(huì)話中發(fā)送大量FIN+ACK置1且window為0的數(shù)據(jù)包的情況(我們知道,在數(shù)據(jù)傳輸過(guò)程窗口為0表示不能接受任何數(shù)據(jù),至于關(guān)閉連接的window為0是否表示不能接收任何數(shù)據(jù)包有待驗(yàn)證,但可以肯定是不正常的),且這些會(huì)話都與10.238.230.50有關(guān),這就表示在10.238.230.50上有很多未關(guān)閉的TCP會(huì)話,這是不正常的,需要進(jìn)一步分析原因。
 
簡(jiǎn)單的說(shuō),在通訊過(guò)程中,客戶端和服務(wù)端的TCP狀態(tài)遷移如下:
 
·客戶端TCP狀態(tài)遷移:
CLOSED->SYN_SENT->ESTABLISHED->FIN_WAIT_1->FIN_WAIT_2->TIME_WAIT->CLOSED
·
服務(wù)器TCP狀態(tài)遷移:
CLOSED->LISTEN->SYN
 
·收到->ESTABLISHED->CLOSE_WAIT->LAST_ACK->CLOSED登錄10.238.230.50后臺(tái),通過(guò)netstat查看主機(jī)的會(huì)話狀態(tài)。
 
10.238.230.50上存在近5000個(gè)狀態(tài)為colse_wait的連接,會(huì)話處于Colse_wait表示該連接還沒(méi)有發(fā)FIN+ACK數(shù)據(jù)包。通常情況下,一個(gè)colse_wait會(huì)維持至少2個(gè)小時(shí)的時(shí)間,這樣,隨著時(shí)間的增加就會(huì)導(dǎo)致不能釋放的會(huì)話越來(lái)越多,直到系統(tǒng)沒(méi)有資源處理新的連接請(qǐng)求。
 
分析結(jié)論
 
10.238.230.50上存在大量未釋放的TCP連接,TCP是有隊(duì)列限制的,當(dāng)隊(duì)列已滿時(shí),TCP將不會(huì)處理傳入的SYN,也不會(huì)發(fā)RST應(yīng)答,因?yàn)殛?duì)列已滿是由應(yīng)用程序和操作系統(tǒng)繁忙造成的(詳見(jiàn)TCP/IP卷1第18章),這也能解釋為什么服務(wù)端沒(méi)有收到boss的SYN包了,實(shí)際上這些數(shù)據(jù)包是boss系統(tǒng)收到的營(yíng)業(yè)廳的SYN包,但由于boss系統(tǒng)隊(duì)列已滿或繁忙,則對(duì)其不做處理。
 
10.238.230.50在與server關(guān)閉連接的過(guò)程中,window為0,可能是系統(tǒng)忙于處理colse_wait會(huì)話所致,從而導(dǎo)致boss與server的通訊異常。
 
訂單提交不成功的原因是boss系統(tǒng)隊(duì)列已滿或繁忙,沒(méi)有資源對(duì)連接請(qǐng)求進(jìn)行處理,問(wèn)題出在boss系統(tǒng)。

分析建議
 
檢查10.238.230.50與10.254.126.227和10.238.159.90的應(yīng)用通訊和應(yīng)用程序(因?yàn)閏olse_wait的會(huì)話大部分與這兩個(gè)IP有關(guān),而10.238.230.50 與server的連接狀態(tài)是正常的)。
 
修改tcp_keepalive_*的相關(guān)參數(shù)。
 

 

責(zé)任編輯:鳶瑋 來(lái)源: 科來(lái)軟件
相關(guān)推薦

2014-12-17 09:11:11

科來(lái)軟件網(wǎng)絡(luò)分析

2014-01-22 09:39:21

科來(lái)軟件網(wǎng)絡(luò)回溯分析

2014-03-28 09:45:14

科來(lái)軟件網(wǎng)絡(luò)分析

2014-01-14 11:21:15

科來(lái)軟件網(wǎng)絡(luò)回溯分析

2014-03-18 15:42:46

2010-04-02 22:19:40

網(wǎng)絡(luò)分析產(chǎn)品安全防御科來(lái)軟件

2014-10-10 17:15:02

科來(lái)軟件

2009-06-25 09:58:03

2014-04-22 09:47:36

2014-02-12 09:26:40

科來(lái)軟件網(wǎng)絡(luò)分析

2014-02-26 10:36:47

科來(lái)軟件網(wǎng)絡(luò)分析

2009-11-17 17:45:59

2009-08-13 21:51:18

2013-04-09 09:51:25

科來(lái)網(wǎng)絡(luò)分析

2015-07-06 10:23:26

科來(lái)網(wǎng)絡(luò)分析系統(tǒng)

2013-12-16 17:35:34

2011-05-05 17:03:19

硬盤故障

2014-05-09 14:33:35

2009-04-03 11:02:00

VPN故障

2010-01-08 20:04:32

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)