網(wǎng)絡分析的故障檢測
【51CTO.com 綜合報道】在對網(wǎng)絡的管理和維護過程中,我們可能經(jīng)常會遇到網(wǎng)絡傳輸延遲導致上網(wǎng)連接時斷時續(xù)或者出現(xiàn)上網(wǎng)速度異常緩慢的故障現(xiàn)象,并且,可能是一會正常,一會不正常,對于這類故障,相信是網(wǎng)絡管理中比較難于判斷和處理的。在對這類故障的處理中,通常的做法首先是采用ping測試,ping網(wǎng)關、DNS或者外網(wǎng)IP的時候,幾乎都會出現(xiàn)丟包或較大延遲的現(xiàn)象。那么,我們該如何準確、有效及快速的解決這類網(wǎng)絡故障現(xiàn)象?以下是我自己在遇到此類故障時的一些解決方法和一點心得,希望和廣大網(wǎng)管共同分享!
故障回放
我們單位是一家以機械為主的制造企業(yè),規(guī)模不大,局域網(wǎng)的只有近100臺計算機,都同時接入到了互聯(lián)網(wǎng),網(wǎng)絡結(jié)構(gòu)也比較簡單,外網(wǎng)進來接的是俠諾路由器,路由器下接的是俠諾三層交換機,在交換機上做了VLAN劃分,192.168.0.0/24為服務器群,其中,192.168.0.3同時提供DHCP、DNS以及AD域控服務,其他的VLAN有192.168.10.0/24、192.168.20.0/24等共5個VLAN,局域網(wǎng)網(wǎng)絡運行一直比較穩(wěn)定。由于最近網(wǎng)絡做了改造,采用了雙WAN口訪問,所以重新配置了路由器,網(wǎng)絡產(chǎn)生了一些異常故障,具體現(xiàn)象為:某VLAN內(nèi)的主機突然發(fā)生網(wǎng)絡傳輸中斷故障,不能連接192.168.0.3服務器,但是一段時間后(幾分鐘或幾小時)又自動恢復正常,產(chǎn)生這種故障的主機不確定是某一臺,偶爾是這臺,偶爾又是另外一臺,在故障發(fā)生的時候,ping服務器192.168.0.3,均能夠ping通IP地址,但卻不能ping通域名,檢查DNS服務器,未發(fā)現(xiàn)任何錯誤。
故障排查
經(jīng)過分析,初步認為該故障多半與廣播風暴、網(wǎng)絡病毒攻擊等因素有關。為了進一步查找和定位故障原因,于是將筆記本連接到交換機上鏡像端口,并運行科來網(wǎng)絡分析系統(tǒng)來捕獲網(wǎng)絡的數(shù)據(jù)包通訊,希望能夠借此快速的查明原因。 大約2分鐘后,停止捕獲,現(xiàn)在對捕獲的數(shù)據(jù)包進行詳細的分析,具體分析如下:
首先,通過科來的概要統(tǒng)計來看,網(wǎng)絡的流量、廣播流量、數(shù)據(jù)包大小分布以及TCP連接的信息均沒有發(fā)現(xiàn)異常,隨后,在診斷視圖下看到,發(fā)生的網(wǎng)絡事件全是ICMP主機重定向,達到了1771次,如下圖1:
![]() |
圖1 |
查看這個事件的參考信息:“路由器向源主機發(fā)送一個主機重定向報文通知源主機有一條到達目的主機的更好的路由”。因此,從診斷視圖的ICMP主機重定向,我們得到了一個重要的提示:網(wǎng)絡中可能存在環(huán)路。再來到數(shù)據(jù)包視圖,可以詳細的查看到產(chǎn)生該問題的原因。打開數(shù)據(jù)包視圖,數(shù)據(jù)包的概要統(tǒng)計如下圖2所示:
![]() |
圖2 |
選擇第1和第2個數(shù)據(jù)包,其詳細的解碼如下圖3所示:
![]() |
圖3 |
從該數(shù)據(jù)包的解碼中,可以看出,這是一個ICMP重定向數(shù)據(jù)包,大概的意思是:路由器192.168.0.10告訴192.168.0.3應該去訪問192.168.0.254,這才是一個更好的路徑。查看該ICMP數(shù)據(jù)包攜帶的數(shù)據(jù),這個數(shù)據(jù)包是由192.168.21.172在訪問192.168.0.3時造成的。
繼續(xù)往下看,這是第3個數(shù)據(jù)包的詳細解碼,只有一個字段發(fā)生了變化,就是生存時間(TTL),我們都知道,一個IP數(shù)據(jù)包每經(jīng)過一個路由,其TTL就會減1,當TTL為0時還沒有到達目的主機,則該數(shù)據(jù)包將被丟棄,從下圖4看到,該數(shù)據(jù)包的TTL值從第1個數(shù)據(jù)包的12變成了第3個數(shù)據(jù)包的10,已經(jīng)呈遞減的趨勢。圖4:
![]() |
圖4 |
繼續(xù)看第4、第5以及后面的數(shù)據(jù)包,TTL值一直在遞減,直到第13、14個數(shù)據(jù)包時,TTL值為0,顯示超時。所以,從第1個數(shù)據(jù)包到第14個包,ICMP數(shù)據(jù)包里面的IP報頭的TTL值不斷遞減,直到TTL超時,因此,明顯是網(wǎng)絡中產(chǎn)生了環(huán)路才會造成這種現(xiàn)象。而從數(shù)據(jù)包地址來看,產(chǎn)生ICMP重定向的地址全是192.168.21網(wǎng)段的主機IP,可能是在抓包的同時,正好是這個網(wǎng)段的主機與192.168.0.3通訊時產(chǎn)生了該事件。
至此,通過對科來網(wǎng)絡通訊分析系統(tǒng)捕獲的數(shù)據(jù)通訊分析,我們已經(jīng)可以確定,前面出現(xiàn)的故障現(xiàn)象肯定是有環(huán)路引起的,而結(jié)合前面配置路由表信息,終于找到了原因所在:原來是在配置路由表的時候,考慮不周到,由于在路由器添加了路由條目:192.168.0.0/16 下一條 0.254 ,而在254上的路由條目卻沒找到21網(wǎng)段的匹配項,于是發(fā)給默認路由192.168.0.10,而默認路由又去查找下一跳:192.168.0.254,從而造成了環(huán)路。重新配置路由表后,改問題得到解決。
其實,造成網(wǎng)絡數(shù)據(jù)丟包現(xiàn)象的因素有很多,除了路由環(huán)路外,蠕蟲病毒造成的攻擊行為:如ICMP掃描攻擊、TCP掃描攻擊等都會造成類似的問題,在遇到這些問題時,如果采用常規(guī)的一些解決方法,可能會消耗太多的時間與精力,通過網(wǎng)絡分析的檢測手段,往往能夠起到事半功倍的效果。所以,如果大家以后遇到類似的網(wǎng)絡故障時,不妨使用網(wǎng)絡分析的檢測手段,一定能夠快速的解決故障,希望這篇文章能給大家?guī)硪恍﹩l(fā)。