真兇何在 七天追查網(wǎng)絡(luò)癱瘓故障
山東某大型集團,網(wǎng)絡(luò)突然出現(xiàn)大面積癱瘓故障,并導(dǎo)致企業(yè)多天業(yè)務(wù)無法正常運轉(zhuǎn)。此企業(yè)系統(tǒng)工程師在七天的晝夜追查中,終于查出是交換機環(huán)路問題引起的,但故障真兇又是什么呢?我們又需要從中反思什么呢?
我們單位用SDH設(shè)備在山東省東部縣市之間組了一個環(huán)網(wǎng),除了傳輸單位內(nèi)部的辦公網(wǎng)(主要是互聯(lián)網(wǎng))外,也傳輸其它單位的一些專網(wǎng)。
即SDH設(shè)備負(fù)責(zé)提供傳輸通道,交換機負(fù)責(zé)各個網(wǎng)絡(luò)業(yè)務(wù)的接入,這樣網(wǎng)絡(luò)結(jié)構(gòu)比較簡單明了,實際運行的狀態(tài)也是比較穩(wěn)定的,但是最近一段時間,由于泗水所用的一臺連接用戶的交換機(不是核心的華為3528交換機)出現(xiàn)環(huán)路故障,造成整個企業(yè)的所有業(yè)務(wù)都受到了影響,在老總的強壓下,我們經(jīng)過七個晝夜,終于查到了故障真兇,并解決了問題。
首戰(zhàn)失利:追查ARP攻擊無果
前一段時間,東環(huán)所在的曲阜經(jīng)常有人反映說上網(wǎng)時經(jīng)常出現(xiàn)丟包現(xiàn)象,聯(lián)想到最近局域網(wǎng)中經(jīng)常出現(xiàn)的ARP地址欺騙病毒,我就向曲阜分管網(wǎng)絡(luò)的技術(shù)人員介紹了一下排查局域網(wǎng)中ARP地址欺騙病毒的方法,希望通過找到并解決感染ARP地址欺騙病毒的機器來解決丟包的問題,結(jié)果,曲阜那邊還沒有查出結(jié)果,泗水那邊也反映上網(wǎng)時有嚴(yán)重的丟包,我也向泗水的技術(shù)人員介紹了排查局域網(wǎng)中ARP地址欺騙病毒的方法,結(jié)果泗水的同事很快的在局域網(wǎng)中就發(fā)現(xiàn)了感染病毒的機器,捎帶著還發(fā)現(xiàn)了一個問題,即由于前幾天下雨打雷,單位中有幾臺連接用戶的交換機都出現(xiàn)若干端口損壞的情況。
由于泗水與曲阜的故障現(xiàn)象極為相似,所以我們也判斷曲阜的丟包除了由于病毒的原因外,還有可能是交換機由于雷擊出現(xiàn)了故障,但是這些猜想都需要等到下星期正式工作日的時候才能得出結(jié)果,因為雙休日人員不在班上不好查。但是在星期天的時候,另外一個客戶Q反映故障的電話讓我們重新認(rèn)識到故障的嚴(yán)重性,這是我們?yōu)樵摽蛻粼跐鷮幹燎烽g開通了一個專網(wǎng),我先用圖示說明一下網(wǎng)絡(luò)結(jié)構(gòu)(由于SDH可以視為透明傳輸?shù)耐ǖ?,所以在圖中只畫交換機的組網(wǎng)),如圖2所示,
#p#
嫌疑初現(xiàn):VLAN存在環(huán)路
根據(jù)以前我們對于VLAN的理解,每個VLAN都是一個獨立的廣播域,可以有效防止VLAN之間的互相影響,但是這次Q客戶的專網(wǎng)也反映有頻繁的丟包發(fā)生,他們的網(wǎng)絡(luò)出現(xiàn)病毒的機率要少的多,難道一個VLAN發(fā)生故障,會影響另外一個VLAN?帶著這個疑問,我們咨詢了華為公司交換機方面的技術(shù)人員,得到華為交換機有如下特性:
當(dāng)系統(tǒng)發(fā)現(xiàn)Trunk或Hybrid端口上某個VLAN中的端口被環(huán)回時,則將該Trunk或Hybrid端口處于受控工作狀態(tài),同時刪除該端口對應(yīng)的MAC地址表項。
根據(jù)華為工程師的描述,我們登錄到交換機上,查看華為3552交換機(即位于濟寧的核心交換機)上查看日志文件,果然發(fā)現(xiàn)了大量的告警信息,如下所示:
%Jul 21 11:11:38 2007 ZXJF_3552 DRVNI/5/LOOP BACK:
Loopback does exist on Ethernet0/2 vlan 114, please check it
%Jul 21 11:12:09 2007 ZXJF_3552 DRVNI/5/LOOP BACK:
Loopback does exist on Ethernet0/2 vlan 114, please check it
這就明確的告訴我們,是泗水上互聯(lián)網(wǎng)的那個VLAN存在環(huán)路,并在濟寧的第2個網(wǎng)口(即連接?xùn)|環(huán)的那個網(wǎng)口)上檢測到該VLAN上有環(huán)路的存在,而且據(jù)我們對華為交換機的觀察,當(dāng)檢測到環(huán)路存在時,TRUNK端口會斷一下,而這個端口就是位于濟寧3552交換機的2口,也就是連接?xùn)|環(huán)的那個端口,這個端口上包括東環(huán)上所有的業(yè)務(wù),當(dāng)這個端口斷一下的時侯,整個東環(huán)的所有業(yè)務(wù)也都會跟著斷一下,這也就是所有的用戶都會感覺到丟包的原因了。
接著我們又登錄到泗水的交換機上,也發(fā)現(xiàn)類似的告警:
%Jul 22 15:43:56 2007 sishui-3528 DRV_NI/5/LOOP BACK:
Loopback does exist on port 24 vlan 114, please check it
%Jul 22 15:45:59 2007 sishui-3528 DRV_NI/5/LOOP BACK:
Loopback does exist on port 24 vlan 114, please check it
這又明白無誤的告訴我們是泗水交換機的第24口存在環(huán)路,下面就是我們在泗水查找故障點的過程。#p#
立案追查:分步排除環(huán)路
據(jù)我們以前的經(jīng)驗,交換機上存在環(huán)路可能是由于線路上的斷路造成的,比如一根網(wǎng)線有8根金屬線組成,如果其中的任何兩根連在一起了,就會形成短路,從而造成交換機上面的環(huán)路,還是一種就更簡單了,把一根網(wǎng)線插在同一個交換機的兩個端口,一個完美的環(huán)路就形成了,嚴(yán)重的話,整個局域網(wǎng)就一下子癱瘓掉了。是不是泗水所帶的用戶線路由于雷擊造成了線路的短路,從而造成了交換機的環(huán)路呢?
這個結(jié)構(gòu)也不復(fù)雜,當(dāng)時我們思路是定位在查找具體是交換機B及交換機C上面的哪個端口存在環(huán)路,采用如下方式查找(這時要先把華為3528交換機1口(即向上的級聯(lián)口)的網(wǎng)線撥下來,防止查找故障的過程對上級的網(wǎng)絡(luò)產(chǎn)生影響):
1、將交換機B至交換機C的級聯(lián)的網(wǎng)線斷掉,這時沒有環(huán)路?! ?/P>
2、保持交換機B與C的斷開狀態(tài),再將華為3528交換機至交換機B級聯(lián)的網(wǎng)線插到交換機C上,這時有環(huán)路產(chǎn)生,說明是交換機C上面的端口存在環(huán)路。#p#
誰才是幕后真兇?雷擊!
那么再判斷是交換機C上面的哪個端口存在環(huán)路,其實也有兩個方案,但是當(dāng)時我們有個同事一股腦把所有連接的用戶的網(wǎng)線全部撥下來,仍然在華為3528交換機上檢測到有環(huán)路出現(xiàn),這時我們對于故障的判斷就變成了可能是交換機本身就存在環(huán)路,而不是交換機上面的端口存在環(huán)路。
這時我們仔細(xì)觀察交換機的狀態(tài),發(fā)現(xiàn)即使在不插任何網(wǎng)線的狀態(tài)下,交換機上面仍然有幾個端口的指示燈是亮的,到此時,我們確定判定此交換出現(xiàn)了環(huán)路故障。找到了故障點,更換了交換機C,故障就排除了。最近這幾天不時的登錄到華為交換機上查看日志文件,沒有發(fā)現(xiàn)再有環(huán)路告警產(chǎn)生。
問題解決了,但這個問題卻影響了公司幾天正常業(yè)務(wù),造成了無形的巨大損失。這么嚴(yán)重的問題,到底是因為什么原因造成的呢?我們不能不找出幕后真兇。
最基本的是交換機質(zhì)量不好或老化,導(dǎo)致機器回路,但這可能性很小,因為這個華為交換機剛買不到一年,而交換機本身回路的可能性微乎其微。
我們突然想到了這個細(xì)節(jié):泗水的同事很快的在局域網(wǎng)中就發(fā)現(xiàn)了感染病毒的機器,捎帶著還發(fā)現(xiàn)了一個問題,即由于前幾天下雨打雷,單位中有幾臺連接用戶的交換機都出現(xiàn)若干端口損壞的情況。
有這樣的可能:雷擊不僅打交換機的端口打壞了,它還將交換機的內(nèi)部電路擊穿,從而導(dǎo)致交換機回路。 從當(dāng)前的情況看,真兇基本上可以確定是雷擊!#p#
真兇審查:它會影響整個網(wǎng)絡(luò)!
本來文章到這兒就可以結(jié)尾了,但是最近發(fā)生的一次故障又讓我們對于交換機本身故障產(chǎn)生的故障對于整個局域網(wǎng)的危害產(chǎn)生了更深刻的認(rèn)識。我們手頭上有一臺舊的交換機,好長時間沒用了,正好最近需要臨時擴展一個網(wǎng)絡(luò),就拿出來想試一下。
當(dāng)時我們辦公室是連的互聯(lián)網(wǎng)(即外網(wǎng)),找了一個可以上網(wǎng)的網(wǎng)線,將其插到這臺交換機上,再用一臺筆記本接到這臺交換機上,看能不能上網(wǎng),發(fā)現(xiàn)不能上網(wǎng),但是很快的其它屋里面的同事就打電話過來反映說他們屋里上不去網(wǎng)了,這時我們才意識到可能是由于這臺交換機的原因引進的其它層里面的同事上網(wǎng)故障,這時重新我們這個樓層的交換機已經(jīng)解決不了問題了,又重啟的核心三層交換機才解決了問題。
事后我們回憶起來,原來這臺交換機也是由于雷擊以后出現(xiàn)故障,當(dāng)時也只是以為是損壞了幾個端口,想不到是整機都有問題。這還好是我們只影響了外網(wǎng),如果將這臺交換機直接接入到要擴展的網(wǎng)絡(luò)(這可是一個很重要的內(nèi)網(wǎng)?。菃栴}可嚴(yán)重了。
這兩起事件讓我們對于由于雷擊對交換機的損壞有了新的認(rèn)識,即會使交換機本身就產(chǎn)生環(huán)路,從而對于整個網(wǎng)絡(luò)產(chǎn)生嚴(yán)重的影響,如何有效的預(yù)防此類問題的產(chǎn)生是我們?nèi)蘸蠊ぷ髦行枰攸c解決的問題。
【編輯推薦】