嚴懲網(wǎng)癱禍首 交換機內(nèi)部環(huán)路伏法
【51CTO.com獨家特稿】任何一個有點規(guī)模的網(wǎng)絡,運行時間長了,總會不可避免地碰到一些網(wǎng)絡故障;對于許多網(wǎng)絡故障來說,我們往往只要根據(jù)具體的故障現(xiàn)象,就能大概判斷出故障發(fā)生的原因,并能迅速解決掉網(wǎng)絡故障!但也有一些網(wǎng)絡故障由“冷門”因素引起,這些“冷門”因素由于很少出現(xiàn),我們在排除這類故障的時候往往容易忽略它們,從而容易多走彎路,影響網(wǎng)絡故障的排除效率。這不,本文下面介紹的一則網(wǎng)絡故障,竟然是由于交換機自身環(huán)路引起的,鑒于該故障出現(xiàn)的機率較小,現(xiàn)在本文就將它的排除過程還原出來,與大家共享交流!
遭遇網(wǎng)絡癱瘓
某行政大樓組網(wǎng)規(guī)模比較大,核心交換機通過千兆光纖線路到樓層,樓層交換機再通過100M網(wǎng)絡線纜到普通計算機,網(wǎng)絡管理員在交換機上將不同的單位劃分到不同的VLAN中,這樣一來就能有效抑制網(wǎng)絡風暴的爆發(fā)。今天早上剛剛上班,網(wǎng)絡管理員就接到信訪局的某位員工的電話,說他的計算機不能正常上網(wǎng);到了辦公室,網(wǎng)絡管理員發(fā)現(xiàn)自己桌上的辦公電話已經(jīng)被打爆,查看電話號碼,發(fā)現(xiàn)都是來自信訪局的,果然沒有多長時間,信訪局的一位工作人員再次電話告訴網(wǎng)絡管理員,他們單位幾乎所有計算機都不能正常上網(wǎng)了,看來信訪局所在的VLAN中出現(xiàn)了大面積癱瘓現(xiàn)象。
查看行政大樓網(wǎng)絡的拓撲結(jié)構(gòu),網(wǎng)絡管理員發(fā)現(xiàn)信訪局單位并不在大樓內(nèi),而是位于行政大樓西側(cè)100米左右的獨立小樓中,該單位中的所有計算機都通過100M網(wǎng)絡線纜連接到Quidway S3050交換機上,該交換機又通過寬帶光纖連接到大樓核心交換機上的GigabitEthernet4/1/14光纖端口上。既然信訪局單位網(wǎng)絡中出現(xiàn)了大面積網(wǎng)絡癱瘓現(xiàn)象,會不會是行政大樓內(nèi)部的核心交換機或連接信訪局的樓層交換機發(fā)生了故障呢?為了判斷大樓網(wǎng)絡連接狀態(tài)是否正常,網(wǎng)絡管理員立即打開自己的計算機,使用ping命令測試了大樓核心交換機IP地址的連通狀態(tài),測試結(jié)果表面核心交換機后臺系統(tǒng)響應速度正常,之后再嘗試上網(wǎng)訪問Internet網(wǎng)絡時,上網(wǎng)訪問不但正常,而且連接速度也比較快,這說明網(wǎng)絡管理員所在的工作子網(wǎng)工作狀態(tài)是正常的,核心交換機的工作狀態(tài)也是正常的??紤]到目前除了信訪局單位員工在不停上報網(wǎng)絡故障外,其他單位還沒有故障報修電話打過來,這說明行政大樓內(nèi)的其他單位工作狀態(tài)也是正常的。
在排除了行政大樓核心交換機發(fā)生故障的可能外,網(wǎng)絡管理員估計信訪局所在的虛擬工作子網(wǎng)工作狀態(tài)不正常。于是,他立即又嘗試對連接信訪局單位的Quidway S3050交換機地址進行ping測試操作,測試發(fā)現(xiàn)該地址無法正常ping通,很明顯信訪局與行政大樓之間的網(wǎng)絡不能正?;ヂ?lián),這也是信訪局單位網(wǎng)絡出現(xiàn)大面積癱瘓現(xiàn)象的原因!
深究故障原因
究竟是什么因素造成了行政大樓網(wǎng)絡與信訪局單位網(wǎng)絡之間不能正?;ヂ?lián)呢?會不會是連接信訪局單位網(wǎng)絡的那個核心交換端口存在問題呢?為了驗證這一點,網(wǎng)絡管理員進入核心交換機后臺系統(tǒng),執(zhí)行“display interface GigabitEthernet4/1/14”字符串命令,查看對應光纖交換端口的狀態(tài)信息,發(fā)現(xiàn)該端口的工作狀態(tài)已經(jīng)變成了“down”,這說明信訪局單位網(wǎng)絡中的樓層交換機與核心交換機之間不能正常通信了,那會不會是連接這兩個網(wǎng)絡的光纖線路發(fā)生了斷路呢?立即找來寬帶運營商的服務人員,請求他們幫忙測試一下寬帶線路的連通狀態(tài),經(jīng)過反復測試,寬帶運營商的服務人員證實寬帶光纖線路沒有任何問題,這說明信訪局單位網(wǎng)絡大面積癱瘓故障與寬帶光纖線路的連通性沒有任何關系。
既然核心交換機的工作狀態(tài)正常,寬帶光纖線路的連通性也是好的,那問題看來只能出在信訪局單位網(wǎng)絡內(nèi)部了。不得已,網(wǎng)絡管理員只好趕到信訪局單位網(wǎng)絡,任意選擇了一臺工作站,打開對應系統(tǒng)的運行對話框,在其中執(zhí)行ping命令,測試該網(wǎng)絡樓層交換機的IP地址,結(jié)果發(fā)現(xiàn)目標地址不能正常ping通,連續(xù)在幾臺工作站系統(tǒng)中進行了相同的測試,***得到的測試結(jié)果都是相同的。會不會是局域網(wǎng)信訪局單位網(wǎng)絡中存在病毒現(xiàn)象呢?考慮到最近ARP病毒瘋狂肆虐,由該病毒引起的網(wǎng)絡故障表現(xiàn)出來的現(xiàn)象往往也是大面積不能上網(wǎng),難道真的是ARP病毒造成了上述故障現(xiàn)象?為了檢查該虛擬工作子網(wǎng)中是否真的存在ARP病毒,網(wǎng)絡管理員在其中一臺工作站系統(tǒng)中,隨意更改了它的IP地址,重新啟動之后,再次ping了一下對應虛擬工作子網(wǎng)的網(wǎng)關地址,可是這一次仍然無法ping通網(wǎng)關地址,按理來說如果局域網(wǎng)感染了ARP病毒,更新一個IP地址之后,我們應該能夠暫時ping通網(wǎng)關地址才對呀,難道局域網(wǎng)中沒有感染ARP病毒?為了進行進一步判斷,網(wǎng)絡管理員來到對應虛擬工作子網(wǎng)的樓層交換機現(xiàn)場,通過Console控制線纜連接到該交換機后臺系統(tǒng),進入該系統(tǒng)的全局配置狀態(tài),執(zhí)行字符串命令“dis logb”,從其后返回的結(jié)果界面中(如圖1所示),網(wǎng)絡管理員并沒有看到對應虛擬工作子網(wǎng)中存在由ARP病毒引起的IP地址沖突現(xiàn)象,這就證明信訪局單位網(wǎng)絡中并不存在ARP病毒。
![]() |
圖1 |
在排除了ARP病毒因素后,網(wǎng)絡管理員開始懷疑信訪局單位網(wǎng)絡中的樓層交換機工作狀態(tài)不正常,于是進入該交換機的級聯(lián)光纖端口配置狀態(tài),執(zhí)行字符串命令“dis dia”,查看該交換機的狀態(tài)信息,結(jié)果發(fā)現(xiàn)級聯(lián)光纖端口的輸入數(shù)據(jù)流量、輸出數(shù)據(jù)流量特別大,與正常工作狀態(tài)時的數(shù)據(jù)流量明顯相差甚遠,怪不得行政大樓核心交換機上的GigabitEthernet4/1/14光纖端口處于“down”狀態(tài),原來是受到這么大的數(shù)據(jù)容量不停沖擊造成的,那究竟是什么因素造成了該樓層交換機上的數(shù)據(jù)流量這么大呢?一般來說,造成交換機數(shù)據(jù)流量異?,F(xiàn)象的因素主要有網(wǎng)絡病毒、網(wǎng)絡環(huán)路、硬件損壞、惡意下載這幾個,而其中以網(wǎng)絡環(huán)路因素出現(xiàn)頻率***,如此說來難道信訪局單位網(wǎng)絡中存在網(wǎng)絡環(huán)路?為了尋找出究竟哪個交換端口下面存在網(wǎng)絡環(huán)路現(xiàn)象,網(wǎng)絡管理員在通過Console控制線纜連接到該樓層交換機后臺系統(tǒng)后,又使用網(wǎng)絡線纜依次連接到各個交換端口,在各個交換端口視圖狀態(tài)下,依次使用ping命令測試交換機的IP地址,測試結(jié)果發(fā)現(xiàn)每一個交換端口都能正常ping到本地網(wǎng)關地址,而且查看每一個交換端口的狀態(tài)信息時,發(fā)現(xiàn)它們的數(shù)據(jù)流量大小都很正常(如圖2所示),這也就是說該樓層交換機下面不存在網(wǎng)絡環(huán)路現(xiàn)象。
![]() |
圖2 |
萬般無奈之下,網(wǎng)絡管理員打算先重新啟動一下該樓層交換機設備,說不定該設備存在的一些軟性故障可能會自動消除;想到做到,網(wǎng)絡管理員先是斷開了目標交換機的電源輸入,之后讓該設備“休息”了半個小時左右,再次接通該設備的電源進行重新啟動,等到重新啟動成功后,網(wǎng)絡管理員發(fā)現(xiàn)從普通工作站ping該樓層交換機的IP地址,仍然還不能成功,這就意味著重新啟動交換機系統(tǒng),并沒有解決上述故障現(xiàn)象。
驚現(xiàn)內(nèi)部環(huán)路
想盡一切辦法都不能解決問題后,網(wǎng)絡管理員打算采用最“笨”的辦法,那就是將信訪局樓層交換機上的所有連接線纜全部拔下來,之后每連接上一根網(wǎng)絡線纜后,就觀察目標交換機的工作狀態(tài)變化,看看究竟是哪個交換端口在暗中搗亂。然而讓人感到十分意外的是,當將目標交換機的所有連接線纜全部拔下來后,網(wǎng)絡管理員卻發(fā)現(xiàn)對應交換機的控制面板上竟然還有信號燈在閃爍,這是怎么回事呢?按理來說,斷開所有網(wǎng)絡連接之后,交換機上的所有端口信號燈都應該不閃爍才對呀,現(xiàn)在竟然仍然有端口在閃爍,說明對應端口仍然有數(shù)據(jù)信號存在,難道交換機內(nèi)部仍然有數(shù)據(jù)流量產(chǎn)生?為了驗證這種想法,網(wǎng)絡管理員再次使用“display interface”命令查看目標交換機級聯(lián)端口的流量狀態(tài),結(jié)果發(fā)現(xiàn)在沒有任何網(wǎng)絡連接的情況下,目標交換機的輸入、輸出流量仍然很大,看來該樓層交換機內(nèi)部存在網(wǎng)絡環(huán)路現(xiàn)象,這種現(xiàn)象直接導致了目標交換機的數(shù)據(jù)流量居高不下,如此一來就會影響信訪局單位所有員工的正常上網(wǎng)。
根據(jù)上述發(fā)現(xiàn),網(wǎng)絡管理員推斷位于信訪局的樓層交換機可能出現(xiàn)了問題,于是嘗試著使用工作狀態(tài)正常的交換機進行替換時,發(fā)現(xiàn)信訪局單位網(wǎng)絡立即恢復了正常,這就意味著上述故障現(xiàn)象的確是由于目標樓層交換機內(nèi)部環(huán)路引起的。
問題總結(jié)回顧
問題雖然解決了,但是讓網(wǎng)絡管理員很難理解的是,位于信訪局的樓層交換機為什么會出現(xiàn)這種問題呢,而位于行政大樓網(wǎng)絡內(nèi)的樓層交換機工作狀態(tài)卻一直正常呢,這些設備都是在同一時間購買的呀,難道是信訪局的樓層交換機質(zhì)量稍微差一些?經(jīng)過仔細分析以及上網(wǎng)查閱相關資料,網(wǎng)絡管理員認為由交換機質(zhì)量引起故障的可能性比較小,畢竟該設備與大樓內(nèi)的交換機設備都是同一型號、同一批次的產(chǎn)品,而且它們持續(xù)工作的時間并不長。考慮到行政大樓內(nèi)的網(wǎng)絡設備都有良好的防雷保護措施,而信訪局沒有進行這方面的安全保護,網(wǎng)絡管理員估計很可能是信訪局的樓層交換機因頻繁遭遇雷電轟擊,交換機內(nèi)部的芯片或電路被雷電擊穿,最終引發(fā)了交換機出現(xiàn)內(nèi)部環(huán)路的現(xiàn)象!
【51CTO.com獨家特稿,非經(jīng)授權(quán)請勿轉(zhuǎn)載。合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com,且不得修改原文內(nèi)容?!?