升級(jí)導(dǎo)致網(wǎng)絡(luò)故障 經(jīng)典案例引發(fā)網(wǎng)管員深思
客戶打來電話尋求技術(shù)支持,這是一例因近期公司的網(wǎng)絡(luò)升級(jí)而引發(fā)的故障。在我接觸的故障中這個(gè)案例具有一定的典型性并且能夠帶給我們一些啟發(fā),因此寫下來和大家分享。
1.故障癥狀
某機(jī)床鍛造企業(yè)在很早就組建了企業(yè)局域網(wǎng),此后多年來鮮有更新改造,軟硬件嚴(yán)重滯后,網(wǎng)絡(luò)性能低下。為了改變這種狀況,新近該企業(yè)進(jìn)行了一次比較大規(guī)模的網(wǎng)絡(luò)升級(jí),由10M網(wǎng)全部提升為100M以太網(wǎng),核心交換機(jī)為千兆以太網(wǎng)。為了節(jié)約成本,該企業(yè)沒有進(jìn)行外包而是由自己的IT人員獨(dú)立實(shí)施此次改造工程。改造完工后,進(jìn)行網(wǎng)絡(luò)測(cè)試時(shí)發(fā)現(xiàn),網(wǎng)絡(luò)性能提升并不明顯,而且大部分的網(wǎng)絡(luò)成員訪問公司的服務(wù)器或者與其他不同子網(wǎng)的部門之間進(jìn)行數(shù)據(jù)交互是感覺速度慢,有時(shí)數(shù)據(jù)出錯(cuò)。但是子網(wǎng)段內(nèi)拷貝數(shù)據(jù)速度基本不受影響,用Ping測(cè)試檢查所有工作站和服務(wù)器均正常。以上是客戶向我們反應(yīng)的具體情況。
2.初步診斷
根據(jù)客戶反應(yīng)的情況看問題并不嚴(yán)重,初步判斷應(yīng)該布線方面出了問題,在我們的經(jīng)驗(yàn)范圍之內(nèi)。因此這次并沒有親自出診,而是建議他們對(duì)網(wǎng)絡(luò)布線系統(tǒng)進(jìn)行嚴(yán)格認(rèn)證測(cè)試。由于該企業(yè)的信息中心除了電纜和光纜的認(rèn)證測(cè)試儀外,沒有其它測(cè)試維護(hù)工具,無法對(duì)網(wǎng)絡(luò)進(jìn)行評(píng)測(cè)。他們利用現(xiàn)有工具和技術(shù)手段進(jìn)行了測(cè)試,給我們反饋的情況是,布線施工質(zhì)量?jī)?yōu)良,全部電纜光纜鏈路按超五類標(biāo)準(zhǔn)測(cè)試參數(shù)均合格,沒有發(fā)現(xiàn)任何問題。此外,該公司的IT人員又進(jìn)行了網(wǎng)絡(luò)系統(tǒng)及平臺(tái)的重新安裝,但仍無濟(jì)于事。
3.進(jìn)一步了解
看來問題沒有想象的那么簡(jiǎn)單,我們有詢問了客戶這次網(wǎng)絡(luò)升級(jí)中的一些技術(shù)細(xì)節(jié)。通過詢問得知,由于總公司希望全面提高ERP系統(tǒng)的覆蓋范圍,在這次網(wǎng)絡(luò)升級(jí)過程中新增的網(wǎng)絡(luò)設(shè)備比較多,網(wǎng)上成員也增加了二倍多,工作站從原來的220臺(tái)猛增至680臺(tái);辦公區(qū)和生產(chǎn)區(qū)之間、生產(chǎn)區(qū)和生產(chǎn)區(qū)之間均用光纜和路由器連接起來。另外,該企業(yè)的網(wǎng)絡(luò)各子網(wǎng)段基本上采用核心交換機(jī)和工作組交換機(jī)作網(wǎng)絡(luò)骨架,用桌面交換機(jī)和集線器混用的方式構(gòu)成基層用戶接入平臺(tái)。核心交換機(jī)之間為千兆以太網(wǎng)連接,用戶全部為100M到桌面。為了便于維護(hù)和管理,同時(shí)也從安全角度考慮,設(shè)計(jì)方案中將大多數(shù)數(shù)據(jù)服務(wù)器均安裝在了網(wǎng)管中心。
該企業(yè)的IT人員抱怨,這樣的網(wǎng)絡(luò)結(jié)構(gòu)使得網(wǎng)絡(luò)管理更加復(fù)雜,網(wǎng)絡(luò)管理面臨重重難題,查找故障不象從前那樣容易了。沒錯(cuò),通過這次網(wǎng)絡(luò)升級(jí),一來網(wǎng)絡(luò)規(guī)模比以前大多了,故障數(shù)量和種類增多;二來網(wǎng)絡(luò)結(jié)構(gòu)變得比以前復(fù)雜多了,故障的定位分析和隔離變得比較困難。
4.親自出診
因?yàn)榫W(wǎng)絡(luò)為新擴(kuò)容的網(wǎng)絡(luò),而且故障是在網(wǎng)絡(luò)升級(jí)之后出現(xiàn)的,所以先看看該企業(yè)的網(wǎng)絡(luò)拓?fù)?,是否有設(shè)計(jì)不合理的地方,但從拓?fù)鋱D上看不出網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)有何不合理之處。
由于在各子網(wǎng)段內(nèi)拷貝數(shù)據(jù)時(shí)速度基本不受影響,而多在跨網(wǎng)段時(shí)受阻,所以我們把分析的重點(diǎn)放在跨網(wǎng)數(shù)據(jù)的分析上。將網(wǎng)絡(luò)測(cè)試儀接入辦公區(qū)網(wǎng)絡(luò)的網(wǎng)管中心,打開網(wǎng)段內(nèi)的全部4個(gè)路由器的端口觀察。通過檢測(cè)發(fā)現(xiàn)網(wǎng)段間的流量為27%~42%之間,由于網(wǎng)絡(luò)沒有多媒體應(yīng)用啟用,因此如此高的流量記錄是不正常的。
下面我們需要觀察這些流量的走向,于是在辦公區(qū)將網(wǎng)絡(luò)測(cè)試儀串入路由器與交換機(jī)之間(100M端口)監(jiān)測(cè)。啟動(dòng)IP矩陣監(jiān)測(cè)和以太網(wǎng)MAC矩陣監(jiān)測(cè)功能,觀察數(shù)據(jù)流向。觀測(cè)的結(jié)果是,大部分的數(shù)據(jù)流向均指向辦公區(qū)的WINS服務(wù)器,而WINS響應(yīng)流量極少。查看拓?fù)鋱D,該WINS服務(wù)器直接與一臺(tái)工作組交換機(jī)相連,打開工作組交換機(jī)的端口記錄檢查,流量記錄為13%并伴隨少許碰撞指示記錄。
為了不影響用戶的使用,下班后我們從測(cè)試儀所在端口向WINS服務(wù)器所在交換機(jī)端口P32的鄰近端口P31發(fā)送高額流量。我們選值為90Mbps的流量沖擊,并在此鄰近端口P31觀察接收到的流量記錄,記錄顯示為89.7Mbps,這說明端口P31的通道測(cè)試是合格的。然后對(duì)準(zhǔn)WINS服務(wù)器所在端口P32發(fā)送90Mpbs的高額流量,觀察P32端口流量沖擊記錄,結(jié)果顯示為13.5%,并出現(xiàn)大量延遲幀,表明該端口通道測(cè)試不合格。將流量發(fā)送方向指向與該端口連接的上游端口P17,觀察P17流量顯示為90Mbps。問題很清楚,被丟棄和延遲的流量就在P32口。
然后,我們對(duì)WINS本身作WINS查詢,10次測(cè)試響應(yīng)只有2次,響應(yīng)地址正確,響應(yīng)率20%。重新測(cè)試WINS鏈路電纜,合格。測(cè)試WINS服務(wù)器網(wǎng)卡,合格;測(cè)試交換機(jī)的端口P32,低效。再此臨時(shí)將WINS服務(wù)器端口P32改接到端口P33,重新啟動(dòng)系統(tǒng),5分鐘后進(jìn)行上述測(cè)試,全部合格。為了驗(yàn)證P32口低效,用網(wǎng)絡(luò)測(cè)試儀接入該端口并向P17發(fā)送90M流量,收到流量為12%,應(yīng)該是這臺(tái)工作組交換機(jī)有故障。由于這臺(tái)工作組交換機(jī)這次網(wǎng)絡(luò)升級(jí)中購(gòu)置的新品,尚在包換期內(nèi)。更換該交換機(jī)后,第二天進(jìn)行測(cè)試,在公司員工上班后的網(wǎng)絡(luò)使用高峰期開頭所述的網(wǎng)絡(luò)故障消失,同時(shí)網(wǎng)絡(luò)速度比以前有了驚人的提高。#p#
5.故障總結(jié)
故障解決了,我們找到了罪魁禍?zhǔn)住慌_(tái)工作組交換機(jī)。其實(shí),交換機(jī)只是“替罪羊”真正的元兇應(yīng)該是不夠科學(xué)、合理的網(wǎng)絡(luò)結(jié)構(gòu)。不然一臺(tái)小小的工作組交換機(jī)為什么能夠引起如此大面積的網(wǎng)絡(luò)故障呢?
為了使得大家對(duì)此有更進(jìn)一步的認(rèn)識(shí),我們重新梳理一下該公司的網(wǎng)絡(luò)結(jié)構(gòu)以及這次網(wǎng)絡(luò)故障。在該企業(yè)重新升級(jí)的網(wǎng)絡(luò)中,大多數(shù)數(shù)據(jù)服務(wù)器設(shè)置在辦公區(qū)的網(wǎng)管中心,而且公司整個(gè)系統(tǒng)的工作依賴集中式系統(tǒng)中的這些專用數(shù)據(jù)服務(wù)器。另外,鏈路連接和數(shù)據(jù)交換時(shí)需要WINS服務(wù)器提供服務(wù)。而與WINS服務(wù)器連接的鏈路中,如果交換機(jī)一側(cè)的端口P32發(fā)射能力低效,使得發(fā)送的信號(hào)幅度不符合要求,再加上鏈路長(zhǎng)度不長(zhǎng),所以并不是對(duì)所有的數(shù)據(jù)包WINS服務(wù)器都無響應(yīng)。這使得有些數(shù)據(jù)被作為部分錯(cuò)誤和碰撞數(shù)據(jù)由端口記錄,大部分從交換機(jī)各端口送往P32端口的數(shù)據(jù)因鏈路接口問題被延遲和丟棄,而造成記錄數(shù)據(jù)中有用流量正常,而網(wǎng)絡(luò)用戶速度普遍偏慢的假象。這難道不是由于網(wǎng)絡(luò)拓?fù)涞牟缓侠碓斐傻膯?
6.維護(hù)建議
首先,建議企業(yè)在進(jìn)行網(wǎng)絡(luò)改造的時(shí)候,一定要根據(jù)企業(yè)的需求和實(shí)際應(yīng)用合理規(guī)劃網(wǎng)絡(luò)拓?fù)?。這其中,應(yīng)該盡可能地尋求專家的幫助,構(gòu)建科學(xué)、合理、高效的網(wǎng)絡(luò)結(jié)構(gòu)。這樣的網(wǎng)絡(luò)不僅利與維護(hù)、管理,而且在故障發(fā)生時(shí)能夠快速定位,也不至于一個(gè)小問題引發(fā)大故障。
此外,我們知道,交換機(jī)、網(wǎng)卡、集線器和路由器等網(wǎng)絡(luò)設(shè)備的端口一般從工作2~3年開始出現(xiàn)低效現(xiàn)象,5年后比例為3%~18%(這取決于不同的廠商產(chǎn)品質(zhì)量,也取決于同一廠商的不同系列產(chǎn)品的產(chǎn)品質(zhì)量)。另外,由于系統(tǒng)中有大量的端口,所以在網(wǎng)絡(luò)維護(hù)周期建議中要求每半年對(duì)端口性能進(jìn)行定期測(cè)試。每一~二年對(duì)布線系統(tǒng)進(jìn)行一次輪測(cè),尤其對(duì)重要的網(wǎng)絡(luò)設(shè)備如服務(wù)器、交換機(jī)、路由器等應(yīng)該堅(jiān)持定期測(cè)試,這樣做對(duì)提高網(wǎng)絡(luò)的可靠性有莫大的幫助。所以,在網(wǎng)絡(luò)改造完成后對(duì)于所有的網(wǎng)絡(luò)設(shè)備進(jìn)行一次普查,將相關(guān)的情況比如設(shè)備性能、使用年限、端口登錄進(jìn)行備案,列入頂起維護(hù)計(jì)劃中。
7.總結(jié)
其實(shí),我寫這這篇文章并不僅僅是告訴大家如果排除類似上述的網(wǎng)絡(luò)故障,而是希望大家能夠通過這個(gè)案例有所思考,想想網(wǎng)絡(luò)故障的背后,比如如何進(jìn)行科學(xué)的網(wǎng)絡(luò)改造等等。
【編輯推薦】