網(wǎng)絡(luò)癱瘓了!到底哪里出問題了?十幾年網(wǎng)工網(wǎng)絡(luò)故障排查經(jīng)驗(yàn)總結(jié)
楊工,我電腦不能上網(wǎng)了。
楊工,我無法連接總部VPN服務(wù)器了。 楊工,整個(gè)公司網(wǎng)絡(luò)都癱瘓了。 |
工作中我經(jīng)常接到這樣的電話,也一般情況都能在段時(shí)間內(nèi)解決,十幾年網(wǎng)工生涯幫我積累了非常重要的網(wǎng)絡(luò)故障排除經(jīng)驗(yàn)。
故障管理是網(wǎng)絡(luò)管理中最基本的功能之一,它包括發(fā)現(xiàn)并診斷故障、孤立故障和恢復(fù)故障三方面(孤立故障其實(shí)就是暫時(shí)性恢復(fù)故障,應(yīng)急性地讓其它部門恢復(fù)網(wǎng)絡(luò)使用)。其中,診斷故障是網(wǎng)路故障管理的先決條件,網(wǎng)絡(luò)故障每次出現(xiàn)的現(xiàn)象也是形形色色的,沒有任何一種檢測(cè)方法或者工具可以診斷出所有的網(wǎng)絡(luò)問題。十幾年的網(wǎng)工積累的經(jīng)驗(yàn)就能少走彎路,輕松應(yīng)對(duì)大部分的網(wǎng)絡(luò)故障。
結(jié)合理論和實(shí)際工作經(jīng)驗(yàn)可以分為三種方法:分層診斷、分段診斷和“望聞問切”仿中醫(yī)診斷。這三種方法綜合使用基本能排除所有的網(wǎng)絡(luò)故障問題,構(gòu)成了一個(gè)立體網(wǎng)絡(luò)故障診斷模型。
一、分層診斷網(wǎng)絡(luò)故障
就TCP/IP協(xié)議而言網(wǎng)絡(luò)包括物理層、鏈路層、網(wǎng)絡(luò)層、傳輸層、應(yīng)用層五層。分層診斷從物理層開始,逐層向上檢查,直到應(yīng)用層。
- 物理層故障主要在線纜方面是否存在不連通、衰減等問題;
- 鏈路層故障主要在數(shù)據(jù)幀丟幀錯(cuò)發(fā)問題,還有流量控制等問題;
- 網(wǎng)絡(luò)層故障主要在路由協(xié)議是否加載或者路由設(shè)置錯(cuò)誤,還有IP地址、子網(wǎng)掩碼和網(wǎng)關(guān)等設(shè)置錯(cuò)誤等問題;
- 傳輸層故障主要在防火墻、路由器訪問列表配置有誤,過濾限制了某些服務(wù)鏈接等問題;
- 應(yīng)用層故障主要在操作系統(tǒng)的問題,如CPU、內(nèi)存、I/O、核心進(jìn)程等運(yùn)行情況是否正常;應(yīng)用服務(wù)是否開啟;服務(wù)器配置是否合理;安全管理、用戶管理是否存在問題等問題;
二、分段診斷網(wǎng)絡(luò)故障
分段診斷就是對(duì)網(wǎng)絡(luò)源端到目的端所經(jīng)過網(wǎng)絡(luò)路徑及網(wǎng)絡(luò)設(shè)備進(jìn)行分段處理,將網(wǎng)絡(luò)故障定位到某一段的設(shè)備或相應(yīng)的連接線纜及附件上。這種診斷又細(xì)分為迭代診斷和子網(wǎng)分段。
- 迭代分段是從源端開始,檢查源端到網(wǎng)絡(luò)中某一節(jié)點(diǎn)是否工作正常,如沒問題,再檢查源端到更遠(yuǎn)一個(gè)節(jié)點(diǎn)是否工作正常,以此類推,直到找到故障節(jié)點(diǎn)所在。
- 子網(wǎng)分段是用在不同的子網(wǎng)互聯(lián)時(shí)診斷網(wǎng)絡(luò)故障的方法。例如,有一種故障是兩個(gè)子網(wǎng)連接在一起就有問題,斷開其中一個(gè)子網(wǎng)就又正常了。是不是想到了VLAN,對(duì)!有時(shí)候trunk模式設(shè)置出問題就會(huì)出現(xiàn)這個(gè)情況。
三、“望聞問切”仿中醫(yī)診斷網(wǎng)絡(luò)故障
中醫(yī)治療疾病時(shí)候,講究“望聞問切”。在網(wǎng)絡(luò)出現(xiàn)故障的時(shí)候,這種方法同樣非常適用。
1. 望
望就是看、觀察的意思。網(wǎng)絡(luò)故障排除中,我們也要先通過查看PC機(jī)和路由器的初始化信息,網(wǎng)絡(luò)設(shè)備的指示燈信息和操作系統(tǒng)或應(yīng)用軟件運(yùn)行速度,以達(dá)到網(wǎng)絡(luò)故障診斷和網(wǎng)絡(luò)維護(hù)的目的。
- 初始化信息是了解硬件信息和軟件版本,排查是否因?yàn)橛布匦曰蛘哕浖姹镜葐栴}導(dǎo)致不兼容情況出現(xiàn),版本新舊的不對(duì)稱也會(huì)導(dǎo)致網(wǎng)絡(luò)故障。
- 設(shè)備指示燈是了解硬件是否處于正常工作階段。如網(wǎng)卡、交換機(jī)、光貓、路由器等面板上的LED指示燈。通常情況下,綠燈表示連接正常,紅燈表示連接故障,不亮表示無連接或線路不通。還有根據(jù)數(shù)據(jù)流量的大小,指示燈會(huì)時(shí)快時(shí)慢的閃爍。這些都是我們判斷網(wǎng)絡(luò)是否故障的重要依據(jù)。
- 操作系統(tǒng)或者應(yīng)用軟件運(yùn)行速度快慢。有時(shí)候不一定是網(wǎng)絡(luò)問題,由于電腦中毒導(dǎo)致個(gè)體網(wǎng)絡(luò)變慢或者無法上網(wǎng)的情況比比皆是,甚至像ARP等網(wǎng)絡(luò)病毒影響的確實(shí)整個(gè)局域網(wǎng),相當(dāng)可怕。
2. 聞
聞不單單是聞氣味,也包含聽聲音。計(jì)算機(jī)和網(wǎng)絡(luò)設(shè)備正常工作時(shí),風(fēng)扇和磁盤讀取數(shù)據(jù)發(fā)出來的聲音都是有規(guī)律的,如果出現(xiàn)異常聲響,就要采取緊急措施,如關(guān)閉電源等。正常工作的機(jī)房或者機(jī)箱是不會(huì)有異味的,如果有聞到塑料的焦糊味,往往是電源或者芯片出問題了?,F(xiàn)在的網(wǎng)絡(luò)設(shè)備質(zhì)量上基本沒啥問題,但也不排除出現(xiàn)這種故障的可能性。KB小網(wǎng)管所管理其中一機(jī)房的一臺(tái)H3C S3600交換機(jī)就出現(xiàn)風(fēng)扇故障。
3. 問
問就是網(wǎng)絡(luò)故障時(shí),應(yīng)該向故障單位網(wǎng)管或者當(dāng)事人詢問以下問題:
- 故障什么時(shí)候出現(xiàn)?
- 故障表現(xiàn)是什么,如連續(xù)故障,還是間斷故障。
- 故障發(fā)生的時(shí)候,操作者正在對(duì)計(jì)算機(jī)進(jìn)行什么操作?
- 網(wǎng)絡(luò)結(jié)構(gòu)有沒有發(fā)生了什么變化?比如新增路由器、交換機(jī),以及網(wǎng)絡(luò)配置更改。
- 網(wǎng)絡(luò)用戶組發(fā)生變化了嗎?如由于工作關(guān)系一組用戶變?yōu)榱硪唤M用戶。域控環(huán)境。
- 是否新增或刪除廣域網(wǎng)路由?安裝了新協(xié)議了嗎?是否安裝了新服務(wù)器?
帶著這些疑問來了解問題,往往能夠?qū)ΠY下藥更快更直接地找到問題,排除網(wǎng)絡(luò)故障。
4. 切
切在中醫(yī)上就是把把脈,用手敲兩下,基本上就能確定下來什么病。同理網(wǎng)絡(luò)故障診斷的時(shí)候,借助網(wǎng)絡(luò)故障診斷工具找到故障所在地方。如測(cè)線儀、第三方抓包軟件以及Windows自帶網(wǎng)絡(luò)命令工具等等。