一起連接錯誤 導(dǎo)致網(wǎng)絡(luò)崩潰
原創(chuàng)【51CTO.com 獨(dú)家特稿】公司有兩個完全隔離的網(wǎng)絡(luò)系統(tǒng),內(nèi)網(wǎng)和外網(wǎng)。內(nèi)網(wǎng)的主要作用是處理一些安全性要求比較高,有保密性的事務(wù)。并且,內(nèi)網(wǎng)上有很多服務(wù)器,如DNS、WEB、郵件、人事、檔案等服務(wù)器,這些服務(wù)器對公司業(yè)務(wù)的正常運(yùn)轉(zhuǎn)都至關(guān)重要,所以一定要保證它們的安全性、穩(wěn)定性和可靠性。而公司的外網(wǎng)主要是讓辦公人員訪問互聯(lián)網(wǎng),在Internet下載資料,和外單位聯(lián)系時使用。
一、公司網(wǎng)絡(luò)概況
公司內(nèi)網(wǎng)的核心層交換機(jī)使用的是Cisco 4507R,在Cisco 4507R上接有多個服務(wù)器。內(nèi)網(wǎng)的接入層交換機(jī)使用的是Cisco 3750。內(nèi)網(wǎng)中IP地址使用的是A類私有地址,其中內(nèi)網(wǎng)的DHCP服務(wù)器IP地址為10.1.1.1/24。客戶端都是自動從DHCP服務(wù)器獲取IP地址、DNS和默認(rèn)網(wǎng)關(guān)地址。內(nèi)網(wǎng)的結(jié)構(gòu)示意圖如圖1所示。
(圖1 公司內(nèi)網(wǎng)結(jié)構(gòu)圖)
外網(wǎng)的核心層交換機(jī)使用的是Cisco 4503。外網(wǎng)的結(jié)構(gòu)相對內(nèi)網(wǎng)要簡單許多,因?yàn)橹灰WC用戶能訪問互聯(lián)網(wǎng)就行,在安全性和穩(wěn)定性方面要求比較低。外網(wǎng)中的接入層交換機(jī)使用的是Cisco 2960。IP地址使用的是B類私有地址。外網(wǎng)中只使用了一臺服務(wù)器,即DHCP服務(wù)器,IP地址為172.16.1.1/24。同樣,外網(wǎng)中的客戶端也是自動從DHCP服務(wù)器上獲取IP地址、DNS和默認(rèn)網(wǎng)關(guān)地址。外網(wǎng)的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示。
(圖2 公司外網(wǎng)結(jié)構(gòu)圖)#p#
二、故障發(fā)生的過程
公司的內(nèi)網(wǎng)和外網(wǎng)在客戶端接入時,有的辦公室要接入網(wǎng)絡(luò)中的電腦數(shù)量,比房間中的信息點(diǎn)數(shù)量要多。這樣如果不擴(kuò)展房間中信息點(diǎn)數(shù)量,就不能保證所有的電腦都連接到網(wǎng)絡(luò)中。在這種情況下,我們使用了TP-Link的8端口交換機(jī)。交換機(jī)的一個端口上連到辦公室內(nèi)網(wǎng)或外網(wǎng)中的一個信息點(diǎn)上,這樣交換機(jī)上的其它七個端口就可以直接連接到用戶的電腦上,有效的擴(kuò)展了辦公室中信息點(diǎn)的數(shù)量。
引起網(wǎng)絡(luò)崩潰的錯誤連接發(fā)生在同一個辦公室中。錯誤連接的示意圖,如圖3所示。因?yàn)檫@個辦公室中的內(nèi)網(wǎng)和外網(wǎng)的信息點(diǎn)都很少,所以在用戶接入內(nèi)網(wǎng)和外網(wǎng)時,都使用了一個TP-Link的8端口交換機(jī)。發(fā)生故障前,辦公室一用戶發(fā)現(xiàn)自己的電腦不能訪問互聯(lián)網(wǎng),就在不明白網(wǎng)絡(luò)運(yùn)行原理的情況下,看到房間中有兩個TP-Link交換機(jī),錯誤的認(rèn)為是因?yàn)檫@兩個小交換機(jī)沒有連接起來而引起的故障,就找了一根網(wǎng)線,把兩個TP-Link交換機(jī)連了起來,結(jié)果導(dǎo)致公司內(nèi)網(wǎng)和外網(wǎng)大面積的網(wǎng)絡(luò)崩潰。
(圖3 引起網(wǎng)絡(luò)崩潰的錯誤連接示意圖)
三、故障發(fā)生的現(xiàn)象和故障的排除
1、故障發(fā)生的現(xiàn)象。故障發(fā)生后,很多用戶打電話說不能訪問網(wǎng)絡(luò)。有的不能訪問內(nèi)網(wǎng),有的不能訪問外網(wǎng)。到故障現(xiàn)場查看不能正常訪問的電腦后,發(fā)現(xiàn)內(nèi)網(wǎng)中的電腦獲取到的都是外網(wǎng)的IP地址,即172開頭的地址。而外網(wǎng)中的用戶獲取到的都是內(nèi)網(wǎng)的IP地址,即10開頭的地址。所以我們根據(jù)故障現(xiàn)象,初步斷定是哪個辦公室中把內(nèi)網(wǎng)和外網(wǎng)連接到了一起。
2、故障的排除。確定了發(fā)生故障的原因后,下一步就是找出在那個辦公室中把內(nèi)網(wǎng)和外網(wǎng)連接到了一起。但是,可能引起錯誤連接的辦公室有好幾十個,總不能一個一個去排查,這樣效率太低。
后來,我們在機(jī)房中,逐一拔掉,連接配線架端口和交換機(jī)端口的每根網(wǎng)線,若拔掉某個辦公室配線架上的網(wǎng)線后,公司的網(wǎng)絡(luò)恢復(fù)正常,那就是這個辦公室中把內(nèi)網(wǎng)和外網(wǎng)連接到了一起。后來我們用這種辦法找到了引起錯誤連接的那個辦公室,和開始的推測完全一樣,確實(shí)有人私自把內(nèi)網(wǎng)和外網(wǎng)的兩個TP-Link連到了一起。把錯誤的連接斷開后,公司網(wǎng)絡(luò)全部恢復(fù)正常。
四、總結(jié)
1、DHCP服務(wù)器的工作過程。當(dāng)一臺電腦第一次接入到,配置有DHCP服務(wù)器的網(wǎng)絡(luò)中時,客戶機(jī)上沒有任何的IP數(shù)據(jù)設(shè)定,也就是沒有IP地址、DNS和默認(rèn)網(wǎng)關(guān)地址,這時它會向網(wǎng)絡(luò)中發(fā)出一個 DHCP Discover數(shù)據(jù)包。因?yàn)榭蛻舳诉€不知道自己屬于哪一個網(wǎng)絡(luò),所以數(shù)據(jù)包的源地址為0.0.0.0,而目的地址則為 255.255.255.255 ,向網(wǎng)絡(luò)進(jìn)行廣播。當(dāng)客戶端將第一個 DHCP Discover數(shù)據(jù)包送出去之后,在 一秒之內(nèi)若沒有得到響應(yīng)的話,就會進(jìn)行第二次 DHCP Discover數(shù)據(jù)包的廣播。若一直得不到響應(yīng)的情況下,客戶端一共會有四次 DHCP Discover數(shù)據(jù)包廣播。
在DHCP服務(wù)器收到DHCP Discover發(fā)現(xiàn)報(bào)文后會做出響應(yīng),它從尚未出租的IP地址中挑選一個分配給DHCP客戶機(jī),并根據(jù)DHCP Discover數(shù)據(jù)包中原來攜帶的客戶機(jī)MAC地址,向客戶機(jī)發(fā)送一個包含出租的IP地址、DNS和默認(rèn)網(wǎng)關(guān)地址的DHCP Offer提供報(bào)文。
如果網(wǎng)絡(luò)中有多臺DHCP服務(wù)器向客戶機(jī)發(fā)來DHCP Offer提供IP地址,則客戶機(jī)只接受第一個收到的DHCP Offer報(bào)文提供的IP地址。
2、深入分析導(dǎo)致網(wǎng)絡(luò)崩潰的原因。從以上分析DHCP服務(wù)器的工作過程可以看出,當(dāng)網(wǎng)絡(luò)中有兩個DHCP服務(wù)器運(yùn)行的時候,客戶機(jī)獲取IP地址時,哪個DHCP服務(wù)器提供的速度快,客戶機(jī)就采用那個DHCP服務(wù)器的提供的IP地址。所以,當(dāng)把兩個TP-Link交換機(jī)連接起來后,內(nèi)網(wǎng)和外網(wǎng)打通,成了一個整體的大網(wǎng),并且網(wǎng)路中包含兩個DHCP服務(wù)器,這樣內(nèi)網(wǎng)中的電腦可能獲取到的是外網(wǎng)的IP地址,而外網(wǎng)中的電腦獲取到的可能是內(nèi)網(wǎng)的IP地址。結(jié)果就導(dǎo)致了整個內(nèi)網(wǎng)和外網(wǎng)的混亂,客戶機(jī)也就不能正常訪問網(wǎng)絡(luò)了。
3、故障的經(jīng)驗(yàn)和教訓(xùn)。首先要加強(qiáng)客戶端的管理。用戶出現(xiàn)不能訪問網(wǎng)絡(luò)的故障,應(yīng)當(dāng)及時向網(wǎng)路管理部門上報(bào),而不應(yīng)私自處置。其次,應(yīng)當(dāng)禁止用戶對放置在辦公室中的TP-Link交換機(jī)上的網(wǎng)線私自接入和拔出。
【51CTO.com獨(dú)家特稿,非經(jīng)授權(quán)謝絕轉(zhuǎn)載!合作媒體轉(zhuǎn)載請注明原文出處及出處!】