圖解:雙IP地址引起的網(wǎng)絡(luò)故障
原創(chuàng)【51CTO.com 獨(dú)家特稿】單位網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示。為了確保重要設(shè)備的穩(wěn)定性和冗余性,核心層交換機(jī)使用兩臺(tái)Cisco 4507,通過Trunk線連接。在接入層使用了多臺(tái)Cisco 3560交換機(jī),圖示為了簡潔,只畫出了兩臺(tái)。在核心交換機(jī)上連接有單位重要的服務(wù)器,如DHCP、E-MAIL服務(wù)器、WEB服務(wù)器等。單位IP地址的部署,使用的是C類私有192網(wǎng)段的地址。DHCP服務(wù)器的IP地址為192.168.10.1,E-MAIL服務(wù)器的IP地址是192.168.3.1。Cisco 4507和Cisco 3560之間也是Trunk連接。
圖1 單位網(wǎng)絡(luò)結(jié)構(gòu)圖
公司根據(jù)部門性質(zhì)的不同,把它們劃入到不同的VLAN中。服務(wù)器都位于VLAN 2至VLAN 10中,對(duì)應(yīng)的網(wǎng)絡(luò)號(hào)是192.168.2.0~192.168.10.0,如DHCP服務(wù)器位于VLAN 10中,流媒體服務(wù)器位于VLAN 2中。服務(wù)器的IP地址、默認(rèn)網(wǎng)關(guān)和DNS都是靜態(tài)配置的。VLAN 11至VLAN 100是屬于業(yè)務(wù)部門使用的,對(duì)應(yīng)的網(wǎng)絡(luò)號(hào)是192.168.11.0~192.168.100.0。VLAN 101至VLAN 200是屬于辦公部門使用,對(duì)應(yīng)的網(wǎng)絡(luò)號(hào)是192.168.101.0~192.168.200.0。VLAN號(hào)和網(wǎng)絡(luò)號(hào)之間都是對(duì)應(yīng)的。VLAN中的PC都是通過Cisco 3560接入到網(wǎng)絡(luò)中,3560都是二層配置,三層的配置都在Cisco 4507上,也就是VLAN間的路由都是通過4507完成的。PC的IP地址、默認(rèn)網(wǎng)關(guān)和DNS都是自動(dòng)從DHCP服務(wù)器上獲得的,不用手工靜態(tài)配置。
一、故障發(fā)生的過程
公司流媒體服務(wù)器位于VLAN 2中,IP地址為192.168.2.8/24。網(wǎng)絡(luò)中有權(quán)限的用戶可以進(jìn)入到服務(wù)器中下載、上傳和編輯一些視頻剪輯。一天早上,業(yè)務(wù)網(wǎng)VLAN 12中的很多用戶反映它們部門的人員都不能訪問流媒體服務(wù)器,也不能進(jìn)入服務(wù)器中流媒體應(yīng)用系統(tǒng)的Web界面。
但是VLAN 12中的用戶訪問其它VLAN中服務(wù)器上的應(yīng)用,都很正常中,如都能正常訪問VLAN 3中的E-MAIL服務(wù)器。而且辦公網(wǎng)和業(yè)務(wù)網(wǎng)中除了VLAN 12,其它VLAN中的用戶,都能正常訪問流媒體服務(wù)器,也就是只有VLAN 12中的用戶訪問不了。因?yàn)榱髅襟w應(yīng)用是單位業(yè)務(wù)中一項(xiàng)很重要的應(yīng)用,若長時(shí)間不能用的話,可能會(huì)影響到公司業(yè)務(wù)正常運(yùn)轉(zhuǎn),所以必須盡快排除故障。#p#
二、排查故障的步驟
1、通過對(duì)故障信息的收集,我們確定了網(wǎng)絡(luò)故障的大概示意圖,如圖2所示。不能訪問流媒體服務(wù)器的用戶IP地址的網(wǎng)絡(luò)號(hào)都是 192.168.12.0/24。他們?cè)L問流媒體服務(wù)器的路徑先是到Cisco 3560,通過Cisco 4507,最后到達(dá)服務(wù)器。
圖2 存在故障的網(wǎng)絡(luò)示意圖
2、我們到不能訪問流媒體服務(wù)器的部門,查看了用戶的PC,發(fā)現(xiàn)電腦上的IP地址,默認(rèn)網(wǎng)關(guān)、DNS都是正確的。然后我們?cè)谟脩綦娔X的"命令行"中執(zhí)行"ping 192.168.2.8"命令,結(jié)果ping不通。然后又執(zhí)行了ping VLAN 12網(wǎng)關(guān)地址的命令"ping 192.168.12.254",發(fā)現(xiàn)能ping通。為了確定出具體的故障部位,又在"命令行"中執(zhí)行了"tracert 192.168.2.8"命令,顯示的結(jié)果如下所示:
C:\ >tracert 192.168.2.8
Tracing route to 192.168.2.8 over a maximum of 30 hops
1 <1 ms <1 ms <1 ms 192.168.12.254
2 * * * Request timed out.
3 * * * Request timed out.
上面命令的顯示結(jié)果還有27行省略了,因?yàn)閿?shù)據(jù)包不能到達(dá)目的地,后面27項(xiàng)和第2、3項(xiàng)的內(nèi)容一樣。
從上面的結(jié)果可以看出,用戶訪問流媒體服務(wù)器時(shí),數(shù)據(jù)包只能到達(dá)192.168.12.254,再往下路徑就發(fā)生了故障,不能到達(dá)目的地。從前面的介紹知道Cisco 3560上是沒有IP地址配置的,它們都是作為二層交換機(jī)接入到網(wǎng)絡(luò)中的,所有三層的地址都是在Cisco 4507上配置的。也就是用戶訪問流媒體服務(wù)器的數(shù)據(jù)能到達(dá)4507,然后再往下就不知道哪出現(xiàn)了故障??赡苁橇髅襟w服務(wù)器故障,也可能是連接流媒體服務(wù)器和核心交換機(jī)4507之間的鏈路發(fā)生了故障。
3、為了確定是服務(wù)器故障,還是服務(wù)器和4507之間鏈路的故障。我們把連接服務(wù)器的千兆網(wǎng)線接頭拔下來,然后把接頭接入到一臺(tái)狀態(tài)良好的PC上,PC上的IP地址、默認(rèn)網(wǎng)關(guān)、DNS的配置和流媒體服務(wù)器上的配置完全一樣。接著,再次在不能訪問流媒體應(yīng)用的用戶電腦上執(zhí)行了"ping 192.168.2.8",結(jié)果一切正常,網(wǎng)絡(luò)是通的。
4、到現(xiàn)在就能確定,問題出現(xiàn)在流媒體服務(wù)器上。不過,現(xiàn)在還不能確定是服務(wù)器上流媒體的應(yīng)用系統(tǒng)有問題,還是服務(wù)器上的網(wǎng)絡(luò)設(shè)置方面有問題。接著我們查看了服務(wù)器上網(wǎng)絡(luò)方面的設(shè)置,如圖3所示,是在服務(wù)器"命令行"中執(zhí)行"ipconfig /all"顯示出的結(jié)果。
圖3 流媒體服務(wù)器的IP地址配置
到這里已基本確定引起網(wǎng)絡(luò)故障的原因,就是因?yàn)樵诹髅襟w服務(wù)器的網(wǎng)卡上配置了兩個(gè)IP地址,其中192.168.12.18/24就是引起故障的錯(cuò)誤配置。
5、在流媒體服務(wù)器控制面板的"網(wǎng)絡(luò)連接"中,找到和IP地址192.168.2.8對(duì)應(yīng)的"本地連接",然后雙擊"本地連接"圖標(biāo),在"屬性"→"Internet協(xié)議(TCP/IP),屬性"→"高級(jí)",找到了添加錯(cuò)誤IP地址192.168.12.18的地方,如圖4所示。
圖4 添加/刪除IP地址示意圖
在圖4中,選中IP地址192.168.12.18,然后點(diǎn)擊"刪除"按鈕,就把網(wǎng)卡上錯(cuò)誤的IP地址刪除了。這時(shí),VLAN 12中的用戶也可以正常訪問流媒體服務(wù)器中的應(yīng)用了。#p#
三、總結(jié)
1、如圖5所示,是網(wǎng)絡(luò)故障期間,在流媒體服務(wù)器的"命令行"中執(zhí)行"route print"命令得到的結(jié)果。其中,紅線標(biāo)出的,就是上面在用戶的電腦上執(zhí)行"tracert 192.168.2.8"命令后,數(shù)據(jù)包不能從流媒體服務(wù)器返回到VLAN 12用戶PC的原因所在。
圖5 流媒體服務(wù)器中的路由表
因?yàn)樵赩LAN 12中的用戶PC上執(zhí)行"tracert 192.168.2.8"的命令后,Tracert數(shù)據(jù)包中的目的IP地址是192.168.2.8,PC根據(jù)電腦中的默認(rèn)網(wǎng)關(guān)地址192.168.12.254,先把數(shù)據(jù)包傳輸?shù)紺isco 3560,然后再到達(dá)Cisco 4507。4507查看了Tracert數(shù)據(jù)包中的目的IP地址是192.168.2.8,知道它是要去往VLAN 2中的,然后4507把Tracert數(shù)據(jù)包傳輸?shù)搅髅襟w服務(wù)器。
當(dāng)流媒體服務(wù)器收到Tracert數(shù)據(jù)包后,發(fā)現(xiàn)數(shù)據(jù)包的目的IP地址正是自己的IP地址,它把數(shù)據(jù)包收下后。然后根據(jù)Tracert命令的約定,它還要給VLAN 2中的用戶PC返回一個(gè)Tracert數(shù)據(jù)包,這時(shí)返回的這個(gè)數(shù)據(jù)包的目的IP地址,對(duì)應(yīng)的網(wǎng)絡(luò)地址就是192.168.12.0/24,接著流媒體服務(wù)器就在自己的路由表查找到達(dá)目的網(wǎng)絡(luò)192.168.12.0/24的路由,結(jié)果它就在自己的路由表中就找到了圖5中紅線標(biāo)出的路由項(xiàng)目,在其中它找到網(wǎng)絡(luò)192.168.12.0/24,是和自己的鏈路,也就是網(wǎng)卡直接相連的,因?yàn)槁酚身?xiàng)目中顯示的"網(wǎng)關(guān)"對(duì)應(yīng)項(xiàng)是"在鏈路上"。這種情況下流媒體服務(wù)器就不會(huì)把要返回的Tracert數(shù)據(jù)包路由到VLAN 2之外。結(jié)果VLAN 12中的用戶也就不會(huì)收到返回的Tracert數(shù)據(jù)包。
2、通常在計(jì)算機(jī)網(wǎng)卡、交換機(jī)和路由器的端口上都能配置兩個(gè)或多個(gè)IP地址,在前兩者上的主要作用是為了實(shí)現(xiàn)連接在同一局域網(wǎng)上不同網(wǎng)段之間的通訊。一般由于一個(gè)網(wǎng)段中所包含的IP地址對(duì)于用戶來說不夠用,就可以采用配置多個(gè)IP地址的辦法來擴(kuò)大接入到局域網(wǎng)中用戶的數(shù)量。而在路由器的端口上配置兩個(gè)或多個(gè)IP地址主要是實(shí)現(xiàn)連在同一路由器端口的不同網(wǎng)段的通訊,但這時(shí)要注意啟用端口上的IP重定向功能,因?yàn)橐话懵酚善鞑辉试S從同一端口進(jìn)來的IP數(shù)據(jù)包又發(fā)回到原端口中。啟用了重定向功能,就允許在同一端口進(jìn)入路由器的IP數(shù)據(jù)包由原端口再發(fā)送回去。但是在計(jì)算機(jī)網(wǎng)卡、交換機(jī)和路由器的端口上配置多個(gè)IP地址常常會(huì)給網(wǎng)絡(luò)帶來意想不到的故障,所以一般沒有特殊需求,不要在同一端口上配置多個(gè)IP地址。
3、這次公司流媒體服務(wù)器的故障也是因?yàn)?,在故障的前一天晚上,?fù)責(zé)流媒體應(yīng)用系統(tǒng)軟件開發(fā)的廠商在公司調(diào)試軟件,因?yàn)檐浖y試的需要,要在流媒體服務(wù)器的網(wǎng)卡上臨時(shí)再配置一個(gè)IP地址,技術(shù)人員就隨便配置了192.168.12.18這個(gè)地址。測試完成后,技術(shù)人員離開公司時(shí)忘了把這個(gè)IP地址刪除掉,結(jié)果就導(dǎo)致了第二天早上的網(wǎng)絡(luò)故障。
按照單位的規(guī)定,對(duì)機(jī)房服務(wù)器上每一步重要的操作,都要記錄在服務(wù)器日志登記本上。完成操作后,要逐項(xiàng)查看登記本,是否把服務(wù)器恢復(fù)到了初始的正常狀態(tài)。但因?yàn)殡p方的技術(shù)人員都沒有嚴(yán)格執(zhí)行機(jī)房房管理規(guī)定,從而造成了意外的疏漏??磥砭W(wǎng)絡(luò)管理無小事,必須從點(diǎn)滴做起,從我做起。
【編輯推薦】