路由故障:傳輸網(wǎng)告警導(dǎo)致整網(wǎng)路由震蕩
路由振蕩原因分為兩個方面:
一個是由于鏈路狀態(tài)的改變造成的路由改變,如果采用IS-IS或OSPF的路由發(fā)現(xiàn),由于該問題要靠Hello包的檢測,同時檢測一次還不行,還需要檢測幾次。一般情況下,從鏈路中斷到新路由選定需要幾秒到幾十秒的時間,這樣的問題發(fā)生在骨干網(wǎng)上將大大地影響實時多媒體業(yè)務(wù)的質(zhì)量,該問題主要通過使用MPLS的FRR能力加以保護。
另一個路由振蕩問題主要是網(wǎng)絡(luò)設(shè)計不嚴謹造成的,對于出現(xiàn)大量的同值選路或大量的RouteReLookup或路由狀態(tài)更新振蕩的情況,防止問題的主要方案是在設(shè)計網(wǎng)絡(luò)時要求所有的流量的方向和選路都需要監(jiān)控者明確地加以檢查。
下面讓我們看看傳輸網(wǎng)告警導(dǎo)致整網(wǎng)路由震蕩的故障解決辦法。
網(wǎng)絡(luò)環(huán)境
在圖2-1的網(wǎng)絡(luò)中,NE80E設(shè)備通過POS4/0/0端口與傳輸網(wǎng)絡(luò)設(shè)備連接。
圖2-1 設(shè)備組網(wǎng)圖
配置完成后,發(fā)現(xiàn)NE80E與傳輸設(shè)備相連的POS4/0/0端口存在大量的端口UP、DOWN告警。同時,由于端口的UP、DOWN又造成路由協(xié)議的震蕩,使整個網(wǎng)絡(luò)不穩(wěn)定。
故障分析
步驟 1 在NE80E上執(zhí)行display logbuffer命令。
顯示信息如下:
Sep 24 2002 12:33:05 NE80E %%01PHY/4/PHY_STATUS_UP(l):Slot=3;Pos4/0/0 change status to up.
Sep 24 2002 12:33:05 NE80E %%01IFNET/4/LINKNO_STATE(l):The line protocol on the interface Pos4/0/0 has entered the UP state.
Sep 24 2002 12:33:05 NE80E %%01PHY/4/PHY_STATUS_UP2DWN(l):Slot=3;Pos4/0/0 change status to down due to being shut.
Sep 24 2002 12:33:05 NE80E %%01IFNET/4/LINKNO_STATE(l):The line protocol on the interface GigabitEthernet3/0/0 has entered the DOWN state.
由顯示信息發(fā)現(xiàn)NE80E的POS4/0/0接口出現(xiàn)大量的快速Up、Down狀態(tài)切換,同時,POS4/0/0接口的路由協(xié)議也存在大量的快速Up、Down狀態(tài)切換。
步驟 2 查詢網(wǎng)管設(shè)備,發(fā)現(xiàn)收到大量NE80E設(shè)備接口快速Up、Down信息。
步驟 3 在NE80E上執(zhí)行display trapbuffer命令,發(fā)現(xiàn)傳輸設(shè)備經(jīng)常會出現(xiàn)2-5毫秒的傳輸告警。
默認情況下路由器接收到傳輸告警會立即響應(yīng),導(dǎo)致路由協(xié)議中斷后重建,造成整網(wǎng)路由震蕩。
----結(jié)束
處理步驟
在NE80E上分別執(zhí)行以下操作。
步驟 1 執(zhí)行命令system-view,進入系統(tǒng)視圖。
步驟 2 執(zhí)行命令interface Pos 4/0/0,進入接口視圖。
步驟 3 執(zhí)行命令alarm lrdi sensitive,配置POS接口所在的LPU對lrdi類型的告警信息進行響應(yīng)。
步驟 4 執(zhí)行命令alarm pais sensitive,配置POS接口所在的LPU對pais類型的告警信息進行響應(yīng)。
步驟 5 執(zhí)行命令alarm prdi sensitive,配置POS接口所在的LPU對prdi類型的告警信息進行響應(yīng)。
說明:通過步驟3、4、5,使能POS4/0/0接口所在的LPU對告警信號進行響應(yīng)。
步驟 6 執(zhí)行命令carrier down-hold-time 50,配置接口對傳輸告警抑制時間。
說明:默認傳輸告警抑制時間為0ms。
----結(jié)束
完成上述操作后,當設(shè)備收到傳輸告警,系統(tǒng)會在接口狀態(tài)變化后的50毫秒后,才響應(yīng)接口的狀態(tài)變化。這樣可以避免由于接口狀態(tài)頻繁變化而引起的震蕩。故障排除。
案例總結(jié)
兩臺相距較遠的路由器通過POS口連接,不能直接用光連接器相連,中間有傳輸設(shè)備。如果傳輸設(shè)備之間的鏈路中斷了,光傳輸設(shè)備可以感知,但路由器不能立即感知相關(guān)的端口失效(和傳輸設(shè)備之間的光路正常),快速切換功能不能實現(xiàn)。
在路由器上配置POS接口響應(yīng)傳輸設(shè)備告警功能后(缺省情況下,POS接口所在的LPU不對告警信息進行響應(yīng)),當路由器收到光傳輸設(shè)備發(fā)送的告警信息,會通告POS接口Down。
然而在傳輸鏈路不穩(wěn)定導(dǎo)致遇到大量POS接口Up、Down告警時,會引起可以路由協(xié)議中斷后重建,造成整網(wǎng)路由震蕩。解決辦法是引入傳輸告警抑止,當接口狀態(tài)發(fā)生變化時,系統(tǒng)會在接口狀態(tài)變化后的一段間隔后,才響應(yīng)接口的狀態(tài)變化。這樣可以避免由于接口狀態(tài)頻繁變化而引起的震蕩。
【編輯推薦】