高性能路由解決網(wǎng)絡(luò)流量問題
全球WAN升級很需要服務(wù)提供商的三層VPN MPLS服務(wù),但一些站點中一直受到高性能路由和可用性問題的影響。在一些從原來WAN基礎(chǔ)架構(gòu)遷移過來的站點(主要是新興市場)的網(wǎng)絡(luò)路由問題報告中,諸如應(yīng)用程序超時、響應(yīng)速度慢和完全斷線等越來越普遍。這些站點都是基于低速P2P線路、幀中繼和IPsec/互聯(lián)網(wǎng)VPN等網(wǎng)絡(luò)結(jié)構(gòu)。
許多時候人們經(jīng)常質(zhì)疑是服務(wù)提供商的線路或設(shè)備故障引起了問題,但是有時候我們會被告知問題只是“暫時性的”或者“沒有發(fā)現(xiàn)問題”。遇到這樣的情況,我們的運營人員登錄到一臺 CPE路由器,然后發(fā)現(xiàn)MPLS PE路由器上包含了BGP路由,因此所有的流量都被丟棄了,包括PING流量。運營人員手動關(guān)閉連接提供商的CPE WAN接口,使站點從MPLS網(wǎng)絡(luò)切換到傳統(tǒng)的WAN網(wǎng)絡(luò),從而使服務(wù)恢復(fù)正常。這個問題引起了我們主管的高度關(guān)注,因為把原有網(wǎng)絡(luò)作為備份網(wǎng)絡(luò)需要開支。而且許多此類站點都是無人看管的,它們在半夜還會執(zhí)行一些批處理應(yīng)用程序。
是否有一些技術(shù)或解決方案能夠自動檢測和處理這類網(wǎng)絡(luò)路由問題?我們了解BFD,但是似乎這是一個專門用于鏈路的解決方案,有一些提供商不支持。我們的運營人員考慮采用GRE通道疊加技術(shù),但是它會顯著增加網(wǎng)絡(luò)復(fù)雜性,而且還會影響我們重點部署的MPLS VPN。
回答:似乎您遇到了通常所謂的“管制”或“黑洞”問題,其表現(xiàn)是MPLS核心網(wǎng)絡(luò)的問題影響到了終端用戶,但是未影響到CPE路由器本身。這些問題都經(jīng)常出現(xiàn)在3層VPN網(wǎng)絡(luò),而在傳統(tǒng)P2P或覆蓋(幀中繼、IPSEC)WAN部署的概率則較小,這是因為服務(wù)提供商增加了一個路由層的緣故。由于任何兩個CPE站點都不會建立直接路由,所以它們必須使用MPLS/VPN網(wǎng)絡(luò)的PE路由器發(fā)出的控制面板信號。這比設(shè)計很差的服務(wù)提供商網(wǎng)絡(luò)還要慢很多。
FD(雙向故障檢測)無法解決您的問題,這點您說對了。它只支持直接相鄰的“存在性”檢查,而不能檢測確定端到端路徑完整性。在CPE路由器之間部署疊加的GRE通道肯定是一種檢測問題的可行方法。在通道中,可以使用GRE持久連接或優(yōu)化路由協(xié)議來檢測性能問題和執(zhí)行故障恢復(fù)。然而,正如您所說的,這類設(shè)計會增加復(fù)雜性,而且在一些特定平臺的硬件上,由于需要分片和無法轉(zhuǎn)發(fā)數(shù)據(jù)包,它會影響性能。
有一個可供參考的解決方案是高性能路由(Performance Routing, PfR),其前身是最優(yōu)邊緣路由(Optimized Edge Routing, OER)。高性能路由集成了思科IOS解決方案,它使用嵌入式思科智能IOS特性來改進(jìn)應(yīng)用程序性能和可用性,從而優(yōu)化傳統(tǒng)路由性能。經(jīng)過配置,PfR就能夠在網(wǎng)絡(luò)出現(xiàn)問題,或者用戶定義策略影響特定WAN出口性能時,監(jiān)控IP流量流,測量WAN路徑性能和動態(tài)重定路由流量?;贗OS報告源的實時反饋信息,如NetFlow數(shù)據(jù)記錄、IP SLA統(tǒng)計信息和WAN鏈路使用率,PfR能夠作出智能路由決策。這樣就可以實現(xiàn)傳統(tǒng)路由協(xié)議(OSPF或BGP)無法實現(xiàn)的感知應(yīng)用程序的路由功能,因為傳統(tǒng)路由協(xié)議只支持一維的“最佳路徑”選擇。
根據(jù)在CPE路由器上運行的硬件和IOS級別,您可能只需要在CPE路由器上啟用PfR屬性,然后定義一個性能策略,監(jiān)控端到端的路徑可用性。當(dāng)來自Netflow或IP SLA的反饋信息表明出現(xiàn)了管制或黑洞狀態(tài)時,您就可以將流量重新轉(zhuǎn)發(fā)到傳統(tǒng)網(wǎng)絡(luò)。這是報告非常有用的特性。
【編輯推薦】