網(wǎng)絡(luò)的可靠性是設(shè)計出來的——解析網(wǎng)絡(luò)解決方案的可靠性
網(wǎng)絡(luò)可靠性的定義
根據(jù)國家標(biāo)準(zhǔn)GB-6583的規(guī)定,產(chǎn)品的可靠性是指:設(shè)備在規(guī)定的條件下、在規(guī)定的時間內(nèi)完成規(guī)定的功能的能力。對于網(wǎng)絡(luò)系統(tǒng)的可靠性,除了耐久性外,還有容錯性和可維護性方面的內(nèi)容。
1、耐久性。是指設(shè)備運行的無故障性或壽命,專業(yè)名稱叫MTBF(Mean Time Between Failure),即平均無故障時間,它是描述整個系統(tǒng)可靠性的重要指標(biāo)。對于一個網(wǎng)絡(luò)系統(tǒng)來說,MTBF是指整個網(wǎng)絡(luò)的各組件(鏈路、節(jié)點)不間斷無故障連續(xù)運行的平均時間。
2、容錯性。專業(yè)名稱叫MTTR(Mean Time to Repair),即系統(tǒng)平均恢復(fù)時間,是描述整個系統(tǒng)容錯能力的指標(biāo)。對于一個網(wǎng)絡(luò)系統(tǒng)來說,MTTR是指當(dāng)網(wǎng)絡(luò)中的組件出現(xiàn)故障時,網(wǎng)絡(luò)從故障狀態(tài)恢復(fù)到正常狀態(tài)所需的平均時間。
3、可維護性。在系統(tǒng)發(fā)生故障后,能夠很快地定位問題并通過維護排除故障,這屬于事后維護;根據(jù)系統(tǒng)告警提前發(fā)現(xiàn)問題(如CPU使用率過高,端口流量異常等),通過更換設(shè)備或調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)來規(guī)避可能出現(xiàn)的故障,這屬于預(yù)防維護??删S護性需要管理人員來實施,體現(xiàn)了管理的水平,也反映了系統(tǒng)可靠性的高低。
表示系統(tǒng)可靠性的公式為:
MTBF / ( MTBF + MTTR ) * 100%。
從公式或以看出,提高MTBF或降低MTTR都可以提高網(wǎng)絡(luò)可靠性。造成網(wǎng)絡(luò)不可用的因素包括:設(shè)備軟硬件故障、設(shè)備間鏈路故障、用戶誤操作、網(wǎng)絡(luò)擁塞等。針對這些因素采取措施,使網(wǎng)絡(luò)盡量不出故障,提高網(wǎng)絡(luò)MTBF指標(biāo),從而提升整網(wǎng)的可靠性水平。
然而,網(wǎng)絡(luò)中的故障總是不可避免的,所以設(shè)計和部署從故障中快速恢復(fù)的技術(shù)、縮小MTTR指標(biāo),同樣是提升網(wǎng)絡(luò)可靠性水平的手段。
在網(wǎng)絡(luò)架構(gòu)的設(shè)計中,充分保證整網(wǎng)運行的可靠性是基本原則之一。網(wǎng)絡(luò)系統(tǒng)可靠性設(shè)計的核心思想則是,通過合理的組網(wǎng)結(jié)構(gòu)設(shè)計和可靠性特性應(yīng)用,保證網(wǎng)絡(luò)系統(tǒng)具備有效備份、自動檢測和快速恢復(fù)機制,同時關(guān)注不同類型網(wǎng)絡(luò)的適應(yīng)成本。
構(gòu)建可靠的網(wǎng)絡(luò),需要從耐久性、容錯性以及可維護性三個方面進行網(wǎng)絡(luò)規(guī)劃設(shè)計。而網(wǎng)絡(luò)的規(guī)劃設(shè)計是個系統(tǒng)工程,不同的設(shè)計方案的可靠性性效果不盡相同,這就需要以科學(xué)的方法進行設(shè)計,構(gòu)建符合需要的可靠性網(wǎng)絡(luò)。
一、網(wǎng)絡(luò)解決方案可靠性的設(shè)計原則
不同的網(wǎng)絡(luò),其可靠性的設(shè)計目標(biāo)是不同的。網(wǎng)絡(luò)解決方案的可靠性需要根據(jù)實際需求進行設(shè)計。高可靠性的網(wǎng)絡(luò)不但涉及到網(wǎng)絡(luò)架構(gòu)、設(shè)備選型、協(xié)議選擇、業(yè)務(wù)規(guī)劃等技術(shù)層面的問題,還受用戶現(xiàn)有網(wǎng)絡(luò)狀況、網(wǎng)絡(luò)投資預(yù)算、用戶管理水平等影響,因此在規(guī)劃可靠性網(wǎng)絡(luò)時需要因地制宜,綜合考慮各方面的影響因素。
網(wǎng)絡(luò)結(jié)構(gòu)通常分核心層、匯聚層和接入層。網(wǎng)絡(luò)層次越高其可靠性要求也越高。在網(wǎng)絡(luò)的方案設(shè)計中,采用層次化的網(wǎng)絡(luò)設(shè)計結(jié)構(gòu),不同層次解決不同級別的可靠性要求。為保證網(wǎng)絡(luò)可靠性,可靠性技術(shù)的實施并不是簡單疊加和無限制的冗余。否則,一方面會增加網(wǎng)絡(luò)建設(shè)整體成本,另一方面還會增加管理維護的復(fù)雜度,給網(wǎng)絡(luò)引入潛在的故障隱患。因此在進行規(guī)劃時,應(yīng)該根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)類型和網(wǎng)絡(luò)層次,分析網(wǎng)絡(luò)業(yè)務(wù)模型,確定基礎(chǔ)網(wǎng)絡(luò)拓撲,明確對網(wǎng)絡(luò)可靠性***的關(guān)鍵節(jié)點和鏈路,合理規(guī)劃和部署各種網(wǎng)絡(luò)高可用技術(shù)。
在網(wǎng)絡(luò)可靠性規(guī)劃實施時,應(yīng)在保證網(wǎng)絡(luò)各層次可靠性要求的基礎(chǔ)上,盡量降低復(fù)雜度,適度地控制成本,才能設(shè)計出最適合的方案。不能為追求單純可靠性而忽視系統(tǒng)的整體成本和性能,構(gòu)建可靠性網(wǎng)絡(luò)是一個平衡各方面因素的過程。所以對于網(wǎng)絡(luò)可靠性,沒有***的方案,只有最合適的方案。#p#
二、解決方案可靠性的設(shè)計方法實例
1、網(wǎng)絡(luò)接入層可靠性方案
可靠的接入層應(yīng)提供以下主要特性:
使用冗余引擎和冗余電源獲得系統(tǒng)級冗余,為關(guān)鍵用戶群提供高可靠性;
與具備冗余系統(tǒng)的匯聚層進行雙歸屬連接,獲得缺省網(wǎng)關(guān)冗余,支持在匯聚層的主備交換機間快速實現(xiàn)故障切換;
通過鏈路匯聚提高帶寬利用率,同時降低復(fù)雜性;
通過配置802.1X,動態(tài)ARP檢查及IP源地址保護等功能增加安全性,有效防止非法訪問。
接入層到匯聚層有四種連接方式,如表1所示??梢钥闯?,三角形組網(wǎng)(拓撲4)提供了更高的接入可靠性以及更靈活的擴展能力,所以建議采用三角形組網(wǎng)方式。由于接入層三角形組網(wǎng)存在二層環(huán)路,所以需要在交換機上使能多生成樹協(xié)議MSTP。匯聚層交換機部署虛擬路由器冗余協(xié)議VRRP,將VRRP組的虛擬IP地址作為服務(wù)器網(wǎng)關(guān)。
圖1. 高可靠性接入典型組網(wǎng)
接入層的四種拓撲的比較:
拓撲
|
優(yōu)點
|
缺點
|
1
倒U形
|
不啟用STP,網(wǎng)絡(luò)管理簡單。
VLAN可以跨匯聚層交換機,二層的擴展靈活。
|
匯聚交換機故障時,造成其同側(cè)接入交換機上的服務(wù)器不可達,無法實現(xiàn)高可用接入
|
2
U形
|
不啟用STP,網(wǎng)絡(luò)管理簡單。
接入交換機與匯聚交換機之間有冗余鏈路。
|
VLAN不能跨匯聚交換機,部署不靈活。接入交換機間鏈路故障時,VRRP心跳報文無法傳遞,網(wǎng)絡(luò)處于不穩(wěn)定狀態(tài)。
|
3
矩形
|
接入交換機與匯聚交換機之間有冗余鏈路。
VLAN可以跨匯聚層交換機
|
當(dāng)接入交換機上行鏈路故障時,所有流量將從另一側(cè)的交換機上行,網(wǎng)絡(luò)收斂比變小,網(wǎng)絡(luò)易擁塞,降低了網(wǎng)絡(luò)可靠性。
|
4
三角形
|
接入交換機與匯聚交換機之間有冗余鏈路、冗余路徑。
VLAN 可以跨匯聚層交換機,部署靈活
|
生成樹計算比矩形拓撲復(fù)雜。
|
表1. 四種拓撲連接方式的對比#p#
2、網(wǎng)絡(luò)匯聚層可靠性方案
匯聚層應(yīng)使用與核心層相同結(jié)構(gòu)的冗余節(jié)點備份連接,以實現(xiàn)最快速的路由收斂并避免黑洞產(chǎn)生。匯聚層做三層接入網(wǎng)關(guān)時,還需要通過VRRP等協(xié)議實現(xiàn)網(wǎng)關(guān)的冗余備份和流量的負載分擔(dān)。匯聚層邊界發(fā)生鏈路或節(jié)點故障時,收斂速度取決于缺省網(wǎng)關(guān)冗余與故障切換,通過合理地配置協(xié)議定時器,可達到秒級的收斂速度。
匯聚層到核心層間采用OSPF等動態(tài)路由協(xié)議進行路由層面高可用保障。常見連接方式有兩種,如圖2所示。左圖組網(wǎng)方式從匯聚層到核心層具有全冗余鏈路和轉(zhuǎn)發(fā)路徑;右圖組網(wǎng)方式從匯聚層到核心層沒有冗余鏈路,當(dāng)主鏈路發(fā)生故障時,需要通過路由協(xié)議計算獲得從匯聚到核心的冗余路徑。所以,三角形拓撲的故障收斂時間較小,但要占用更多的設(shè)備端口,建網(wǎng)成本略高。
圖2. 匯聚層與核心層的拓撲
3、核心層可靠性方案
核心層設(shè)備作為網(wǎng)絡(luò)的骨干,需要能提供快速的數(shù)據(jù)交換和極高的永續(xù)性。從備份和負載分擔(dān)的角度可選用雙核心或多核心;從單臺設(shè)備考慮,選用交換性能和可靠性高的設(shè)備,支持雙主控、電源冗余、風(fēng)扇冗余、分布式轉(zhuǎn)發(fā)等特性。并降低核心設(shè)備配置的復(fù)雜度,減少出現(xiàn)錯誤的幾率。
盡量在核心使用冗余的點到點三層互聯(lián)(如圖2左圖),因為這種設(shè)計可產(chǎn)生最快速、最確定的收斂結(jié)果。將核心設(shè)計為只使用硬件加速業(yè)務(wù)的三層交換環(huán)境要優(yōu)于二層的設(shè)計,因為在鏈路或節(jié)點故障時能提供更快的收斂速度、通過減少路由鄰接關(guān)系和網(wǎng)絡(luò)拓撲提高可擴展性、通過等價多路徑提高帶寬利用率。
4、IRF虛擬化技術(shù)提高可靠性
圖3. 傳統(tǒng)架構(gòu)網(wǎng)絡(luò)拓撲與IRF架構(gòu)網(wǎng)絡(luò)拓撲對比#p#
傳統(tǒng)架構(gòu)為保證網(wǎng)絡(luò)高可靠性通常采用MSTP+VRRP,這種組網(wǎng)需要在接入交換機與匯聚交換機間運行MSTP協(xié)議,管理和維護較復(fù)雜。但當(dāng)接入交換機和匯聚交換機都采用H3C IRF智能彈性架構(gòu)技術(shù)之后,可將每兩臺交換機(也可以是多臺)配置成一個IRF堆疊組,兩臺匯聚交換機也配置成一個堆疊組,接入交換機與匯聚交換機之間通過捆綁鏈路連接,如圖3所示。從邏輯上看,一個堆疊組就是一臺設(shè)備,因此接入交換機和匯聚交換機間不存在二層環(huán)路,可以避免MSTP的配置管理,簡化網(wǎng)絡(luò)設(shè)計。
圖4是采用IRF設(shè)計時的網(wǎng)絡(luò)高可靠性切換方式。情況A是正常轉(zhuǎn)發(fā)路徑,服務(wù)器流量經(jīng)過網(wǎng)絡(luò)接入層和匯聚層的IRF堆疊組。情況B,當(dāng)接入層IRF堆疊組的一臺交換機出現(xiàn)故障,服務(wù)器網(wǎng)卡進行切換,通過IRF另一臺交換機即可恢復(fù)網(wǎng)絡(luò)通信,而匯聚層設(shè)備無需任何變化,數(shù)據(jù)流仍從同一聚合鏈路進入網(wǎng)絡(luò)。情況C,匯聚層設(shè)備出現(xiàn)單臺故障,服務(wù)器不感知,只由接入交換機將流量轉(zhuǎn)發(fā)到聚合鏈路,匯聚層存活的交換機感知的仍是從現(xiàn)有聚合鏈路接收數(shù)據(jù)流。情況D,發(fā)生捆綁鏈路故障,交換機會將數(shù)據(jù)流轉(zhuǎn)發(fā)到捆綁組存活鏈路上,對于IRF交換機組來說,數(shù)據(jù)流轉(zhuǎn)的邏輯接口并未改變。
IRF的實施可以提供更高的網(wǎng)絡(luò)可靠性,進一步簡化網(wǎng)絡(luò)管理。
圖4. IRF組網(wǎng)的HA部署
5、綜合可靠性組網(wǎng)模型
網(wǎng)絡(luò)按照分層、模塊化的思路進行設(shè)計和規(guī)劃,根據(jù)業(yè)務(wù)等規(guī)劃因素進行模塊化區(qū)域劃分,每個區(qū)域有自己的匯聚核心與網(wǎng)絡(luò)核心互連,如圖5所示。
圖5.綜合可靠性組網(wǎng)模型
網(wǎng)絡(luò)匯聚層以上都為三層設(shè)備,配置OSPF協(xié)議,網(wǎng)絡(luò)故障收斂速度快,易于管理和維護。接入層千兆雙歸屬到匯聚層設(shè)備,提供鏈路冗余備份。匯聚采用雙機備份,雙歸屬到核心層。核心層設(shè)備通過高速鏈路連接,完成數(shù)據(jù)交換和雙機熱備份。對于設(shè)備較多的網(wǎng)絡(luò),核心層可考慮使用多臺設(shè)備搭建RPR環(huán)或RRPP環(huán)替代雙機熱備份。核心設(shè)備要求支持雙主控、電源/風(fēng)扇冗余、跨板聚合以提高可靠性。#p#
可靠性網(wǎng)絡(luò)的主要故障恢復(fù)時間指標(biāo)如表2所示:
網(wǎng)絡(luò)故障
|
收斂性能
|
接入-匯聚/匯聚-核心鏈路故障
|
500毫秒
|
匯聚層設(shè)備故障
|
1秒
|
核心層設(shè)備故障
|
500毫秒
|
匯聚/核心層設(shè)備雙主控切換
|
200毫秒
|
鏈路聚合故障
|
1秒
|
表2.可靠性網(wǎng)絡(luò)主要性能指標(biāo)
三、總結(jié)
高可靠性永遠是網(wǎng)絡(luò)必不可少的重要需求。網(wǎng)絡(luò)系統(tǒng)的可靠性就像自然界的生態(tài)平衡,維系著系統(tǒng)的正常運轉(zhuǎn),一旦平衡被打破,需要具備自我恢復(fù)的能力。一個可靠的網(wǎng)絡(luò)系統(tǒng),能夠保證長期的正常運轉(zhuǎn),在極低的概率情況下才出現(xiàn)故障。高可靠性的設(shè)備和可靠性技術(shù)(如冗余備份和IRF)是保證以上可靠性的基礎(chǔ)。
網(wǎng)絡(luò)解決方案是一個系統(tǒng),其可靠性的程度更大程度上取決于設(shè)計方案。好的設(shè)計方案在保證可靠性的前提下,能簡化系統(tǒng)的復(fù)雜度,提高系統(tǒng)可維護性,并控制成本在合理的范圍內(nèi)。只有真正理解用戶需求,并在廣泛實踐的基礎(chǔ)上才能形成滿足用戶需要的可靠性解決方案,在這個過程中方案設(shè)計是核心,網(wǎng)絡(luò)解決方案的可靠性是設(shè)計出來的。