揭開網(wǎng)絡(luò)故障中斷的內(nèi)幕
網(wǎng)絡(luò)是企業(yè)的戰(zhàn)略性業(yè)務(wù)資源,負(fù)責(zé)承載日常消息和關(guān)鍵任務(wù)數(shù)據(jù),實(shí)現(xiàn)用戶與業(yè)務(wù)流程之間的通信。對(duì)公司內(nèi)部的許多用戶來(lái)說(shuō),網(wǎng)絡(luò)都是像水電一樣無(wú)法看到的耗用型共用設(shè)施,一旦出現(xiàn)故障中斷,瞬間便會(huì)凸顯出來(lái)。
網(wǎng)絡(luò)不可用時(shí)會(huì)出現(xiàn)什么情況?網(wǎng)絡(luò)故障中斷會(huì)對(duì)公司形象及客戶產(chǎn)生嚴(yán)重影響。員工無(wú)法接入電子郵件、電話或關(guān)鍵業(yè)務(wù)應(yīng)用,業(yè)務(wù)流程無(wú)法更新,客戶可能到別處去查找信息或者投入其他供應(yīng)商的懷抱。據(jù)Infonetics Research早期開展的調(diào)查統(tǒng)計(jì),網(wǎng)絡(luò)故障中斷每年使大型企業(yè)損失3.6%的年收入。
當(dāng)然,提高網(wǎng)絡(luò)可用性只是IT和網(wǎng)絡(luò)機(jī)構(gòu)的工作之一。隨著網(wǎng)絡(luò)逐漸成為業(yè)務(wù)戰(zhàn)略核心,企業(yè)的工作重點(diǎn)也朝著提供新業(yè)務(wù)、提高靈活性以及創(chuàng)新支持的方向轉(zhuǎn)移。 保持網(wǎng)絡(luò)的正常運(yùn)行固然重要,但降低預(yù)算也同樣重要。為了管理好這組矛盾體,企業(yè)需要實(shí)施持續(xù)的系統(tǒng)方法。
網(wǎng)絡(luò)故障中斷的原因和影響
近期對(duì)技術(shù)決策人開展的調(diào)查顯示了對(duì)網(wǎng)絡(luò)故障中斷原因進(jìn)行調(diào)查的重要性。Strategy Group2007年7月對(duì)Ziff Davis Enterprise數(shù)據(jù)庫(kù)中的173人開展了調(diào)查,他們都是員工在100人以上的企業(yè)中的經(jīng)理人或更高級(jí)別的管理者。回答人稱他們對(duì)網(wǎng)絡(luò)故障中斷的容忍度越來(lái)越低,近1/3(32%)的回答人稱他們根本無(wú)法容忍故障中斷,這組回答人對(duì)網(wǎng)絡(luò)故障中斷的平均容忍時(shí)間僅為1.8小時(shí)。我們不難了解為什么回答人稱網(wǎng)絡(luò)修復(fù)的平均成本高達(dá)每天300萬(wàn)美元,其中10%的回答人預(yù)計(jì)網(wǎng)絡(luò)故障中斷造成的損失和收入丟失高達(dá)每天1000萬(wàn)美元。
網(wǎng)絡(luò)故障中斷的負(fù)面影響不僅限于經(jīng)濟(jì)損失。公司形象受損是回答人最擔(dān)心的問題(69%),其次是喪失客戶信任(47%)。考慮到這些潛在后果,公司將70%的IT預(yù)算用于維護(hù)網(wǎng)絡(luò)運(yùn)行,只剩下30%用于實(shí)施戰(zhàn)略和創(chuàng)新活動(dòng)不足為奇??偟膩?lái)說(shuō),這組回答人希望這種格局在今后12-18個(gè)月中發(fā)生變化,達(dá)到60/40的比例。
近一半的回答人(46%)稱他們的公司采取被動(dòng)方法來(lái)監(jiān)控網(wǎng)絡(luò)并解決網(wǎng)絡(luò)問題。有趣的是,與采取被動(dòng)的無(wú)序方法的公司相比,采取主動(dòng)的戰(zhàn)略性方法的公司用于維護(hù)網(wǎng)絡(luò)運(yùn)行的IT預(yù)算更少,分別是75-80%和60-65%。減少網(wǎng)絡(luò)運(yùn)行開支能夠創(chuàng)造多個(gè)優(yōu)勢(shì),例如,與采取被動(dòng)方法的競(jìng)爭(zhēng)對(duì)手相比,采用主動(dòng)方法的公司能夠持續(xù)創(chuàng)新、提高IT運(yùn)行效率并實(shí)現(xiàn)更高的績(jī)效。
運(yùn)行團(tuán)隊(duì)在提高網(wǎng)絡(luò)可用性方面面臨多個(gè)挑戰(zhàn)。計(jì)劃內(nèi)檢修、意外的硬件或軟件故障及人為錯(cuò)誤等都可能導(dǎo)致網(wǎng)絡(luò)設(shè)備故障停機(jī)。這是一個(gè)復(fù)雜的問題,要想設(shè)計(jì)出能夠最大限度地提高可用性的系統(tǒng),您需要更深入地了解基本要素。
設(shè)備檢修
供應(yīng)商投入大量資源縮短產(chǎn)品的檢修時(shí)間。因此,檢修是網(wǎng)絡(luò)設(shè)備故障中斷的最次要的原因,約占到5-10%。一般產(chǎn)品現(xiàn)在都提供熱插拔線路卡和電源。冗余的容錯(cuò)軟件和不中斷的硬件也很普遍。不中斷業(yè)務(wù)的軟件升級(jí)是最新發(fā)展趨勢(shì),允許您在不影響現(xiàn)有業(yè)務(wù)運(yùn)行的情況下添加或升級(jí)軟件模塊。
業(yè)界的一致關(guān)注使得網(wǎng)絡(luò)可用性得到了大幅度提高。雖然保持高性能仍是網(wǎng)絡(luò)供應(yīng)商的關(guān)注焦點(diǎn),但它并不能最大限度地提高網(wǎng)絡(luò)可用性。例如,假設(shè)計(jì)劃內(nèi)檢修對(duì)網(wǎng)絡(luò)故障中斷負(fù)有5-10%的責(zé)任,將網(wǎng)絡(luò)設(shè)備的檢修時(shí)間縮短20%只能將網(wǎng)絡(luò)的故障中斷時(shí)間縮短1-2%。
圖1:網(wǎng)絡(luò)設(shè)備故障停機(jī)的根源
遺憾的是,這種方法將快速生成多個(gè)復(fù)雜的、分散的軟件版本。用戶必須謹(jǐn)慎選擇適當(dāng)?shù)能浖姹疽员惬@得重要的特性或硬件支持。有時(shí),不同的軟件版本中可能會(huì)重復(fù)出現(xiàn)以前曾修復(fù)好的缺陷。需要全網(wǎng)絡(luò)特性的客戶必須仔細(xì)閱讀軟件文檔以確保版本適用于所有不同的硬件平臺(tái)。等到所有的版本完成編碼、測(cè)試和最終發(fā)行,可能需要等待一年或更長(zhǎng)時(shí)間。許多時(shí)候,升級(jí)這些軟件可能會(huì)帶來(lái)其他問題,需要客戶先行降級(jí),然后等到修復(fù)包提供時(shí)再實(shí)施升級(jí)。升級(jí)-降級(jí)-再升級(jí)的重復(fù)流程需要操作團(tuán)隊(duì)處理不斷變化的一系列復(fù)雜的軟件版本,將會(huì)延長(zhǎng)網(wǎng)絡(luò)的故障中斷時(shí)間。
系統(tǒng)錯(cuò)誤對(duì)網(wǎng)絡(luò)故障中斷負(fù)有25%的責(zé)任,但如果供應(yīng)商采取被動(dòng)方法,將迫使客戶進(jìn)入被動(dòng)模式,進(jìn)而必須提供更多資源來(lái)解決問題,甚至不惜動(dòng)用其他領(lǐng)域的資源。您用在軟件版本評(píng)估及安裝補(bǔ)丁上的時(shí)間越長(zhǎng),用在創(chuàng)新上面的時(shí)間越短、資源越少;全新網(wǎng)絡(luò)服務(wù)的部署周期越長(zhǎng),人為錯(cuò)誤的風(fēng)險(xiǎn)越大。對(duì)于25%的故障中斷因系統(tǒng)錯(cuò)誤而起的公司來(lái)說(shuō),減少20%的系統(tǒng)錯(cuò)誤將使網(wǎng)絡(luò)故障中斷時(shí)間縮短5%,但實(shí)現(xiàn)這個(gè)成效要求客戶投入大量資源或者長(zhǎng)時(shí)間延期全新軟件特性和全新硬件的面市計(jì)劃。#p#
系統(tǒng)錯(cuò)誤
供應(yīng)商還高度重視減少硬件和軟件錯(cuò)誤,據(jù)瞻博網(wǎng)絡(luò)的許多客戶稱,這部分占到網(wǎng)絡(luò)故障中斷的25%。然而,他們對(duì)此使用了兩種截然不同的方法:主動(dòng)和被動(dòng)。
被動(dòng)方法
被動(dòng)方法有利于市場(chǎng)宣傳,供應(yīng)商承諾能夠快速響應(yīng)重大問題,將傾其所有來(lái)解決此類問題,必要時(shí)可通過(guò)實(shí)施軟件補(bǔ)丁來(lái)解決問題。
主動(dòng)方法
主動(dòng)方法聽起來(lái)簡(jiǎn)單,但卻需要非常嚴(yán)格的工程設(shè)計(jì)。由于某些問題在所難免,因此,這個(gè)方法論注重提前預(yù)測(cè)并解決潛在問題。對(duì)客戶來(lái)說(shuō),主動(dòng)通知診斷信息可幫助他們縮短甚至避免某些類型的網(wǎng)絡(luò)故障中斷。通知時(shí)間越早,故障排除工作開始地越早,用于快速解決問題的可用方法越多。
對(duì)于供應(yīng)商來(lái)說(shuō),主動(dòng)方法允許他們集中精力確保按時(shí)推出全新的單一軟件版本。他們能夠逐漸積累一套高級(jí)的回歸測(cè)試腳本,以確保以前開發(fā)的所有特性都能繼續(xù)如期運(yùn)行。通過(guò)避免安裝軟件補(bǔ)丁以及不斷添加軟件版本,客戶將騰出更多時(shí)間用在網(wǎng)絡(luò)特性和新平臺(tái)的研究上,縮短潛在的升級(jí)評(píng)估和測(cè)試時(shí)間。使用被動(dòng)方法來(lái)解決問題的供應(yīng)商看似優(yōu)勢(shì)多多,但總抵不過(guò)不出現(xiàn)任何問題吧?
人為因素
據(jù)調(diào)查,人為錯(cuò)誤對(duì)網(wǎng)絡(luò)故障中斷負(fù)有50-80%的責(zé)任。但在復(fù)雜的系統(tǒng)環(huán)境中,出現(xiàn)人為錯(cuò)誤的原因往往不是能力欠缺。包含多個(gè)組件并涉及到多類互動(dòng)活動(dòng)的復(fù)雜系統(tǒng)創(chuàng)建了復(fù)雜的環(huán)境,在此,組件之間的微妙關(guān)系往往不為人知。
人為錯(cuò)誤不是導(dǎo)致出現(xiàn)問題的直接原因,而是環(huán)境復(fù)雜性的征兆。因此,我們得出這樣的結(jié)論:降低和管理網(wǎng)絡(luò)復(fù)雜性將對(duì)網(wǎng)絡(luò)故障中斷時(shí)間產(chǎn)生最為巨大的影響。將人為錯(cuò)誤減少20%可將網(wǎng)絡(luò)故障中斷總時(shí)間縮短10-16%,是減少系統(tǒng)錯(cuò)誤的2-3倍,是縮短檢修時(shí)間的8-15倍。
是責(zé)備犯錯(cuò)人還是從錯(cuò)誤中吸取經(jīng)驗(yàn)教訓(xùn)?
避免人為錯(cuò)誤的傳統(tǒng)方法以責(zé)備和懲罰為主。這種方法的重點(diǎn)是找出犯錯(cuò)人并評(píng)估后果,認(rèn)為錯(cuò)誤是人員不合格、判斷失誤或決策錯(cuò)誤導(dǎo)致的意外事件,要是沒有人類活動(dòng)參與其中,系統(tǒng)就是安全的。這種戰(zhàn)術(shù)基于對(duì)犯錯(cuò)人進(jìn)行嚴(yán)責(zé),讓他們感到深深的挫敗感,鼓勵(lì)人們隱藏自己的錯(cuò)誤而不是從錯(cuò)誤中吸取經(jīng)驗(yàn)教訓(xùn)。
現(xiàn)在的新方法趨向于檢測(cè)、糾正和防止錯(cuò)誤,重點(diǎn)關(guān)注具體發(fā)生的事件、如何在將來(lái)防止它重復(fù)發(fā)生,以及在第一時(shí)間找到導(dǎo)致出現(xiàn)錯(cuò)誤的系統(tǒng)組件(這一點(diǎn)最重要)。這種方法認(rèn)為管理復(fù)雜的系統(tǒng)是一門需要持續(xù)改進(jìn)的藝術(shù),人類活動(dòng)對(duì)于實(shí)現(xiàn)這種改進(jìn)至關(guān)重要,錯(cuò)誤常是一系列活動(dòng)的綜合作用結(jié)果。本著持續(xù)改進(jìn)的態(tài)度,這種方法鼓勵(lì)人們識(shí)別錯(cuò)誤,積累經(jīng)驗(yàn)。
手動(dòng)輸入復(fù)雜的配置命令是網(wǎng)絡(luò)中出現(xiàn)人為錯(cuò)誤的最常見的原因。即便是資深工程師,也難免會(huì)將防火墻放置在錯(cuò)誤的接口上(如他們用于與路由器進(jìn)行通信的接口)、在過(guò)濾器列表中輸入錯(cuò)誤的IP地址、或者在配置業(yè)務(wù)時(shí)犯下語(yǔ)法錯(cuò)誤或丟失自變量。具體的操作指南和仔細(xì)的檢查可避免某些問題,但會(huì)減慢響應(yīng)速度。緊急情況下,壓力和頻繁的中斷將會(huì)大幅度提高出錯(cuò)幾率。
網(wǎng)絡(luò)供應(yīng)商一直讓他們的客戶自己糾正人為錯(cuò)誤,只提供基本的培訓(xùn)和知識(shí)庫(kù)來(lái)幫助客戶管理錯(cuò)誤。瞻博網(wǎng)絡(luò)始終高度重視JUNOS軟件中的人為錯(cuò)誤,力求簡(jiǎn)化并自動(dòng)實(shí)施容易出現(xiàn)人為錯(cuò)誤的主要程序。通過(guò)近期的創(chuàng)新成果,瞻博網(wǎng)絡(luò)將自動(dòng)化功能應(yīng)用到了大量的腳本編制工具中,以便進(jìn)一步解決造成網(wǎng)絡(luò)故障中斷的人為因素。 #p#
系統(tǒng)的持續(xù)運(yùn)行和自動(dòng)運(yùn)行
系統(tǒng)持續(xù)運(yùn)行的工程基礎(chǔ)扎根于最早期的設(shè)計(jì)階段及開發(fā)原則,屬于事后無(wú)法改進(jìn)的特性。模塊化軟件、開放的接口、獨(dú)立流程及受保護(hù)的資源都是前提要求。瞻博網(wǎng)絡(luò)從一開始就致力于采用這種方法。經(jīng)過(guò)9年的持續(xù)改進(jìn)和增強(qiáng),瞻博網(wǎng)絡(luò)的開發(fā)成果不斷壯大,已經(jīng)能夠通過(guò)定制方法來(lái)減少網(wǎng)絡(luò)問題的數(shù)量、降低嚴(yán)重性并縮短持續(xù)時(shí)間。
持續(xù)的系統(tǒng)運(yùn)行
瞻博網(wǎng)絡(luò)的網(wǎng)絡(luò)平臺(tái)和JUNOS軟件素以持續(xù)的性能和運(yùn)行穩(wěn)定性著稱,這要?dú)w功于單一操作系統(tǒng)、嚴(yán)格的單一版本開發(fā)流程以及嚴(yán)格分割每個(gè)程序的模塊化軟件架構(gòu)。
JUNOS—嚴(yán)格的開發(fā)流程
JUNOS恪守嚴(yán)格的開發(fā)流程,從一開始便執(zhí)行單一版本模式。新版本不允許忽視以前版本的特性,并且必須做到不存在任何重大的回歸錯(cuò)誤。自JUNOS軟件9年前面市以來(lái),瞻博網(wǎng)絡(luò)一直在按期提供新版本,從未出現(xiàn)過(guò)延期現(xiàn)象。這種方法的優(yōu)勢(shì)在于穩(wěn)定的模塊和一致地實(shí)施每個(gè)特性,不僅能夠減少意外系統(tǒng)事件,而且還能減少計(jì)劃內(nèi)檢修和升級(jí)活動(dòng)的次數(shù)并縮短時(shí)間。JUNOS版本測(cè)試流程更為全面,可將所有的資源和歷史經(jīng)驗(yàn)統(tǒng)統(tǒng)應(yīng)用到一個(gè)代碼中。JUNOS的客戶能夠充滿自信地規(guī)劃網(wǎng)絡(luò)升級(jí),只需很少的資源。當(dāng)然,在出現(xiàn)問題時(shí),我們會(huì)竭盡全力解決問題,但JUNOS軟件擁有公認(rèn)的穩(wěn)定性,很少出錯(cuò)。
JUNOS軟件采用單一版本模式,每年定期推出4個(gè)新版本。如想升級(jí)軟件,客戶只需為基于JUNOS的所有平臺(tái)選擇并輸入更高版本的編號(hào)即可。由于每個(gè)版本中都提供全部的指定平臺(tái)特性,因此,如想向網(wǎng)絡(luò)中添加新服務(wù),客戶只需打開所需特性即可。
圖2:JUNOS軟件的單一版本模式
JUNOS—模塊化架構(gòu)
JUNOS軟件的程序運(yùn)行在受保護(hù)的獨(dú)立內(nèi)存空間中,您在停止運(yùn)行或重啟程序模塊時(shí)不會(huì)影響其他系統(tǒng)組件。內(nèi)存溢流是單片軟件架構(gòu)的常見問題,導(dǎo)致產(chǎn)品頻繁中斷,JUNOS軟件不允許模塊之間意外重寫,進(jìn)而能夠防止出現(xiàn)此類問題。
模塊化架構(gòu)能夠?yàn)槁酚珊蛿?shù)據(jù)包轉(zhuǎn)發(fā)引擎的核心網(wǎng)絡(luò)功能提供進(jìn)一步的保護(hù)。它允許路由和數(shù)據(jù)包轉(zhuǎn)發(fā)引擎使用自己的專用資源,彼此不受影響。如果輔助程序消耗過(guò)多的CPU,系統(tǒng)將給制止,不運(yùn)行核心功能的繼續(xù)運(yùn)行。同樣,當(dāng)遇到分布式拒絕服務(wù)(DDoS)攻擊等事件時(shí),控制板和命令行接口(CLI)也可繼續(xù)運(yùn)行,可用于故障排除,進(jìn)而將問題解決。
模塊化架構(gòu)和單一版本模式可減少人為錯(cuò)誤的發(fā)生幾率,保護(hù)基本功能并減少操作人員對(duì)產(chǎn)品的操作次數(shù)。此外,簡(jiǎn)化和自動(dòng)化運(yùn)行還能進(jìn)一步減少人為錯(cuò)誤。
人為因素與電信運(yùn)營(yíng)商
美國(guó)聯(lián)邦通信委員會(huì)(FCC)開展的調(diào)查顯示,對(duì)于電信運(yùn)營(yíng)商來(lái)說(shuō),人為或程序因素是導(dǎo)致網(wǎng)絡(luò)故障中斷的最嚴(yán)重的、增長(zhǎng)速度最快的原因。鑒于大多數(shù)網(wǎng)絡(luò)設(shè)備供應(yīng)商對(duì)這個(gè)領(lǐng)域長(zhǎng)期置之不理,而是去關(guān)心硬件穩(wěn)定性和軟件質(zhì)量,因此,出現(xiàn)這種情況不足為奇。
JUNOScript Automation為電信運(yùn)營(yíng)商解決這個(gè)問題提供了寶貴工具,允許供應(yīng)商遠(yuǎn)離特定命令來(lái)實(shí)施配置變化,從而降低出現(xiàn)語(yǔ)法錯(cuò)誤的風(fēng)險(xiǎn),并允許他們從腳本中而不是書面上捕獲運(yùn)行程序,從而利用整個(gè)公司的專業(yè)技術(shù)資源。早期警告腳本可幫助電信運(yùn)營(yíng)商加快故障排除速度、縮短修復(fù)周期并提高客戶滿意度。總的來(lái)說(shuō),JUNOScript Automation不僅能夠幫助電信運(yùn)營(yíng)商降低運(yùn)行成本,而且還能幫助他們提高服務(wù)可用性。
自動(dòng)運(yùn)行
網(wǎng)絡(luò)產(chǎn)品的復(fù)雜性和廣泛性意味著即便企業(yè)實(shí)施單一供應(yīng)商戰(zhàn)略,通常也會(huì)從多個(gè)供應(yīng)商處購(gòu)買網(wǎng)絡(luò)設(shè)備。即便產(chǎn)品購(gòu)自同一家公司,如果是不同的系列,也會(huì)經(jīng)常因?yàn)椴煌拈_發(fā)原則或收購(gòu)活動(dòng)而使用不同的命令行接口和操作系統(tǒng)。因此,企業(yè)越來(lái)越難以簡(jiǎn)化并自動(dòng)化復(fù)雜網(wǎng)絡(luò)的運(yùn)行。
瞻博網(wǎng)絡(luò)堅(jiān)持在其網(wǎng)絡(luò)平臺(tái)上推行并部署開放標(biāo)準(zhǔn)和接口,旨在簡(jiǎn)化這些多廠商網(wǎng)絡(luò)的管理和運(yùn)行工作。例如,將XML(可擴(kuò)展的標(biāo)記語(yǔ)言)用作產(chǎn)品配置和狀態(tài)信息交付接口。這種結(jié)構(gòu)化的文檔格式能夠跨越不同產(chǎn)品提供一致接口,并簡(jiǎn)化與接口互動(dòng)的應(yīng)用開發(fā)工作。
XML在這個(gè)環(huán)境中能夠提供多個(gè)重要優(yōu)勢(shì)。XML是被廣泛部署的開放標(biāo)準(zhǔn),具有連接多類不同應(yīng)用的潛力。這個(gè)格式允許用戶跨越不同產(chǎn)品對(duì)配置文件和腳本進(jìn)行輕松比較。全新的JUNOScript Automation功能幫助瞻博網(wǎng)絡(luò)進(jìn)一步增強(qiáng)了對(duì)XML格式和接口的廣泛部署。
提前捕獲錯(cuò)誤
網(wǎng)絡(luò)系統(tǒng)越來(lái)越復(fù)雜,意味著配置錯(cuò)誤成為網(wǎng)絡(luò)故障中斷的主要原因。隨著網(wǎng)絡(luò)在帶寬使用和覆蓋范圍方面快速增長(zhǎng),重復(fù)錯(cuò)誤的影響將更加嚴(yán)重。您最好能夠在人為錯(cuò)誤實(shí)際發(fā)生之前對(duì)其實(shí)施先行處理。JUNOS平臺(tái)上的配置命令使用兩階段流程。首先對(duì)備用配置而不是主用配置實(shí)施變化,以便逐漸積累配置變化然后在完成后提交它們。管理員可審核變化建議、驗(yàn)證語(yǔ)法,并修改或丟棄任何不理想的變化,不會(huì)對(duì)運(yùn)行中的軟件產(chǎn)生影響。此外,JUNOS軟件中的自動(dòng)檢查功能能夠驗(yàn)證句法并檢查沖突,將潛在問題通知給用戶。
最令人惱火的人為錯(cuò)誤莫過(guò)于運(yùn)行團(tuán)隊(duì)完全可以設(shè)法避免的重復(fù)錯(cuò)誤。JUNOS工具包中最新添加了提交腳本,用于最大限度地縮短故障中斷時(shí)間。這些腳本通過(guò)可定制性增強(qiáng)
了原有工具,允許在激活配置之前對(duì)其先行實(shí)施問題檢測(cè)。您可通過(guò)提交腳本解析配置文件以便在激活配置文件之前檢查錯(cuò)誤和遺漏。公司資深網(wǎng)絡(luò)工程師還開發(fā)并維護(hù)腳本庫(kù),用于確保配置滿足業(yè)務(wù)和網(wǎng)絡(luò)策略的要求。#p#
通過(guò)提交腳本捕獲錯(cuò)誤
下面舉例說(shuō)明JUNOS提交腳本能夠捕獲的潛在錯(cuò)誤:
基本狀態(tài)測(cè)試:確保不會(huì)意外刪除編輯接口和編輯協(xié)議。
一致性檢查:確保您在編輯層配置的每個(gè)T1接口同時(shí)也在編輯協(xié)議層得到配置。
接口密度:確保不在信道化接口上配置過(guò)多的通道。
鏈路擴(kuò)展:確保SONET/SDH接口的MTU規(guī)模永遠(yuǎn)不會(huì)低于某個(gè)值,如4千字節(jié)。
輸入策略檢查:確保IGP不使用輸入整個(gè)路由表的輸入策略。
交叉協(xié)議檢查:確?;贚DP的所有接口都配置用于內(nèi)部網(wǎng)關(guān)協(xié)議(IGP),或者確保基于IGP的所有接口都配置用于LDP。
除發(fā)送警告消息或拒絕提交活動(dòng)外,腳本還能修改或擴(kuò)展配置。您可將所需的一組基本變量擴(kuò)展到整個(gè)復(fù)雜配置中,從而確??缭蕉鄠€(gè)產(chǎn)品提供一致性。所有這些功能都使用XML文件和命令格式,因此具備開放性及可擴(kuò)展性,能夠與客戶及第三方應(yīng)用互操作。
在腳本運(yùn)行之后、驗(yàn)證好的配置被激活之前,JUNOS軟件將拷貝正在運(yùn)行的配置,并將其保存在能夠容納50個(gè)先前配置的檔案中。JUNOS軟件還提供可選的確認(rèn)工具。開啟后,路由器要求在新配置被激活后的特定時(shí)段內(nèi)運(yùn)行確認(rèn)命令。如果路由器沒有接到確認(rèn)消息,將自動(dòng)重新激活以前的配置。管理員也可通過(guò)回退命令手動(dòng)重新激活檔案中保存的任何配置,快速恢復(fù)到最初工作狀態(tài)。
搶先發(fā)現(xiàn)輕微錯(cuò)誤,防止它們演變成重大錯(cuò)誤錯(cuò)誤的層疊效應(yīng)是復(fù)雜系統(tǒng)的主要特征之一。小問題可快速演變成重大問題。因此,JUNOS運(yùn)行腳本允許網(wǎng)絡(luò)工程師自動(dòng)實(shí)施早期警告系統(tǒng),以便檢測(cè)出新問題,采取適當(dāng)措施來(lái)避免問題激化,并使系統(tǒng)快速恢復(fù)正常運(yùn)行,而不是坐等小問題演變成大問題,觸發(fā)警報(bào)并向網(wǎng)絡(luò)操作人員發(fā)出通知。
運(yùn)行腳本與提交腳本使用相同的軟件機(jī)制,但由系統(tǒng)日志事件觸發(fā),不是由配置提交事件觸發(fā)。運(yùn)行腳本也可定期運(yùn)行,對(duì)狀態(tài)指示器、網(wǎng)絡(luò)連接和其他狀態(tài)指示器進(jìn)行檢查。當(dāng)腳本檢測(cè)出CPU利用率過(guò)高或者存在被丟棄的虛擬專網(wǎng)(VPN)連接等潛在問題時(shí),將會(huì)采取一系列措施,如發(fā)送通知、檢查其他狀態(tài)指示器以及關(guān)閉低優(yōu)先級(jí)程序等,甚至能夠更改路由器配置。運(yùn)行腳本也可填充特定的MIB變量,允許它們與SNMP管理系統(tǒng)協(xié)作,從而對(duì)特定產(chǎn)品實(shí)施粒度更細(xì)的監(jiān)控,而不是在整個(gè)系統(tǒng)上使用通用的閾值。
JUNOS腳本中包含由不同的事件策略所驅(qū)動(dòng)的大量潛在條件。If-then-else構(gòu)造允許它們擺脫簡(jiǎn)單的被動(dòng)響應(yīng)機(jī)制,被特定條件觸發(fā)后,腳本將對(duì)其他的狀態(tài)指示器和變量進(jìn)行評(píng)估、向操作人員發(fā)送高級(jí)通知、甚至采取適當(dāng)行動(dòng)。這些早期警報(bào)使網(wǎng)絡(luò)操作人員能夠更自信地診斷和解決新出現(xiàn)的問題,從而幫助縮短網(wǎng)絡(luò)故障中斷時(shí)間。
最大限度地延長(zhǎng)運(yùn)行時(shí)間
JUNOScript Automation提供靈活的腳本編制功能,允許客戶通過(guò)配置的定制驗(yàn)證、故障排除以及特定條件的自動(dòng)響應(yīng)機(jī)制來(lái)提高網(wǎng)絡(luò)運(yùn)行效率。這項(xiàng)功能允許用戶診斷網(wǎng)絡(luò)故障中斷的原因并據(jù)此編制腳本,以防此類故障再次出現(xiàn)或者在逐漸縮短故障持續(xù)時(shí)間,從而做到持續(xù)改進(jìn)。
JUNOS工具包中的這些新工具如何影響網(wǎng)絡(luò)故障中斷?隨著腳本庫(kù)的構(gòu)建以及在組織內(nèi)外部的共享,網(wǎng)絡(luò)故障中斷將得到大幅度改進(jìn)。與此同時(shí),Lake Partners Strategy Consultants近期開展的調(diào)查也揭示了避免網(wǎng)絡(luò)故障中斷的某些潛在因素。
Lake Partners采訪了122名客戶,旨在了解他們?cè)诰W(wǎng)絡(luò)中部署的產(chǎn)品類型、所用的操作系統(tǒng)以及具體的網(wǎng)絡(luò)運(yùn)行行為。調(diào)查發(fā)現(xiàn),路由器對(duì)網(wǎng)絡(luò)運(yùn)行時(shí)間的作用最大,但存在較大差異,具體取決于操作系統(tǒng)。
下面,我們來(lái)具體介紹Lake Partner調(diào)查中涉及到的運(yùn)行任務(wù)。監(jiān)控網(wǎng)絡(luò)狀態(tài)和產(chǎn)品參數(shù)的操作約占總體操作時(shí)間的20%。據(jù)回答人報(bào)告,運(yùn)行JUNOS軟件的網(wǎng)絡(luò)產(chǎn)品所需的監(jiān)控時(shí)間比其他軟件短25%。構(gòu)建運(yùn)行腳本能夠進(jìn)一步自動(dòng)執(zhí)行重復(fù)的監(jiān)控任務(wù),從而進(jìn)一步減少監(jiān)控活動(dòng)。
據(jù)回答人稱,故障排除操作的時(shí)間占所有核心路由操作的21%。據(jù)調(diào)查,JUNOS軟件的一致性和模塊性能夠?qū)⒐收吓懦龝r(shí)間和意外事件的發(fā)生頻率降低54%。早期警告腳本以
及對(duì)已知事件的一致響應(yīng)(如CPU使用高峰或VPN故障)能夠進(jìn)一步縮短故障排除時(shí)間,并降低意外事件的發(fā)生幾率。
參加調(diào)查人員還報(bào)告說(shuō),與其他軟件相比,在網(wǎng)絡(luò)設(shè)備上運(yùn)行JUNOS軟件將意外事件的頻率平均降低了24%,并將故障持續(xù)時(shí)間平均縮短了30%。用于配置變化和輕松回退到原有配置狀態(tài)的提交程序功不可沒。JUNOS腳本的增強(qiáng)功能可進(jìn)一步減少意外事件的頻率并縮短故障持續(xù)時(shí)間。提交腳本能夠根據(jù)網(wǎng)絡(luò)策略驗(yàn)證配置變化并且跨越多個(gè)產(chǎn)品將一系列關(guān)鍵輸入一致地?cái)U(kuò)展到復(fù)雜的配置命令中,從而大幅度減少因人為錯(cuò)誤導(dǎo)致的意外事件的數(shù)量。
表1:JUNOS軟件對(duì)意外事件的頻率和持續(xù)時(shí)間的影響(Lake Partners, 2007)
“JUNOS的模塊性確實(shí)能夠起到幫助作用……瞻博網(wǎng)絡(luò)允許系統(tǒng)持續(xù)運(yùn)行,不受操作的影響?!?/P>
——Lake Partners培訓(xùn)部IT總監(jiān)《操作系統(tǒng)如何提高網(wǎng)絡(luò)效率》,2007年。
總結(jié)
網(wǎng)絡(luò)的覆蓋范圍和速度都在不斷提升,從而擴(kuò)大了網(wǎng)絡(luò)故障中斷的影響。鑒于人為因素是導(dǎo)致網(wǎng)絡(luò)故障中斷的主要原因,因此,從人為錯(cuò)誤中吸取經(jīng)驗(yàn)教訓(xùn)并提高復(fù)雜網(wǎng)絡(luò)的管理能力將有助于大幅度提高網(wǎng)絡(luò)可用性。
JUNOS軟件采用模塊化設(shè)計(jì)并遵循嚴(yán)格的開發(fā)流程,為您持續(xù)改進(jìn)系統(tǒng)方法,在復(fù)雜的網(wǎng)絡(luò)中考慮人為因素奠定堅(jiān)實(shí)基礎(chǔ)。最新的JUNOScript Automation功能便是在這個(gè)基礎(chǔ)上構(gòu)建的。企業(yè)和電信運(yùn)營(yíng)商可利用資深員工捕獲信息,并通過(guò)對(duì)以前的故障實(shí)施根源分析來(lái)開發(fā)腳本,用于降低故障的重復(fù)發(fā)生率。早期警告腳本能夠及早捕獲輕微問題,以防它們演變成嚴(yán)重問題,并使網(wǎng)絡(luò)操作人員能夠有更充裕的時(shí)間通過(guò)更多的選項(xiàng)來(lái)響應(yīng)問題,從而有效降低網(wǎng)絡(luò)故障中斷的發(fā)生頻率并縮短持續(xù)時(shí)間。企業(yè)和電信運(yùn)營(yíng)商可利用這些經(jīng)驗(yàn)的積累來(lái)編制腳本庫(kù),從而自動(dòng)檢測(cè)并解決問題。縮短網(wǎng)絡(luò)的監(jiān)控和故障排除時(shí)間允許企業(yè)和電信運(yùn)營(yíng)商將更多時(shí)間用在有助于提高競(jìng)爭(zhēng)力的戰(zhàn)略性創(chuàng)新活動(dòng)上。
隨著企業(yè)將不斷積累的網(wǎng)絡(luò)經(jīng)驗(yàn)轉(zhuǎn)變成腳本,他們將能夠與其他企業(yè)交換知識(shí)或者利用其他企業(yè)積累的專用或通用腳本庫(kù)。網(wǎng)絡(luò)操作人員將不再受限于公司內(nèi)部知識(shí),而是能夠利用更廣泛的大社區(qū)來(lái)獲取優(yōu)勢(shì)?;贘UNOS平臺(tái)的網(wǎng)絡(luò)將迎來(lái)網(wǎng)絡(luò)運(yùn)行時(shí)間的持續(xù)改進(jìn)周期,滿足高績(jī)效企業(yè)對(duì)高性能網(wǎng)絡(luò)的需求。
【編輯推薦】