優(yōu)秀網(wǎng)管應(yīng)該具備良好工作習(xí)慣
1、常態(tài)下,未雨綢繆做好網(wǎng)絡(luò)狀況的檢測(cè)
我認(rèn)為衡量一個(gè)優(yōu)秀網(wǎng)管的標(biāo)準(zhǔn),不是看他排網(wǎng)絡(luò)故障的效率有多高,而是看他維護(hù)的網(wǎng)絡(luò)發(fā)生故障的頻率有多低。當(dāng)然,要徹底避免網(wǎng)絡(luò)故障是不可能的,但是優(yōu)秀網(wǎng)管可以讓其盡可能少地發(fā)生。因?yàn)?,畢竟網(wǎng)絡(luò)故障已經(jīng)發(fā)生,不管你的排故效率有多高,但或多或少都會(huì)對(duì)企業(yè)的生成造成一定的影響,特別是信息化程度越高的企業(yè)這種影響會(huì)越大。我認(rèn)為,除了科學(xué)的網(wǎng)絡(luò)架構(gòu)與部署之外,常態(tài)下的網(wǎng)絡(luò)狀況檢測(cè)是減少網(wǎng)絡(luò)故障的有力保障。這也就是優(yōu)秀網(wǎng)管平時(shí)應(yīng)該做的工作之一。
其實(shí)并不是所有的網(wǎng)絡(luò)故障都是突發(fā)性的,大部分故障都有一個(gè)累積的過程,是一個(gè)由量變到質(zhì)變的過程。這就像一位“病人”,最初可能不會(huì)感到明顯的“身體不適”,如果不進(jìn)行檢查是不能發(fā)現(xiàn)的。網(wǎng)絡(luò)維護(hù)其實(shí)就像給人看病,排故是最后的選擇,此前的檢測(cè)是非必要的。特別對(duì)于服務(wù)器、路由器/交換機(jī)這些核心的網(wǎng)絡(luò)設(shè)備,定期的性能監(jiān)控是必不可少的。
以路由器為例,網(wǎng)管們通過要對(duì)其進(jìn)行優(yōu)化,但優(yōu)化是否會(huì)帶來其他的隱性問題呢?所以如何及時(shí)發(fā)現(xiàn)路由優(yōu)化方面的問題,就是網(wǎng)絡(luò)定期項(xiàng)目測(cè)試中的內(nèi)容之一,特別是大型網(wǎng)絡(luò)中則更有必要。如果監(jiān)控和測(cè)試呢?大家知道,許多網(wǎng)絡(luò)設(shè)備如路由器、交換機(jī)、只能集線器等都支持SNMP網(wǎng)管功能,但為了全面監(jiān)測(cè)網(wǎng)絡(luò)通道功能,還需要網(wǎng)絡(luò)設(shè)備支持全面的RMON和RMON2,用這樣的設(shè)備組建起來的網(wǎng)絡(luò)其管理和故障診斷功能是很不錯(cuò)的。但現(xiàn)實(shí)的問題是,這樣的網(wǎng)絡(luò)設(shè)備價(jià)格是普通網(wǎng)絡(luò)設(shè)備的6~10倍左右,企業(yè)不見得有這些IT預(yù)算。因此,為了隨時(shí)監(jiān)測(cè)網(wǎng)絡(luò)的服務(wù)應(yīng)用流量及其比例、來源,工作記錄以及必要時(shí)進(jìn)行解包分析,我建議網(wǎng)管們?cè)谥匾姆?wù)器通道或路由通道上安裝監(jiān)測(cè)接口。以便必要時(shí)可以隨時(shí)將流量分析儀、網(wǎng)絡(luò)測(cè)試儀接入通道進(jìn)行監(jiān)測(cè)和分析。這樣,一來可以在常態(tài)下實(shí)時(shí)了解設(shè)備的運(yùn)行狀態(tài),二來在故障排除時(shí)能夠快速定位,使得故障的查找時(shí)間可以縮短很多,降低運(yùn)維成本。當(dāng)然,如果資金允許,我還是建議將流量分析儀長(zhǎng)期接入通道對(duì)多個(gè)重要的網(wǎng)絡(luò)設(shè)備進(jìn)行全速率透明流量監(jiān)測(cè),這樣便于隨時(shí)了解設(shè)備健康狀況。退一步,就算該設(shè)備出現(xiàn)故障,我們可以在1分鐘之內(nèi)快速定位故障。
與路由器/交換機(jī)類似,網(wǎng)管們要對(duì)其他是設(shè)備進(jìn)行實(shí)時(shí)的監(jiān)控或者定期的檢測(cè)。網(wǎng)絡(luò)監(jiān)控可用專門的儀器(這當(dāng)然是最好的),當(dāng)然對(duì)于IT經(jīng)費(fèi)緊縮的企業(yè)借用第三方軟件也可以實(shí)現(xiàn)類似的功能,但是不管怎樣,監(jiān)控、檢測(cè)是必須要做的。我的感悟,沒有監(jiān)控的網(wǎng)絡(luò)是不健康的,是一個(gè)隨時(shí)會(huì)倒下的“病人”。
2、排故時(shí),不要盲動(dòng)將網(wǎng)絡(luò)排故成本將到最低
我遇到過很多這樣的網(wǎng)管,當(dāng)網(wǎng)絡(luò)發(fā)生故障時(shí),不能夠冷靜地分析問題,而是想當(dāng)然地進(jìn)行所謂的“排故”。其結(jié)果是不但問題沒有解決,而且使得問題擴(kuò)大化,最后束手無策請(qǐng)專家來維修。而且,由此付出的時(shí)間和經(jīng)濟(jì)上當(dāng)投入,使得維護(hù)成本大大增加。老總臉色難看,搞得自己很沒有面子也很被動(dòng)。其實(shí),網(wǎng)絡(luò)排故就像醫(yī)生為病人做手術(shù)或者警察破案,保持一個(gè)冷靜的頭腦是至關(guān)重要的,千萬不要盲動(dòng)。現(xiàn)場(chǎng)保存,調(diào)查取證,分析研究這是最基本的素質(zhì)。
(1).評(píng)估與現(xiàn)場(chǎng)保存
首要對(duì)故障狀況有一個(gè)大概的評(píng)估,是否在自己的能力解決范圍之內(nèi),如果對(duì)自己解決問題沒有信心,就不要?jiǎng)邮帧T趯<业絹碇?,做好現(xiàn)場(chǎng)保存。并進(jìn)行一定的調(diào)查取證,比如故障前的各種操作行為,故障觸發(fā)時(shí)的各種信息,故障現(xiàn)象等。這樣在專家到來之后,就能夠?qū)⑦@些重要的信息反饋給他們,從而免去他們做類似工作花費(fèi)的時(shí)間,為故障的快速排除贏得時(shí)間。當(dāng)然,在專家排錯(cuò)的過程中要仔細(xì)觀察,大膽提問,不但要學(xué)習(xí)如何排除故障,還要搞懂故障發(fā)生的原因。這樣,當(dāng)今后遇到此類故障的時(shí)候,就能夠自己解決。
(2).隔離與實(shí)驗(yàn)測(cè)試
最小化原則還有一個(gè)方面就是,不要讓故障擴(kuò)大,要馬上將故障網(wǎng)絡(luò)進(jìn)行隔離。另外,不要因?yàn)榈妮p率操作,使得故障不可收拾。對(duì)于那些不是非常危急的故障,可以自己嘗試解決。我的建議是,條件允許的話最好在實(shí)驗(yàn)環(huán)境中進(jìn)行,通過實(shí)驗(yàn)室中的設(shè)備模擬出類似故障,然后進(jìn)行排錯(cuò)。如果沒有實(shí)驗(yàn)環(huán)境,在真實(shí)環(huán)境中進(jìn)行操作,首先要做好相應(yīng)的備份,然后進(jìn)行網(wǎng)絡(luò)隔離,最后才進(jìn)行操作。還有,對(duì)自己在排故中的每一步操作做好記錄。這非常重要,如果排故失敗你就有可能回溯。就算不能回溯,在專家到來時(shí),你至少可以告訴他你都進(jìn)行了哪些操作,這對(duì)于專家快速排故是非常重要的。
(3).不能簡(jiǎn)單粗暴
做技術(shù)支持中,我經(jīng)常看到這樣的管理員:當(dāng)網(wǎng)絡(luò)被判為病毒發(fā)作時(shí),就會(huì)首先啟用多種殺毒軟件進(jìn)行查殺毒操作,無效。然后,把所有工作站格式化,重新安裝其操作系統(tǒng)和應(yīng)用軟件。但由于問題出在服務(wù)器,所以仍然不見效。最后,不得不將所有機(jī)器(當(dāng)然也包括服務(wù)器)格式化以后重新安裝系統(tǒng)平臺(tái)及應(yīng)用軟件。當(dāng)然,這種簡(jiǎn)單粗暴的做法,應(yīng)當(dāng)為技術(shù)性的網(wǎng)管所不齒。說到底,這不應(yīng)該算是網(wǎng)絡(luò)排故,將一個(gè)也許很簡(jiǎn)單的問題擴(kuò)大化了,由此增加的網(wǎng)絡(luò)維護(hù)成本太大了。我認(rèn)為,網(wǎng)絡(luò)排故的兩個(gè)基本原則是針對(duì)性和最小化。忠告網(wǎng)管們千萬不要盲動(dòng),采取簡(jiǎn)單粗暴的做法。
當(dāng)下,崇尚技術(shù)認(rèn)為技術(shù)萬能的網(wǎng)管不在少數(shù)。由于網(wǎng)絡(luò)的復(fù)雜性,技術(shù)的有限性(哪怕你技術(shù)再高),僅靠技術(shù)不能解決所有問題。因此,我要說的是,如果沒有良好的習(xí)慣,你一定會(huì)為此付出代價(jià)。技術(shù)與好的習(xí)慣對(duì)于企業(yè)網(wǎng)管,哪個(gè)更重要呢?當(dāng)然不能厚此薄彼,只有兩者并舉才能成為優(yōu)秀的網(wǎng)管。
【相關(guān)文章】