由郵件系統(tǒng)中斷引發(fā)的反思
窗外的知了不停的在叫,這是一個忙碌的工作日的下午,辦公區(qū)內銷售助理正在與銷售進行無聲的Mail溝通,研發(fā)人員正在測試代碼,打印機在吞吐著文件,人事經理正在面試應聘的員工,面試完還要郵件給高層領導安排復試,商務部正在利用郵件處理往來的客戶合同,一切都在有條不紊的進行著。
突然間,從銷售部傳來一聲疑問“郵件發(fā)不出去啦?”之后各處傳來附和的聲音,“是不能收發(fā)郵件了,沒錯……”,以前也出現(xiàn)過郵件系統(tǒng)中斷個把小時的現(xiàn)象,大家不會太在意,及時反映給網管員,他們通過重啟服務器就能迅速的在短時間內恢復郵件系統(tǒng)的正常使用。為了保證研發(fā)的保密性,公司內部只能用郵件進行對外溝通,郵件往來是公司內部及公司之間一種重要溝通方式。銷售助理小錢心想,我有許多郵件要處理呢,可以邊處理手頭收件箱里的郵件,邊等待郵件系統(tǒng)恢復;商務部小趙慶幸午飯前外地的銷售人員已經把合同mail過來了,這會系統(tǒng)中斷沒關系,正好利用這段時間對合同進行審核,只要在下午3點前郵件系統(tǒng)能恢復,也不影響合同的發(fā)送……
一個小時過去了,銷售助理小錢現(xiàn)有的郵件已經處理完畢,要回復的郵件也寫好了,進入了發(fā)件箱。商務部小趙已經審核好即將與客戶簽約的合同,看了看時間,嗯,還好,才兩點,外地的銷售人員3點和客戶簽約,現(xiàn)在把合同回傳過去正合適,就把修改好的合同作為附件發(fā)送給銷售。小趙正準備處理下一份合同,系統(tǒng)彈出消息框“連接到服務器失敗!”小趙心里咯噔一緊,可千萬別啊,這可是公司近幾個月簽到的最大的一筆單子呀,經濟不景氣,雖說公司在繼續(xù)盈利,但是誰不希望多儲備干糧好過冬呢?
小趙想了想,會不會是自己的系統(tǒng)出了問題呢?因為平時郵件系統(tǒng)出現(xiàn)類似中斷問題,信息中心一般10分鐘、半個小時就能解決問題了。他抱著試著看的心理,打電話給銷售助理小錢,她平時發(fā)郵件多,指不定她的郵件已經發(fā)出去了,我的還沒發(fā)出去呢。先確定是自己PC的問題還是公司系統(tǒng)問題,再給信息中心打電話吧。小趙給小錢打了電話“小錢,我郵件發(fā)不出去了,你那能發(fā)么?”小錢檢查了下發(fā)件箱“咦,奇怪,我這郵件都排著隊等著發(fā)出去呢”小錢打開一封郵件,點擊重新發(fā)送“還是不行,要不咱們問問信息中心吧,我這發(fā)不出去郵件”。掛了電話,小趙給信息中心打了個電話,信息中心那邊小孫接的電話“??!郵件系統(tǒng)故障啦?不知道呀,我們部門剛才開會去了,也沒人告訴我們郵件系統(tǒng)壞了呀,我馬上去查看是哪出問題了?!?/P>
小孫趕緊去機房查看,一打開屋子,熱浪襲來,這是怎么回事?中央空調照理來說不會出問題的呀,小孫馬上檢查機房空調調節(jié)器,空調調節(jié)器不知道是哪個冒失鬼,把它給調成最高溫度,這大熱天,網絡服務器機柜發(fā)熱密度過高,空調制冷效果又不好,導致機柜散熱不良,局部過熱,郵件服務器正好處于高熱點,已經完全停止運作了。小孫趕緊把空調調成最低溫度,然后打開門,讓室外的冷氣進來,但是這樣還是需要一段時間才能讓機房溫度恢復正常,這一等就是半小時。
期間,商務部小趙已經給信息中心打了好幾個電話詢問郵件系統(tǒng)什么時候可以恢復,都兩點半了合同還發(fā)不出去,一線的銷售人員很著急,客戶那邊負責簽約的副總要趕6點飛機,大家都希望今天能簽約,但合同遲遲看不到。
郵件系統(tǒng)已經中斷了2個小時,公司上上下下都發(fā)不出郵件,這事驚動到了公司領導層,信息中心負責人也來到了機房。等到服務器溫度終于冷卻之后,小孫開始重啟服務器,以前也出現(xiàn)過這樣的毛病,都是重啟就OK了,小孫吊著的心慢慢放了下去,但是剛在座位上坐下,小趙的電話就來了,“還是發(fā)不出去郵件”,整個信息中心都開始著急了,那會是什么原因呢?銷售在焦急的等待,不停的催著商務部,商務部小趙只能催促信息中心盡快解決郵件系統(tǒng)故障,領導也很重視此次不大不小的故障……
信心中心開始對故障原因進行排查,一切皆有可能,公司的IIS的郵件系統(tǒng)是建設在服務器之上的業(yè)務系統(tǒng),與業(yè)務部門的終端之間通信經過了服務器、主機、路由器,其中任何一個設備出了問題都會影響到郵件系統(tǒng)的正常運作。
但是故障排查時需要時間的,一分一秒過去了,信息中心緊張的排查著問題,到了三點了,問題還是沒有找到,合同還是沒能回傳給客戶,客戶也對公司的管理產生了質疑,為什么一個小小的郵件系統(tǒng)癱瘓的問題過了那么長時間都解決不了。這個時候,問題被找到了,是有黑客入侵了由于郵件服務器,郵件服務被非法卸載了,問題是解決了,但是由此引發(fā)的由于公司IT運維管理做的不到位引發(fā)了客戶的質疑,引人深思。
一個小小的郵件中斷事件,我們發(fā)現(xiàn)了該公司存在一些隱患的地方,第一,信息中心無人值班,流程規(guī)范沒做好,信息部門的全體會議時間,也要顧忌到其他業(yè)務部門正在工作,他們會有一些故障請求;第二,沒有一個很好的監(jiān)控系統(tǒng)來管理設備運行環(huán)境,Broadview 業(yè)務監(jiān)控中心,可以在第一時間發(fā)現(xiàn)機房溫度過高,發(fā)送告警短信給值班人員;第三,故障排查時間過長,一款好的業(yè)務監(jiān)控系統(tǒng)能對網絡環(huán)境下的所有設備進行監(jiān)控,能做到第一時間將故障精準定位到點,也能在故障發(fā)生之前就及時報告設備出現(xiàn)了問題;第四,沒有規(guī)范的流程管理,同樣的故障事件出現(xiàn)了許多次之后就應該引起大家足夠的重視,在ITIL流程規(guī)范里,類似情況符合事件管理的范疇,當一種故障事件出現(xiàn)次數(shù)過多之后就會被當做一個問題來解決,這樣才能避免故障事件重復發(fā)生,省掉運維人員縮短處理重復問題的時間。
Broadview BCC業(yè)務監(jiān)控平臺能監(jiān)控企業(yè)的服務器、中間件、數(shù)據庫、業(yè)務應用、安全設備及基礎支撐系統(tǒng)(如機房、空調、UPS等)的運行狀況,建立性能基線,發(fā)現(xiàn)系統(tǒng)異常并及時告警。圍繞IT業(yè)務和IT資源,采用人性化多層導航呈現(xiàn)模式,由全局到局部、由粗線條到細顆粒度地逐層展現(xiàn)業(yè)務應用的運行狀況。