專訪九叔:系統(tǒng)運(yùn)維人員如何解決突發(fā)性故障?
原創(chuàng)任何計(jì)算機(jī)系統(tǒng)都有出現(xiàn)故障的時(shí)候,可能發(fā)生在測(cè)試階段,也可能發(fā)生在系統(tǒng)剛剛上線,還可能發(fā)生在已經(jīng)穩(wěn)定運(yùn)行很多年的系統(tǒng)上。這些系統(tǒng)出現(xiàn)故障所帶來的負(fù)面影響可大可小,小到一個(gè)終端的軟件無法使用,大到整個(gè)系統(tǒng)癱瘓……企業(yè)網(wǎng)絡(luò)想要固若金湯是IT部門夢(mèng)寐以求的目標(biāo),作為系統(tǒng)運(yùn)維人員,應(yīng)該如何解決這些突發(fā)性故障問題?為了尋找這個(gè)問題的解決辦法,51CTO的記者力邀到了現(xiàn)任某上市公司系統(tǒng)工程師的九叔,請(qǐng)他來給大家分享一下。
簡介:張鵬亮,花名(九叔)?,F(xiàn)任某上市公司系統(tǒng)工程師,WinServer版主,擅長領(lǐng)域:微軟服務(wù)器、桌面虛擬化和AD基礎(chǔ)架構(gòu)等,現(xiàn)階段主要致力于WinServer2012 VDI的研究。
記一次突發(fā)性故障
作為一名IT運(yùn)維人員,工作中最常發(fā)生的系統(tǒng)方面的故障是很正常的一個(gè)現(xiàn)象,并且你永遠(yuǎn)也不會(huì)知道下一次故障發(fā)生在什么時(shí)候,據(jù)51CTO記者采訪時(shí)了解到,九叔現(xiàn)階段公司的系統(tǒng)運(yùn)維已經(jīng)做的比較成熟了,目前來看,系統(tǒng)底層還是比較強(qiáng)健的,真正出問題的都是系統(tǒng)之上的"應(yīng)用",由于每種應(yīng)用不同,所以并不是太好談哪一種應(yīng)用會(huì)經(jīng)常出問題。
不過,在前不久,公司發(fā)生了一次較大故障,故障成因很簡單,就是由于空調(diào)物理機(jī)損壞,導(dǎo)致多臺(tái)服務(wù)器過熱,部分業(yè)務(wù)中斷。在更換新的空調(diào)之后問題得以解決。當(dāng)然,在沒有更換之前,當(dāng)時(shí)也采用了一些"笨辦法",比如使用大功率的風(fēng)扇、開啟機(jī)房的排氣窗等等,暫時(shí)緩解了空調(diào)損壞造成的不良影響。
故障處理那些事兒
出現(xiàn)故障的同時(shí)必然會(huì)造成一些業(yè)務(wù)的中斷,可想而知,若是故障得不到及時(shí)的處理,那么公司網(wǎng)絡(luò)將會(huì)處在一個(gè)"癱瘓"的狀態(tài),這將是很可怕的事情,后果不堪設(shè)想。幸好九叔所在的運(yùn)維團(tuán)隊(duì)發(fā)現(xiàn)問題很及時(shí),在機(jī)房中安裝有溫度報(bào)警系統(tǒng),溫度達(dá)到閥值后會(huì)給相關(guān)運(yùn)維人員發(fā)送短信。比較棘手的是,這次故障的根本原因是空調(diào)壞了,而不是常見的斷電、瞬間電流過大等情況。由于出問題的這個(gè)機(jī)房的服務(wù)器沒有線上業(yè)務(wù),因此實(shí)際造成的損失并不大,但是影響不太好。
對(duì)于類似故障處理,大概遵循以下幾個(gè)大的方向。
1、收到報(bào)警或定期巡檢;
2、檢查是否誤報(bào);
3、確認(rèn)報(bào)警內(nèi)容屬實(shí)進(jìn)行相應(yīng)處理;
4、檢查是否有預(yù)案,如有則按照預(yù)案處理,如無則盡快聯(lián)系廠商處理,同時(shí)對(duì)此事備案。
在處理問題環(huán)節(jié),如果在自身團(tuán)隊(duì)無法處理的時(shí)候,會(huì)及時(shí)和廠商聯(lián)系,獲取更專業(yè)的支持。
故障后的思考與總結(jié)
俗話說,吃一塹長一智,出現(xiàn)故障不可怕, 可怕的是不能從故障中得到一些經(jīng)驗(yàn)教訓(xùn)。九叔談到:"對(duì)于系統(tǒng)運(yùn)維來說,不僅僅要關(guān)注軟件層面的問題以及運(yùn)維,同時(shí)對(duì)于基礎(chǔ)IT建設(shè)也要有一定的了解,最起碼要知道出現(xiàn)問題應(yīng)該找誰解決。隨著現(xiàn)階段技術(shù)的發(fā)展,我們不可能做到一個(gè)人對(duì)所有技術(shù)面面俱到,那么在無法解決問題的時(shí)候,如何找到解決問題的人,應(yīng)該是每一個(gè)系統(tǒng)運(yùn)維人員所必須要了解的。
空調(diào)故障的問題偶然性很強(qiáng),但是依然有方法避免,那就是采取硬件服役到一定年限后更換,而不是等它徹底損壞后再更換。但是這種方法會(huì)帶來很多額外的費(fèi)用支出,一般來說,在企業(yè)中推行這種方法需要IT部門有一個(gè)強(qiáng)有力的后盾去支持才能較好的達(dá)到預(yù)期效果。
還有一點(diǎn)是值得注意的,不管具體是什么故障,做好預(yù)案和備案最重要,以防止這種問題再次發(fā)生,或者再次發(fā)生后,也可以極為快速地去解決問題。