實(shí)例解析:挑燈看故障
我們有一臺(tái)Sun E250服務(wù)器,主要用作WWW發(fā)布用。一直以來運(yùn)行比較穩(wěn)定,但是前一段時(shí)間重啟了該服務(wù)器一次后,發(fā)現(xiàn)這臺(tái)服務(wù)器前面板的6個(gè)LED指示燈中中間的那兩個(gè)指示燈常亮,而以前沒有發(fā)現(xiàn)這種現(xiàn)象,基本上可以定位為告警指示。我到SUN的網(wǎng)站上下載了E250服務(wù)器的手冊(cè),查了一下,了解到那個(gè)扳手一樣的LED指示燈(圖1)
圖1
在系統(tǒng)運(yùn)行時(shí)亮表示檢測(cè)到系統(tǒng)錯(cuò)誤(任何可能的錯(cuò)誤)。那個(gè)溫度計(jì)一樣的LED指示燈(圖2)亮表示系統(tǒng)溫度過高。
圖2
知道了LED指示燈帶給我們的錯(cuò)誤信息以后,我們就開始從機(jī)房的環(huán)境溫度、操作系統(tǒng)故障這兩方面來著手解決問題。
機(jī)房環(huán)境溫度:
我們機(jī)房是采用中央空調(diào)和獨(dú)立空調(diào)兩套空調(diào)系統(tǒng),可以有效的保證室內(nèi)的環(huán)境溫度,即使在夏天最熱的時(shí)候,也可以將溫度調(diào)節(jié)到二十度左右,而且和這臺(tái)WWW服器并排放在一齊的還有兩臺(tái)同型號(hào)的服務(wù)器,它們就沒有溫度過高的告警。
操作系統(tǒng)故障:
通過查看/var/adm下的messages文件,發(fā)現(xiàn)確實(shí)有溫度過高的日志記錄
以下是引用片段: Aug 31 19:17:18 ns unix: WARNING: TEMPERATURE WARNING: 63 degrees celsius at location CPU0 Aug 31 19:23:33 ns unix: NOTICE: TEMPERATURE NORMAL: all sensors back to normal readings |
再查看/var/log目錄下的syslog文件,發(fā)現(xiàn)有大量重復(fù)的告警信息出現(xiàn),如下:
以下是引用片段: Aug 31 14:35:45 ns sendmail[19588]: NOQUEUE: [202.112.174.17] did not issue MAIL/EXPN/VRFY/ETRN during connection to MTA |
由此可以基本上判斷出是由于這個(gè)主機(jī)被當(dāng)作了垃圾郵件的轉(zhuǎn)發(fā)器,被某些惡意主機(jī)大量利用sendmail程序發(fā)送郵件造成了系統(tǒng)負(fù)擔(dān)過重(我們的郵件服務(wù)器(同樣是是Solaris操作系統(tǒng),已經(jīng)利用增加SMTP認(rèn)證功能有效的杜絕了垃圾郵件的轉(zhuǎn)發(fā),但是這臺(tái)WWW服務(wù)器默認(rèn)啟動(dòng)了sendmail郵件服務(wù),但是又沒有實(shí)現(xiàn)SMTP認(rèn)證功能。在Solaris7中文版中是無法成功的配置SMTP認(rèn)證的,我們的郵件服務(wù)器是在升級(jí)到Solaris8以后才配置成功SMTP認(rèn)證,我們的WWW服務(wù)器目前還沒有升級(jí)到Solaris8,這個(gè)漏洞造成了WWW服務(wù)器的負(fù)擔(dān)過重,而這個(gè)頻繁使用的進(jìn)程竟然是發(fā)送垃圾郵件),好了,知道這個(gè)問題,我們就可以從手解決了。
第一步,利用ps -ef | grep sendmail查出sendmail的進(jìn)程號(hào),再用“kill 進(jìn)程號(hào)”命令殺掉sendmail進(jìn)程。
第二步,不讓sendmail進(jìn)程隨系統(tǒng)啟動(dòng)自動(dòng)啟動(dòng),用以下命令實(shí)現(xiàn):
以下是引用片段: cd /etc/rc2.d mv S88sendmail s88sendmail |
以上兩步完成后,再去WWW服務(wù)器那兒一看,告警指示燈就不亮了,經(jīng)過了近一個(gè)星期的觀察,也沒有再出現(xiàn)類似的告警。這個(gè)問題成功解決。
【編輯推薦】