Nagios的使用技巧
Nagios的使用技巧
大家用nagios一般是用來監(jiān)控內(nèi)網(wǎng)的機(jī)器,其實(shí)如果網(wǎng)絡(luò)情況良好的話,它用來監(jiān)測(cè)公網(wǎng)的機(jī)器也是可行的;我們以前用來監(jiān)測(cè)我們公網(wǎng)的28臺(tái)SQL Server2008數(shù)據(jù)庫(kù)(電信對(duì)電信),事實(shí)證明,效果也是可以的。
nagios不僅僅可以檢測(cè)linux/unix服務(wù)器的即時(shí)狀態(tài),而且檢測(cè)windows服務(wù)器效果也是非常好的;配置熟練的話,我感覺在windows下配置nsclient也是非常方便的,不過記得開啟windows防火墻的12489端口,記得檢測(cè)一下;什么,不會(huì)?你在別的機(jī)器上telnet windows機(jī)器IP 12489,依此狀態(tài)來檢測(cè)你的windows到底開啟了12489端口沒有;
大家的業(yè)務(wù)網(wǎng)站最好置于自己機(jī)房?jī)?nèi),這是因?yàn)閚agios對(duì)于內(nèi)網(wǎng)監(jiān)控效果是非常好的;因?yàn)閚agios是依靠ping來檢測(cè)服務(wù)器是否存活的,如果網(wǎng)絡(luò)情況不好或別的原因造成nagios檢測(cè)不到監(jiān)測(cè)服務(wù)器的話,會(huì)造成一個(gè)啼笑皆非的問題,它會(huì)狂報(bào)警,說此服務(wù)器已宕機(jī),非常critical;但事實(shí)上此服務(wù)器情況良好,僅僅只是跟nagios機(jī)器的網(wǎng)絡(luò)不通而已;這種情況希望大家能甄別下。
如何正確判斷我們的網(wǎng)站是否真正的掛掉了呢?nagios其實(shí)只能即時(shí)檢測(cè)你的服務(wù)器情況,如果是你的防火墻或機(jī)房都掛掉了呢,這種情況怎么辦呢?建議大家可購(gòu)買一項(xiàng)即時(shí)掃描的服務(wù)(如Alertbot),它會(huì)即時(shí)掃描你的網(wǎng)站,如果遇到問題也會(huì)向我們的郵箱發(fā)送郵件;如果你的郵箱同時(shí)收到Alertbot和nagios的報(bào)警,一定要慎重對(duì)待。
有時(shí)我們的系統(tǒng)組有這個(gè)需求,特別是系統(tǒng)繁忙時(shí)希望能留下日志,以供分析:到底是受到了攻擊,還是開發(fā)人員設(shè)置不當(dāng),亦或是運(yùn)維人員改動(dòng)了系統(tǒng)配置等。機(jī)器少時(shí)可能問題不大,但公司的CDN服務(wù)器集群是一百多臺(tái),目前看形勢(shì)還在增長(zhǎng),所以我們?cè)O(shè)計(jì)了nagios+vmstat的shell腳本來作Nagios的方式,在系統(tǒng)繁忙時(shí)分離出日志,供系統(tǒng)組同事們一起分析問題,得出問題的癥結(jié)所在,具體可參考我在51cto.com的其它文章,這里就不重復(fù)敘述了。
短信報(bào)警這塊我沒有用短信貓,但我推薦大家可以用飛信試下效果;我這邊因?yàn)橛懈酶?jiǎn)便的辦法,所以我暫時(shí)沒采用短信貓和飛信;不是說這些不好,而是我嫌其繁瑣了。
我們這邊的system admin一直是采用移動(dòng)的139郵箱來接收nagios的報(bào)警郵件,效果一直都很好;不過好像是全球通的效果最好,如果是神州行或動(dòng)感地帶的,效果也是很不好,時(shí)常收不到報(bào)警郵件。因?yàn)槲铱匆娡掠玫娜蛲ㄐЧ诲e(cuò),我特的也去買了神州行的卡,結(jié)果杯具了,居然收不到報(bào)警短信。而我一直用的是聯(lián)通的如意通手機(jī),只有一開始收到短信,其余時(shí)間基本無視nagios的存在了。后來我一狠心算了款黑莓的商務(wù)手機(jī),開通了手機(jī)郵,直接將我的163郵箱綁定了我的聯(lián)通手機(jī)號(hào)才算是徹底解決了手機(jī)報(bào)警短信的問題;這些方法都不錯(cuò),有興趣的朋友們都可以嘗試下;
nagios可以結(jié)合cacti或MRTG等流量監(jiān)控軟件一起來查找系統(tǒng)故障等,也可以結(jié)合awstats來分析Apache或postfix日志,不過我現(xiàn)在嫌awstats配置過于繁瑣,直接用shell腳本來分析的。
如果有某臺(tái)服務(wù)器的某一項(xiàng),比如我們的jail,本來就是8臺(tái)子虛擬機(jī)一起用于線上環(huán)境,負(fù)載很大,但nagios就不停的報(bào)警,認(rèn)為這是不正常的,搞得人很煩燥,這時(shí)直接就可以點(diǎn)中此服務(wù)器的負(fù)載項(xiàng),然后選擇” Disable notifications for this service”,世界清靜了。我們直接用FreeBSD的jail用于線上環(huán)境,由于配置起來很方便和高效,但jail有個(gè)缺點(diǎn),由于下面的子機(jī)全都是共用原宿機(jī)的cpu和內(nèi)存及磁盤,任何一臺(tái)子jail機(jī)的負(fù)載過高或使用磁盤空間,都會(huì)導(dǎo)致原宿機(jī)的nagios報(bào)警;這個(gè)目前也沒有什么好的辦法,只能盡量?jī)?yōu)化吧。
個(gè)人上班時(shí)需要實(shí)時(shí)關(guān)注監(jiān)控服務(wù)器主機(jī)及服務(wù)的 Nagios系統(tǒng),覺得需一直開著一個(gè)網(wǎng)頁(yè)頁(yè)面自動(dòng)刷新,感覺有點(diǎn)麻煩、而且浪費(fèi)資源。雖說同事有分享一款Nagios輔助小軟件,可以最小化到任務(wù)欄,有異常時(shí)會(huì)有浮動(dòng)提示窗口,挺方便的。但是對(duì)于自己一向喜歡盡量將所有東西都嵌入到瀏覽器中進(jìn)行操作的癖好者,便更希望能找到一款Firefox插件來實(shí)現(xiàn)類似于此輔助軟件的功能,這插件即是Nagios Check插件。(這里提及一些題外話:不知為何如今自己越來越依賴于瀏覽器,想把所有的事情工作、生活涉及到的東西都看能不能只打開一個(gè)瀏覽器便可操作完成,而盡量不用開太多的應(yīng)用程序,即將盡量多的應(yīng)用程序使用插件功能進(jìn)Firefox瀏覽器中進(jìn)行使用)安裝方法非常簡(jiǎn)單,不過在IE或chrome上一直沒找到相關(guān)的插件,這不是不說是一種遺憾了。各人有各人的辦法,這里就不多費(fèi)篇幅了。
【編輯推薦】