服務(wù)器告警機(jī)制配置技巧 避免草木皆兵
現(xiàn)在的服務(wù)器都配置了成堆的傳感器,一旦任何傳感器發(fā)生狀況都會(huì)發(fā)出告警,令人頭昏目眩。但是管理員必須盡早知道:服務(wù)器監(jiān)控工具產(chǎn)生的告警不一定都重要。如果服務(wù)器動(dòng)輒發(fā)出警報(bào),那你會(huì)在短時(shí)間內(nèi)被迫接收大量信息,其中真正重要的信息可能會(huì)被淹沒(méi)。本文的目的就是幫助管理員認(rèn)清哪些服務(wù)器告警是重要的,管理員需要服務(wù)器監(jiān)控工具怎樣正確提供警報(bào)。
配置告警機(jī)制的技巧
在開(kāi)始之前,我想先指出一點(diǎn):配置告警并沒(méi)有絕對(duì)正確或錯(cuò)誤的方法。本文中的建議主要基于我二十年的IT經(jīng)驗(yàn),但它們終歸是我個(gè)人的偏好。所以,雖然希望你們能從我的建議中獲取好處,但我更建議每個(gè)管理員配置服務(wù)器告警時(shí),盡量緊貼與自己公司的特定要求。
另一點(diǎn)我要指出的是:管理員可以用很多方法讓服務(wù)器產(chǎn)生告警。有的服務(wù)器可以在硬件級(jí)產(chǎn)生告警,這雖然很有用,但還遠(yuǎn)遠(yuǎn)達(dá)不到作為獨(dú)當(dāng)一面的告警機(jī)制的要求。服務(wù)器供應(yīng)商提供的服務(wù)器監(jiān)控工具有大量信息,作為操作系統(tǒng)級(jí)的服務(wù)器監(jiān)控工具,比如微軟的System Center Operations Manager。因?yàn)楸O(jiān)控工具的選擇很多,我會(huì)普遍地講一講,而不是單獨(dú)講某個(gè)特定的工具。
為服務(wù)器告警機(jī)制配置優(yōu)先級(jí)
想讓服務(wù)器監(jiān)控變得有效,關(guān)鍵在于對(duì)監(jiān)控工具的告警機(jī)制進(jìn)行優(yōu)先級(jí)配置。我推薦把告警分為高級(jí)、中級(jí)、低級(jí)三種。
我通常把優(yōu)先級(jí)高的告警定義成最最關(guān)鍵的事務(wù)。比如,服務(wù)器磁盤(pán)空間全部耗盡就是一個(gè)關(guān)鍵事件,同樣一個(gè)群集化應(yīng)用服務(wù)器出現(xiàn)故障也會(huì)釀成大禍。
中級(jí)優(yōu)先級(jí)的告警比較難以定義。我所認(rèn)為的中級(jí)告警可能對(duì)于其他組織來(lái)說(shuō)是高級(jí)的。對(duì)我來(lái)說(shuō),如果警報(bào)中的問(wèn)題不會(huì)帶來(lái)整體停機(jī),那么優(yōu)先級(jí)就是中級(jí)。比如說(shuō)一個(gè)群集中的某個(gè)節(jié)點(diǎn)不知道為什么斷電了,但不會(huì)影響整個(gè)群集的運(yùn)行,那我就把它定義為優(yōu)先級(jí)中級(jí)。當(dāng)然這和所處的工作環(huán)境有很大關(guān)系。我任職過(guò)的一些大公司就把這類(lèi)問(wèn)題定義為關(guān)鍵事務(wù)。
但是,如果你的公司不能容忍任何宕機(jī)事件發(fā)生,那比較聰明的方法就是根據(jù)問(wèn)題是否有發(fā)生故障的潛在風(fēng)險(xiǎn)來(lái)決定優(yōu)先級(jí)。比如說(shuō)你有一個(gè)RAID列陣,能夠在不離線的情況下處理兩個(gè)磁盤(pán)的失誤,那如果其中一個(gè)故障了,你可以把這件事當(dāng)成中等優(yōu)先級(jí)的告警,因?yàn)樵撽嚵羞€能正常處理另一個(gè)磁盤(pán)的故障。但如果兩個(gè)磁盤(pán)都發(fā)生故障,那就是高等優(yōu)先級(jí)了,因?yàn)槿绻€有一個(gè)磁盤(pán)故障,那整個(gè)陣列就完了。
雖然我覺(jué)得這種方法評(píng)定優(yōu)先級(jí)很好用,但是比起簡(jiǎn)單地在故障時(shí)觸發(fā)告警,根據(jù)部件數(shù)量來(lái)配置告警更難。依靠了你使用的監(jiān)控的種類(lèi)及其監(jiān)控軟件的可用功能,安裝這種告警系統(tǒng)是值得選擇,毫無(wú)疑問(wèn)的。
配置監(jiān)控機(jī)制
一旦你決定了如何對(duì)告警進(jìn)行分類(lèi),你就需要決定告警如何通知。我個(gè)人比較喜歡讓服務(wù)器監(jiān)控工具把優(yōu)先級(jí)高的告警通過(guò)手機(jī)信息發(fā)給我。因?yàn)槭謾C(jī)隨身帶,所以把關(guān)鍵告警發(fā)送到我手機(jī)上是最好的方法,這樣我就可以最快收到。
而優(yōu)先級(jí)中等的告警雖然重要,但不是絕對(duì)關(guān)鍵的,所以我傾向于通過(guò)電子郵件發(fā)送。如圖所示,Windows Server有發(fā)送電子郵件的功能,這意味你很容易就能根據(jù)操作系統(tǒng)內(nèi)發(fā)生的時(shí)間來(lái)發(fā)送郵件告警。
Windows能自動(dòng)發(fā)送電子郵件告警
我每天檢查電子郵件,所以告警不會(huì)被忽視,有的告警我可能并不想通過(guò)手機(jī)第一時(shí)間知道。中高級(jí)的區(qū)分很重要,我并不想在和朋友歡度周末的時(shí)候,還得為中等優(yōu)先級(jí)的告警所打擾。當(dāng)然這只是告警工作的一個(gè)例子,還有其他選項(xiàng)。比如有個(gè)公司叫Server Density,他們裝了一個(gè)iPhone的服務(wù)器監(jiān)控應(yīng)用程序,支持所有的告警。
當(dāng)然,高等優(yōu)先級(jí)的組成對(duì)象還是有待探討的,還有一件事情得考慮一下,就是高優(yōu)先級(jí)的告警不一定和系統(tǒng)故障有關(guān)。大部分服務(wù)器只要系統(tǒng)case打開(kāi)了,就能觸發(fā)告警。如果能打開(kāi)服務(wù)器case的只有你,那一個(gè)case的警報(bào)顯然就是高等優(yōu)先級(jí)的告警。同樣,溫度過(guò)高的告警也是高優(yōu)先級(jí)的,因?yàn)榉?wù)器過(guò)熱最終會(huì)導(dǎo)致停機(jī)。