服務(wù)器出故障了怎么辦?SNMP告警七步走
想必大家都經(jīng)歷過手機(jī)、電腦等電子設(shè)備出問題的情況,跟手機(jī)、電腦一樣,服務(wù)器運(yùn)轉(zhuǎn)過程中也會(huì)出點(diǎn)故障。
作為承載了企業(yè)各種業(yè)務(wù)的平臺(tái),服務(wù)器出故障的影響非同小可,嚴(yán)重時(shí)可能危及業(yè)務(wù)開展,而如果故障發(fā)現(xiàn)不及時(shí),企業(yè)就會(huì)蒙受更大的損失。
經(jīng)常有人詢問,如何才能快速發(fā)現(xiàn)服務(wù)器出了故障。
對(duì)此目前主要有兩種方案,一是通過集中管理平臺(tái)管理大量設(shè)備,定期對(duì)其進(jìn)行檢查,發(fā)現(xiàn)問題再處理;二是只要服務(wù)器出現(xiàn)問題,就第一時(shí)間發(fā)送事件通知出來,隨后由管理員根據(jù)通知定位問題做出處理。
可以看出,第二種方法下,管理員只需關(guān)注出現(xiàn)問題的設(shè)備即可,不僅避免了大量的重復(fù)性設(shè)備檢查工作,而且有助于問題的及時(shí)處理,比如SNMP告警。
SNMP告警
SNMP(Simple Network Management Protocol),即簡單網(wǎng)絡(luò)管理協(xié)議,是一種應(yīng)用層協(xié)議,可用于網(wǎng)絡(luò)管理。
通過SNMP,管理員可進(jìn)行信息查詢、設(shè)置、接收告警等,及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)設(shè)備等出現(xiàn)的問題。
當(dāng)設(shè)備狀態(tài)發(fā)生變化時(shí)(比如電源斷電、硬盤被移除、服務(wù)器重啟或宕機(jī)等),SNMP會(huì)發(fā)送Trap消息到管理設(shè)備,實(shí)現(xiàn)事件通知告警等功能。這種方式下SNMP Agent主動(dòng)將信息通知到管理設(shè)備,由此管理設(shè)備不必對(duì)大量設(shè)備進(jìn)行定期查看,只要出現(xiàn)問題即可接收到信息。
而為了接收SNMP Agent發(fā)送的通知,管理端需要啟用Trap接收機(jī)制——通常使用的是UDP162端口,收到Agent發(fā)送的信息時(shí),接收端的控制臺(tái)會(huì)顯示事件出來,并帶有描述事件的相關(guān)表述。
目前SNMP有v1、v2和v3版本,其中v3版本可以實(shí)現(xiàn)加密和認(rèn)證,相比前兩種版本更加安全,目前大多數(shù)設(shè)備都支持此版本,包括戴爾易安信服務(wù)器。
出于及時(shí)發(fā)現(xiàn)服務(wù)器故障的考慮,在服務(wù)器上配置SNMP是必要的。接下來我們就具體說明如何在服務(wù)器上設(shè)置SNMP Trap告警,并配置管理端接收信息。
1. 由于SNMP v3協(xié)議需要支持認(rèn)證及加密,因此在iDRAC Web UI上,首先要設(shè)置用戶支持的協(xié)議類型及認(rèn)證加密類型。
在iDRAC設(shè)置里找到用戶配置,編輯本地用戶后需要在高級(jí)設(shè)置的SNMP v3 Settings中勾選v3協(xié)議,默認(rèn)是Disabled,這里需要選擇Enabled來開啟此用戶的SNMP v3的支持。
此外認(rèn)證及加密類型需要設(shè)備支持,有“認(rèn)證+加密”、“認(rèn)證+不加密”以及“不認(rèn)證+不加密”幾種選擇,這里我們自行測試的話,認(rèn)證及加密類型可以選擇none。
2. 其次,在配置的系統(tǒng)設(shè)置中選擇告警配置的選項(xiàng),為了發(fā)送告警信息,這里需要將默認(rèn)的Disabled選項(xiàng)調(diào)整為Enabled。
3. 針對(duì)告警內(nèi)容,PowerEdge服務(wù)器支持多種方式的告警,包括Email、SNMP Trap、ipmi等,這里為了實(shí)現(xiàn)Trap功能,需要勾選SNMP Trap類別。
至于告警級(jí)別,也包括了“通知”、“警告”、“嚴(yán)重”三種等級(jí),對(duì)此我們可以根據(jù)具體不同的Category進(jìn)行設(shè)置。
關(guān)于類別篩選,我們可以在Alertsand Remote System Log Conguration(警報(bào)和遠(yuǎn)程系統(tǒng)日志配置)中執(zhí)行操作:
- 系統(tǒng)運(yùn)行狀況—表示系統(tǒng)機(jī)箱內(nèi)與硬件相關(guān)的所有警報(bào)的系統(tǒng)運(yùn)行狀況類別(示例包括溫度故障、電壓故障、設(shè)備錯(cuò)誤)。
- 存儲(chǔ)運(yùn)行狀況—存儲(chǔ)運(yùn)行狀況類別代表與存儲(chǔ)子系統(tǒng)相關(guān)的警報(bào)(示例包括控制器錯(cuò)誤、物理磁盤錯(cuò)誤、虛擬磁盤錯(cuò)誤)。
- 配置—表示與硬件、固件和軟件配置更改相關(guān)的警報(bào)配置類別(示例包括添加/移除的PCI-E卡、更改的RAID配置以及更改的iDRAC許可證)。
- 審核—表示審核日志的審核類別(示例包括用戶登錄/注銷信息、密碼驗(yàn)證故障、會(huì)話信息、電源狀態(tài))。
- 更新—更新類別表示由于固件/驅(qū)動(dòng)程序升級(jí)/降級(jí)而生成的警報(bào)。
4. 在SNMP Trap格式部分,選擇發(fā)送Trap的版本,一般支持SNMP v1、SNMP v2或SNMP v3,為了實(shí)現(xiàn)SNMP v3功能這里需要選擇SNMP v3,隨后單擊應(yīng)用。SNMP端口號(hào)默認(rèn)162,共同體(Community String)是v1和v2使用的(如圖所示),實(shí)際上相當(dāng)于密碼,若需要可以進(jìn)行設(shè)置,對(duì)SNMP v3協(xié)議而言則不需要此項(xiàng)。
5. 在SNMP Traps設(shè)置中,勾選State來啟用警報(bào)目標(biāo)可以填寫IPv4地址、IPv6地址或完全限定域名(FQDN),目前最多可以指定八個(gè)目標(biāo)地址;對(duì)于Destination Address(添加的發(fā)送目標(biāo)IP地址),這里的地址為管理設(shè)備的地址,比如網(wǎng)管平臺(tái)或者M(jìn)ib Browser客戶端所在的地址等;至于SNMP v3 Users,只有在上一步的Trap格式選擇v3后才可以在此選擇用戶。
6. 服務(wù)器端設(shè)置完成后,還需要設(shè)置管理端,可以通過Mib Browser接受服務(wù)器發(fā)送的Trap信息。下圖為Mib Browser的界面,此界面通常會(huì)包含Mib庫及告警信息查看的相關(guān)內(nèi)容。
管理端設(shè)置中可以添加用戶,此用戶要跟PowerEdge服務(wù)器上設(shè)置的用戶對(duì)應(yīng),這里首先需要將SNMP版本設(shè)置為v3,之后再添加參數(shù)信息。
選擇了v3之后,點(diǎn)擊Add添加用戶信息——添加目標(biāo)主機(jī)的IP地址和端口,當(dāng)需要從服務(wù)器獲取或設(shè)置信息時(shí),管理端會(huì)與服務(wù)器上SNMP Agent的161端口進(jìn)行通信,這里認(rèn)證和加密協(xié)議與之前服務(wù)器端的設(shè)置要保持一致。
7. 設(shè)置完成后,打開TrapViewer即可接收告警信息,服務(wù)器狀態(tài)改變后,可以看到接收端收到了一條Trap信息。
自此,服務(wù)器上的SNMP Trap告警設(shè)置完成。
可以看到,通過SNMP Trap的簡單設(shè)置,用戶就可以輕而易舉地實(shí)現(xiàn)大批量設(shè)備管理操作,并且相比于人為從設(shè)備上尋找信息,被動(dòng)地接收告警減少了大量的工作量,也保證了問題的及時(shí)發(fā)現(xiàn),從而將損失降到最低。