工程師筆記|服務(wù)器出故障了我卻不知道?
想必大家都經(jīng)歷過手機(jī)、電腦等電子設(shè)備出問題的情況,跟手機(jī)、電腦一樣,服務(wù)器運轉(zhuǎn)過程中也會出點故障,作為承載了企業(yè)各種業(yè)務(wù)的平臺,服務(wù)器出故障的影響非同小可,嚴(yán)重時可能危及業(yè)務(wù)開展,而如果故障發(fā)現(xiàn)不及時,企業(yè)就會蒙受更大的損失。
最近也經(jīng)常有客戶詢問筆者,如何才能快速發(fā)現(xiàn)服務(wù)器出了故障。
對此目前主要有兩種方案,一是通過集中管理平臺管理大量設(shè)備,定期對其進(jìn)行檢查,發(fā)現(xiàn)問題再處理;二是只要服務(wù)器出現(xiàn)問題,能迅速發(fā)送事件通知出來,隨后由管理員根據(jù)通知定位問題做出處理。
可以看出,第二種方法下,管理員只需關(guān)注出現(xiàn)問題的設(shè)備即可,不僅避免了大量的重復(fù)性設(shè)備檢查工作,而且有助于問題的及時處理,比如SNMP告警。
SNMP(Simple Network Management Protocol),即簡單網(wǎng)絡(luò)管理協(xié)議,是一種應(yīng)用層協(xié)議,可用于網(wǎng)絡(luò)管理。
通過SNMP,管理員可進(jìn)行信息查詢、設(shè)置、接收告警等,及時發(fā)現(xiàn)網(wǎng)絡(luò)設(shè)備等出現(xiàn)的問題。
當(dāng)設(shè)備狀態(tài)發(fā)生變化時(比如電源斷電、硬盤被移除、服務(wù)器重啟或宕機(jī)等),SNMP會發(fā)送Trap消息到管理設(shè)備,實現(xiàn)事件通知告警等功能。這種方式下SNMP Agent主動將信息通知到管理設(shè)備,由此管理設(shè)備不必對大量設(shè)備進(jìn)行定期查看,只要出現(xiàn)問題即可接收到信息。
而為了接收SNMP Agent發(fā)送的通知,管理端需要啟用Trap接收機(jī)制——通常使用的是UDP162端口,收到Agent發(fā)送的信息時,接收端的控制臺會顯示事件出來,并帶有描述事件的相關(guān)表述。
目前SNMP有v1、v2和v3版本,其中v3版本可以實現(xiàn)加密和認(rèn)證,相比前兩種版本安全,目前大多數(shù)設(shè)備都支持此版本,包括戴爾易安信服務(wù)器。
出于及時發(fā)現(xiàn)服務(wù)器故障的考慮,在服務(wù)器上配置SNMP是必要的。接下來我們就以一臺戴爾易安信PowerEdge服務(wù)器為例,具體說明如何在服務(wù)器上設(shè)置SNMP Trap告警,并配置管理端接收信息。
1
由于SNMP v3協(xié)議需要支持認(rèn)證及加密,因此在iDRAC Web UI上,首先要設(shè)置用戶支持的協(xié)議類型及認(rèn)證加密類型。
在iDRAC設(shè)置里找到用戶配置,編輯本地用戶后需要在高級設(shè)置的SNMP v3 Settings中勾選v3協(xié)議,默認(rèn)是Disabled,這里需要選擇Enabled來開啟此用戶的SNMP v3的支持。
此外認(rèn)證及加密類型需要設(shè)備支持,有“認(rèn)證+加密”、“認(rèn)證+不加密”以及“不認(rèn)證+不加密”幾種選擇,這里我們自行測試的話,認(rèn)證及加密類型可以選擇none。
2
其次,在配置的系統(tǒng)設(shè)置中選擇告警配置的選項,為了發(fā)送告警信息,這里需要將默認(rèn)的Disabled選項調(diào)整為Enabled。
3
針對告警內(nèi)容,PowerEdge服務(wù)器支持多種方式的告警,包括Email、SNMP Trap、ipmi等,這里為了實現(xiàn)Trap功能,需要勾選SNMP Trap類別。
至于告警級別,也包括了“通知”、“警告”、“嚴(yán)重”三種等級,對此我們可以根據(jù)具體不同的Category進(jìn)行設(shè)置。
關(guān)于類別篩選,我們可以在Alertsand Remote System Log Conguration(警報和遠(yuǎn)程系統(tǒng)日志配置)中執(zhí)行操作:
• 系統(tǒng)運行狀況—表示系統(tǒng)機(jī)箱內(nèi)與硬件相關(guān)的所有警報的系統(tǒng)運行狀況類別(示例包括溫度故障、電壓故障、設(shè)備錯誤)。
• 存儲運行狀況—存儲運行狀況類別代表與存儲子系統(tǒng)相關(guān)的警報(示例包括控制器錯誤、物理磁盤錯誤、虛擬磁盤錯誤)。
• 配置—表示與硬件、固件和軟件配置更改相關(guān)的警報配置類別(示例包括添加/移除的PCI-E卡、更改的RAID配置以及更改的iDRAC許可證)。
• 審核—表示審核日志的審核類別(示例包括用戶登錄/注銷信息、密碼驗證故障、會話信息、電源狀態(tài))。
• 更新—更新類別表示由于固件/驅(qū)動程序升級/降級而生成的警報。
4
在SNMP Trap格式部分,選擇發(fā)送Trap的版本,一般支持SNMP v1、SNMP v2或SNMP v3,為了實現(xiàn)SNMP v3功能這里需要選擇SNMP v3,隨后單擊應(yīng)用。SNMP端口號默認(rèn)162,共同體(Community String)是v1和v2使用的(如圖所示),實際上相當(dāng)于密碼,若需要可以進(jìn)行設(shè)置,對SNMP v3協(xié)議而言則不需要此項。
5
在SNMP Traps設(shè)置中,勾選State來啟用警報目標(biāo)可以填寫IPv4地址、IPv6地址或完全限定域名(FQDN),目前最多可以指定八個目標(biāo)地址;對于Destination Address(添加的發(fā)送目標(biāo)IP地址),這里的地址為管理設(shè)備的地址,比如網(wǎng)管平臺或者M(jìn)ib Browser客戶端所在的地址等;至于SNMP v3 Users,只有在上一步的Trap格式選擇v3后才可以在此選擇用戶。
6
服務(wù)器端設(shè)置完成后,還需要設(shè)置管理端,可以通過Mib Browser接受服務(wù)器發(fā)送的Trap信息。下圖為Mib Browser的界面,此界面通常會包含Mib庫及告警信息查看的相關(guān)內(nèi)容。
管理端設(shè)置中可以添加用戶,此用戶要跟PowerEdge服務(wù)器上設(shè)置的用戶對應(yīng),這里首先需要將SNMP版本設(shè)置為v3,之后再添加參數(shù)信息。
選擇了v3之后,點擊Add添加用戶信息——添加目標(biāo)主機(jī)的IP地址和端口,當(dāng)需要從服務(wù)器獲取或設(shè)置信息時,管理端會與服務(wù)器上SNMP Agent的161端口進(jìn)行通信,這里認(rèn)證和加密協(xié)議與之前服務(wù)器端的設(shè)置要保持一致。
7
設(shè)置完成后,打開TrapViewer即可接收告警信息,服務(wù)器狀態(tài)改變后,可以看到接收端收到了一條Trap信息。
自此,服務(wù)器上的SNMP Trap告警設(shè)置完成。
可以看到,通過SNMP Trap的簡單設(shè)置,用戶就可以輕而易舉地實現(xiàn)大批量設(shè)備管理操作,并且相比于人為從設(shè)備上尋找信息,被動地接收告警減少了大量的工作量,也保證了問題的及時發(fā)現(xiàn),從而將損失大程度降低。
服務(wù)器管理
另外,服務(wù)器管理方面,戴爾易安信的OpenManage管理平臺也是個不錯的選擇,它可以同時管理多臺設(shè)備,允許管理員全面掌控環(huán)境的運行情況,針對系統(tǒng)進(jìn)行管理及監(jiān)控,而且支持接收SNMP告警,是件全面的智能管理平臺,了解OpenManage的具體應(yīng)用,詳見《A君的救贖》,一份IT運維工程師的自救指南。
戴爾易安信
企業(yè)級產(chǎn)品促銷季
限時開啟
現(xiàn)在購買普通中端存儲
即可1:1免費置換全閃存
購買服務(wù)器,可享受低至二六折優(yōu)惠
更有多品類產(chǎn)品鉅惠出擊
買戴爾易安信存儲和服務(wù)器
就是現(xiàn)在!
硬盤換閃存1:1促銷,
買普通存儲,免費升級全閃,不加價!
優(yōu)惠多多,趕快行動吧!
長按二維碼獲取您的服務(wù)器專屬底價!
獲取您的服務(wù)器專屬底價!
長按二維碼立享存儲優(yōu)惠!
相關(guān)閱讀推薦:工程師筆記︱趁降價采購了一批SSD,結(jié)果管理上遇到了問題?
了解更多數(shù)字化轉(zhuǎn)型方案查看此鏈接:
https://www.dellemc-solution.com/home/index.html