如今這服務(wù)器都成精了?
這天早晨,我?guī)鹤釉诠珗@里溜達,迎著冬日朝陽沐浴在晨輝下,感覺身心美滋滋。
正閉眼享受愜意時光的當(dāng)下,口袋突然震了起來。
7點剛過誰打我電話?這日子還能不能過了?
拿起手機一看,咦~某游戲公司的運維經(jīng)理王總?那么早找我干嘛?出于專(qiong)業(yè)(bi)的職業(yè)素養(yǎng)和精神,接了再說!客戶滿意度***!
我: 喂,早呀!王總, 那么早就起來啦? 早飯吃了么?
王:沒吃!吃不下!你上午有空來次我們公司么?有些事情我要了解下!
我:?。。?nbsp;關(guān)于什么事情?需要我準(zhǔn)備什么資料么?
王:就兩個月前我們買的200多臺服務(wù)器的事情! 不用準(zhǔn)備,你來就可以了!
我:啊???? 怎么了?出故障了么?
嘟嘟嘟…….
撂下電話,我火速抓住撒歡的兒子一路狂奔到家,背上雙肩包,坐上地鐵殺向客戶公司……
見面后我開門見山:那200多臺服務(wù)器不是你們另一個項目組A的么?
王總:這半年來我們項目組的在線玩家數(shù)量和收入增長都不錯,而且接下來會上新版本,所以我們就和采購提了200臺擴容需求。 而暑假期間項目組A的游戲流量只有預(yù)期的一半,于是大老板就把兩個月前買的那260臺服務(wù)器轉(zhuǎn)給我們了。
我:這不挺好的么?這樣一來你們項目組差不多有800臺服務(wù)器了吧?
王總:問題是這260臺服務(wù)器目前的BIOS&RAID配置和預(yù)裝的系統(tǒng)是按照A項目組的要求做的,和我們要求不一樣啊。你也知道我們組算上我才3個人。以往需求都是你們出廠預(yù)設(shè)好,我上架就能用的,現(xiàn)在怎么辦?總監(jiān)要求3天內(nèi)就上線。你有啥辦法不? 愁死我了……
我:……就這事?。浚ㄎ疫€差點就坐火箭來了?。Υ鳡栆装残欧?wù)器來說,這都不叫事好嗎 !
對戴爾易安信服務(wù)器全生命周期管理來說,批量重新配置及部署是默認(rèn)的標(biāo)準(zhǔn)功能~
首先我來介紹批量部署及監(jiān)控的神器—— OME(OpenManage Essentials)
OpenManage Essentials 是戴爾營銷硬件管理應(yīng)用程序,能夠?qū)ζ髽I(yè)網(wǎng)絡(luò)中的系統(tǒng)、設(shè)備和組件提供全面的監(jiān)控、部署及資源清冊。用戶可在設(shè)置并允許的網(wǎng)段內(nèi),通過SNMP協(xié)議管理及監(jiān)控最多可達8000臺服務(wù)器,前面王總說的260臺服務(wù)器重新配置,完全可以靠OME實現(xiàn)。
在OME的部署門戶頁面,用戶可以執(zhí)行初始服務(wù)器及操作系統(tǒng)部署。通過該門戶用戶創(chuàng)建服務(wù)器配置模板,針對服務(wù)器有iDRAC、BIOS、RAID 和 NIC 的設(shè)置,以及針對刀片機箱有CMC 的設(shè)置。這些配置模板隨后可以部署到多個服務(wù)器或機箱以進行初始配置,然后再從預(yù)定義的可引導(dǎo) ISO 映像啟動操作系統(tǒng)部署流程。通過設(shè)定多個模板,用戶可快速切換現(xiàn)有服務(wù)器的設(shè)置,極大地簡化了日常運維工作。
關(guān)鍵這個軟件是免費的?。?!
王總:哇塞!這么好的東西你怎么現(xiàn)在才告訴我,這個還能監(jiān)控和預(yù)警?我不用派人天天去機房巡檢了?
我: SNMP、WMI、WS-MAN可管理并監(jiān)控服務(wù)器、交換機、超融合存儲、防火墻等設(shè)備,具體內(nèi)容請看OME界面。
▲上圖,即為OME的操作界面,主要分為4個模塊:
○ 模塊1是頂部導(dǎo)航欄,模塊2為菜單欄和搜索框;
○ 主要看模塊3,這里是控制臺區(qū)域,清晰地顯示了設(shè)備狀態(tài)及報警餅圖,界面右側(cè)排列了一系列報警日志,對應(yīng)的時間、報警級別、設(shè)備IP地址一目了然;
○ 模塊4顯示了具體的報警內(nèi)容。
如果向OME管理服務(wù)器開放外網(wǎng)訪問戴爾易安信官方源的話,OME還可提供對服務(wù)器的BIOS、固件、驅(qū)動的更新,并在***時間通知用戶高優(yōu)先級補丁的更新情況。
另外,OME還可以幫助用戶盤點資產(chǎn)并生成資源清冊報告哦!
王總:資產(chǎn)報告?OME統(tǒng)計地全面和準(zhǔn)確么?我們現(xiàn)在是用表格手動做資產(chǎn)管理系統(tǒng),經(jīng)常出錯。報修換了主板或者網(wǎng)卡后,表格里的mac地址也經(jīng)常不準(zhǔn)。
我: OME做服務(wù)器資產(chǎn)盤點的效果可是杠杠的!它能對所有受管設(shè)備生成非常全面及詳盡的資源清冊報告,如下就是對于所有設(shè)備的NIC信息做出的統(tǒng)計,其中IP、MAC、Vendor信息都清晰可見。
此外,清冊報告里還包括如下內(nèi)容▼:
服務(wù)器資源清冊類別 |
說明 |
服務(wù)器概覽 |
提供關(guān)于服務(wù)器的信息,例如:系統(tǒng)名稱、服務(wù)器上安裝的操作系統(tǒng)、處理器和內(nèi)存 |
硬盤驅(qū)動器信息 |
確定硬盤驅(qū)動器的序列號、修訂版、制造商、總線類型和自加密功能。 |
內(nèi)存信息 |
提供有關(guān)DIMM 的詳情,并確定特定 DIMM 在服務(wù)器中占用的插槽。 |
PCI 設(shè)備信息 |
確定每臺服務(wù)器中的型號、制造商 以及PCI 和PCIe 控制器的插槽。 |
存儲控制器信息 |
確定服務(wù)器上的存儲控制器,并提供控制器名稱、供應(yīng)商、控制器類型和控制器狀態(tài)。 |
虛擬磁盤信息 |
提供有關(guān)虛擬磁盤的信息,如大小、布局,條帶大小等等。 |
服務(wù)器組件和版本 |
標(biāo)識所有查找到的和進行資源清冊的服務(wù)器上的BIOS、驅(qū)動程序和固件版本 |
設(shè)備配置合規(guī)性 |
向關(guān)聯(lián)的設(shè)備配置模板提供與服務(wù)器或機箱的合規(guī)性有關(guān)的信息 |
我:利用這些OME功能,就算你們團隊只有3人,管理好800多臺服務(wù)器也不在話下!
王總: OME的監(jiān)控、管理和部署確實非常不錯!不過每次保修還是很麻煩,要聽很久電腦語音,還要抓日志!
不過剛才我聽你說服務(wù)器能主動報修,還能主動換備件?難道服務(wù)器成精了嗎?如果這樣,那我們就省力了。哈哈~
我:哈哈,服務(wù)器當(dāng)然不會成精。主動式報修和更換部件是通過SA實現(xiàn)的。
SA全稱SupportAssist Enterprise,是一款可自動為 Dell 服務(wù)器、存儲、網(wǎng)絡(luò)設(shè)備提供技術(shù)支持的軟件程序。在設(shè)置 SA 并正確配置待監(jiān)測設(shè)備后,任何受監(jiān)測設(shè)備發(fā)生硬件事件,SA便會收到警報,并通過使用各種策略對收到的警報進行篩選,以確定警報是否符合報修條件。符合報修條件的警報被安全地發(fā)送給 SA 服務(wù)器,創(chuàng)建或更新報修案例后,售后部門使用報警信息對問題進行故障排除,并提供適當(dāng)?shù)慕鉀Q方案。具體可參考下表▼:
SA 功能 |
說明 |
主動檢測硬件故障 |
SA 接收受監(jiān)測設(shè)備中發(fā)生的硬件事件的警報,并主動確定警報是否表明發(fā)生了硬件故障 |
預(yù)測性檢測硬件故障 |
對從受監(jiān)測設(shè)備收集的系統(tǒng)信息進行智能分析,從而預(yù)測將來可能發(fā)生的硬件故障 |
自動收集系統(tǒng)信息 |
自動從設(shè)備收集對問題進行故障排除所需的系統(tǒng)信息,并將其安全地發(fā)送至戴爾 |
自動創(chuàng)建支持案例 |
在主動檢測到或預(yù)測性檢測到硬件故障時,系統(tǒng)自動向技術(shù)支持部門創(chuàng)建服務(wù)請求 |
自動電子郵件通知 |
將關(guān)于支持案例或問題的電子郵件通知自動發(fā)送到貴公司的主要和第二 SA聯(lián)系人 |
主動部件派發(fā) |
如需要更換部件才能解決問題,SA中配置的派送***項向您派發(fā)更換部件 |
技術(shù)支持部門主動回應(yīng) |
技術(shù)支持代理將就該支持案例主動與您聯(lián)系,并幫助您解決此問題 |
部分地區(qū)故障發(fā)生后4小時,我們的售后工程師就可以帶著備件上門更換了。上次在一個部署了OME+SA的客戶那里,我們的售后工程師都帶著備件上門了,他的機房駐場工程師才發(fā)現(xiàn)原來一臺服務(wù)器的硬盤壞了一塊。
由此,SA的專業(yè)性可窺一斑。
綜上,OME+SA雙劍合璧,可打造一個集部署、故障監(jiān)控、資產(chǎn)清冊、自動報障、自動維修為一體的自動化運維平臺,保障您運維無憂!