淺談G行設(shè)備帶外集中管控的探索與實踐
隨著金融科技的快速發(fā)展,企業(yè)內(nèi)IT設(shè)備數(shù)量持續(xù)增加,對業(yè)務(wù)系統(tǒng)及設(shè)備的運維管理能力的要求也越來越高。面對服務(wù)器、存儲、交換機(jī)等設(shè)備數(shù)量巨大、品類繁多、分布廣泛的情況,如何實現(xiàn)IT設(shè)備的集中管控,資源精細(xì)化管理,資產(chǎn)全生命周期管理,成為企業(yè)的迫切要解決的問題,也是支持安全運營和數(shù)字化轉(zhuǎn)型的關(guān)鍵。
設(shè)備帶外管理概述
圖1 設(shè)備帶外管理端口圖示
傳統(tǒng)的IT設(shè)備監(jiān)控和管理方式主要以人工操作為主,存在設(shè)備告警發(fā)現(xiàn)不及時、設(shè)備資產(chǎn)臺賬管理混亂、設(shè)備配置信息不準(zhǔn)確等問題,導(dǎo)致設(shè)備故障處置效率低,進(jìn)而影響業(yè)務(wù)系統(tǒng)穩(wěn)定運行。
帶外管理(out-of-band management)是通過獨立于業(yè)務(wù)的專用管理端口,對服務(wù)器、存儲、交換機(jī)等設(shè)備進(jìn)行遠(yuǎn)程管控的管理模式,實現(xiàn)遠(yuǎn)程訪問控制、配置數(shù)據(jù)讀取、日志收集、故障告警、能耗數(shù)據(jù)監(jiān)測等功能。帶外管理網(wǎng)絡(luò)與業(yè)務(wù)數(shù)據(jù)網(wǎng)絡(luò)物理隔離,是一條便捷、安全的“應(yīng)急車道”,即便在設(shè)備宕機(jī)或運維網(wǎng)絡(luò)故障情況下,運維人員依然可以快速連接設(shè)備,進(jìn)行遠(yuǎn)程監(jiān)測和管理。帶外管理的出現(xiàn)大大提高了企業(yè)IT設(shè)備故障的應(yīng)急處置能力,減少了人工運營成本,進(jìn)一步提升了IT運維效率。
設(shè)備帶外集中管控的探索與實踐
G行于2020年搭建了設(shè)備帶外集中管控平臺,通過獨立的設(shè)備帶外網(wǎng)絡(luò),對上萬余臺服務(wù)器、存儲、交換機(jī)設(shè)備進(jìn)行集中管控,提供硬件集中監(jiān)控管理、設(shè)備資產(chǎn)管理、設(shè)備資產(chǎn)自動化巡檢、裸金屬自動化部署等功能,構(gòu)建了資產(chǎn)管理數(shù)字化、資源運營精細(xì)化、平臺建設(shè)智能化的設(shè)備管理體系,實現(xiàn)資產(chǎn)的全生命周期管理,提供準(zhǔn)確唯一的設(shè)備數(shù)據(jù)源,實現(xiàn)對IT設(shè)備的全方位管控,大幅提升設(shè)備管理和故障處置效率。
圖2 設(shè)備帶外管理平臺門戶
平臺具備如下特點:
1、全面性:支持對不同類型、品牌、型號的IT設(shè)備進(jìn)行集中統(tǒng)一納管,包括設(shè)備狀態(tài)、部件信息、物理位置等數(shù)據(jù);
2、準(zhǔn)確性:通過不同維度、類別、顆粒度對數(shù)據(jù)進(jìn)行歸類、整理、關(guān)聯(lián)、分析等處理,確保數(shù)據(jù)的準(zhǔn)確性和唯一性;
3、實時性:對設(shè)備配置和性能數(shù)據(jù)進(jìn)行自動采集,實時監(jiān)控設(shè)備運行狀態(tài)及變動;
4、共享性:標(biāo)準(zhǔn)化API接口,對接行內(nèi)外關(guān)聯(lián)系統(tǒng),提供唯一設(shè)備數(shù)據(jù)源,實現(xiàn)數(shù)據(jù)互聯(lián)互通,助力資源精細(xì)管理。
1.硬件集中監(jiān)控管理
平臺通過IPMI、Redfish、SNMP、SMI-S等帶外管理通用協(xié)議,兼容適配主流服務(wù)器、存儲、交換機(jī)等設(shè)備,采用無代理部署方式,對IT設(shè)備進(jìn)行跨品牌、跨類型的集中納管,提供統(tǒng)一監(jiān)控、遠(yuǎn)程管理等功能,并支持設(shè)備配置自動采集,形成設(shè)備臺賬,提升IT設(shè)備管理效率。
圖3 設(shè)備帶外管理邏輯架構(gòu)圖
(1)統(tǒng)一監(jiān)控:監(jiān)控范圍包括但不限于指示燈、CPU、內(nèi)存、主板、磁盤、板卡、電源、風(fēng)扇等部件狀態(tài)和性能數(shù)據(jù),對各類型資源的告警,通過統(tǒng)一集中告警過濾、壓縮處理,第一時間發(fā)送至相關(guān)責(zé)任人,實時、主動、高效地監(jiān)控設(shè)備的運行狀態(tài),當(dāng)設(shè)備出現(xiàn)異常時能實時告警,提升設(shè)備集中管理水平。
(2)遠(yuǎn)程管理:通過連接設(shè)備帶外管理端口,實現(xiàn)對設(shè)備進(jìn)行遠(yuǎn)程控制,包括快速連接管理控制臺、iKVM、開/關(guān)機(jī)、重啟、BMC配置、設(shè)備日志收集等,同時支持多用戶訪問,對已納管的設(shè)備分權(quán)管理,管控功能支持黑白名單限制,實現(xiàn)遠(yuǎn)程集中管控、故障根因分析、故障設(shè)備快速準(zhǔn)確定位等,加快設(shè)備維護(hù)效率。
(3)配置采集:支持通過IP列表、IP段的方式自動發(fā)現(xiàn)和納管主流品牌和類型的設(shè)備,自動采集納管設(shè)備的CPU、內(nèi)存、磁盤等配置信息,格式化處理后形成設(shè)備配置管理臺賬,支持部件、監(jiān)控IP、序列號等信息動態(tài)更新,支持多維度模糊搜索與精準(zhǔn)搜索功能,可實現(xiàn)快速統(tǒng)計與展示,為下游系統(tǒng)提供準(zhǔn)確的設(shè)備數(shù)據(jù)源。
(4)設(shè)備臺賬:配置數(shù)據(jù)形成設(shè)備管理臺賬,為下游系統(tǒng)數(shù)據(jù)消費。支持自定義報表展示,包括統(tǒng)計周期、報表數(shù)據(jù)項、統(tǒng)計方式、過濾條件等,可在線預(yù)覽和多文件格式導(dǎo)出。同時,平臺支持提供多維度容量統(tǒng)計、存量統(tǒng)計、設(shè)備分配與使用、成本投入等視圖展示與分析。
圖4 服務(wù)器設(shè)備帶外管理示例
2.設(shè)備資產(chǎn)自動化巡檢
前期設(shè)備巡檢主要依靠人工機(jī)房巡檢或逐臺登錄控制臺巡檢,工作效率極低,響應(yīng)處理時效較滯后,普遍存在以下問題:
(1)設(shè)備基數(shù)大,機(jī)房分布廣泛,人工巡檢耗時長,且易出現(xiàn)漏巡情況;
(2)設(shè)備監(jiān)控不到位,設(shè)備出現(xiàn)故障時,無法及時發(fā)現(xiàn)和處理;
(3)傳統(tǒng)巡檢方式落后,缺乏科學(xué)的設(shè)備管理體系,支撐設(shè)備集中統(tǒng)一管理;
圖5 設(shè)備自動化巡檢配置示例
平臺提供的設(shè)備巡檢工作臺,可以自定義巡檢內(nèi)容和巡檢范圍,定時對設(shè)備進(jìn)行批量巡檢,獲取設(shè)備健康狀態(tài)、部件狀態(tài)、告警事件等,巡檢后自動生成巡檢報告。自動化巡檢功能可及時反饋巡檢情況,有效規(guī)避人工機(jī)房巡檢風(fēng)險,縮短故障發(fā)現(xiàn)周期,提高巡檢效率和質(zhì)量,為設(shè)備和信息系統(tǒng)的穩(wěn)定運行提供保障。
3.裸金屬自動化部署
隨著數(shù)據(jù)中心業(yè)務(wù)不斷發(fā)展,對于服務(wù)器算力需求不斷增加,批量操作系統(tǒng)安裝交付逐漸形成常態(tài),而傳統(tǒng)的服務(wù)器OS部署方式,主要采用的是通過光盤、U盤、ISO鏡像逐臺手工安裝,或通過PXE網(wǎng)絡(luò)安裝方式,裝機(jī)效率低且缺乏規(guī)范性,可能存在問題如下:
(1)單臺服務(wù)器操作系統(tǒng)安裝耗時費力,無法快速交付;
(2)配置或輸入標(biāo)準(zhǔn)不一,易出現(xiàn)錯/漏部署問題;
(3)易對其它設(shè)備誤操作,無法確保部署的安全性;
(4)PXE安裝啟動DHCP服務(wù),可能產(chǎn)生一定網(wǎng)絡(luò)隱患;
圖片
平臺利用帶外技術(shù)協(xié)議針對不同品類的裸金屬服務(wù)器,實現(xiàn)RedHat、SUSE、Kylin、Ubuntu、Windows、ESXI等操作系統(tǒng)的自動化批量推送部署,同時支持定制用戶基線模板、配置服務(wù)器BIOS、RAID、固件升級等功能。同時平臺進(jìn)行精細(xì)化權(quán)限管控,針對不同角色、不同用戶設(shè)置可訪問設(shè)備范圍和操作權(quán)限,安裝過程中具備黑/白名單限制、設(shè)備序列號自動校準(zhǔn)、開/關(guān)機(jī)狀態(tài)檢驗等安全保障機(jī)制,防止誤部署。帶外技術(shù)與管理手段相結(jié)合,確保批量安裝流程化、規(guī)范化、安全化,實現(xiàn)裸金屬資源快速交付,大幅提升運維效率。
總結(jié)與展望
G行通過設(shè)備帶外集中管控平臺對不同品牌、不同類型設(shè)備實現(xiàn)統(tǒng)一監(jiān)控與管理,用戶可通過平臺全面監(jiān)管設(shè)備運行狀況和資產(chǎn)流轉(zhuǎn)狀態(tài),實現(xiàn)設(shè)備資產(chǎn)的自動化、智能化、數(shù)字化管理,大幅降低了人工成本和運營成本,提升了IT運維服務(wù)質(zhì)量和工作效率。
隨著G行數(shù)字化發(fā)展體系的深化,平臺將從配置管理、資源統(tǒng)籌、數(shù)據(jù)治理、流程推進(jìn)等方面持續(xù)優(yōu)化,堅持以數(shù)字化、精細(xì)化、自動化為目標(biāo),以數(shù)據(jù)準(zhǔn)確、對象清晰、流程必用、效能提升為原則,建設(shè)設(shè)備全生命周期管理能力,助力IT資源降本增效,賦能G行數(shù)字化轉(zhuǎn)型和高質(zhì)量發(fā)展。
作者:趙愛蛟
圖片
多年從事系統(tǒng)及服務(wù)器運維管理工作,專注于設(shè)備自動化管理工具建設(shè),合理統(tǒng)籌資源,促進(jìn)設(shè)備良性周轉(zhuǎn),優(yōu)化設(shè)備管理手段,提升IT運維管理效率。