統(tǒng)一化、標準化、智能化,博睿數(shù)據(jù)OneAlert為運維降本增效
原創(chuàng)隨著IT基礎(chǔ)設(shè)施的云化,應(yīng)用運行環(huán)境的容器化,系統(tǒng)架構(gòu)的微服務(wù)化,數(shù)據(jù)處理量成倍增長,企業(yè)不得不引入更多的工具、更復(fù)雜的流程,來提升IT系統(tǒng)管理的精細度,隨之而來的是IT運維師的壓力越來越大。
首先,部署大量的系統(tǒng)造成了告警源越來越分散,每個告警之間呈現(xiàn)出分散式、孤島式,導(dǎo)致告警無法統(tǒng)一管理。同時,告警的來源分散和不統(tǒng)一,導(dǎo)致了告警處理流程無序,缺乏統(tǒng)一處理,統(tǒng)一通知,無法標準化處理。而為了保障運維的安全,企業(yè)往往部署更多的監(jiān)控,這樣一來,產(chǎn)生的告警就會越來越多,這些告警中往往會有大量重復(fù)的、冗余的告警,運維人員在處理告警的時候無法快速定位到這些告警的關(guān)鍵信息,給運維人員對告警的判斷和處理帶來了巨大壓力,因此急需一個能夠幫助客戶解決以上問題的運維監(jiān)控統(tǒng)一管理平臺。
日前,博睿數(shù)據(jù)研發(fā)了一款全場景運維監(jiān)控統(tǒng)一接入、海量告警降噪收斂、故障統(tǒng)一分析管理的新一代告警平臺產(chǎn)品——OneAlert,憑借統(tǒng)一化、標準化、智能化告警管理,為企業(yè)降低運維成本、提升工作效率,為業(yè)務(wù)的穩(wěn)定運行保駕護航。
博睿數(shù)據(jù)產(chǎn)品經(jīng)理郝寧從統(tǒng)一化、標準化、智能化三個方面詳細介紹了OneAlert的核心優(yōu)勢和價值。
多源事件統(tǒng)一接入
OneAlert實現(xiàn)了四類監(jiān)控工具的統(tǒng)一接入:首先是云類監(jiān)控工具,包括常見的三朵云:阿里云、騰訊云、華為云等。第二類是博睿數(shù)據(jù)自研的監(jiān)控工具:APM Server、NET、SDK。第三類是運維過程中常用的開源監(jiān)控工具:ZABBIX、Prometheus等。第四類是自建平臺、自定義的監(jiān)控工具REST API。OneAlert平臺支持對主流運維監(jiān)控告警源提供統(tǒng)一接入功能,對這些接入后的多源異構(gòu)數(shù)據(jù)提供完整統(tǒng)一的標準化映射處理,實現(xiàn)了全場景下運維異常事件監(jiān)控全覆蓋統(tǒng)一接入,避免了因自身監(jiān)控數(shù)據(jù)相互獨立導(dǎo)致的重大事件無人發(fā)現(xiàn)的監(jiān)控死角。
運維故障標準處理
據(jù)郝寧介紹,當(dāng)接入多來源的告警數(shù)據(jù)后,OneAlert平臺支持提供統(tǒng)一、實時的故障信息展示,運維人員不再需要登錄多個平臺查看故障情況,從而提升了異常事件的處理效率。同時,OneAlert支持針對不同的通知要求選用不同的通知方式,實現(xiàn)了將故障快速通知到相關(guān)負責(zé)人,保證故障及時響應(yīng),縮短故障處理時間,最小程度降低對業(yè)務(wù)的影響。最后,OneAlert支持對故障進行處理跟蹤,實現(xiàn)故障生命周期的閉環(huán)管理,使運維故障處理從以前的無序到有序流程化,提升一線運維人員、運維管理人員的整體工作效率。
海量告警智能收斂
OneAlert平臺通過對海量雜亂事件降噪處理,形成告警,降低了故障分析的信息量,并通過自定義標簽規(guī)則收斂、標簽AI相似、AI時域的AI智能決策收斂的功能,識別出異常事件之間的關(guān)聯(lián)性,將多個關(guān)聯(lián)事件歸并處理成一個故障,從而輔助運維人員聚焦處理關(guān)鍵故障信息,避免告警風(fēng)暴,極大程度降低整體運維成本。
其中,AI算法智能收斂實現(xiàn)了AIOps多場景的有效支撐,從根本上解決了規(guī)則收斂的瓶頸問題,同時還支持收斂組合自定義搭配使用,在規(guī)則收斂的基礎(chǔ)上開展AI能力收斂探索(AI相似+AI時域),使得收斂場景更全面、收斂能力更強大、收斂效果更顯著。
基于數(shù)據(jù)處理的領(lǐng)先優(yōu)勢,OneAlert在告警收斂過程中除了固定標簽收斂,還支持自定義標簽作為收斂條件進行告警收斂,有效避免因海量雜亂告警產(chǎn)生的告警風(fēng)暴。
總之,OneAlert提供了完整的標準化分析處理管控能力,實現(xiàn)了對故障(事前)及時發(fā)現(xiàn)、統(tǒng)一管理;(事中)快速響應(yīng)、精準處置;(事后)分析統(tǒng)計的標準化全生命周期完整管控。
積極打磨產(chǎn)品,推動產(chǎn)品國際化
談到國內(nèi)的應(yīng)用性能觀測產(chǎn)品與國際廠商的產(chǎn)品的差距,博睿數(shù)據(jù)產(chǎn)品總監(jiān)孫麗表示,國內(nèi)的應(yīng)用性能觀測產(chǎn)品基本具備了同等產(chǎn)品能力,但是在技術(shù)深度和技術(shù)領(lǐng)先性上,尤其是在AI的應(yīng)用方面,還需要追趕。此外,在將新興的技術(shù)和能力轉(zhuǎn)化為產(chǎn)品的效率方面,如云原生網(wǎng)絡(luò)的可觀測性等,是國內(nèi)的應(yīng)用性能觀測產(chǎn)品需要學(xué)習(xí)的一個方面。
在信創(chuàng)的大趨勢下,博睿數(shù)據(jù)的應(yīng)用性能觀測產(chǎn)品在服務(wù)器、操作系統(tǒng)、數(shù)據(jù)庫中間件等層面做了很多適配,支持大部分主流廠商,也已經(jīng)在政府客戶中開始落地。
在標準方面,博睿數(shù)據(jù)積極參與了工信部、信創(chuàng)工委會等標準制定。孫麗表示,這些標準將對中國的產(chǎn)品走向全球化是非常重要的。