自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

銀行監(jiān)控報(bào)警系統(tǒng)性能提升50倍,用的全是開(kāi)源組件

運(yùn)維 系統(tǒng)運(yùn)維
下文將從報(bào)警信息的生命周期管理出發(fā),介紹一下G行新一代監(jiān)控報(bào)警系統(tǒng)規(guī)劃與建設(shè)。

監(jiān)控系統(tǒng)作為IT運(yùn)維之眼,在運(yùn)維管理工作中發(fā)揮著重要的作用。而監(jiān)控報(bào)警作為監(jiān)控系統(tǒng)的主要輸出,在生產(chǎn)故障早期預(yù)警、故障定位分析和故障恢復(fù)驗(yàn)證等多個(gè)運(yùn)維場(chǎng)景中提供了技術(shù)工具的支撐。

G行上一代監(jiān)控報(bào)警系統(tǒng)使用國(guó)外的商業(yè)套件,報(bào)警采集和報(bào)警處理受限于商業(yè)套件的單機(jī)單線程處理能力,而報(bào)警存儲(chǔ)采用的是單機(jī)版的內(nèi)存數(shù)據(jù)庫(kù)。

存在以下問(wèn)題

  •  當(dāng)出現(xiàn)告警風(fēng)暴時(shí),采集器可能丟數(shù)據(jù),而數(shù)據(jù)庫(kù)也會(huì)發(fā)生阻塞,導(dǎo)致告警處理效率低下,報(bào)警延遲時(shí)間達(dá)到分鐘級(jí);
  •  告警處理邏輯只能支持比較簡(jiǎn)單的處理,對(duì)于復(fù)雜的高并發(fā)高頻率的處理,是無(wú)法應(yīng)付的。

解決方案

為解決上述問(wèn)題,G行新一代監(jiān)控報(bào)警系統(tǒng)基于開(kāi)源組件進(jìn)行自主研發(fā),既能滿足海量報(bào)警消息的高并發(fā)處理及規(guī)則靈活配置的要求,又能滿足報(bào)警全生命周期的運(yùn)維管理需求,最終實(shí)現(xiàn)監(jiān)控報(bào)警的高效處理。

下文將從報(bào)警信息的生命周期管理出發(fā),介紹一下G行新一代監(jiān)控報(bào)警系統(tǒng)規(guī)劃與建設(shè)。

一、監(jiān)控報(bào)警系統(tǒng)簡(jiǎn)介

報(bào)警消息的管理我們遵從閉環(huán)管理機(jī)制,其生命周期可以從產(chǎn)生到恢復(fù)的全過(guò)程分為報(bào)警產(chǎn)生和接入、報(bào)警預(yù)處理、報(bào)警存儲(chǔ)、報(bào)警通知和報(bào)警恢復(fù)后關(guān)閉等多個(gè)環(huán)節(jié)。

1、報(bào)警生命周期管理

主要目標(biāo)是為了實(shí)現(xiàn):

  •  全面管理、敏捷接入
  •  降低延遲、及時(shí)通報(bào)
  •  推薦根因、協(xié)助定位
  •  跟蹤解決、恢復(fù)驗(yàn)證

2、監(jiān)控報(bào)警系統(tǒng)核心功能

圍繞報(bào)警的生命周期管理,監(jiān)控報(bào)警系統(tǒng)的功能框架應(yīng)包含的主要功能如下:

  •  報(bào)警接入和預(yù)處理:對(duì)各種不同來(lái)源和協(xié)議的報(bào)警的原始數(shù)據(jù)解析為統(tǒng)一的報(bào)警記錄;
  •  報(bào)警豐富:在報(bào)警處理過(guò)程中根據(jù)cmdb等配置信息庫(kù)的管理信息,對(duì)原始報(bào)警的內(nèi)容進(jìn)行信息補(bǔ)充和完善的功能;
  •  報(bào)警維護(hù)期:應(yīng)對(duì)日常變更、切換演練以及故障臨時(shí)處置等場(chǎng)景下,提前屏蔽相關(guān)報(bào)警避免無(wú)效報(bào)警產(chǎn)生干擾;
  •  報(bào)警壓縮:對(duì)于重復(fù)發(fā)生的報(bào)警信息,只記錄報(bào)警的首次發(fā)生時(shí)間、末次發(fā)生時(shí)間和發(fā)生次數(shù),減少報(bào)警的記錄數(shù),避免對(duì)用戶查看和處理報(bào)警造成干擾。報(bào)警壓縮的規(guī)則一般是由多個(gè)報(bào)警消息的屬性值組成壓縮因子,可根據(jù)不同的報(bào)警源和報(bào)警內(nèi)容提前預(yù)置壓縮因子的組合規(guī)則。常見(jiàn)的壓縮因子包括:IP地址、報(bào)警對(duì)象、報(bào)警類別、報(bào)警策略、報(bào)警實(shí)例等;
  •  報(bào)警恢復(fù):為了能夠真實(shí)反映生產(chǎn)系統(tǒng)運(yùn)行的故障和恢復(fù)的狀態(tài),除了常見(jiàn)的故障外,還有恢復(fù)報(bào)警的處理和關(guān)聯(lián)機(jī)制。在已報(bào)警在監(jiān)控對(duì)象恢復(fù)正常運(yùn)行狀態(tài)以后,需要監(jiān)控工具能夠及時(shí)準(zhǔn)確的識(shí)別恢復(fù)的狀態(tài)并產(chǎn)生恢復(fù)報(bào)警到監(jiān)控報(bào)警平臺(tái)。報(bào)警平臺(tái)支持自動(dòng)進(jìn)行關(guān)聯(lián)恢復(fù),即自動(dòng)找到對(duì)應(yīng)的故障報(bào)警,然后進(jìn)行關(guān)聯(lián),并將原報(bào)警設(shè)置為恢復(fù)狀態(tài)。關(guān)聯(lián)的算法可以靈活進(jìn)行設(shè)置,需確?;謴?fù)報(bào)警的產(chǎn)生時(shí)間晚于故障報(bào)警;
  •  報(bào)警定級(jí):報(bào)警的定級(jí)分為兩個(gè)階段,一是默認(rèn)級(jí)別,即根據(jù)每個(gè)報(bào)警原始的嚴(yán)重程度定義,二是報(bào)警管理系統(tǒng)平臺(tái)對(duì)多個(gè)獨(dú)立的報(bào)警進(jìn)行關(guān)聯(lián)分析,重新定義新的報(bào)警級(jí)別;
  •  根因分析:隨著監(jiān)控策略的覆蓋度和監(jiān)控顆粒度的不斷提升,在發(fā)生一個(gè)生產(chǎn)故障時(shí)會(huì)從關(guān)聯(lián)的各個(gè)組件、各個(gè)層面產(chǎn)生大量報(bào)警,因此需要從眾多報(bào)警中自動(dòng)化找出根因的報(bào)警,成為報(bào)警處理重要目標(biāo);
  •  報(bào)警通知:對(duì)于某些重大報(bào)警,需要通知給相關(guān)的運(yùn)維人員,采取相應(yīng)的措施。

二、監(jiān)控報(bào)警系統(tǒng)的關(guān)鍵特性

監(jiān)控報(bào)警系統(tǒng)在整個(gè)監(jiān)控體系的作用是接收企業(yè)內(nèi)各類專業(yè)監(jiān)控工具產(chǎn)生的報(bào)警消息,其功能定位是報(bào)警MOM(Managerof Manager),通過(guò)本其定位以及前面的功能說(shuō)明可以看出,監(jiān)控報(bào)警系統(tǒng)有以下關(guān)鍵特性:

  •  報(bào)警接入范圍很廣:

作為企業(yè)級(jí)的報(bào)警管理中心,是對(duì)企業(yè)的所有報(bào)警作統(tǒng)一的監(jiān)控管理,報(bào)警接入的范圍和監(jiān)控工具覆蓋的范圍是一致的,從底層的基礎(chǔ)設(shè)施、物理服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備、操作系統(tǒng)、云平臺(tái)等,到中間件組件、數(shù)據(jù)庫(kù)、WebServer和大數(shù)據(jù)組件等等,再到上層的業(yè)務(wù)和應(yīng)用,如交易、應(yīng)用等。

  •  必須應(yīng)對(duì)報(bào)警風(fēng)暴:

當(dāng)設(shè)備有異常情況出現(xiàn)時(shí),設(shè)備可能產(chǎn)生大量的報(bào)警,有時(shí)會(huì)達(dá)到每秒幾萬(wàn)條,而形成報(bào)警風(fēng)暴,當(dāng)報(bào)警接入范圍很廣時(shí),報(bào)警風(fēng)暴可能隨時(shí)時(shí)不時(shí)發(fā)生,報(bào)警管理中心必須自身必須能應(yīng)對(duì)這種情況,對(duì)報(bào)警數(shù)據(jù)進(jìn)行有效處理。

  •  報(bào)警處理邏輯復(fù)雜:

報(bào)警處理分為流處理和批處理,所謂流處理,是指一條報(bào)警接入之后過(guò)來(lái)之后,需要實(shí)時(shí)經(jīng)過(guò)很多個(gè)邏輯處理單元之后才能入庫(kù),而在每個(gè)邏輯處理單元里面,都會(huì)頻繁地操作告警數(shù)據(jù)庫(kù),和原有的報(bào)警上下文進(jìn)行關(guān)聯(lián)分析。無(wú)論是告警本身的處理,還是告警數(shù)據(jù)庫(kù),都存在巨大的性能壓力。所謂批處理,是指定時(shí)地對(duì)報(bào)警庫(kù)里面的數(shù)據(jù)做二次處理,報(bào)警處理中心有大量的批處理規(guī)則來(lái)處理各類不同的報(bào)警數(shù)據(jù),同樣會(huì)對(duì)報(bào)警處理機(jī)和數(shù)據(jù)庫(kù)造成巨大的壓力。

  •  處理邏輯靈活配置可擴(kuò)展:

由于報(bào)警接入范圍很廣,報(bào)警類型和報(bào)文格式復(fù)雜多樣,每一類報(bào)警的解析不一樣,每一類報(bào)警的處理邏輯也不一樣。而且,隨著時(shí)間的推移和業(yè)務(wù)的變化,報(bào)警類型會(huì)增加,原來(lái)的報(bào)警處理邏輯也需要隨著運(yùn)維場(chǎng)景的變化持續(xù)改進(jìn)會(huì)變化,因此報(bào)警處理規(guī)則所以,不可能將報(bào)警處理邏輯寫(xiě)死,而必須做到靈活定義和可擴(kuò)展高度可配。

上面的四個(gè)特性中,前三個(gè)合起來(lái)產(chǎn)生一個(gè)問(wèn)題,那就是報(bào)警管理系統(tǒng)中心高性能的問(wèn)題。

第四個(gè)特性是報(bào)警管理系統(tǒng)規(guī)則靈活配置的問(wèn)題,那如何解決高性能和高可配的問(wèn)題呢?

三、監(jiān)控報(bào)警系統(tǒng)的關(guān)鍵技術(shù)實(shí)現(xiàn)設(shè)計(jì)

G行新一代上一代監(jiān)控報(bào)警系統(tǒng)使用國(guó)外的商業(yè)套件,報(bào)警采集和報(bào)警處理都是采用的單機(jī)單線程處理,而報(bào)警存儲(chǔ)采用的是單機(jī)版的內(nèi)存數(shù)據(jù)庫(kù)。

存在的問(wèn)題是為解決告警風(fēng)暴、高頻報(bào)警的問(wèn)題,而我們:

當(dāng)出現(xiàn)告警風(fēng)暴時(shí),采集器可能丟數(shù)據(jù),而數(shù)據(jù)庫(kù)也會(huì)發(fā)生阻塞,導(dǎo)致告警處理效率低下,報(bào)警延遲時(shí)間達(dá)到分鐘級(jí)。

告警處理邏輯只能支持比較簡(jiǎn)單的處理,對(duì)于復(fù)雜的高并發(fā)高頻率的處理,是無(wú)法應(yīng)付的。

為解決上述問(wèn)題,G行新一代監(jiān)控報(bào)警系統(tǒng)基于開(kāi)源組件進(jìn)行自主研發(fā),從報(bào)警采集、處理和入庫(kù)三大關(guān)鍵環(huán)節(jié)入手,解決報(bào)警高性能和規(guī)則高可配的問(wèn)題的。

其中主要的關(guān)鍵設(shè)計(jì)包括報(bào)警采集器的設(shè)計(jì)、分布式服務(wù)框架的引入和分布式數(shù)據(jù)庫(kù)的選型和適配處理引擎和后面的幾點(diǎn)對(duì)上。結(jié)合需求和技術(shù)約束,監(jiān)控報(bào)警的整體框架為:

1、以Akka并行框架為基礎(chǔ)解決報(bào)警采集高性能問(wèn)題

由于報(bào)警接入范圍很廣,采集器需要接收各種數(shù)據(jù)報(bào)文,當(dāng)產(chǎn)生報(bào)警風(fēng)暴時(shí),必須要并行接收和預(yù)處理各種報(bào)警,才能使報(bào)警得到及時(shí)處理;采集器以Akka并行框架為基礎(chǔ)實(shí)現(xiàn)。

Akka是Java虛擬機(jī)平臺(tái)上構(gòu)建的高并發(fā)、分布式和容錯(cuò)應(yīng)用的工具包和運(yùn)行時(shí)。Akka用Scala語(yǔ)言編寫(xiě),同時(shí)提供了Scala和Java的開(kāi)發(fā)接口。Akka處理并發(fā)的方法基于Actor模型,Actor之間通信的唯一機(jī)制就是消息傳遞。

其最大優(yōu)勢(shì)是消息發(fā)送者與已經(jīng)發(fā)送的消息解耦,允許異步通信同時(shí)又滿足消息傳遞模式的控制結(jié)構(gòu)。以Akka為基礎(chǔ)的報(bào)警采集器架構(gòu)如下:

各層次作用說(shuō)明如下:

  •  數(shù)據(jù)采集Actor:原始數(shù)據(jù)采集,或者主動(dòng)采集,或者被動(dòng)接收,不同類型的數(shù)據(jù)有一個(gè)Actor采集,對(duì)于主動(dòng)采集的Actor,采用輪詢的方式,定時(shí)采集數(shù)據(jù);
  •  原始數(shù)據(jù)分發(fā)Actor:所有采集到的原始數(shù)據(jù)都會(huì)發(fā)送到原始數(shù)據(jù)分發(fā)Actor,由它來(lái)分發(fā)到數(shù)據(jù)分析Actor,同時(shí),這個(gè)Actor可以對(duì)原始數(shù)據(jù)做整體調(diào)度控制;
  •  數(shù)據(jù)分析Actor:這是一組Actor,采集器主要業(yè)務(wù)處理和資源消耗的組件,可靈活配置Actor的并發(fā)個(gè)數(shù);
  •  持久化數(shù)據(jù)分發(fā)Actor:所有需要持久化的數(shù)據(jù)都發(fā)送到這個(gè)Actor,它對(duì)需要持久化的數(shù)據(jù)分發(fā)到持久化Actor,同時(shí)對(duì)持久化數(shù)據(jù)做整體的控制,比如數(shù)據(jù)庫(kù)有問(wèn)題或網(wǎng)絡(luò)有問(wèn)題,導(dǎo)致持久化無(wú)法進(jìn)行或很慢,可以控制實(shí)現(xiàn)背壓;
  •  數(shù)據(jù)持久化Actor:這是一組Actor,對(duì)數(shù)據(jù)進(jìn)行持久化,Actor個(gè)數(shù)可以配置,采集器的IO主要消耗者。

2、  以Apache Dubbo分布式框架為基礎(chǔ)解決報(bào)警處理高性能問(wèn)題

新一代監(jiān)控報(bào)警系統(tǒng),以ApacheDubbo分布式框架為基礎(chǔ)搭建分布式處理集群,集群的每一個(gè)節(jié)點(diǎn)都并行處理報(bào)警,當(dāng)未來(lái)報(bào)警規(guī)模擴(kuò)大時(shí),集群的節(jié)點(diǎn)可以水平擴(kuò)充,當(dāng)集群的處理能力有冗余時(shí),宕掉一個(gè)或多個(gè)節(jié)點(diǎn)不影響報(bào)警處理。

Apache Dubbo是一款高性能、輕量級(jí)的開(kāi)源JavaRPC框架,它提供了三大核心能力:面向接口的遠(yuǎn)程方法調(diào)用,智能容錯(cuò)和負(fù)載均衡,以及服務(wù)的自動(dòng)注冊(cè)和發(fā)現(xiàn)。為了保證集群本身的高可用,還可以搭建備集群,主備集群之間的數(shù)據(jù)可以實(shí)時(shí)同步。

在報(bào)警處理集群中,實(shí)現(xiàn)了兩個(gè)Dubbo服務(wù):

  •  數(shù)據(jù)處理服務(wù):提供了數(shù)據(jù)的增、刪、改、查接口,用于采集器(EPP)調(diào)用和其它應(yīng)用調(diào)用,采集器用來(lái)發(fā)送數(shù)據(jù)給報(bào)警處理集群進(jìn)一步處理,如告警壓縮、告警恢復(fù)等,其它應(yīng)用用來(lái)查詢和操作告警,如刪除、接管等;
  •  數(shù)據(jù)同步服務(wù):集群數(shù)據(jù)同步服務(wù),提供數(shù)據(jù)的定時(shí)備份接口和增量備份接口,用于從主集群同步數(shù)據(jù)多備集群,備集群可以是多個(gè)。

Dubbo服務(wù)的調(diào)用關(guān)系如下圖所示:

處理節(jié)點(diǎn)的內(nèi)部邏輯架構(gòu)為:

3、處理邏輯APP化解決高可配問(wèn)題

由于報(bào)警處理邏輯復(fù)雜多變,所以報(bào)警處理集群的每一個(gè)處理節(jié)點(diǎn)都設(shè)計(jì)成一個(gè)報(bào)警處理APP容器,一個(gè)報(bào)警處理APP是指一個(gè)邏輯功能部件,用來(lái)處理某一類業(yè)務(wù),比如進(jìn)維護(hù)期、事件豐富、事件通知等等,APP容器具有以下特點(diǎn):

  •  報(bào)警處理APP采用熱拔插方式。當(dāng)APP數(shù)量很大導(dǎo)致,容器資源不夠時(shí),可以通過(guò)水平擴(kuò)張集群節(jié)點(diǎn)解決;
  •  報(bào)警處理APP的開(kāi)發(fā)可以用系統(tǒng)提供的腳本開(kāi)發(fā),也可以用scala或java開(kāi)發(fā),對(duì)于腳本開(kāi)發(fā)的APP,容器采用Antlr進(jìn)行語(yǔ)法分析,翻譯成Java代碼,然后用Java動(dòng)態(tài)編譯技術(shù)編譯成字節(jié)碼運(yùn)行,以提高處理速度;
  •  優(yōu)雅停啟:當(dāng)更新一個(gè)APP時(shí),它正在處理的數(shù)據(jù)會(huì)處理完畢才自動(dòng)停止,需要馬上處理的數(shù)據(jù)由新的APP處理,即新老APP可能有一個(gè)重疊的時(shí)間在同時(shí)運(yùn)行。

報(bào)警處理APP有以下類型:

  •  流APP:在每一個(gè)處理節(jié)點(diǎn)上都運(yùn)行的APP,處理實(shí)時(shí)報(bào)警,如果一個(gè)報(bào)警符合此APP的條件,則運(yùn)行此APP邏輯;
  •  調(diào)度型批APP:由報(bào)警處理集群的調(diào)度引擎將這類APP分布在不同的節(jié)點(diǎn)上運(yùn)行,每個(gè)APP只有一個(gè)實(shí)例,定時(shí)從報(bào)警庫(kù)中取一批特定的報(bào)警進(jìn)行處理。
  •  訂閱型批APP:由報(bào)警處理集群的調(diào)度引擎將這類APP分布在不同的節(jié)點(diǎn)上運(yùn)行,每APP只有一個(gè)實(shí)例,從流APP或調(diào)度型批APP訂閱數(shù)據(jù),進(jìn)行統(tǒng)一集中處理;
  •  廣播型批APP:在每一個(gè)節(jié)點(diǎn)都運(yùn)行的批處理APP,事件來(lái)源為某個(gè)調(diào)度型APP分配的數(shù)據(jù),起到分布式處理的作用;
  •  Restful APP:動(dòng)態(tài)生成Restful接口的APP,以便訪問(wèn)APP的內(nèi)部數(shù)據(jù)。

4、 Apache Ignite分布式存儲(chǔ)解決存儲(chǔ)高性能問(wèn)題

由于報(bào)警數(shù)據(jù)量大報(bào)警會(huì)不時(shí)產(chǎn)生風(fēng)暴、每一條告警處理過(guò)程中會(huì)大量的讀寫(xiě)報(bào)警庫(kù),所以需要一個(gè)分布式內(nèi)存數(shù)據(jù)庫(kù)作為報(bào)警庫(kù)。

因?yàn)槌R?jiàn)以往的如MySQL、Oracle磁盤(pán)型關(guān)系數(shù)據(jù)庫(kù),在這樣高頻度訪問(wèn)和復(fù)雜邏輯處理下,無(wú)法滿足監(jiān)控報(bào)警系統(tǒng)高并發(fā)讀寫(xiě)的需求,而采用單機(jī)版的內(nèi)存數(shù)據(jù)庫(kù),在報(bào)警風(fēng)暴的時(shí)候,同樣會(huì)產(chǎn)生報(bào)警庫(kù)癱瘓的問(wèn)題。

在G行新一代報(bào)警系統(tǒng)開(kāi)發(fā)和建設(shè)時(shí),采用分布式內(nèi)存數(shù)據(jù)庫(kù)ApacheIgnite存儲(chǔ)告警,可以將訪問(wèn)和邏輯處理分離并且在多節(jié)點(diǎn)內(nèi)存中進(jìn)行并行處理,所以性能完全能滿足實(shí)際需求。

報(bào)警處理引擎對(duì)Ignite的使用如下:

  •  持久化數(shù)據(jù)(SQL方式存取):活動(dòng)告警、歷史告警、通知?dú)w檔、配置數(shù)據(jù);
  •  緩存數(shù)據(jù)(key-value方式存取):定時(shí)從其它應(yīng)用查詢資源數(shù)據(jù),如用于豐富的MO、用于事件預(yù)處理的Lookup數(shù)據(jù);
  •  內(nèi)存分區(qū)(5個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)總內(nèi)存128G):活動(dòng)庫(kù)16G,資源8G,歷史庫(kù):52G,通知庫(kù):16G;
  •  事務(wù)方式:告警處理幾乎沒(méi)有需要ACID強(qiáng)一致性保證,并且告警庫(kù)訪問(wèn)頻繁,為提高性能,配置為ATOMIC方式,即保證單個(gè)數(shù)據(jù)操作的一致性,當(dāng)遇到更新沖突時(shí),重復(fù)執(zhí)行此更新操作直至成功。

5、實(shí)現(xiàn)效果

G行現(xiàn)已在生產(chǎn)環(huán)境實(shí)際部署了自主研發(fā)的報(bào)警處理系統(tǒng),進(jìn)行功能和性能驗(yàn)證。關(guān)鍵運(yùn)行指標(biāo)經(jīng)測(cè)試如下:

  •  活動(dòng)庫(kù)報(bào)警數(shù)量:最高可達(dá)千萬(wàn)級(jí)報(bào)警數(shù)據(jù),是原有商業(yè)套件存儲(chǔ)能力的200倍;
  •  歷史庫(kù)數(shù)量:最高可歸檔存儲(chǔ)億級(jí)數(shù)據(jù);
  •  寫(xiě)入TPS:存1000萬(wàn)平均速度,11653條/s,是原有商業(yè)套件的10倍;
  •  報(bào)警處理延遲:100毫秒以內(nèi),性能提升30-50倍以上;
  •  擴(kuò)展性:每增加1臺(tái)服務(wù)器,寫(xiě)入速度提升:2000條/s。

通過(guò)此次新一代監(jiān)控報(bào)警系統(tǒng)的部署,G行的監(jiān)控管理平臺(tái)實(shí)現(xiàn)全部組件的開(kāi)源和自主可控,大幅度提升了報(bào)警處理的效率,減少了報(bào)警處理延遲時(shí)間。

四、未來(lái)展望

通過(guò)自研監(jiān)控報(bào)警系統(tǒng),提升了平臺(tái)整體報(bào)警的處理能力和管理規(guī)則的可定制化能力,為后續(xù)提升報(bào)警智能分析能力打下了數(shù)據(jù)和處理能力層面的技術(shù)基礎(chǔ)。

未來(lái),優(yōu)化和改進(jìn)的方向包括:

  •  報(bào)警接入方面:基于微服務(wù)的理念,提供企業(yè)級(jí)的監(jiān)控報(bào)警接入服務(wù)。技術(shù)上提供webhook等事件集成接口,更加簡(jiǎn)便、友好的接收應(yīng)用程序內(nèi)部推送的各類報(bào)警信息,并且提升報(bào)警接口的管理能力;
  •  報(bào)警處理能力方面:需要加強(qiáng)報(bào)警分析能力,尤其是大規(guī)模報(bào)警的情況下報(bào)警根因的定向和定位能力,提升運(yùn)用AI算法解決報(bào)警壓縮和收斂的能力;
  •  報(bào)警展示和關(guān)聯(lián):提升報(bào)警與性能數(shù)據(jù)、配置數(shù)據(jù)的關(guān)聯(lián)能力,在閱讀報(bào)警時(shí)能夠同步了解到故障點(diǎn)KPI快照、指標(biāo)趨勢(shì)分析、變更切換操作等相關(guān)的運(yùn)維數(shù)據(jù)信息,提升故障處置效率,縮短故障影響的時(shí)間。 

 

責(zé)任編輯:龐桂玉 來(lái)源: DBAplus社群
相關(guān)推薦

2024-11-08 14:27:52

系統(tǒng)設(shè)計(jì)數(shù)據(jù)庫(kù)

2017-08-11 19:13:01

LinuxNmon系統(tǒng)監(jiān)控工具

2009-03-22 19:19:15

多核多核服務(wù)器多核歷史

2022-07-26 10:28:00

Linux監(jiān)控命令

2020-03-26 12:38:15

代碼節(jié)點(diǎn)數(shù)據(jù)

2022-11-01 18:11:16

線上系統(tǒng)性能切割函數(shù)

2015-12-17 14:32:46

NmonLinux性能

2018-12-10 15:13:06

緩存系統(tǒng)性能數(shù)據(jù)

2009-02-18 20:27:24

組策略提升Windows性能

2015-07-28 09:19:10

Linux內(nèi)核

2024-12-11 07:59:02

2016-09-26 13:50:52

Linux系統(tǒng)性能

2011-08-09 17:15:45

注冊(cè)表注冊(cè)表編輯器

2014-07-17 14:08:37

阿里云

2022-11-09 07:20:15

MySQL性能管控

2012-12-10 13:43:07

固態(tài)硬盤(pán)系統(tǒng)性能內(nèi)存

2023-10-17 14:35:22

人工智能AI

2020-02-27 13:23:30

LinuxGlances監(jiān)控工具

2023-06-12 00:22:50

操作系統(tǒng)應(yīng)用程序內(nèi)核鎖

2023-10-26 08:33:16

Redis管道技術(shù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)