未來的監(jiān)控大屏是給AI智能體看的,你知道嗎?
有很多企業(yè)在做數(shù)據(jù)庫的監(jiān)控大屏,監(jiān)控大屏這個東西在中國信息系統(tǒng)發(fā)展的二三十年里一直是在不斷的演進的。大屏做得越來越漂亮,上面的數(shù)據(jù)也越來越有價值,但是我覺得監(jiān)控大屏的發(fā)展已經(jīng)走到了一個瓶頸點上。因為隨著信息化的發(fā)展速度越來越快,信息系統(tǒng)的建設也越來越復雜,無論是信息系統(tǒng)的數(shù)量還是指標的復雜程度都已經(jīng)超出了視覺分析的極限了?,F(xiàn)在的監(jiān)控大屏在很大程度上來看已經(jīng)成為一種形式,顯示的內(nèi)容,顯示的目的,如何通過大屏去做監(jiān)控,都已經(jīng)無法真正發(fā)揮作用。
前陣子優(yōu)諾的傲寒總路過南京,因為時間十分有限,只能在石頭城下的咖啡廳做了個小聚。他們是中國做數(shù)字孿生最早的一批企業(yè),在早期的時候我也跟他提過那種花花綠綠的動畫似乎對運維不那么直觀。真正的想要讓運維人員理解系統(tǒng),了解系統(tǒng)的現(xiàn)狀,數(shù)字表格可能還是最直觀和有效的。不過那時候客戶喜歡的就是逼真的仿真顯示,他們當時是國內(nèi)仿真顯示做得最好的產(chǎn)品。
再次聊到這個問題的時候,他給我演示了他們最新的一些動態(tài)視覺技術。我發(fā)現(xiàn)那些花里胡哨的3D界面消失了,取而代之的是一個一個十分形象的動畫方塊,這些方塊讓我們很方便直觀地了解到業(yè)務的執(zhí)行情況。結合算法與模型,不再強調(diào)大屏上面的仿真性,而是更加深度的去模擬業(yè)務的真實的內(nèi)在邏輯,監(jiān)控人員可以十分直觀地感受到業(yè)務運作的狀況,發(fā)現(xiàn)業(yè)務可能存在的堵點和風險。
另外一點大變化是,依托于系統(tǒng)中采集到的豐富的數(shù)據(jù),通過優(yōu)諾動態(tài)視覺引擎提供的業(yè)務仿真回放功能,讓這套系統(tǒng)能夠在業(yè)務問題分析,業(yè)務故障溯源上也能發(fā)揮巨大的作用。
我當時的第一感覺是,這才是數(shù)字孿生系統(tǒng)該有的模樣。數(shù)字孿生系統(tǒng)本身就是為了解決問題而投資去建設的,不僅僅是為了滿足人們的視覺感官。更重要的是系統(tǒng)能夠幫助我們?nèi)シ治鰳I(yè)務,發(fā)現(xiàn)和解決問業(yè)務中的問題。
回到數(shù)據(jù)庫運維領域,我們目前建設的大部分數(shù)據(jù)庫監(jiān)控系統(tǒng)都是基于傳統(tǒng)的網(wǎng)管思維的,采集的指標主要的目的是為了做展示。采集回來的數(shù)據(jù)需要做成儀表盤,才能讓人使用。所以現(xiàn)在談到數(shù)據(jù)庫可觀測性的時候,很多人都會和我討論Grafana。而事實上,這與我所認知的可觀測性完全不是一個東西。
目前基于Grafana的可觀測性面臨三大問題:第一個是隨著數(shù)據(jù)庫系統(tǒng)越來越多,如果一個企業(yè)有幾百套甚至上萬套數(shù)據(jù)庫,做那么多儀表盤去給誰看?有朋友要說了,Grafana可以設置預警規(guī)則,有了告警才需要去看儀表盤。那么第二個問題又來了,Grafana如何才能較為精準的告警?依靠基線閾值嗎?每天誤報幾千次上萬次的告警,是不是會讓你崩潰?假如說你已經(jīng)解決了第二個問題,那么第三個問題又來了,在數(shù)據(jù)庫國產(chǎn)化時代里,你的現(xiàn)場有真正深入理解這些數(shù)據(jù)庫的DBA嗎?恐怕原廠的售后服務人員里也沒幾個是他們自己數(shù)據(jù)庫產(chǎn)品的真正專家吧。即使是運維Oracle的 時代,一線監(jiān)控人員也不可能是專家,專家一般都在三線呢。
我覺得傳統(tǒng)的監(jiān)控已經(jīng)走進了死胡同,而實際上AI監(jiān)控才是監(jiān)控系統(tǒng)的未來。實際上無論是生成式AI還是傳統(tǒng)AI算法,都可以模仿專家的思維方式來解讀和分析數(shù)據(jù)。采集回來的監(jiān)控數(shù)據(jù)不一定要使用儀表盤展示出來,但是必須經(jīng)過AI算法去進行分析。通過小模型計算后發(fā)現(xiàn)的問題再交給基于大語言模型的生成式AI去做匯總分析,最后總結出問題與發(fā)現(xiàn),并產(chǎn)生相關告警,可能是未來監(jiān)控系統(tǒng)的基本建設思路。
投入大量資金建設的監(jiān)控系統(tǒng),最終是要發(fā)揮出應有的作用的。1分鐘發(fā)現(xiàn)問題,5分鐘定位問題,10分鐘解決問題,這是目前銀行IT運行保障的目標,可能也是絕大多數(shù)關鍵業(yè)務系統(tǒng)的運維目標吧。要實現(xiàn)這樣的目標,依靠傳統(tǒng)的人肉運維,人肉監(jiān)控,幾乎是不可能的。只有當坐在監(jiān)控大屏后面搞監(jiān)控的變成了一個AI智能體,這個目標才能真正實現(xiàn)。