對運維數據的看法不只有一種,正確的看法搶到了關鍵六分鐘
數據是客觀的某種解釋,但是數據不是事實本身,而是對事實的某種方面的描述。我們在分析事實的時候經常會用到數據,但是我們在看數據的時候往往帶有某種情緒或者觀點。比如說對于經濟數據的看法總是有兩種聲音,唱衰亦或是看好。三月份的出口數據,同比下降了7.5%,這個數據是好還是壞呢?簡單地從數值上看,可能是相當不好,不過如果考慮到去年3月份強勁的出口,以及1-3月的總的數據,似乎還不錯。
遇到這樣的情況,我的做法是去看3月份的用電量數據,從某個口徑統(tǒng)計的數據上看,3月份用電量增長為6.4%,不過第二產業(yè)增長確實有所下降,為3.7%,是最近半年內的最低。不過從1-3月的總數據來看,代表制造業(yè)景氣狀態(tài)的1-3月總的用電量增長為6.9%+,為最近幾年來的最高。如果再看看2023年3月的數據,第二產業(yè)同比增長6.9%,去年三月中國的實體經濟恢復很快,增長很猛。通過這些數據的完整對比,我想對當前中國實體經濟的總體看法恐怕就會有所不同了。
實際上看數據的方法對于不同的行業(yè)來說都是類似的,我們做數據庫運維的時候,依賴的也是各種指標和數據,因此和看用電量數據一樣,如何正確使用這些數據十分關鍵。不能采取正確的方法來看這些數據,那么就無法實現高效的運維。
昨天和一個友商交流運維工具的時候,他對比了我們的工具與其他工具的功能差異,覺得我們在某些地方做得比較好,有些地方做得不如其他廠商。他的觀點還是比較客觀的,不過我覺得對于數據庫運維工具,不是簡單的功能對比,因為數據庫運維工具好不好,很大程度上不在于功能,在某些情況下,對數據的解讀能力上的差異更需要關注。
D-SMART是一種十分特殊的數據庫運維工具,我們定義為“運維知識自動化系統(tǒng)”,是通過對數據庫的數字化分析,從而幫助用戶預警故障,分析問題,優(yōu)化數據庫系統(tǒng)的。并不包含數據庫日常運維中的部署,啟停,處置等功能。這個工具可以與具有這樣功能的工具相結合,成為企業(yè)中運維平臺的基礎能力組件。
前兩天有個客戶和聊天說,我們的工具幫助他們避免了一次嚴重的運營事故。問題很簡單,是歸檔空間用滿了。他們的系統(tǒng)平時歸檔量不是很大,歸檔空間給得很大,正常情況下是不會出現歸檔空間滿的情況。因此他們也給了歸檔空間告警設置了一個較高的閾值,96%。一般情況下,從96%的歸檔空間到空間爆滿影響業(yè)務,至少也有1-2天的緩沖時間,足夠讓他們去處置了。
前幾天遇到一個特殊情況,正好是他們大批量從其他系統(tǒng)導入數據的日子,同時也正好遇到開發(fā)商在做一些數據升級,重建索引等維護操作。REDO產生量就比平時高了數十倍。長時間系統(tǒng)沒出過大問題也讓他們對此有些麻痹。
圖片
出問題的時候,首先告警的故障模型是一個平時不太常見的場景,歸檔使用率超過95%,并且歸檔可用天數小于0.03天(不足1小時 )。這個故障模型的依據是動態(tài)計算的歸檔空間可用天數這個指標,這個指標隨著當前日志量會動態(tài)波動,不是十分精準,但是應對類似場景十分有效。
六分鐘后,歸檔使用率過高的告警也出現了,隨后歸檔目錄滿等告警也同時出現。他們收到第一個告警后馬上意識到了問題的 嚴重性,立即開始處置,當他們連到系統(tǒng)上進行處理的時候,實際上系統(tǒng)已經出現了卡死,業(yè)務報錯也已經開始出現了。不過幸運的是在業(yè)務部門剛剛發(fā)現錯誤的同時,故障已經被處置完成了。本次故障沒有造成太大的損失。數據庫團隊也因為極其快速地處置了故障而受到了領導的表揚。
這救命的6分鐘給了數據庫團隊一個提前量,讓他們避免了一次災難。從這個案例中,我們可以看到實際應用場景的多樣性,以及系統(tǒng)故障可能的多樣性。面對復雜的多樣性,數據分析與數據使用的能力成為成敗的關鍵。也再一次證明了,數據是運維監(jiān)控系統(tǒng)的核心,對數據的運用能力的不斷提升是運維監(jiān)控系統(tǒng)建設的關鍵。