從應(yīng)用監(jiān)控到業(yè)務(wù)可視化運(yùn)營的探索
?引言
ITIL將IT服務(wù)管理分為十個(gè)核心流程管理和一項(xiàng)管理職能,目前國內(nèi)銀行的運(yùn)維體系大多基于ITIL規(guī)范建立。在ITIL十個(gè)核心流程之一的事件管理中,事件是指任何不符合標(biāo)準(zhǔn)操作且已經(jīng)引起或可能引起服務(wù)中斷和服務(wù)質(zhì)量下降的操作。銀行的IT系統(tǒng)中,“事件”的表現(xiàn)形式五花八門,但處理事件的要訣只有一個(gè)“天下武功,唯快不破”,根據(jù)事件的分類、影響范圍和緊急程度,用一切可能的辦法“不擇手段”地快速解決。本文想淺談G行應(yīng)用管理中事件的發(fā)現(xiàn)過程,即應(yīng)用監(jiān)控的建設(shè),以及從應(yīng)用監(jiān)控到可視化運(yùn)營的發(fā)展方向。
傳統(tǒng)監(jiān)控體系概況
傳統(tǒng)的應(yīng)用監(jiān)控指從應(yīng)用層對應(yīng)用交易的處理性能、流量、帶寬占用、用戶行為、渠道來源、服務(wù)占用等進(jìn)行實(shí)時(shí)監(jiān)控、分析、報(bào)警,下表簡單羅列了通用的應(yīng)用基礎(chǔ)監(jiān)控。
應(yīng)用基礎(chǔ)監(jiān)控 | |||||
類別 | 監(jiān)控方式 | 指標(biāo) | 類別 | 監(jiān)控方式 | 指標(biāo) |
資源層 | 進(jìn)程 | 進(jìn)程數(shù)量 | 應(yīng)用層 | 應(yīng)用功能 | 健康檢查 |
進(jìn)程 | GC次數(shù)/分鐘 | 業(yè)務(wù)層 | 聯(lián)機(jī)交易 | 整體交易成功率 | |
文件 | COREDUMP | 整體交易響應(yīng)時(shí)間 | |||
異常文件 | 整體交易量 | ||||
文件 | 缺失關(guān)鍵文件 | 整體交易響應(yīng)率 | |||
文件 | 密鑰交換狀態(tài) | 聯(lián)機(jī)交易 | 單支交易成功率 | ||
文件 | 日志關(guān)鍵字 | 單支交易響應(yīng)時(shí)間 | |||
網(wǎng)絡(luò) | 端口監(jiān)控 | 單支交易量 | |||
網(wǎng)絡(luò) | 網(wǎng)絡(luò)長連接 | 單支交易響應(yīng)率 | |||
組件層 | 線程池 | 線程池狀態(tài) | WEB頁面 | 頁面監(jiān)控 | |
數(shù)據(jù)庫連接池 | JEDIS連接池 | 批量任務(wù) | 批量任務(wù)狀態(tài) | ||
應(yīng)用API | 加密API連接 | 集群環(huán)境 | F5池可用率 | ||
應(yīng)用隊(duì)列 | 隊(duì)列深度 | 部署層 | 集群環(huán)境 | 集群狀態(tài) |
應(yīng)用監(jiān)控主要確保應(yīng)用基礎(chǔ)環(huán)境和運(yùn)行性能正常,并提供積極的用戶體驗(yàn),應(yīng)用監(jiān)控工具為IT管理提供必要的信息,幫助進(jìn)行事件處置:隔離、服務(wù)降級或重啟。
1. 傳統(tǒng)監(jiān)控體系下的應(yīng)用基礎(chǔ)監(jiān)控
Google SRE 定義了四個(gè)需要監(jiān)控的關(guān)鍵指標(biāo)。延遲(Latency),流量(Traffic),錯(cuò)誤(Errors)和飽和度(Saturation)。
延遲 (Latency)
延遲是服務(wù)處理傳入請求和發(fā)送響應(yīng)所用時(shí)間的度量。測量服務(wù)延遲有助于及早發(fā)現(xiàn)服務(wù)的緩慢。
- 流量 (Traffic)
流量可以更好地理解服務(wù)需求。通常稱為服務(wù) QPS(每秒查詢數(shù)),流量是服務(wù)請求量的度量。此信號可幫助您決定何時(shí)需要擴(kuò)大服務(wù)規(guī)模以應(yīng)對不斷增長的客戶需求,或縮小服務(wù)規(guī)模以提高成本效益。
- 錯(cuò)誤 (Errors)
錯(cuò)誤是對客戶端請求失敗的度量。這些故障可以根據(jù)應(yīng)用程序的響應(yīng)返回碼、日志中的關(guān)鍵字輕松識別。在某些情況下,由于錯(cuò)誤的結(jié)果數(shù)據(jù)或違反了約定,響應(yīng)被認(rèn)為是錯(cuò)誤的。除了響應(yīng)碼之外,可能還需要其他的代碼邏輯輸出的錯(cuò)誤日志來捕獲錯(cuò)誤。
- 飽和度 (Saturation)
飽和度是服務(wù)器資源利用率的度量。這個(gè)信號告訴你服務(wù)資源的狀態(tài)以及它們有多“滿”。這些資源包括內(nèi)存、cpu、網(wǎng)絡(luò) I/O 等。在資源利用率達(dá)到 100% 之前,服務(wù)性能也會(huì)緩慢下降。因此,有一個(gè)利用率目標(biāo)很重要。延遲的增加是飽和度的一個(gè)很好的指標(biāo)。
正如Google SRE所討論的,通過各類技術(shù)工具Zabbix、Prometheus、grafana等實(shí)現(xiàn)衡量服務(wù)的四個(gè)指標(biāo),可以實(shí)現(xiàn)對一個(gè)業(yè)務(wù)系統(tǒng)最基礎(chǔ)的監(jiān)控。
2. 傳統(tǒng)監(jiān)控體系的痛點(diǎn)
- 以交易為中心而不是以客戶為中心
傳統(tǒng)的應(yīng)用監(jiān)控大多是以技術(shù)組件可用性和交易性能為中心。在Bank4.0時(shí)代,場景金融被廣泛提及,其將視角從傳統(tǒng)以產(chǎn)品和交易為中心投向以客戶為中心,將服務(wù)的物理空間從銀行為中心轉(zhuǎn)向以場景為中心,通過連接客戶生活、生產(chǎn)場景中產(chǎn)生的金融需求而提供端到端的服務(wù),帶來金融的創(chuàng)新和業(yè)態(tài)轉(zhuǎn)化。應(yīng)用管理中的監(jiān)控體系也必須不斷的進(jìn)化和迭代以適應(yīng)業(yè)務(wù)的快速發(fā)展,其出發(fā)點(diǎn)也必須轉(zhuǎn)變:從以交易為中心到以客戶為中心,未來的實(shí)踐方向或?yàn)楸O(jiān)控場景化。
- 業(yè)務(wù)和技術(shù)監(jiān)控視角不統(tǒng)一
另外我們需要討論的一個(gè)問題是,在傳統(tǒng)監(jiān)控推送一個(gè)監(jiān)控信息后,如何判斷業(yè)務(wù)影響范圍?由于業(yè)務(wù)人員和IT管理人員的視角存在明顯的偏差,對業(yè)務(wù)影響的準(zhǔn)確判斷也存在明顯的偏差,這里我們可以通過埃舍爾的視錯(cuò)覺的圖來描述這一現(xiàn)象,結(jié)果到底是鴨還是兔?
當(dāng)銀行IT系統(tǒng)監(jiān)控平臺推送一個(gè)聯(lián)機(jī)服務(wù)擁堵的信息,從應(yīng)用管理的角度事件定義為服務(wù)擁堵,某幾支聯(lián)機(jī)交易無法正常處理,但是從業(yè)務(wù)管理角度看到的是支付系統(tǒng)貸記往報(bào)出現(xiàn)宕賬。業(yè)務(wù)視角和IT視角的不同,對事件的重要性和緊迫程度會(huì)有截然不同的判斷,對事件處置的決策會(huì)產(chǎn)生重大影響。當(dāng)信息不足以準(zhǔn)確分析環(huán)境中的復(fù)雜情況時(shí),我們會(huì)根據(jù)固有的認(rèn)知、邏輯和習(xí)慣進(jìn)行猜測和補(bǔ)充。如何統(tǒng)一技術(shù)和業(yè)務(wù)視角、精確定位業(yè)務(wù)影響范圍是必須要思考的另一個(gè)難題。
G行從應(yīng)用監(jiān)控到業(yè)務(wù)可視化運(yùn)營的探索
為適應(yīng)“科技、敏捷、生態(tài)”戰(zhàn)略轉(zhuǎn)型要求,實(shí)現(xiàn)打造一流財(cái)富管理銀行”戰(zhàn)略目標(biāo),G行投入建設(shè)了“可視化運(yùn)營”項(xiàng)目。該項(xiàng)目遵循數(shù)字化轉(zhuǎn)型戰(zhàn)略,切實(shí)做好安全運(yùn)營保障、提升運(yùn)維治理能力,為提升信息系統(tǒng)整體可用性、科技賦能業(yè)務(wù)發(fā)展、促進(jìn)數(shù)字化銀行轉(zhuǎn)型提供有力支持。
可視化運(yùn)營最大的特點(diǎn)就是:由業(yè)務(wù)人員和IT管理人員共同提出監(jiān)控需求,解決“鴨兔”問題;實(shí)現(xiàn)重點(diǎn)應(yīng)用系統(tǒng)重點(diǎn)業(yè)務(wù)場景化監(jiān)控覆蓋、全流程管理。業(yè)務(wù)監(jiān)控功能將從交易量、客戶、商戶等維度,利用生產(chǎn)數(shù)據(jù),通過全國熱點(diǎn)地圖、柱狀圖、動(dòng)態(tài)展示圖等形式對業(yè)務(wù)運(yùn)行現(xiàn)狀進(jìn)行呈現(xiàn),以完成下述目標(biāo):
1. 通過監(jiān)控掌握業(yè)務(wù)發(fā)展趨勢,對業(yè)務(wù)發(fā)展方向提供預(yù)判。
2. 通過對客戶行為數(shù)據(jù)的監(jiān)控掌握客戶的行為軌跡,促進(jìn)交易量提升。
3. 通過對業(yè)務(wù)的實(shí)時(shí)監(jiān)控可及時(shí)發(fā)現(xiàn)業(yè)務(wù)功能是否能夠正常處理,如遇異??杉皶r(shí)做到科技業(yè)務(wù)聯(lián)動(dòng)、總分行聯(lián)動(dòng)、集中指揮,統(tǒng)一應(yīng)急處理,提高業(yè)務(wù)整體運(yùn)營能力。
4. 風(fēng)險(xiǎn)違規(guī)防范的監(jiān)控功能,對重要業(yè)務(wù)場景深挖可能存在的業(yè)務(wù)風(fēng)險(xiǎn)點(diǎn);通過對實(shí)時(shí)數(shù)據(jù)的監(jiān)控,及時(shí)發(fā)現(xiàn)隱患進(jìn)行應(yīng)急處置。
5. 對監(jiān)管考核事項(xiàng)重點(diǎn)監(jiān)控,確保在各監(jiān)管機(jī)構(gòu)的合規(guī)率100%。
針對支付清算業(yè)務(wù),G行定義了本幣支付清算5大業(yè)務(wù)場景(分別是:大額支付、小額支付、超級網(wǎng)銀、CIPS、ACS)和外幣清算場景。與傳統(tǒng)監(jiān)控全流程只需要科技人員不同,可視化業(yè)務(wù)運(yùn)營需要業(yè)務(wù)人員、開發(fā)人員和運(yùn)維人員一起來指定場景的設(shè)定范圍、指標(biāo)、閾值。項(xiàng)目實(shí)施的關(guān)鍵是整體需求的制定,整個(gè)過程需要大量和業(yè)務(wù)溝通確認(rèn)的工作。G行可視化運(yùn)管管理平臺在本幣支付清算場景,整體上梳理4個(gè)本幣場景中系統(tǒng)監(jiān)控、系統(tǒng)管理、業(yè)務(wù)管理、統(tǒng)計(jì)分析、工作管理5大類123個(gè)重點(diǎn)需求,具體實(shí)現(xiàn)如下文所述。
對各場景整體狀態(tài)、交易量、交易金額、系統(tǒng)響應(yīng)率等全面覆蓋。
傳統(tǒng)監(jiān)控更多的是對一個(gè)點(diǎn)的監(jiān)控,業(yè)務(wù)場景下更注重對業(yè)務(wù)流程化的運(yùn)營管理。重點(diǎn)清算支付業(yè)務(wù)場景分級層層下鉆,按業(yè)務(wù)類型實(shí)時(shí)分析和統(tǒng)計(jì),異常時(shí)在來往報(bào)告警信息中予以顯示,處理成功后根據(jù)終態(tài)結(jié)果自動(dòng)核銷,自動(dòng)判斷清算異常、流動(dòng)性異常(頭寸預(yù)警、清算排隊(duì))。
行內(nèi)考核指標(biāo)和監(jiān)管考核指標(biāo)全面覆蓋,G行關(guān)注信息(大額來往報(bào)異常、小額來往報(bào)異常、超網(wǎng)來往報(bào)異常、CIPS來往報(bào)異常、ACS異常數(shù)據(jù));人行考核數(shù)據(jù)回復(fù)率及發(fā)起應(yīng)答報(bào)文數(shù)量(查詢查復(fù)、退回申請、人行狀態(tài)查詢、客戶信息查詢、支付申請)。異常業(yè)務(wù)可自動(dòng)推送通知至總分行管理人員,實(shí)現(xiàn)科技——業(yè)務(wù),總行——分行實(shí)時(shí)聯(lián)動(dòng)。
外幣清算一體化運(yùn)營。
結(jié)語
未來銀行在業(yè)務(wù)及產(chǎn)品服務(wù)模式創(chuàng)新方面,有必要結(jié)合第一性原理進(jìn)行開創(chuàng)性創(chuàng)新。對銀行本身而言,也應(yīng)以第一原理思想,不斷突破固有思維模式,走出一條適應(yīng)自身發(fā)展的創(chuàng)新之路。未來銀行的金融服務(wù)與我們的生活場景、消費(fèi)場景深度融合,作為應(yīng)用管理中業(yè)務(wù)監(jiān)控的探索也必將深入場景,實(shí)現(xiàn)從以交易為中心到以客戶為中心的轉(zhuǎn)變:第一時(shí)間發(fā)現(xiàn)問題,準(zhǔn)確做出業(yè)務(wù)判斷,及時(shí)解決問題,有效提升客戶體驗(yàn),從技術(shù)層面的應(yīng)用監(jiān)控走向業(yè)務(wù)可視化運(yùn)營。