淺談信息系統(tǒng)應(yīng)急處置能力評(píng)估體系構(gòu)建
隨著銀行數(shù)字化轉(zhuǎn)型持續(xù)推進(jìn)和互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,分布式、大數(shù)據(jù)等互聯(lián)網(wǎng)架構(gòu)應(yīng)用也逐步在我行試點(diǎn)和推廣,銀行系統(tǒng)物理架構(gòu)和技術(shù)框架日趨復(fù)雜,信息系統(tǒng)的高效穩(wěn)定運(yùn)行面臨更大的挑戰(zhàn)。而作為銀行科技的立身之本,安全運(yùn)營(yíng)更是科技賦能業(yè)務(wù)、支持業(yè)務(wù)敏捷發(fā)展的基石。信息系統(tǒng)的應(yīng)急處置能力作為安全運(yùn)營(yíng)的核心能力,在面對(duì)新形勢(shì)下的各類變化和風(fēng)險(xiǎn)下,是否具備在短時(shí)間內(nèi)內(nèi)恢復(fù)生產(chǎn)服務(wù),將業(yè)務(wù)運(yùn)營(yíng)的影響降至最低?因此我們需要具備一個(gè)“應(yīng)急能力”視角下的評(píng)估體系,直觀展現(xiàn)系統(tǒng)應(yīng)急能力現(xiàn)狀,及時(shí)發(fā)現(xiàn)應(yīng)急層面存在的不足,在風(fēng)險(xiǎn)到來前排除隱患,防患未然。
一、應(yīng)急處置能力評(píng)估體系建設(shè)的目標(biāo)和意義
應(yīng)急處置能力評(píng)估體系的目標(biāo)是通過科學(xué)的評(píng)價(jià)辦法,直觀、快速地識(shí)別出安全運(yùn)營(yíng)工作中存在的隱患和不足,使其既符合應(yīng)急管理的一般原理,又適用于當(dāng)前IT應(yīng)急體系的現(xiàn)實(shí)特點(diǎn)。實(shí)現(xiàn)自我改進(jìn),迭代發(fā)展,推動(dòng)和促進(jìn)安全運(yùn)營(yíng)體系的完善。其具體意義體現(xiàn)在:
1.風(fēng)險(xiǎn)識(shí)別
定期開展應(yīng)急能力評(píng)估,發(fā)掘故障應(yīng)急的薄弱環(huán)節(jié),及時(shí)排除生產(chǎn)安全隱患,確保IT應(yīng)急管理工作的持續(xù)性和有效性;
2.指標(biāo)導(dǎo)向
直觀體現(xiàn)應(yīng)對(duì)突發(fā)風(fēng)險(xiǎn)時(shí)的業(yè)務(wù)恢復(fù)能力,為各領(lǐng)域應(yīng)急能力是否達(dá)標(biāo)提供衡量依據(jù),引導(dǎo)應(yīng)急資源的合理分配,提高故障應(yīng)急的專業(yè)化、數(shù)字化和智能化水平;
3.閉環(huán)賦能
通過對(duì)模型的應(yīng)用和迭代,檢驗(yàn)專業(yè)評(píng)估能力與風(fēng)險(xiǎn)應(yīng)對(duì)能力的匹配度,促進(jìn)各專業(yè)領(lǐng)域完善風(fēng)險(xiǎn)評(píng)估細(xì)則,支持系統(tǒng)交付標(biāo)準(zhǔn)的完善和非功能需求的提出,推動(dòng)應(yīng)急手段向工具化和智能化邁進(jìn)。
二、G行現(xiàn)有信息系統(tǒng)應(yīng)急處置體系
1.運(yùn)維平臺(tái)支撐
主要包含基礎(chǔ)架構(gòu)、大數(shù)據(jù)分析、監(jiān)管防控和統(tǒng)一門戶四層?;A(chǔ)架構(gòu)層主要包含對(duì)機(jī)房、網(wǎng)絡(luò)、存儲(chǔ)等基礎(chǔ)設(shè)施相關(guān)的操作和應(yīng)急處置平臺(tái),其中機(jī)房管理基于基礎(chǔ)設(shè)施管理系統(tǒng),網(wǎng)絡(luò)管理基于域名解析等系統(tǒng),云管理基于云管平臺(tái),存儲(chǔ)管理基于分布式數(shù)據(jù)庫(kù)管理系統(tǒng),災(zāi)備基于災(zāi)備切換管理系統(tǒng),底層消息基于分布式消息平臺(tái)。
大數(shù)據(jù)分析層負(fù)責(zé)對(duì)運(yùn)維數(shù)據(jù)的采集采集、處理、分析和應(yīng)用,為監(jiān)管防控層的應(yīng)急處置和管理層應(yīng)急決策提出數(shù)據(jù)判斷依據(jù),主要包含基于統(tǒng)一AGENT、科技運(yùn)營(yíng)數(shù)據(jù)平臺(tái)、運(yùn)維數(shù)據(jù)分析平臺(tái)、容量管理等系統(tǒng)。監(jiān)管防控層負(fù)責(zé)依據(jù)數(shù)據(jù)分析層的決策對(duì)應(yīng)用系統(tǒng)進(jìn)行應(yīng)急處置,主要包含運(yùn)維管控平臺(tái)、運(yùn)維管理平臺(tái)、運(yùn)維操作平臺(tái)和運(yùn)維安全管理平臺(tái)。統(tǒng)一門戶層負(fù)責(zé)基于運(yùn)維處置訴求和場(chǎng)景對(duì)運(yùn)維數(shù)據(jù)的統(tǒng)一展示,包含基于運(yùn)維業(yè)務(wù)視角、運(yùn)維管理視角、運(yùn)維操作視角和運(yùn)維移動(dòng)端視角的相關(guān)運(yùn)維平臺(tái)。
2.信息系統(tǒng)支撐
為保障信息系統(tǒng)整體運(yùn)行穩(wěn)定,在故障發(fā)生時(shí)能夠快速發(fā)現(xiàn)、定位、處置和恢復(fù)業(yè)務(wù),在上線前會(huì)針對(duì)以下領(lǐng)域進(jìn)行專家評(píng)估:運(yùn)維架構(gòu)設(shè)計(jì)、互聯(lián)網(wǎng)安全測(cè)試、網(wǎng)絡(luò)指標(biāo)、大數(shù)據(jù)、容器云、災(zāi)備應(yīng)急、信息安全、監(jiān)控設(shè)計(jì)、應(yīng)用容量、應(yīng)用運(yùn)維、批量標(biāo)準(zhǔn)、數(shù)據(jù)備份、數(shù)據(jù)庫(kù)設(shè)計(jì)、中間件配置、系統(tǒng)及相關(guān)指標(biāo),整體達(dá)標(biāo)后方可安排相關(guān)上線操作,從信息系統(tǒng)自身建設(shè)層面保障系統(tǒng)的應(yīng)急處置和快速恢復(fù)能力。
3.流程制度支撐
主要為滿足業(yè)務(wù)連續(xù)性要求、保障故障發(fā)生時(shí)應(yīng)急操作能夠快速有效開展的相關(guān)流程制度,具體包含了《業(yè)務(wù)連續(xù)性管理政策》、《應(yīng)急處置管理辦法》、《突發(fā)重大較大事件應(yīng)急實(shí)施細(xì)則》等。
4.人員組織支撐
包含應(yīng)對(duì)信息系統(tǒng)突發(fā)狀況的應(yīng)急處置人員、組織人員和決策人員等。其中應(yīng)急處置人員主要包括采取初始應(yīng)急操作的各領(lǐng)域一線人員、根據(jù)業(yè)務(wù)影響和初始判斷采取進(jìn)一步應(yīng)急操作的二線人員和協(xié)助二線進(jìn)行問題快速定位和分析的三線人員,組織人員主要為保障應(yīng)急處置快速高效合規(guī)開展的事件流程管控人員如事件經(jīng)理等,決策人員為事態(tài)發(fā)展到一定階段需要進(jìn)行授權(quán)采取進(jìn)一步重要操作的相關(guān)處室、中心及部分負(fù)責(zé)人等。
三、應(yīng)急處置能力評(píng)估體系的內(nèi)容
G行數(shù)據(jù)中心借鑒互聯(lián)網(wǎng)運(yùn)營(yíng)理念,融合金融IT傳統(tǒng)管理要求,結(jié)合現(xiàn)階段安全運(yùn)營(yíng)的特點(diǎn),就應(yīng)急處置能力分解為:主動(dòng)發(fā)現(xiàn)能力、影響判斷能力、故障定位能力、業(yè)務(wù)恢復(fù)能力、數(shù)據(jù)恢復(fù)能力五個(gè)專項(xiàng)能力。
每個(gè)專項(xiàng)能力是否達(dá)標(biāo),除了包括是否滿足相關(guān)能力的要求,還要考慮到熟練度和自動(dòng)化程度。最終應(yīng)急能力達(dá)標(biāo)情況,是綜合了專項(xiàng)應(yīng)急能力指標(biāo)、熟練度指標(biāo)和自動(dòng)化程度指標(biāo)后的綜合評(píng)估結(jié)果。
四、應(yīng)急處置能力模型適用場(chǎng)景
1.系統(tǒng)體檢
作為系統(tǒng)即將面臨預(yù)知風(fēng)險(xiǎn)時(shí)的應(yīng)急能力“體檢報(bào)告”,如重大變更、業(yè)務(wù)營(yíng)銷等重點(diǎn)保障場(chǎng)景等。對(duì)于不合格的“體檢項(xiàng)”有的放矢的提前進(jìn)行防控工作的部署;
2.故障復(fù)盤
重大事件發(fā)生后,故障復(fù)盤時(shí)的“對(duì)照手冊(cè)”,對(duì)故障當(dāng)時(shí)應(yīng)急能力水平進(jìn)行系統(tǒng)性的審視,在整改后重新評(píng)估,確保系統(tǒng)或故障場(chǎng)景“體檢合格”;
3.系統(tǒng)掃雷
作為系統(tǒng)長(zhǎng)期運(yùn)行后,對(duì)于應(yīng)急能力狀況摸底調(diào)查的 “掃雷目錄”,及時(shí)發(fā)現(xiàn)運(yùn)行風(fēng)險(xiǎn),推動(dòng)優(yōu)化。
五、應(yīng)急恢復(fù)能力模型案例
近期,某系統(tǒng)近期有重大變更,系統(tǒng)對(duì)系統(tǒng)整體架構(gòu)進(jìn)行調(diào)整,由于變更可能引發(fā)較大風(fēng)險(xiǎn),因此對(duì)該系統(tǒng)進(jìn)行系統(tǒng)應(yīng)急能力評(píng)估。經(jīng)評(píng)估,各領(lǐng)域細(xì)分能力結(jié)果、大類應(yīng)急能力結(jié)果及專項(xiàng)能力結(jié)果如下:
結(jié)論:該系統(tǒng)變更的應(yīng)急恢復(fù)能力綜合定級(jí)為“中”,熟練度不涉及,自動(dòng)化應(yīng)急能力為L(zhǎng)2(部分自動(dòng)化)。建議管理員完善影響判斷、配置備份和應(yīng)急工具自動(dòng)化程度等相關(guān)事項(xiàng),采取條件通過投產(chǎn)的模式進(jìn)行系統(tǒng)投產(chǎn)。
六、應(yīng)急處置能力評(píng)估體系的持續(xù)完善
生產(chǎn)安全運(yùn)營(yíng)的形勢(shì)隨著內(nèi)、外部的變化不斷變化,因此事件管理本身是一個(gè)動(dòng)態(tài)的過程,沒有恒定不變的標(biāo)準(zhǔn),需要不斷的動(dòng)態(tài)迭代完善。一方面,專業(yè)領(lǐng)域需要成立專家評(píng)定小組,定期對(duì)評(píng)估對(duì)象和評(píng)估指標(biāo)進(jìn)行重審和完善,另一方面流程管理領(lǐng)域需要基于生產(chǎn)系統(tǒng)運(yùn)行特點(diǎn)和管理導(dǎo)向?qū)γ總€(gè)評(píng)估對(duì)象的性質(zhì)、作用和所處的層次調(diào)整評(píng)估權(quán)重。通過不斷地迭代發(fā)展,達(dá)到應(yīng)急恢復(fù)能力模型自我改進(jìn),系統(tǒng)風(fēng)險(xiǎn)及時(shí)發(fā)現(xiàn)排除,推動(dòng)和促進(jìn)安全運(yùn)營(yíng)體系不斷完善。
未來,金融信息科技將面臨更多發(fā)展的機(jī)遇和挑戰(zhàn)。光大銀行在持續(xù)提升科技服務(wù)能力和創(chuàng)新能力的同時(shí),經(jīng)過多年的實(shí)踐和積累,在事件管理方面形成了明確的事件管理制度和規(guī)范的應(yīng)急處置流程,應(yīng)急手段從標(biāo)準(zhǔn)化、自動(dòng)化大步向數(shù)字化和智能化邁進(jìn)。快速應(yīng)急能力模型的構(gòu)建,推動(dòng)了IT信息管理向精細(xì)化方面再進(jìn)一步。為故障應(yīng)急,提供了一個(gè)更加全面、直觀且富有前瞻性的視角。未來光大銀行信息科技將繼續(xù)大力推進(jìn)服務(wù)化、數(shù)字化、自動(dòng)化、智能化“四化”建設(shè),不斷完善事件應(yīng)急管理體系,落實(shí)管理要求,加速提升光大銀行信息科技的核心競(jìng)爭(zhēng)力。