揭秘零事故背后的冬奧安全運(yùn)營中心-規(guī)劃和建設(shè)篇
2022年2月4日至3月13日,北京順利舉辦了第24屆冬季奧林匹克運(yùn)動(dòng)會(huì)。時(shí)間拉回到2019年12月26日,北京2022年冬奧會(huì)和冬殘奧會(huì)官方網(wǎng)絡(luò)安全服務(wù)和殺毒軟件贊助商發(fā)布會(huì)在北京冬奧組委園區(qū)舉行,奇安信正式成為北京2022年冬奧會(huì)和冬殘奧會(huì)官方網(wǎng)絡(luò)安全服務(wù)和殺毒軟件贊助商。時(shí)至今日,已兩年有余。從成為冬奧會(huì)贊助商,到以零事故的成績圓滿完成冬奧會(huì)安全保障,離不開從零開始搭建到流暢運(yùn)轉(zhuǎn)的冬奧安全運(yùn)營中心。
提到冬奧安全運(yùn)營中心,離不開一個(gè)貫穿全程的人,奇安信冬奧項(xiàng)目的總工程師尹智清,大家都叫他老尹。“從2019年12月26日開始,奇安信正式成為北京2022年冬奧會(huì)和冬殘奧會(huì)官方贊助商?!?回顧冬奧項(xiàng)目設(shè)計(jì)階段,老尹提到,“早在2019年3月,冬奧項(xiàng)目的設(shè)計(jì)工作就已經(jīng)開始。”由于3月份冬奧組委還沒有正式發(fā)布應(yīng)征文件,所以第一版設(shè)計(jì)方案并沒有可參考的明確要求,其主要參考依據(jù)是奇安信多年的重保經(jīng)驗(yàn)。
老尹說,當(dāng)時(shí)參與做第一版方案的只有3個(gè)人,只能摸著石頭過河。即便沒有可參考的要求,這3個(gè)人的團(tuán)隊(duì)還是在7月份迭代了第二版方案。直到2019年9月份冬奧組委的應(yīng)征文件正式發(fā)布,才有了明確的方案要求,也就是從那時(shí)候開始正式進(jìn)入最終策劃階段。在數(shù)十人團(tuán)隊(duì)的共同努力下,直到最后中標(biāo),奇安信冬奧重保任務(wù)的第一階段的正式完成。
與以往重保不同的是,首先冬奧項(xiàng)目的網(wǎng)絡(luò)安全建設(shè)耗時(shí)非常長,前后歷時(shí)2年多,其次奇安信要全面承擔(dān)冬奧會(huì)網(wǎng)絡(luò)安全責(zé)任,從以往項(xiàng)目的甲乙方關(guān)系變成了合作伙伴關(guān)系,這一點(diǎn)的轉(zhuǎn)變非常關(guān)鍵,也給冬奧重保提出了更高的要求。
“冬奧組委對于我們的最核心要求就是,要對冬奧會(huì)的網(wǎng)絡(luò)安全承擔(dān)完全的、徹底的、端到端的責(zé)任,最終目標(biāo)就是零事故。”老尹說。
同步規(guī)劃 同步建設(shè) 同步運(yùn)營
在正式成為冬奧贊助商之后,項(xiàng)目也即將進(jìn)入現(xiàn)場交付建設(shè)階段。
“冬奧項(xiàng)目有數(shù)十家贊助商及第三方云上云下業(yè)務(wù)系統(tǒng),涉及多個(gè)場館,要保障冬奧項(xiàng)目全盤業(yè)務(wù)系統(tǒng)安全運(yùn)行,就意味著,冬奧項(xiàng)目的網(wǎng)絡(luò)安全建設(shè)要與多個(gè)業(yè)務(wù)系統(tǒng)保持同步規(guī)劃、同步建設(shè)、同步運(yùn)營,這也是項(xiàng)目初期最大的難點(diǎn)?!倍瑠W安全運(yùn)營中心現(xiàn)場項(xiàng)目經(jīng)理仝磊提到,幾十個(gè)利益相關(guān)方要保持協(xié)同、進(jìn)度計(jì)劃適配、技術(shù)對接、系統(tǒng)聯(lián)調(diào),往往安全建設(shè)總是被安排在業(yè)務(wù)系統(tǒng)之后,還要面臨著工期被壓縮等諸多壓力。不僅如此,在與有些業(yè)務(wù)相關(guān)方做技術(shù)對接的時(shí)候,還會(huì)遇到各種各樣的“非技術(shù)性難題”。
入場后面臨的第一個(gè)問題就是定位。冬奧安全運(yùn)營中心在設(shè)計(jì)之初包含三級(jí)指揮中心,即一個(gè)總指揮中心+三個(gè)賽區(qū)指揮中心+場館指揮中心,但由于冬奧沒有了賽區(qū)的概念,相應(yīng)賽區(qū)指揮中心也隨之取消,最終只有位于首鋼園區(qū)的總指揮中心——即冬奧安全運(yùn)營中心。
而作為冬奧安全運(yùn)營中心的核心安全監(jiān)測平臺(tái),需要匯集全量數(shù)據(jù),因此該平臺(tái)必須要擁有巨大的數(shù)據(jù)處理能力以及相應(yīng)的關(guān)聯(lián)分析能力,對所有安全事件集中展示,且總指揮中心所有安全監(jiān)測、分析人員都能夠通過一個(gè)平臺(tái)監(jiān)控、分析、處置安全事件。于是在多次評(píng)估和討論之后,奇安信態(tài)勢感知與安全運(yùn)營平臺(tái)(NGSOC),順理成章成為了建設(shè)冬奧安全運(yùn)營中心安全監(jiān)測平臺(tái)的核心。
與此同時(shí),為了提升效率,冬奧安全運(yùn)營中心采用了全流程的標(biāo)準(zhǔn)化運(yùn)營,制定了涉及安全運(yùn)營、安全運(yùn)維、應(yīng)急響應(yīng)的SOP(標(biāo)準(zhǔn)作業(yè)程序),以上每個(gè)環(huán)節(jié)的決策和動(dòng)作都對最終結(jié)果產(chǎn)生了重要影響。
“其實(shí)當(dāng)時(shí)選擇哪個(gè)產(chǎn)品作為核心安全監(jiān)測平臺(tái)并沒有那么順利?!崩弦貞浾f,“但作為總工程師,要對整體項(xiàng)目進(jìn)行考慮和負(fù)責(zé),總指揮中心人員有限,不可能讓他們分散去監(jiān)測多個(gè)設(shè)備,在事件處置上也無法做到及時(shí)和高效?!?作為冬奧安全運(yùn)營中心核心安全監(jiān)測平臺(tái),NGSOC承載著從數(shù)據(jù)的接入、日常監(jiān)控、應(yīng)急管理、溯源分析、事件處置、態(tài)勢呈現(xiàn)等全流程動(dòng)作的對接和落地,因此需要最早一批進(jìn)場交付部署。
熬夜、紅牛,持續(xù)兩周的交付部署
在2020年那個(gè)炎熱的夏天,PNC機(jī)房剛剛完成建筑施工,在網(wǎng)絡(luò)條件還未完善的情況下,冬奧項(xiàng)目組幾位工程師就奔赴現(xiàn)場,開始了第一次的平臺(tái)遷移、部署工作。當(dāng)入場的時(shí)候著實(shí)被嚇了一跳,交付團(tuán)隊(duì)的同學(xué)帶著防毒面具的在里面忙碌著。
機(jī)房建成初期里面充斥著粉塵和不確定是否有害的怪味氣體,冬奧安全運(yùn)營中心項(xiàng)目的交付部署和建筑施工同步進(jìn)行工作,當(dāng)你認(rèn)為耳邊想起的轟隆聲是服務(wù)器聲音的時(shí)候,卻發(fā)現(xiàn)有可能是電鉆和榔頭,還有可能是空調(diào)調(diào)試的轟鳴聲。大家在機(jī)柜之間,豎起服務(wù)器紙箱子,作為電腦辦公桌、作為半蹲半坐的椅子、也作為走廊的“餐桌”。每隔一兩個(gè)小時(shí)就要出去室外換個(gè)氣、同時(shí)在夏日陽光下“取暖”。
據(jù)其中一位工程師回憶,持續(xù)高強(qiáng)度的工作,身體稍微有點(diǎn)吃不消,印象最深刻的一次是在機(jī)房升級(jí)到晚上近凌晨1點(diǎn),按照升級(jí)流程一步步地進(jìn)行著,不停地敲擊著鍵盤,突然鼻血留在了鍵盤上。
“因?yàn)轫?xiàng)目工期比較緊,所以大家住在了離冬奧安全運(yùn)營中心最近的旅館,早上8點(diǎn)進(jìn)場、凌晨一兩點(diǎn)離開,晚上大家為了提神,3個(gè)人每2天就會(huì)喝掉一箱紅牛,嗓子腫到1天只吃一頓飯,不敢喝太多、不敢吃太多,因?yàn)樯蠋ゲ畈欢?公里之外的地方,來回跑太耽誤事兒?!绷硪晃还こ處熝a(bǔ)充說到。
即便如此,時(shí)間也顯得非常緊張。
NGSOC平臺(tái)的部署工作持續(xù)了大概2周的時(shí)間,工程師們克服了惡劣條件帶來的困難,解決了很多技術(shù)問題,在保障冬奧組委業(yè)務(wù)使用的前提下,平滑穩(wěn)定地實(shí)現(xiàn)了平臺(tái)集群拓荒部署、平臺(tái)遷移、HA(Highly Available,是雙機(jī)集群系統(tǒng)簡稱,提高可用性集群,是保證業(yè)務(wù)連續(xù)性的有效解決方案,一般有兩個(gè)或兩個(gè)以上的節(jié)點(diǎn),且分為主活動(dòng)節(jié)點(diǎn)及備用節(jié)點(diǎn))上線、HA初期技術(shù)驗(yàn)證等工作,為后續(xù)的安全建設(shè)工作提供了支撐。
高可靠、高安全,主備集群無縫切換
冬奧項(xiàng)目采用HA(雙機(jī)集群)的方式,這在NGSOC以前的項(xiàng)目中是沒有遇到過的,也給研發(fā)人員帶來了巨大的挑戰(zhàn)?!爸鱾浼旱呐浜峡梢杂行ПU蠘I(yè)務(wù)系統(tǒng)穩(wěn)定運(yùn)行,通常我們完成主備切換需要30分鐘。”NGSOC事業(yè)部研發(fā)總監(jiān)說,然而這個(gè)速度顯然還達(dá)不到冬奧標(biāo)準(zhǔn)。而隨著技術(shù)難關(guān)一個(gè)個(gè)被攻克,直到最后,主備切換不到10分鐘即可完成。
為了達(dá)到冬奧會(huì)零事故的要求,NGSOC研發(fā)團(tuán)隊(duì)從建設(shè)初期就開始研討高可靠、穩(wěn)定性和安全性要求,從架構(gòu)設(shè)計(jì)出發(fā)全面提升產(chǎn)品能力,目標(biāo)是達(dá)到冬奧會(huì)的高質(zhì)量標(biāo)準(zhǔn),打造冬奧標(biāo)準(zhǔn)NGSOC。
首先是高可靠。NGSOC借鑒了傳統(tǒng)安全產(chǎn)品的高可靠思路,通過主從的方式實(shí)現(xiàn)高可靠,但是很快就面臨困難,海量的數(shù)據(jù)如何能夠做到一致性關(guān)聯(lián)、高并發(fā)的告警處置過程如何實(shí)現(xiàn)狀態(tài)同步等。研發(fā)中心組建了攻堅(jiān)團(tuán)隊(duì),最終在架構(gòu)層面成功解決。通過唯一性ID生成算法,在HA主從集群實(shí)現(xiàn)一致性關(guān)聯(lián)。通過邏輯復(fù)制機(jī)制,實(shí)現(xiàn)告警處置過程的狀態(tài)同步,并且順利實(shí)現(xiàn)了可控的主從同步切換機(jī)制,在緊急故障情況下可實(shí)現(xiàn)業(yè)務(wù)不中斷。NGSOC平臺(tái)最終在日均35億日志高吞吐和50+人并發(fā)運(yùn)營條件下,實(shí)現(xiàn)了數(shù)據(jù)的主從完全同步。
其次是穩(wěn)定性。NGSOC需要對自身的穩(wěn)定性以及輸入異常做出反應(yīng),避免自身陷入異常。在研發(fā)過程中實(shí)現(xiàn)了對核心組件進(jìn)行監(jiān)控,包括服務(wù)監(jiān)控、告警通知和自動(dòng)恢復(fù)機(jī)制。一旦某個(gè)核心業(yè)務(wù)組件出現(xiàn)異常,NGSOC可以自動(dòng)感知,并通過冬奧會(huì)短信網(wǎng)關(guān)及時(shí)通知7*24H待命的安全運(yùn)維人員及時(shí)介入并處置。同時(shí),在NGSOC能夠自動(dòng)恢復(fù)的情況下,會(huì)同時(shí)嘗試自動(dòng)恢復(fù)。其次是實(shí)現(xiàn)了對集群EPS負(fù)載進(jìn)行監(jiān)控,當(dāng)集群負(fù)載超出集群告警閾值的時(shí)候,NGSOC自動(dòng)短信通知監(jiān)控人員,通過冬奧應(yīng)急響應(yīng)SOP,按要求進(jìn)行降負(fù)載處置,避免數(shù)據(jù)積壓等問題出現(xiàn)。還設(shè)計(jì)了限流保障機(jī)制,過載情況下也要確保NGSOC本身穩(wěn)定運(yùn)行。最終NGSOC在冬奧會(huì)和冬殘奧會(huì)期間7*24H小時(shí)持續(xù)穩(wěn)定運(yùn)行,做到了運(yùn)營平臺(tái)零事故。
最后是安全性。NGSOC作為冬奧安全運(yùn)營中心核心安全監(jiān)測平臺(tái),保障自身的安全至關(guān)重要。NGSOC冬奧研發(fā)項(xiàng)目組聯(lián)合奇安信集團(tuán)多位架構(gòu)師、攻防專家和研發(fā)人員,重點(diǎn)梳理了以下幾項(xiàng)工作:
第一是進(jìn)行源代碼審計(jì),從根源上找到所有可能被利用的攻擊漏洞,進(jìn)行徹底修復(fù)上線;
第二是參加冬奧會(huì)眾測專項(xiàng),將冬奧項(xiàng)目1:1環(huán)境搬到線上,接受滲透測試人員的攻擊測試,對所有發(fā)現(xiàn)的攻擊脆弱點(diǎn)進(jìn)行修復(fù)和驗(yàn)證;
第三是冬奧現(xiàn)網(wǎng)暴露面梳理,對NGSOC的所有訪問路徑、賬號(hào)和權(quán)限進(jìn)行統(tǒng)一管理,權(quán)限做到最小化,將授權(quán)的訪問路徑梳理出清單并統(tǒng)一管理,其余非授權(quán)的訪問路徑全部設(shè)置封鎖阻斷策略。
第四是新增NGSOC自身安全性檢測,安全從來不是絕對的,一旦NGSOC被攻擊,如何能夠快速而準(zhǔn)確地產(chǎn)生預(yù)警,以便最短時(shí)間內(nèi)介入處理就非常重要。除了通用的終端安全檢測、網(wǎng)絡(luò)攻擊檢測和APT檢測等攻擊檢測手段,還引入了NGSOC網(wǎng)絡(luò)白名單機(jī)制,非白名單的入站和出站均告警和阻截,最大限度避免NGSOC被攻擊或攻陷。此外,還給NGSOC平臺(tái)增加了300多條自身安全加固和檢測規(guī)則,讓NGSOC平臺(tái)在冬奧會(huì)和冬殘奧會(huì)期間實(shí)現(xiàn)零事故。
技術(shù)的困難可以靠人力解決,但項(xiàng)目進(jìn)行過程中遇到的困難不僅僅只是技術(shù)難題,比如從2020年2月開始開展HA項(xiàng)目研發(fā)開始,由于各方面原因,研發(fā)人員并不是一成不變的,每一次人員的更迭都需要消耗大量時(shí)間去培訓(xùn)和交接。
老尹還提到,除了NGSOC外,冬奧項(xiàng)目在2020年幾乎都在進(jìn)行安全產(chǎn)品能力提升和交付部署階段,直到2021年重心開始轉(zhuǎn)向運(yùn)營。冬奧安全運(yùn)營中心項(xiàng)目整體做下來也是了了一個(gè)夙愿,從加入奇安信開始一直在接觸和參與安全運(yùn)營相關(guān)的工作,心里也一直有一個(gè)目標(biāo)和期待,就是通過標(biāo)準(zhǔn)化把常態(tài)化安全運(yùn)營真正做起來,事實(shí)也證明了做起來很有必要。冬奧項(xiàng)目經(jīng)歷了一個(gè)從極繁設(shè)計(jì)-不斷簡化-不斷優(yōu)化-全部標(biāo)準(zhǔn)化的過程。考慮到全面性的同時(shí),又要兼顧效率,過于繁瑣的設(shè)計(jì)會(huì)大大降低效率。