平安銀行智能化數(shù)據(jù)安全分類分級實踐分享
一、數(shù)據(jù)安全智能分類分級平臺建設(shè)背景
首先來介紹一下數(shù)據(jù)安全智能分類分級平臺建設(shè)背景。
我國在 2021 年發(fā)布了《中華人民共和國數(shù)據(jù)安全法》和《中華人民共和國個人信息保護法》兩大法律,將數(shù)據(jù)安全提升到了新的高度。隨著監(jiān)管機構(gòu)發(fā)布銀行保險機構(gòu)的安全管理辦法,以及人民銀行發(fā)布《中國人民銀行業(yè)務(wù)領(lǐng)域數(shù)據(jù)安全管理辦法(征求意見稿)》,對銀行業(yè)數(shù)據(jù)安全提出了非常高的要求。
在此背景下,平安銀行注重數(shù)據(jù)分類分級,準(zhǔn)確識別需要重點保護的高敏感數(shù)據(jù),以滿足監(jiān)管要求并確保數(shù)據(jù)安全。接下來就將介紹平安在數(shù)據(jù)安全分類分級方面的建設(shè)思路和實現(xiàn)方法。
二、數(shù)據(jù)安全分類分級建設(shè)思路和實踐
數(shù)據(jù)分類分級是平安銀行開展數(shù)據(jù)安全工作的基礎(chǔ)。要對數(shù)據(jù)進行安全保護,首先應(yīng)該知道哪些數(shù)據(jù)是需要重點保護的,也就是哪些是重要數(shù)據(jù)、敏感數(shù)據(jù)。大眾認知中的重要數(shù)據(jù)與監(jiān)管標(biāo)準(zhǔn)中要求的敏感數(shù)據(jù)可能并不一致,除了姓名、手機、身份證號等,還有其它一些敏感數(shù)據(jù)需要重點保護。
平安銀行在進行數(shù)據(jù)安全分類分級建設(shè)時,采取了三步走的策略:
- 第一步做標(biāo)簽:確定數(shù)據(jù)安全分類標(biāo)準(zhǔn),即需要一個標(biāo)準(zhǔn)來識別數(shù)據(jù)的級別。同時,參考法律法規(guī)和行業(yè)標(biāo)準(zhǔn)進行數(shù)據(jù)識別和定級,梳理標(biāo)簽體系。此部分工作,先確定數(shù)據(jù)分類,即數(shù)據(jù)屬于哪個業(yè)務(wù)類別,確定目錄,然后再確定數(shù)據(jù)級別,根據(jù)泄露后造成的影響來確定級別,如密級、絕密級、國密級等不同的安全等級。
- 第二步打標(biāo)簽:探索智能化手段替代人工識別以降低成本。因為,平安銀行的數(shù)據(jù)量是個天文數(shù)字,數(shù)據(jù)庫有幾百萬張表、幾千萬個字段之多,所以,我們在識別不同級別的數(shù)據(jù)時,需要運用智能化的手段,利用工具平臺代替人工來實現(xiàn)。
- 第三步用標(biāo)簽:根據(jù)打標(biāo)簽結(jié)果制定保護措施,例如對姓名進行脫敏掩碼、對身份證號和手機號進行數(shù)據(jù)脫敏、加密存儲等工作,并遵循相關(guān)標(biāo)準(zhǔn)進行數(shù)據(jù)保護。
下面詳細介紹每一步中的重點內(nèi)容。
1. 做標(biāo)簽– 數(shù)據(jù)安全標(biāo)簽體系
參考國家法律法規(guī)、金融行業(yè)標(biāo)準(zhǔn)和平安自身數(shù)據(jù)資產(chǎn)現(xiàn)狀來建立數(shù)據(jù)安全標(biāo)簽體系。
根據(jù)金標(biāo)委標(biāo)準(zhǔn)要求,數(shù)據(jù)密級分為五級,由低到高分別為:非保密級(1 級)、秘密級(2 級)、機密級(3 級)、絕密級(4 級)和國密級(5 級)。個人金融信息分為三級,由低到高分別為 C1、C2 和 C3。其中 C3 為虹膜、指紋、密碼等用于個人身份鑒別的信息。C2 比如身份證號、銀行卡號等。
上圖中展示了部分案例。平安還開展了數(shù)據(jù)安全保護措施的標(biāo)準(zhǔn)化工作,公司系統(tǒng)眾多,需要統(tǒng)一標(biāo)準(zhǔn),如姓名、手機號、身份證號等信息的掩碼的統(tǒng)一性要求。
2. 打標(biāo)簽– 鷹眼智能打標(biāo)平臺 3.0
第二步——打標(biāo)簽。平安銀行自研了鷹眼數(shù)據(jù)安全智能標(biāo)簽打標(biāo)平臺,已從 1.0 版本發(fā)展到目前的 3.0 版本,覆蓋了越來越多的數(shù)據(jù)安全標(biāo)簽,準(zhǔn)確率從 83% 到 91%,再到 95%,逐步提高。人工達標(biāo)準(zhǔn)確率常在 80%~90%,因此該平臺可以完全代替人工工作。3.0 版本的智能打標(biāo)平臺具有以下功能和特點:
- 數(shù)據(jù)完善性:剔除冷凍表、備份表和臨時表,對表進行區(qū)分和梳理,引入母子表概念來識別數(shù)據(jù)表之間的關(guān)系。
- 數(shù)據(jù)安全分類分級識別:對母表進行打標(biāo)后,子表可以繼承其數(shù)據(jù)安全分類分級的打標(biāo)結(jié)果,從而降低工作量。
- 技術(shù)手段:采用了內(nèi)容正則、元數(shù)據(jù)正則以及深度學(xué)習(xí)技術(shù),包括循環(huán)神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,以提高準(zhǔn)確率。
- 血緣繼承:實現(xiàn)了上游表和下游表之間的血緣關(guān)系,使下游表可以直接繼承上游表的打標(biāo)結(jié)果,進一步降低工作量。
- 提升準(zhǔn)確率:通過多輪訓(xùn)練優(yōu)化調(diào)優(yōu),最終將準(zhǔn)確率提升至 95%。
- 高效率:能夠取代人工打標(biāo),實現(xiàn)自動化的數(shù)據(jù)安全分類分級識別,提高工作效率。
鷹眼智能打標(biāo)平臺的邏輯架構(gòu)分為三個層次:
- 掃描層,主要包括三個引擎,分為正則引擎、AI 引擎和血緣引擎。其中,正則引擎主要是針對一些數(shù)據(jù)內(nèi)容和元數(shù)據(jù)做了一些正則條件;不適合做正則掃描的情況,就根據(jù) AI 模型進行智能打標(biāo);血緣引擎通過繼承的方式識別每一張表的上下游表,并保持標(biāo)簽的一致性。
- 整合層是將三套的引擎的打標(biāo)結(jié)果做統(tǒng)一,整合成全行統(tǒng)一的數(shù)據(jù)安全分類分級打標(biāo)結(jié)果。
- 服務(wù)層提供多種形式的訪問方式,如通過 API、查詢/下載、離線等。利用打標(biāo)結(jié)果,支撐數(shù)據(jù)生命周期的六大環(huán)節(jié),即采集、傳輸、存儲、使用、刪除、銷毀,提供統(tǒng)一的服務(wù)。
在掃描層下面數(shù)據(jù)主要來源有業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)資產(chǎn)管理平臺和大數(shù)據(jù)平臺三部分。
打標(biāo)流程包括人工打標(biāo)、智能打標(biāo)模型訓(xùn)練和人工復(fù)核,形成最終打標(biāo)結(jié)果。
首先,進行人工打標(biāo),向智能打標(biāo)模型提供訓(xùn)練集,進行訓(xùn)練;然后,智能打標(biāo)模型生成打標(biāo)結(jié)果;最后,再進行人工復(fù)核,隨著準(zhǔn)確率提升到 95%,人工復(fù)核不再進行大批量、全部的復(fù)核,而是僅做小部分抽樣的人工復(fù)核。最終,打標(biāo)結(jié)果有兩個方向,一個是結(jié)果直接上架提供給各個數(shù)據(jù)平臺使用;另一方面,將人工復(fù)核發(fā)現(xiàn)的錯誤反饋給模型進行優(yōu)化,實現(xiàn)循環(huán)優(yōu)化。
智能打標(biāo)結(jié)果放到數(shù)據(jù)安全管理平臺進行人工復(fù)核,初稿復(fù)核通過后流轉(zhuǎn)到業(yè)務(wù)人員進行復(fù)核。如果初稿未通過,結(jié)果直接結(jié)束,但錯誤結(jié)果會重新整理反饋給模型優(yōu)化。復(fù)核確認后,結(jié)果可以上架使用。錯誤結(jié)果也會反饋給模型進行優(yōu)化。
雙向打標(biāo)方案包括控增量和盤存量兩個方面:
- 盤存量:對全量字段進行打標(biāo)并上架到數(shù)據(jù)資產(chǎn)管理平臺。
- 控增量:將智能打標(biāo)能力嵌入銀行內(nèi)建模平臺,實現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)的落地和建模結(jié)合。
數(shù)據(jù)安全打標(biāo)能力直接放到建模平臺,使得數(shù)據(jù)在設(shè)計階段就能智能推薦和打標(biāo),伴隨全生命周期流轉(zhuǎn)。這樣可以避免返工和保護措施不到位的問題,實現(xiàn)雙向打標(biāo)方案。
3. 用標(biāo)簽– 全行統(tǒng)一“數(shù)據(jù)安全打標(biāo)簽結(jié)果”服務(wù)提供
使用標(biāo)簽對銀行敏感信息進行屏蔽基線保護,比如根據(jù)保護措施要求,對客戶姓名只保留姓,其余掩蓋,性別全部掩蓋等等,并在智能打標(biāo)平臺識別出全行的敏感字段數(shù)量和位置,一旦查詢或展示這些數(shù)據(jù),保護措施就能直接落地。
當(dāng)前數(shù)據(jù)資產(chǎn)管理平臺共計上架了 300 多萬個機密級以上的敏感字段,已對接的平臺包括數(shù)據(jù)安全保護傘平臺、數(shù)據(jù)模型設(shè)計平臺、大數(shù)據(jù)查詢平臺、數(shù)據(jù)權(quán)限審批平臺、行內(nèi)測試-生產(chǎn)數(shù)據(jù)交換平臺及行內(nèi)數(shù)據(jù)作業(yè)調(diào)度平臺等,這些平臺可以實時調(diào)用數(shù)據(jù)安全分類分級的打標(biāo)結(jié)果。