中安威士大數(shù)據(jù)脫敏解決方案
1. 大數(shù)據(jù)安全現(xiàn)狀分析
基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)平臺隨著企業(yè)的不斷采用及開源組織的持續(xù)的優(yōu)化、增強(qiáng),已逐漸成為大數(shù)據(jù)平臺建設(shè)的標(biāo)準(zhǔn)產(chǎn)品。然而Hadoop最初的設(shè)計(jì)并未考慮其安全性,這些平臺專注于發(fā)展數(shù)據(jù)處理能力,忽視了其他能力的發(fā)展,但Hadoop生態(tài)系統(tǒng)作為一個分布式系統(tǒng),承載了豐富的應(yīng)用,集中了海量的數(shù)據(jù),如何管理和保護(hù)這些數(shù)據(jù)充滿了挑戰(zhàn),當(dāng)前市場上,大數(shù)據(jù)平臺在數(shù)據(jù)本身的安全管控方面普遍存在嚴(yán)重缺失和較大的漏洞。
從企業(yè)內(nèi)部來說,大數(shù)據(jù)平臺的安全管控能力缺失,使得平臺在數(shù)據(jù)存儲、處理以及使用等各環(huán)節(jié)造成數(shù)據(jù)泄露的風(fēng)險(xiǎn)較大,安全風(fēng)險(xiǎn)面廣,且缺乏有效的處理機(jī)制;另一方面,企業(yè)敏感數(shù)據(jù)的所有權(quán)和使用權(quán)缺乏明確界定和管理,可能造成用戶隱私信息的泄露和企業(yè)內(nèi)部數(shù)據(jù)的泄露,直接造成企業(yè)聲譽(yù)和經(jīng)濟(jì)的雙重?fù)p失。
2. 方案目標(biāo)
(1)針對大數(shù)據(jù)敏感數(shù)據(jù)信息,設(shè)計(jì)并落實(shí)敏感數(shù)據(jù)安全解決方案,實(shí)現(xiàn)敏感數(shù)據(jù)的模糊化,確保敏感數(shù)據(jù)信息安全可靠;
(2)通過大數(shù)據(jù)平臺安全方案的建設(shè),填補(bǔ)大數(shù)據(jù)平臺數(shù)據(jù)安全防護(hù)方面的空缺,有效降低大數(shù)據(jù)安全管控方面的風(fēng)險(xiǎn)。
3. 大數(shù)據(jù)脫敏方案
本方案適用于基于開源Hadoop架構(gòu)的大數(shù)據(jù)平臺環(huán)境,包括Mapreduce、HDFS、Hive、HBse等大數(shù)據(jù)組件。
3.1大數(shù)據(jù)脫敏設(shè)計(jì)架構(gòu)
大數(shù)據(jù)平臺脫敏及模糊化模塊主要包括兩大功能:敏感數(shù)據(jù)發(fā)現(xiàn)和敏感數(shù)據(jù)脫敏。架構(gòu)設(shè)計(jì)如下圖所示:
(1)敏感數(shù)據(jù)發(fā)現(xiàn):通過設(shè)置敏感數(shù)據(jù)發(fā)現(xiàn)策略,平臺自動識別敏感數(shù)據(jù),發(fā)現(xiàn)敏感數(shù)據(jù)后產(chǎn)生報(bào)警,保障數(shù)據(jù)在產(chǎn)生階段安全。敏感數(shù)據(jù)發(fā)現(xiàn)功能包括如下內(nèi)容:
- 敏感信息規(guī)則庫建立
- 關(guān)系型數(shù)據(jù)檢測
- 敏感內(nèi)容描述檢測
(2)敏感數(shù)據(jù)脫敏:針對Hadoop平臺Hive、Hbase大數(shù)據(jù)存儲組件結(jié)合用戶權(quán)限提供動態(tài)數(shù)據(jù)脫敏功能,保障敏感數(shù)據(jù)訪問安全,同時基于大數(shù)據(jù)安全分析技術(shù),發(fā)現(xiàn)敏感數(shù)據(jù)訪問的異常行為,并提供敏感數(shù)據(jù)視圖,實(shí)現(xiàn)全局化數(shù)據(jù)管理和對各種類別敏感數(shù)據(jù)脫敏的精細(xì)化管理。
數(shù)據(jù)脫敏及模糊化功能模塊是在數(shù)據(jù)庫層面對數(shù)據(jù)進(jìn)行屏蔽、加密、隱藏、審計(jì)或封鎖訪問途徑的方式。該模塊作為一個網(wǎng)關(guān)形式部署,所有需要進(jìn)行敏感數(shù)據(jù)動態(tài)脫敏的應(yīng)用系統(tǒng)需通過該產(chǎn)品實(shí)現(xiàn)對數(shù)據(jù)庫的訪問。
3.3大數(shù)據(jù)脫敏方法
數(shù)據(jù)脫敏方法可根據(jù)用戶需求的不同而進(jìn)行定制,我們在系統(tǒng)中默認(rèn)提供了最常見的兩種脫敏方法示例如下:
- 方法一:隨機(jī)值替換脫敏
本方式采用隨機(jī)值替換(字母變?yōu)殡S機(jī)字母,數(shù)字變?yōu)殡S機(jī)數(shù)字)的方式來改變查詢返回的結(jié)果,該方案的優(yōu)點(diǎn)是可以在一定程度上保留數(shù)據(jù)的格式,且用戶在不知情的情況下無法發(fā)現(xiàn)查詢返回的數(shù)據(jù)是經(jīng)過脫敏操作的。
- 方法二:特殊字符替換脫敏
與隨機(jī)值替換不同,該方式在處理待脫敏的數(shù)據(jù)時是采用特殊字符(如“*”)替換的方式,該方式更好的隱藏敏感數(shù)據(jù),但缺點(diǎn)是用戶無法得知原數(shù)據(jù)的格式,在涉及到一些數(shù)據(jù)統(tǒng)計(jì)工作的時候會有影響。
在實(shí)際使用過程中,多種脫敏方法經(jīng)常需要配合使用,對一張數(shù)據(jù)表中不同資源使用不同的脫敏方法進(jìn)行數(shù)據(jù)脫敏,示例如下:
脫敏前:
脫敏后:
在這個示例中,我們對此表的三個字段分別用不同的脫敏方法進(jìn)行了處理:
***個字段采用隨機(jī)數(shù)替換,替換范圍為前IP地址前兩個值。
第二個字段采用特殊字符替換,替換范圍為所有字符。
第三個字段采用特殊字符替換,替換范圍為第3-6個字符。