大數(shù)據(jù)平臺(tái)數(shù)據(jù)脫敏介紹
數(shù)據(jù)脫敏(Data Masking),又稱(chēng)數(shù)據(jù)漂白、數(shù)據(jù)去隱私化或數(shù)據(jù)變形。百度百科對(duì)數(shù)據(jù)脫敏的定義為:指對(duì)某些敏感信息通過(guò)脫敏規(guī)則進(jìn)行數(shù)據(jù)的變形,實(shí)現(xiàn)敏感隱私數(shù)據(jù) 的可靠保護(hù)。這樣,就可以在開(kāi)發(fā)、測(cè)試和其它非生產(chǎn)環(huán)境以及外包環(huán)境中安全地使用脫敏后的真實(shí)數(shù)據(jù)集。
可以看到數(shù)據(jù)脫敏具有幾個(gè)關(guān)鍵點(diǎn):敏感數(shù)據(jù)、脫敏規(guī)則、使用環(huán)境。
敏感數(shù)據(jù),又稱(chēng)隱私數(shù)據(jù),常見(jiàn)的敏感數(shù)據(jù)有: 姓名、身份證號(hào)碼、地址、電話(huà)號(hào)碼、銀行賬號(hào)、郵箱地址、所屬城市、郵編、密碼類(lèi) ( 如賬戶(hù)查詢(xún)密碼、取款密碼、登錄密碼等 )、組織機(jī)構(gòu)名稱(chēng)、營(yíng)業(yè)執(zhí)照號(hào)碼、銀行帳號(hào)、交易日期、交易金額等。
隨著大數(shù)據(jù)時(shí)代的到來(lái),大數(shù)據(jù)商業(yè)價(jià)值的挖掘,用戶(hù)的精準(zhǔn)定位,大數(shù)據(jù)中蘊(yùn)藏的巨大商業(yè)價(jià)值被逐步挖掘出來(lái),但是同時(shí)也帶來(lái)了巨大的挑戰(zhàn)–個(gè)人隱私信息 的保護(hù)。個(gè)人信息與個(gè)人行為(比如位置信息、消費(fèi)行為、網(wǎng)絡(luò)訪(fǎng)問(wèn)行為)等,這些都是人的隱私,也是我們所關(guān)注的一類(lèi)敏感信息,在大數(shù)據(jù)價(jià)值挖掘的基礎(chǔ)上如 何保護(hù)人的隱私信息,也將是數(shù)據(jù)脫敏必須解決的難題。
脫敏規(guī)則,一般的脫敏規(guī)則分類(lèi)為可恢復(fù)與不可恢復(fù)兩類(lèi)。
- 可恢復(fù)類(lèi),指脫敏后的數(shù)據(jù)可以通過(guò)一定的方式,可以恢復(fù)成原來(lái)的敏感數(shù)據(jù),此類(lèi)脫敏規(guī)則主要指各類(lèi)加解密算法規(guī)則。
- 不可恢復(fù)類(lèi),指脫敏后的數(shù)據(jù)被脫敏的部分使用任何方式都不能恢復(fù)出。一般可分為替換算法和生成算法兩大類(lèi)。替換算法即將需要脫敏的部分使用定義好的字符或字符串替換,生成類(lèi)算法則更復(fù)雜一些,要求脫敏后的數(shù)據(jù)符合邏輯規(guī)則,即是“看起來(lái)很真實(shí)的假數(shù)據(jù)”。
使用環(huán)境,主要指脫敏之后的數(shù)據(jù)在哪些環(huán)境中使用。普遍按照生產(chǎn)環(huán)境和非生產(chǎn)環(huán)境(開(kāi)發(fā)、測(cè)試、外包、數(shù)據(jù)分析等)進(jìn)行劃分。
在最近一期的Gartner關(guān)于數(shù)據(jù)脫敏的報(bào)告(Magic Quadrant for Data Masking Technology-2014年12月)中根據(jù)數(shù)據(jù)脫敏產(chǎn)品應(yīng)用場(chǎng)景的將數(shù)據(jù)脫敏劃分為靜態(tài)數(shù)據(jù)脫敏(static data masking[SDM])和動(dòng)態(tài)數(shù)據(jù)脫敏(dynamic data masking[DDM])。
靜態(tài)數(shù)據(jù)脫敏(SDM)與動(dòng)態(tài)數(shù)據(jù)脫敏(DDM)主要的區(qū)別是:是否在使用敏感數(shù)據(jù)當(dāng)時(shí)進(jìn)行脫敏。
靜態(tài)數(shù)據(jù)脫敏(SDM)一般用在非生產(chǎn)環(huán)境,在敏感數(shù)據(jù)從生產(chǎn)環(huán)境脫敏完畢之后再在非生產(chǎn)環(huán)境使用,一般用于解決測(cè)試、開(kāi)發(fā)庫(kù)需要生產(chǎn)庫(kù)的數(shù)據(jù)量與數(shù)據(jù)間的關(guān)聯(lián),以排查問(wèn)題或進(jìn)行數(shù)據(jù)分析等,但又不能將敏感數(shù)據(jù)存儲(chǔ)于非生產(chǎn)環(huán)境的問(wèn)題。
動(dòng)態(tài)數(shù)據(jù)脫敏(DDM)一般用在生產(chǎn)環(huán)境,在訪(fǎng)問(wèn)敏感數(shù)據(jù)當(dāng)時(shí)進(jìn)行脫敏,一般用來(lái)解決在生產(chǎn)環(huán)境需要根據(jù)不同情況對(duì)同一敏感數(shù)據(jù)讀取時(shí)需要進(jìn)行不同級(jí)別脫敏的問(wèn)題。
隱私數(shù)據(jù)脫敏技術(shù)
通常在大數(shù)據(jù)平臺(tái)中,數(shù)據(jù)以結(jié)構(gòu)化的格式存儲(chǔ),每個(gè)表有諸多行組成,每行數(shù)據(jù)有諸多列組成。根據(jù)列的數(shù)據(jù)屬性,數(shù)據(jù)列通常可以分為以下幾種類(lèi)型:
- 可確切定位某個(gè)人的列,稱(chēng)為可識(shí)別列,如身份證號(hào),地址以及姓名等。
- 單列并不能定位個(gè)人,但是多列信息可用來(lái)潛在的識(shí)別某個(gè)人,這些列被稱(chēng)為半識(shí)別列,如郵編號(hào),生日及性別等。美國(guó)的一份研究論文稱(chēng),僅使用郵編號(hào),生日和性別信息即可識(shí)別87%的美國(guó)人[3]。
- 包含用戶(hù)敏感信息的列,如交易數(shù)額,疾病以及收入等。
- 其他不包含用戶(hù)敏感信息的列。
所謂避免隱私數(shù)據(jù)泄露,是指避免使用數(shù)據(jù)的人員(數(shù)據(jù)分析師,BI工程師等)將某行數(shù)據(jù)識(shí)別為某個(gè)人的信息。數(shù)據(jù)脫敏技術(shù)通過(guò)對(duì)數(shù)據(jù)進(jìn)行脫敏,如移除識(shí)別列,轉(zhuǎn)換半識(shí)別列等方式,使得數(shù)據(jù)使用人員在保證可對(duì)#2(轉(zhuǎn)換后)半識(shí)別列,#3敏感信息列以及#4其他列進(jìn)行數(shù)據(jù)分析的基礎(chǔ)上,在一定程度上保證其無(wú)法根據(jù)數(shù)據(jù)反識(shí)別用戶(hù),達(dá)到保證數(shù)據(jù)安全與最大化挖掘數(shù)據(jù)價(jià)值的平衡。
隱私數(shù)據(jù)泄露類(lèi)型
隱私數(shù)據(jù)泄露可以分為多種類(lèi)型,根據(jù)不同的類(lèi)型,通常可以采用不同的隱私數(shù)據(jù)泄露風(fēng)險(xiǎn)模型來(lái)衡量防止隱私數(shù)據(jù)泄露的風(fēng)險(xiǎn),以及對(duì)應(yīng)不同的數(shù)據(jù)脫敏算法對(duì)數(shù)據(jù)進(jìn)行脫敏。一般來(lái)說(shuō),隱私數(shù)據(jù)泄露類(lèi)型包括:
個(gè)人標(biāo)識(shí)泄露。當(dāng)數(shù)據(jù)使用人員通過(guò)任何方式確認(rèn)數(shù)據(jù)表中某條數(shù)據(jù)屬于某個(gè)人時(shí),稱(chēng)為個(gè)人標(biāo)識(shí)泄露。個(gè)人標(biāo)識(shí)泄露最為嚴(yán)重,因?yàn)橐坏┌l(fā)生個(gè)人標(biāo)識(shí)泄露,數(shù)據(jù)使用人員就可以得到具體個(gè)人的敏感信息。
屬性泄露,當(dāng)數(shù)據(jù)使用人員根據(jù)其訪(fǎng)問(wèn)的數(shù)據(jù)表了解到某個(gè)人新的屬性信息時(shí),稱(chēng)為屬性泄露。個(gè)人標(biāo)識(shí)泄露肯定會(huì)導(dǎo)致屬性泄露,但屬性泄露也有可能單獨(dú)發(fā)生。
成員關(guān)系泄露。當(dāng)數(shù)據(jù)使用人員可以確認(rèn)某個(gè)人的數(shù)據(jù)存在于數(shù)據(jù)表中時(shí),稱(chēng)為成員關(guān)系泄露。成員關(guān)系泄露相對(duì)風(fēng)險(xiǎn)較小,個(gè)人標(biāo)識(shí)泄露與屬性泄露肯定意味著成員關(guān)系泄露,但成員關(guān)系泄露也有可能單獨(dú)發(fā)生。
隱私數(shù)據(jù)泄露風(fēng)險(xiǎn)模型
將數(shù)據(jù)開(kāi)放給數(shù)據(jù)分析人員,同時(shí)就引入了隱私數(shù)據(jù)泄露的風(fēng)險(xiǎn)。在限制隱私數(shù)據(jù)泄露風(fēng)險(xiǎn)在一定范圍內(nèi)的同時(shí),最大化數(shù)據(jù)分析挖掘的潛力,是數(shù)據(jù)脫敏技術(shù)的最終目標(biāo)。目前在隱私數(shù)據(jù)脫敏領(lǐng)域,有幾個(gè)不同的模型可以用來(lái)從不同角度衡量數(shù)據(jù)可能存在的隱私數(shù)據(jù)泄露風(fēng)險(xiǎn)。
K-Anonymity
隱私數(shù)據(jù)脫敏的第一步是對(duì)所有可標(biāo)識(shí)列進(jìn)行移除或是脫敏,使得攻擊者無(wú)法直接標(biāo)識(shí)用戶(hù)。但是攻擊者還是有可能通過(guò)多個(gè)半標(biāo)識(shí)列的屬性值識(shí)別個(gè)人。攻擊者可能通過(guò)社工(知道某個(gè)人的姓名,郵編,生日,性別等)或是其他包含個(gè)人信息的以開(kāi)放數(shù)據(jù)庫(kù)獲得特定個(gè)人的半標(biāo)識(shí)列屬性值,并與大數(shù)據(jù)平臺(tái)數(shù)據(jù)進(jìn)行匹配,從而得到特定個(gè)人的敏感信息。如表一所示,如果攻擊者知道某用戶(hù)的郵編和年齡,就可以得到該用戶(hù)的疾病敏感信息。為了避免這種情況的發(fā)生,通常需要對(duì)半標(biāo)識(shí)列進(jìn)行脫敏處理,如數(shù)據(jù)泛化等。數(shù)據(jù)泛化是將半標(biāo)識(shí)列的數(shù)據(jù)替換為語(yǔ)義一致但更通用的數(shù)據(jù),已上述數(shù)據(jù)為例,對(duì)郵編和年齡泛化后的數(shù)據(jù)如表二所示。
原始信息
經(jīng)過(guò)泛化后,有多條紀(jì)錄的半標(biāo)識(shí)列屬性值相同,所有半標(biāo)識(shí)列屬性值相同的行的集合被稱(chēng)為相等集。例如,表二中1,2,3行是一個(gè)相等集,4,5,6行也是一個(gè)相等集。Sama- rati and Sweeney[4]引入了K-Anonymity用于衡量個(gè)人標(biāo)識(shí)泄露的風(fēng)險(xiǎn)。 K-Anonymity定義如下:
K-Anonymity要求對(duì)于任意一行紀(jì)錄,其所屬的相等集內(nèi)紀(jì)錄數(shù)量不小于k,即至少有k-1條紀(jì)錄半標(biāo)識(shí)列屬性值與該條紀(jì)錄相同。
圖二中的數(shù)據(jù)是一個(gè)3-Anonymity的數(shù)據(jù)集。作為一個(gè)衡量隱私數(shù)據(jù)泄露風(fēng)險(xiǎn)的指標(biāo),K-Anonymity可用于衡量個(gè)人標(biāo)識(shí)泄露的風(fēng)險(xiǎn),理論上來(lái)說(shuō),對(duì)于K-Anonymity數(shù)據(jù)集,對(duì)于任意紀(jì)錄,攻擊者只有1/k的概率將該紀(jì)錄與具體用戶(hù)關(guān)聯(lián)。
L-Diversity
K-Anonymity可用于保護(hù)個(gè)人標(biāo)識(shí)泄露的風(fēng)險(xiǎn),但是無(wú)法保護(hù)屬性泄露的風(fēng)險(xiǎn)。對(duì)于K-Anonymity的數(shù)據(jù)集,攻擊者可能通過(guò)同質(zhì)屬性攻擊與背景知識(shí)攻擊兩種方式攻擊用戶(hù)的屬性信息。
同質(zhì)屬性攻擊。對(duì)于圖二半標(biāo)識(shí)列泛化后的數(shù)據(jù)集,假如攻擊者知道Bob郵編為47677,年齡為29,則Bob一定對(duì)應(yīng)于前面三條記錄,從而可以確定Bob有心臟病。
背景知識(shí)攻擊。對(duì)于圖二半標(biāo)識(shí)列泛化后的數(shù)據(jù)集,假如攻擊者知道Alice郵編為47673,年齡為36,則Alice一定對(duì)應(yīng)于后面三條記錄,如果攻擊者知道Alice患有心臟病的幾率很小,則能判斷Alice很有可能患有癌癥。
Machanavajjhala et al. [5] 引入了L-Diversity用于衡量屬性泄露的風(fēng)險(xiǎn),L-Diversity定義如下:
如果對(duì)于任意相等集內(nèi)所有記錄對(duì)應(yīng)的敏感數(shù)據(jù)的集合,包含L個(gè)”合適”值,則稱(chēng)該相等集是滿(mǎn)足L-Deversity。如果數(shù)據(jù)集中所有相等集都滿(mǎn)足L-Deversity,則稱(chēng)該數(shù)據(jù)集滿(mǎn)足L-Deversity。
所謂L個(gè)“合適”值,最簡(jiǎn)單的理解就是L個(gè)不同值?;趫D二的數(shù)據(jù)通過(guò)插入干擾紀(jì)錄,一個(gè)3-Anonymity 2-Diversity的數(shù)據(jù)集如表三所示:
相對(duì)于K-Anonymity標(biāo)準(zhǔn),符合L-Deversity標(biāo)準(zhǔn)的數(shù)據(jù)集顯著降低了屬性數(shù)據(jù)泄露的風(fēng)險(xiǎn)。對(duì)于滿(mǎn)足L-Diversity的數(shù)據(jù)集,理論上,攻擊者最多只有1/L的概率能夠?qū)傩孕孤豆?,將特定用?hù)與其敏感信息關(guān)聯(lián)起來(lái)。一般來(lái)說(shuō)是通過(guò)插入干擾數(shù)據(jù)構(gòu)造符合L-Diversity標(biāo)準(zhǔn)的數(shù)據(jù)集,但是同數(shù)據(jù)泛化一樣,插入干擾數(shù)據(jù)也會(huì)導(dǎo)致表級(jí)別的信息丟失。同時(shí)L-Diversity標(biāo)準(zhǔn)也有不足之處。
L-Diversity標(biāo)準(zhǔn)有可能很難或是沒(méi)有必要實(shí)現(xiàn)。例如,對(duì)于HIV的測(cè)試數(shù)據(jù),測(cè)試結(jié)果列可能為陰性或是陽(yáng)性。對(duì)于10000條記錄,可能99%的記錄都是陰性的,只有1%是陽(yáng)性的。對(duì)于用戶(hù)來(lái)說(shuō)兩種不同的測(cè)試結(jié)果敏感程度也是不同的,測(cè)試結(jié)果為陰性的用戶(hù)可能不介意其他人看到他的測(cè)試結(jié)果,但是測(cè)試結(jié)果為陽(yáng)性的用戶(hù)可能更希望對(duì)別人保密。為了生成2-Deversity的測(cè)試數(shù)據(jù)集,會(huì)丟失大量的信息,降低數(shù)據(jù)分析挖掘的價(jià)值。
L-Diversity標(biāo)準(zhǔn)無(wú)法防御特定類(lèi)型的屬性數(shù)據(jù)泄露。
傾斜攻擊如果敏感屬性分布存在傾斜,L-Diversity標(biāo)準(zhǔn)很有可能無(wú)法抵御屬性數(shù)據(jù)泄露。繼續(xù)以HIV測(cè)試數(shù)據(jù)為例,假如構(gòu)造的數(shù)據(jù)集對(duì)于任意相等類(lèi)測(cè)試結(jié)果都包含陰性與陽(yáng)性,且陰性數(shù)量與陽(yáng)性相同,該數(shù)據(jù)集肯定滿(mǎn)足2-Diversity。按照真實(shí)測(cè)試記錄的分布,對(duì)于任意個(gè)人,攻擊者只能判斷其有1%的可能測(cè)試結(jié)果為陽(yáng)性。但是對(duì)于2-Diversity數(shù)據(jù)集,攻擊者會(huì)判斷每個(gè)人有50%的可能測(cè)試結(jié)果為陽(yáng)性。
相似性攻擊如果相等類(lèi)的敏感屬性分布滿(mǎn)足L-Diversity,但是屬性值相似或是內(nèi)聚,攻擊者有可能從得到很重要的信息。例如對(duì)于表四所示,病人數(shù)據(jù)滿(mǎn)足3-Diversity,攻擊者如果了解Bob郵編為47677,年齡為29,則可以確認(rèn)Bob的工資收入在3-5K之間,且能確認(rèn)Bob得了胃病相關(guān)的病,因?yàn)榍叭龡l的病都和胃病相關(guān)。
簡(jiǎn)單來(lái)說(shuō),對(duì)于L-Diversity相同的相等集,敏感屬性值的分布信息對(duì)于保護(hù)屬性泄露至關(guān)重要。L-Diversity只是用來(lái)衡量相等集的不同屬性值數(shù)量,并沒(méi)有衡量不同屬性值的分布,所以其在衡量屬性泄露風(fēng)險(xiǎn)上仍有不足之處。
T-Closeness
直觀的來(lái)說(shuō),隱私信息泄露的程度可以根據(jù)攻擊者增量獲得的個(gè)人信息衡量。假設(shè)攻擊者在訪(fǎng)問(wèn)數(shù)據(jù)集之前已知的個(gè)人信息為B0,然后假設(shè)攻擊者訪(fǎng)問(wèn)所有半標(biāo)識(shí)列都已移除的數(shù)據(jù)集,Q為數(shù)據(jù)集敏感數(shù)據(jù)的分布信息,根據(jù)Q,攻擊者更新后的個(gè)人信息為B1.最后攻擊者訪(fǎng)問(wèn)脫敏后的數(shù)據(jù)集,由于知道用戶(hù)的半標(biāo)識(shí)列的信息,攻擊者可以將某用戶(hù)與某相等集聯(lián)系在一起,通過(guò)該相等集的敏感數(shù)據(jù)分布信息P,攻擊者更新后的個(gè)人信息為B2.
L-Diversity約束是通過(guò)約束P的diverisity屬性,盡量減少B0和B2之間的信息量差距,差距越小,說(shuō)明隱私信息泄露越少。T-Closeness約束則期望減少B1和B2之間的信息量差距,減少攻擊者從敏感數(shù)據(jù)的全局分布信息和相等集分布信息之間得到更多的個(gè)人隱私信息。T-Closeness的定義如下:
如果一個(gè)相等類(lèi)的敏感數(shù)據(jù)的分布與敏感數(shù)據(jù)的全局分布之間的距離小于T,則稱(chēng)該相等類(lèi)滿(mǎn)足T-Closeness約束。如果數(shù)據(jù)集中的所有相等類(lèi)都滿(mǎn)足T-Closeness,則稱(chēng)該數(shù)據(jù)集滿(mǎn)足T-Closeness.
T-Closeness約束限定了半標(biāo)識(shí)列屬性與敏感信息的全局分布之間的聯(lián)系,減弱了半標(biāo)識(shí)列屬性與特定敏感信息的聯(lián)系,減少攻擊者通過(guò)敏感信息的分布信息進(jìn)行屬性泄露攻擊的可能性。不過(guò)同時(shí)也肯定導(dǎo)致了一定程度的信息丟失,所以管理者通過(guò)T值的大小平衡數(shù)據(jù)可用性與用戶(hù)隱私保護(hù)。
常見(jiàn)數(shù)據(jù)脫敏算法
K-Anonymity, L-Diversity和T-Closeness均依賴(lài)對(duì)半標(biāo)識(shí)列進(jìn)行數(shù)據(jù)變形處理,使得攻擊者無(wú)法直接進(jìn)行屬性泄露攻擊,常見(jiàn)的數(shù)據(jù)變形處理方式如下:
大數(shù)據(jù)脫敏平臺(tái)
用戶(hù)隱私數(shù)據(jù)保護(hù)與挖掘用戶(hù)數(shù)據(jù)價(jià)值是兩個(gè)互相沖突的矛盾體,徹底的數(shù)據(jù)脫敏,需要抹去全部的用戶(hù)標(biāo)識(shí)信息,使得數(shù)據(jù)潛在的分析價(jià)值大大降低。另一方面,完全保留用戶(hù)隱私數(shù)據(jù)信息,可最大化數(shù)據(jù)的分析價(jià)值,同時(shí)導(dǎo)致用戶(hù)隱私泄露的風(fēng)險(xiǎn)無(wú)法控制。因此大數(shù)據(jù)脫敏平臺(tái)的設(shè)計(jì)目標(biāo)并不是實(shí)現(xiàn)工具算法用來(lái)完全抹去全部的用戶(hù)標(biāo)識(shí)信息,而是包括如下幾個(gè)目標(biāo):
數(shù)據(jù)泄露風(fēng)險(xiǎn)可控。首先,實(shí)現(xiàn)基于大數(shù)據(jù)平臺(tái)的脫敏算法庫(kù),可并行,高效的按照脫敏規(guī)則對(duì)隱私數(shù)據(jù)進(jìn)行脫敏。其次,基于數(shù)據(jù)脫敏的理論基礎(chǔ),建立用戶(hù)隱私數(shù)據(jù)泄露風(fēng)險(xiǎn)的衡量模型,可定性定量的準(zhǔn)確衡量數(shù)據(jù)可能發(fā)生泄露的風(fēng)險(xiǎn)。
可管理。結(jié)合大數(shù)據(jù)平臺(tái)的用戶(hù)認(rèn)證體系,權(quán)限管理體系,以及隱私數(shù)據(jù)不同保護(hù)級(jí)別的權(quán)限管理體系,實(shí)現(xiàn)對(duì)隱私數(shù)據(jù)基于審批的數(shù)據(jù)訪(fǎng)問(wèn)機(jī)制。結(jié)合公司制度,規(guī)范,法務(wù)等管理,實(shí)現(xiàn)在盡可能保護(hù)用戶(hù)隱私數(shù)據(jù),減少數(shù)據(jù)泄露風(fēng)險(xiǎn)的前提下,最大化保留數(shù)據(jù)分析挖掘的價(jià)值。
可審計(jì)。對(duì)數(shù)據(jù)的訪(fǎng)問(wèn)要保證可回溯,可審計(jì),當(dāng)發(fā)生數(shù)據(jù)泄露時(shí),要保證能夠通過(guò)審計(jì)日志找到對(duì)應(yīng)的泄露人員。
大數(shù)據(jù)脫敏平臺(tái)的設(shè)計(jì)方向一般包括靜態(tài)大數(shù)據(jù)脫敏平臺(tái)和動(dòng)態(tài)大數(shù)據(jù)脫敏平臺(tái),所謂靜態(tài)和動(dòng)態(tài)之分,主要在于脫敏的時(shí)機(jī)不同。對(duì)于靜態(tài)脫敏來(lái)說(shuō),數(shù)據(jù)管理員提前對(duì)數(shù)據(jù)進(jìn)行不同級(jí)別的脫敏處理,生成不同安全級(jí)別的數(shù)據(jù),然后授予不同用戶(hù)訪(fǎng)問(wèn)不同安全級(jí)別數(shù)據(jù)的權(quán)限。對(duì)于動(dòng)態(tài)脫敏來(lái)說(shuō),管理員通過(guò)元數(shù)據(jù)管理不同用戶(hù)訪(fǎng)問(wèn)具體數(shù)據(jù)的安全權(quán)限,在用戶(hù)訪(fǎng)問(wèn)數(shù)據(jù)的時(shí)候,動(dòng)態(tài)的從原始數(shù)據(jù)中按照用戶(hù)權(quán)限動(dòng)態(tài)的進(jìn)行脫敏處理。大數(shù)據(jù)平臺(tái)脫敏技術(shù)方案是一個(gè)非常有趣的課題,目前業(yè)界還沒(méi)有看到有成熟的方案,鑒于其對(duì)數(shù)據(jù)安全和數(shù)據(jù)價(jià)值的作用,非常值得深入研究,希望以后可以繼續(xù)以合適的方式分享我在這方面的研究與實(shí)踐。
總結(jié)
針對(duì)于大數(shù)據(jù)平臺(tái)對(duì)于數(shù)據(jù)脫敏的需求,本文分析了數(shù)據(jù)泄露可能帶來(lái)的風(fēng)險(xiǎn),介紹了數(shù)據(jù)脫敏技術(shù)的理論基礎(chǔ)與實(shí)現(xiàn)方式,同時(shí)簡(jiǎn)單分析了大數(shù)據(jù)平臺(tái)的隱私數(shù)據(jù)脫敏技術(shù)方向。本文討論的均是基于離線(xiàn)數(shù)據(jù)的數(shù)據(jù)脫敏,流式數(shù)據(jù)的脫敏技術(shù)無(wú)論是理論基礎(chǔ)與具體實(shí)踐大都還處在摸索的過(guò)程中,留待以后繼續(xù)探索。