自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

談?wù)勅绾伪Wo(hù)用于分析的敏感數(shù)據(jù)

大數(shù)據(jù) 數(shù)據(jù)分析
數(shù)據(jù)驅(qū)動(dòng)的解決方案幫助組織做出更好的決策,提高效率,為客戶創(chuàng)造更好的體驗(yàn),并最終帶來(lái)更多收入。但數(shù)據(jù)的增長(zhǎng)速度超過(guò)了對(duì)此類信息的保護(hù)速度。隨著收集、存儲(chǔ)和處理的數(shù)據(jù)量不斷增加,數(shù)據(jù)工程師必須了解如何最好地處理個(gè)人信息以進(jìn)行分析。

數(shù)據(jù)驅(qū)動(dòng)的解決方案幫助組織做出更好的決策,提高效率,為客戶創(chuàng)造更好的體驗(yàn),并最終帶來(lái)更多收入。但數(shù)據(jù)的增長(zhǎng)速度超過(guò)了對(duì)此類信息的保護(hù)速度。隨著收集、存儲(chǔ)和處理的數(shù)據(jù)量不斷增加,數(shù)據(jù)工程師必須了解如何最好地處理個(gè)人信息以進(jìn)行分析。

數(shù)據(jù)工程師經(jīng)?;〞r(shí)間在兩項(xiàng)職責(zé)之間取得平衡:利用涉及敏感/個(gè)人數(shù)據(jù)的大量數(shù)據(jù)進(jìn)行創(chuàng)新和推動(dòng)變革,同時(shí)遵守管理數(shù)據(jù)處理和使用方式的嚴(yán)格標(biāo)準(zhǔn)。

如果沒(méi)有第二個(gè)責(zé)任,第一個(gè)責(zé)任就不可能實(shí)現(xiàn)。因此,許多數(shù)據(jù)隱私增強(qiáng)技術(shù)越來(lái)越受到關(guān)注,例如匿名化、假名化、合成數(shù)據(jù)生成、差異隱私和去識(shí)別個(gè)人數(shù)據(jù)的混合策略。

在本文中,我們將討論一些旨在處理數(shù)據(jù)隱私、最大限度降低泄露風(fēng)險(xiǎn)的重要策略。我們將主要關(guān)注簡(jiǎn)單的技術(shù),如抑制、格式保留標(biāo)記化、加密散列、分箱和擾動(dòng)。

假名化和匿名化之間的區(qū)別

數(shù)據(jù)可識(shí)別性可以與一系列可見(jiàn)性進(jìn)行比較。一方面,數(shù)據(jù)是完全可見(jiàn)的,這意味著它可以用來(lái)識(shí)別個(gè)人。另一方面,數(shù)據(jù)完全不可見(jiàn),細(xì)節(jié)匿名。匿名化和假名化是兩個(gè)可以改變數(shù)據(jù)可見(jiàn)性的過(guò)程,使組織能夠保護(hù)個(gè)人隱私,同時(shí)仍然允許數(shù)據(jù)用于分析和其他目的。

牢記這一范圍,我們現(xiàn)在可以將假名化定義為對(duì)數(shù)據(jù)集進(jìn)行匿名化的過(guò)程,因此在不使用附加信息的情況下無(wú)法單獨(dú)識(shí)別數(shù)據(jù)主體。然而,這些數(shù)據(jù)仍然可以用于分析項(xiàng)目。主要優(yōu)點(diǎn)是在保護(hù)個(gè)人隱私和允許數(shù)據(jù)有用之間取得平衡。然而,重要的是要記住,如果攻擊者有權(quán)訪問(wèn)鏈接密鑰,假名數(shù)據(jù)仍然可以被重新識(shí)別。

對(duì)大型數(shù)據(jù)集進(jìn)行偽匿名是一個(gè)特別復(fù)雜的過(guò)程,即使在數(shù)據(jù)共享之前,也需要在數(shù)據(jù)字典中將數(shù)據(jù)屬性明確標(biāo)記為個(gè)人身份信息并由所有者簽名。實(shí)際上也很難驗(yàn)證同意,說(shuō)明數(shù)據(jù)將如何使用的確切目的。因此,我們通過(guò)將數(shù)據(jù)限制為證明模型假設(shè)所需的關(guān)鍵元素來(lái)最大限度地減少用于分析的數(shù)據(jù)。然后,我們將數(shù)據(jù)匿名化到用戶無(wú)法重新識(shí)別主體并將其鏈接到個(gè)人的程度,而無(wú)需使用所有者保管下存儲(chǔ)的其他數(shù)據(jù)。

專業(yè)提示:建議將數(shù)據(jù)隱私指標(biāo)添加到數(shù)據(jù)字典中,例如每個(gè)數(shù)據(jù)屬性的敏感性和有用性,這樣以實(shí)現(xiàn)企業(yè)級(jí)持續(xù)治理。這使組織能夠以適當(dāng)?shù)拿舾卸雀檾?shù)據(jù)是否出于相關(guān)且商定的原因而被使用。

個(gè)人數(shù)據(jù)屬性

在使用給定數(shù)據(jù)集中進(jìn)行分析之前查找個(gè)人標(biāo)識(shí)符是保護(hù)個(gè)人隱私的重要一步。識(shí)別個(gè)人標(biāo)識(shí)符的主要方法有兩種:

(1)直接標(biāo)識(shí)符:這是可用于識(shí)別個(gè)人身份的個(gè)人數(shù)據(jù),無(wú)需任何其他信息。示例包括:姓名、地址、電子郵件、電話號(hào)碼、護(hù)照號(hào)碼和駕駛執(zhí)照號(hào)碼。

(2)間接標(biāo)識(shí)符:這是可以與其他信息結(jié)合起來(lái)識(shí)別個(gè)人身份的個(gè)人數(shù)據(jù)。示例包括:出生日期、性別、種族和職業(yè)。

要在數(shù)據(jù)集中查找個(gè)人標(biāo)識(shí)符,可以結(jié)合使用自動(dòng)化工具和手動(dòng)審核:

自動(dòng)化工具:市場(chǎng)上有多種選項(xiàng)可以自動(dòng)識(shí)別大型數(shù)據(jù)集的個(gè)人標(biāo)識(shí)符信息 (PII) 列。然而,至關(guān)重要的是添加額外的分析檢查作為這些 AI 輔助工具的包裝器,以防止 PII 列的任何意外遺漏或錯(cuò)誤識(shí)別。例如,在 Google Cloud 中,DLP 服務(wù)可用于通過(guò)掃描數(shù)據(jù)中的特定模式來(lái)識(shí)別標(biāo)識(shí)符,自動(dòng)對(duì)個(gè)人數(shù)據(jù)進(jìn)行分類并進(jìn)行相應(yīng)的處理

手動(dòng)審核:即使使用自動(dòng)化工具,手動(dòng)審核數(shù)據(jù)集以識(shí)別可能遺漏的任何個(gè)人標(biāo)識(shí)符也很重要。這可以通過(guò)逐一檢查數(shù)據(jù)元素并檢查它們是否與任何示例匹配來(lái)完成。

識(shí)別個(gè)人標(biāo)識(shí)符后,重要的是使用匿名化、假名化、合成數(shù)據(jù)生成、差異隱私和混合策略等技術(shù)來(lái)對(duì)數(shù)據(jù)進(jìn)行去識(shí)別化,然后再將其用于分析。這些技術(shù)可用于刪除、屏蔽或掩蓋敏感信息,同時(shí)仍保留數(shù)據(jù)的分析實(shí)用性。

四種隱私增強(qiáng)技術(shù)

1、數(shù)據(jù)抑制

數(shù)據(jù)抑制是一種通過(guò)刪除或屏蔽某些信息來(lái)取消個(gè)人數(shù)據(jù)識(shí)別的技術(shù)。它通常用于刪除直接標(biāo)識(shí)符,例如姓名、地址和電話號(hào)碼;以及間接標(biāo)識(shí)符,例如出生日期和性別,您還可以隱藏未獲得客戶同意的特定行。

關(guān)鍵考慮因素:實(shí)施簡(jiǎn)單、完全匿名、不需要分析,并且可以在受抑制的個(gè)人或敏感數(shù)據(jù)上實(shí)現(xiàn),并且不可能進(jìn)行重新識(shí)別。

下面是一個(gè)簡(jiǎn)單的示例,說(shuō)明如何在 Python 中使用數(shù)據(jù)抑制來(lái)去識(shí)別個(gè)人數(shù)據(jù):

圖片

2. 數(shù)據(jù)標(biāo)記化

數(shù)據(jù)標(biāo)記化是用非敏感隨機(jī)字符串(通常稱為標(biāo)記)替換單個(gè)敏感數(shù)據(jù)的過(guò)程。令牌用作對(duì)原始數(shù)據(jù)的引用,但不能用于猜測(cè)這些值。這是因?yàn)?,與加密不同,標(biāo)記化不使用數(shù)學(xué)過(guò)程將敏感信息轉(zhuǎn)換為標(biāo)記。沒(méi)有可用于導(dǎo)出令牌原始數(shù)據(jù)的密鑰或算法。相反,標(biāo)記化使用數(shù)據(jù)庫(kù)或安全文件存儲(chǔ)(稱為令牌庫(kù)),它存儲(chǔ)敏感值和令牌之間的關(guān)系。然后,通常通過(guò)加密來(lái)保護(hù)保險(xiǎn)庫(kù)中的真實(shí)數(shù)據(jù)。

對(duì)于基于表和基于文件的標(biāo)記化,可以應(yīng)用格式保留標(biāo)記化,這是一種保留原始數(shù)據(jù)的格式和長(zhǎng)度,同時(shí)用唯一標(biāo)記替換它的技術(shù)。

機(jī)器學(xué)習(xí)(ML)模型投入運(yùn)行后,代幣價(jià)值可用于支持業(yè)務(wù)運(yùn)營(yíng)。如果需要檢索真實(shí)數(shù)據(jù)。例如,在識(shí)別實(shí)際電子郵件地址以對(duì)交叉銷售預(yù)測(cè)采取行動(dòng)的情況下,令牌被提交到保管庫(kù),并且索引用于獲取客戶電子郵件地址以在授權(quán)過(guò)程中使用。對(duì)于最終用戶來(lái)說(shuō),該操作幾乎是由瀏覽器或應(yīng)用程序立即無(wú)縫執(zhí)行的。他們可能甚至不知道數(shù)據(jù)以不同的格式存儲(chǔ)在云中。

關(guān)鍵考慮因素:格式保留令牌與真實(shí)數(shù)據(jù)之間不存在數(shù)學(xué)關(guān)系,因此采用分析沒(méi)有風(fēng)險(xiǎn)。只要金庫(kù)高度安全。

3. 安全密鑰加密散列和加密

加密散列和加密轉(zhuǎn)換是去標(biāo)識(shí)化方法,用加密或散列值替換原始敏感數(shù)據(jù)值。這里的一些關(guān)鍵技術(shù)包括:

  • 安全密鑰加密哈希是一種涉及使用密鑰創(chuàng)建輸入字符串的加密哈希的方法,類似于 HMAC,并且通常被認(rèn)為是比僅使用哈希函數(shù)更安全的方法。對(duì)于非常大的數(shù)據(jù)集,具有主鍵行為的唯一標(biāo)識(shí)符可以通過(guò)這種方式取消標(biāo)識(shí)。
  • 格式保留加密 (FPE)是一種在加密時(shí)保留信息格式的加密算法。它涉及用使用格式保留加密生成的加密值替換輸入值。下面是一個(gè)簡(jiǎn)單的示例,說(shuō)明如何在 Python 中使用 FPE 來(lái)去識(shí)別個(gè)人數(shù)據(jù) (CCN):

確定性加密方案是一種密碼系統(tǒng),即使單獨(dú)執(zhí)行加密算法,它也始終為給定的明文和密鑰生成相同的密文。它將輸入值替換為在合成初始化向量模式 (AES-SIV) 下使用 AES 生成的令牌。

關(guān)鍵考慮因素:這些技術(shù)在很大程度上依賴于安全密鑰的使用才能發(fā)揮作用,因此它們大多部署在安全且受限的分析生態(tài)系統(tǒng)中,具有安全存儲(chǔ)密鑰的功能。

Python中有用的技術(shù): pyfpe、cryptography、pycryptodome都是可用于實(shí)現(xiàn)上述技術(shù)的Python庫(kù)

4.數(shù)據(jù)概括

數(shù)據(jù)概括涉及將敏感列分類到箱或組中進(jìn)行分析、刪除細(xì)節(jié)并創(chuàng)建更概括的視圖。該技術(shù)與其他假名化方法相結(jié)合,對(duì)于大型數(shù)據(jù)集特別有效。

分箱:

數(shù)值分箱:在此方法中,首先對(duì)數(shù)值數(shù)據(jù)進(jìn)行排序,然后將排序后的值分配到多個(gè)桶或箱中。它也稱為分桶或離散化。例如,當(dāng)您需要開(kāi)發(fā)流失預(yù)測(cè)模型的功能時(shí),可以將數(shù)據(jù)分組為年齡范圍(例如 18-30、30-65),而不是顯示一個(gè)人的確切年齡

Python 中有用的技術(shù): Pandas、OptBinning。例如,可以使用 qcut、cut 等 Pandas 函數(shù)進(jìn)行基于五分位數(shù)的分箱。

分類重新編碼:

通過(guò)將相似的分類數(shù)據(jù)點(diǎn)分組在一起,分類記錄或分箱可以降低數(shù)據(jù)的粒度。這可以通過(guò)創(chuàng)建更廣泛的類別或用更通用的類別替換特定類別來(lái)完成。

例如,假設(shè)您有一個(gè)客戶人口統(tǒng)計(jì)數(shù)據(jù)集,其中包含有關(guān)人們職業(yè)的信息。原始數(shù)據(jù)可能具有以下類別:“老師”、“護(hù)士”、“工程師”和“建筑師”。為了保護(hù)個(gè)人隱私,您可以使用分類重新編碼將類似的職業(yè)分組在一起。例如,您可以將“教師”和“護(hù)士”分組到一個(gè)更廣泛的類別(稱為“教育和醫(yī)療保健”)中,將“工程師”和“建筑師”分組到一個(gè)更廣泛的類別(稱為“建筑和設(shè)計(jì)”)中。

另一個(gè)例子是,對(duì)于位置數(shù)據(jù),我們可以將數(shù)據(jù)分組為更大的區(qū)域,例如省、市或地區(qū),而不是顯示確切的地址。

關(guān)鍵注意事項(xiàng):當(dāng)需要執(zhí)行特征工程以根據(jù)模型訓(xùn)練要求概括客戶信息時(shí),請(qǐng)使用分類分箱。

Python 中的有用技術(shù):在 Pandas 中,您可以利用 Replace() 和 map() 函數(shù),它們可用于將特定類別替換為更通用的類別

5. 數(shù)據(jù)擾動(dòng)

數(shù)據(jù)擾動(dòng)是一種通過(guò)向數(shù)據(jù)添加隨機(jī)噪聲來(lái)保護(hù)數(shù)據(jù)集中個(gè)人隱私的技術(shù)。這使得攻擊者很難推斷有關(guān)數(shù)據(jù)集中各個(gè)記錄的敏感信息,同時(shí)仍然允許對(duì)數(shù)據(jù)中的總體趨勢(shì)和模式進(jìn)行有意義的分析。

以下是 Python 中數(shù)據(jù)擾動(dòng)的示例:

需要用于對(duì)數(shù)據(jù)集進(jìn)行偽匿名的技術(shù)高度依賴于每個(gè)單獨(dú)的用例、數(shù)據(jù)集中的 PII 類型以及數(shù)據(jù)存儲(chǔ)的環(huán)境。

除了上面討論的技術(shù)之外,還有其他新興和先進(jìn)的數(shù)據(jù)隱私增強(qiáng)技術(shù),例如人工智能合成數(shù)據(jù)生成、聯(lián)邦學(xué)習(xí)、安全多方計(jì)算、同態(tài)加密、圖像等非結(jié)構(gòu)化數(shù)據(jù)中的匿名 PII ,使用機(jī)器學(xué)習(xí)生成模型的 PDF,仍在進(jìn)行廣泛的研究,值得關(guān)注。

這就引出了所有數(shù)據(jù)從業(yè)者可能需要考慮的一個(gè)重要問(wèn)題——申請(qǐng)后如何檢查數(shù)據(jù)是否是偽匿名的?在數(shù)據(jù)管道的每個(gè)階段,設(shè)置額外的測(cè)試以降低重新識(shí)別的風(fēng)險(xiǎn)至關(guān)重要。研究人員開(kāi)發(fā)的統(tǒng)計(jì)方法(例如 t-Closeness、l-Diversity 和 k-Anonymity)也可以通過(guò)提供閾值和值來(lái)幫助實(shí)現(xiàn)這一目標(biāo),這些閾值和值可以幫助估計(jì)可重新識(shí)別性,進(jìn)而幫助了解數(shù)據(jù)集的偽匿名化程度。

隱私工程是分析中的一個(gè)難題,但隨著捕獲的數(shù)據(jù)量不斷增加,它對(duì)于分析項(xiàng)目的重要性只會(huì)繼續(xù)增長(zhǎng)。作為數(shù)據(jù)從業(yè)者,我們將在構(gòu)建基礎(chǔ)設(shè)施方面發(fā)揮至關(guān)重要的作用,以確保有效利用不斷增長(zhǎng)的數(shù)據(jù),同時(shí)負(fù)責(zé)任地存儲(chǔ)和部署。

責(zé)任編輯:華軒 來(lái)源: 數(shù)據(jù)驅(qū)動(dòng)智能
相關(guān)推薦

2023-10-30 15:35:05

數(shù)據(jù)安全數(shù)據(jù)驅(qū)動(dòng)

2020-04-16 08:00:00

Ansible Vau敏感數(shù)據(jù)加密

2021-09-16 10:11:15

Dataphin 數(shù)據(jù)保護(hù)

2023-10-23 10:39:05

2010-09-27 10:15:15

2021-09-18 10:06:06

數(shù)據(jù)安全隱私計(jì)算大數(shù)據(jù)

2021-03-23 14:34:25

敏感數(shù)據(jù)云安全漏洞

2021-03-19 11:13:07

SaaS云平臺(tái)

2025-04-28 08:08:14

2012-04-12 14:45:12

賽門鐵克云南電網(wǎng)

2010-09-25 08:55:29

2020-12-20 17:30:17

數(shù)據(jù)匿名化敏感數(shù)據(jù)數(shù)據(jù)庫(kù)

2024-03-05 09:40:35

2010-05-14 13:50:57

2021-08-27 16:26:11

敏感數(shù)據(jù)

2013-09-12 13:23:06

2023-08-02 06:57:48

2018-04-28 09:00:00

2012-06-12 15:26:35

防泄密軟件數(shù)據(jù)防泄密防泄密

2012-07-24 23:28:39

數(shù)據(jù)防泄密天榕DLP
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)