自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

你不是真正的“匿名”:如何劃定匿名數(shù)據(jù)和去識(shí)別化數(shù)據(jù)?

大數(shù)據(jù) 數(shù)據(jù)分析
匿名化為遵循個(gè)人數(shù)據(jù)相關(guān)隱私條例提供了范例,個(gè)人數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)的重合之處就是客戶(hù)信息所在。但并非所有的業(yè)務(wù)數(shù)據(jù)都受監(jiān)管,本文將重點(diǎn)討論個(gè)人數(shù)據(jù)的保護(hù)。

 [[342358]]

匿名化是為了確保數(shù)據(jù)的隱私性,公司用它來(lái)保護(hù)敏感數(shù)據(jù)。這類(lèi)數(shù)據(jù)包括:

  • 私人數(shù)據(jù)
  • 業(yè)務(wù)信息,如財(cái)務(wù)信息或商業(yè)秘密
  • 機(jī)密信息,如軍事機(jī)密或政府信息

匿名化為遵循個(gè)人數(shù)據(jù)相關(guān)隱私條例提供了范例,個(gè)人數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)的重合之處就是客戶(hù)信息所在。但并非所有的業(yè)務(wù)數(shù)據(jù)都受監(jiān)管,本文將重點(diǎn)討論個(gè)人數(shù)據(jù)的保護(hù)。

敏感數(shù)據(jù)類(lèi)型示例

在歐洲,監(jiān)管機(jī)構(gòu)將任何與某人(如你的名字)有關(guān)的信息定義為“個(gè)人數(shù)據(jù)”。不論形式,任何關(guān)聯(lián)到此人的信息都符合上述定義。從上世紀(jì)起,個(gè)人數(shù)據(jù)收集逐漸民主化,數(shù)據(jù)匿名化問(wèn)題開(kāi)始出現(xiàn)。隨著隱私條例在世界各地開(kāi)始生效,這件事尤顯重要。

什么是數(shù)據(jù)匿名化,為何要關(guān)注它?

我們從經(jīng)典定義開(kāi)始。歐盟的《通用數(shù)據(jù)保護(hù)條例》(GDPR)是這樣定義對(duì)匿名信息的:“與識(shí)別或可識(shí)別自然人無(wú)關(guān)的信息,或以數(shù)據(jù)主體不能或不再可識(shí)別的方式匿名提供的個(gè)人信息。”

其中,“可識(shí)別”和“不再”至關(guān)重要。這不僅意味著你的名字不應(yīng)再出現(xiàn)在數(shù)據(jù)中,也意味著不能從剩余數(shù)據(jù)中發(fā)現(xiàn)你是誰(shuí),這與再認(rèn)同(有時(shí)也叫去匿名化)過(guò)程有關(guān)。

同樣,GDPR(契約中)陳述了一個(gè)重要事實(shí):“……因此,數(shù)據(jù)保護(hù)不應(yīng)適用于匿名信息”。所以,若你設(shè)法匿名數(shù)據(jù),就不再受GDPR數(shù)據(jù)保護(hù)法的約束。

你可以執(zhí)行任何處理操作,如分析或數(shù)據(jù)貨幣化。這帶來(lái)了大量機(jī)會(huì):

  • 出售數(shù)據(jù)顯然是首選用途。在世界各地,隱私保護(hù)法正在限制個(gè)人數(shù)據(jù)交易,而匿名數(shù)據(jù)為公司提供了另一種選擇。
  • 它帶來(lái)了合作機(jī)會(huì)。許多公司為了創(chuàng)新或研究而共享數(shù)據(jù),匿名數(shù)據(jù)有助于降低風(fēng)險(xiǎn)。
  • 它還為數(shù)據(jù)分析和機(jī)器學(xué)習(xí)創(chuàng)造了機(jī)會(huì)。在保持兼容性的同時(shí)運(yùn)行敏感數(shù)據(jù)的操作正變得越來(lái)越復(fù)雜,匿名數(shù)據(jù)為統(tǒng)計(jì)分析和模型訓(xùn)練提供了安全的原材料,前景一片光明。但實(shí)際上真正的匿名數(shù)據(jù)往往并不如愿。

數(shù)據(jù)隱私保護(hù)機(jī)制的范圍

數(shù)據(jù)的隱私保護(hù)有一個(gè)范圍。多年來(lái),專(zhuān)家們研發(fā)了一系列集方法、機(jī)制和工具為一體的技術(shù)。這些技術(shù)生成了具有不同的匿名級(jí)別和不同再識(shí)別風(fēng)險(xiǎn)等級(jí)的數(shù)據(jù)??梢哉f(shuō),其范圍涵蓋了個(gè)人可識(shí)別數(shù)據(jù)乃至真正的匿名數(shù)據(jù)。

數(shù)據(jù)隱私的范圍

左端,有包含直接個(gè)人識(shí)別碼的數(shù)據(jù)。通過(guò)這些元素,可以識(shí)別你的姓名、地址或電話(huà)號(hào)碼。另一端,則是GDPR引用的匿名數(shù)據(jù)。

如你所見(jiàn),這些數(shù)據(jù)有一個(gè)中間范疇。它處于可識(shí)別數(shù)據(jù)和匿名數(shù)據(jù)之間,即假名數(shù)據(jù)和去識(shí)別數(shù)據(jù)。請(qǐng)注意,其界定仍有爭(zhēng)議。有些報(bào)告認(rèn)為假名化是去識(shí)別化的一部分, 而另一些報(bào)告則將其排除在外。

生成這種“中間數(shù)據(jù)”的技術(shù)本身并無(wú)問(wèn)題。它們能有效地將數(shù)據(jù)最小化。根據(jù)用例需求,它們將彼此關(guān)聯(lián),發(fā)揮用處。但切記,它們無(wú)法生成真正的匿名數(shù)據(jù),它們的機(jī)制無(wú)法保證阻止再識(shí)別,所以將其生成的數(shù)據(jù)稱(chēng)為“匿名數(shù)據(jù)”是一種誤導(dǎo)。

匿名和“匿名”

假名化和去識(shí)別化確實(shí)能在某些方面保護(hù)數(shù)據(jù)隱私。但根據(jù)GDPR的定義,它們無(wú)法生成匿名數(shù)據(jù)。

假名化技術(shù)從數(shù)據(jù)中刪除或替換直接個(gè)人標(biāo)識(shí)碼,例如,從數(shù)據(jù)集中刪除所有名稱(chēng)和電子郵件,你無(wú)法直接從假名數(shù)據(jù)中識(shí)別某人,不過(guò)可以間接識(shí)別。實(shí)際上,剩余數(shù)據(jù)通常會(huì)保留間接識(shí)別碼,組合這些信息后,就能創(chuàng)建直接識(shí)別碼,如出生日期,郵編,性別等。

就此而言,假名化在GDPR框架中有一個(gè)單獨(dú)定義:“……以以下方式處理個(gè)人數(shù)據(jù),即在不使用附加信息的情況下,數(shù)據(jù)不再可以歸因于特定數(shù)據(jù)主體”。與匿名數(shù)據(jù)相反,假名數(shù)據(jù)符合GDPR的要求。

去識(shí)別化技術(shù)從數(shù)據(jù)中去除直接和間接的個(gè)人身份識(shí)別碼。理論上,去識(shí)別化數(shù)據(jù)和匿名化數(shù)據(jù)之間的界限很簡(jiǎn)單。最新消息表明:有技術(shù)可保障永遠(yuǎn)無(wú)法再識(shí)別數(shù)據(jù)。這是一種“疑罪從無(wú)”的情況,去識(shí)別化數(shù)據(jù)在未識(shí)別之前是匿名的。每當(dāng)專(zhuān)家設(shè)法重新識(shí)別那些最初未識(shí)別出的數(shù)據(jù)時(shí),他們都進(jìn)一步推動(dòng)了發(fā)展。

數(shù)據(jù)重新識(shí)別不斷重新定義匿名

上述機(jī)制類(lèi)型對(duì)隱私保護(hù)沒(méi)有同等效力,因此如何處理這些數(shù)據(jù)很重要。公司定期發(fā)布或出售他們聲稱(chēng)“匿名”的數(shù)據(jù),但當(dāng)他們使用的方法不能保證“匿名”時(shí),就會(huì)帶來(lái)隱患。

眾多事件表明,假名化數(shù)據(jù)這種隱私保護(hù)機(jī)制仍有缺陷。數(shù)據(jù)中的間接識(shí)別碼會(huì)帶來(lái)巨大的再識(shí)別風(fēng)險(xiǎn)。隨著可用數(shù)據(jù)量的增長(zhǎng),相互參照數(shù)據(jù)集的機(jī)會(huì)也在增加:

  • 1990年,麻省理工學(xué)院的研究生從去識(shí)別化醫(yī)療數(shù)據(jù)中重新確認(rèn)了馬薩諸塞州州長(zhǎng)的身份,她將這些信息與公用人口普查數(shù)據(jù)相互參照來(lái)確定患者身份。
  • 2006年,作為研究計(jì)劃的一部分,美國(guó)在線(xiàn)公司(AOL)共享了去識(shí)別化搜索數(shù)據(jù),研究人員能夠?qū)⑺阉鞑樵?xún)與背后的個(gè)人聯(lián)系起來(lái)。
  • 2009年,作為比賽的一部分,網(wǎng)飛(Netflix)發(fā)布了一個(gè)匿名電影評(píng)級(jí)數(shù)據(jù)集,德克薩斯州的研究人員成功重新識(shí)別了用戶(hù)。
  • 同是2009年,研究人員僅利用公開(kāi)信息就能預(yù)測(cè)出一個(gè)人的社會(huì)保險(xiǎn)號(hào)。

最近研究表明,去識(shí)別化數(shù)據(jù)實(shí)際上可以被重新識(shí)別。比利時(shí)新魯汶大學(xué)和倫敦帝國(guó)理工學(xué)院的研究人員發(fā)現(xiàn):“使用15個(gè)人口統(tǒng)計(jì)屬性,在任何數(shù)據(jù)集中,99.98%的美國(guó)人都能被正確地重新識(shí)別。”

另一項(xiàng)針對(duì)匿名手機(jī)數(shù)據(jù)的研究表明:“四個(gè)時(shí)空點(diǎn)就足以唯一識(shí)別95%的個(gè)體用戶(hù)”。

技術(shù)日益進(jìn)步,更多的數(shù)據(jù)正在被創(chuàng)建,研究人員正在努力劃定去識(shí)別化數(shù)據(jù)和匿名數(shù)據(jù)之間的界限。2017年,研究人員發(fā)表論文稱(chēng):“網(wǎng)絡(luò)瀏覽歷史只能通過(guò)公開(kāi)數(shù)據(jù)鏈接到社交媒體上的個(gè)人資料。”

另一個(gè)令人擔(dān)憂(yōu)的問(wèn)題是個(gè)人資料的泄露,越來(lái)越多的個(gè)人信息遭到泄露。ForgeRock消費(fèi)者身份泄露報(bào)告預(yù)測(cè),2020年的信息泄露數(shù)量將超過(guò)去年,僅美國(guó),2020年第一季度就有超過(guò)16億的客戶(hù)記錄被泄露。

分開(kāi)處理的數(shù)據(jù)集無(wú)法重新識(shí)別,但與泄露數(shù)據(jù)結(jié)合起來(lái),它會(huì)造成更大的威脅。哈佛大學(xué)的學(xué)生能夠利用泄露的數(shù)據(jù)重新識(shí)別去識(shí)別化數(shù)據(jù)。

總之,那些我們所認(rèn)為的“匿名數(shù)據(jù)”往往并不是真正的匿名數(shù)據(jù)。并非所有的數(shù)據(jù)凈化方法都會(huì)生成真正的匿名數(shù)據(jù)。事事都各有優(yōu)點(diǎn),但沒(méi)有一種能提供與匿名同等級(jí)別的隱私。隨著數(shù)據(jù)量的不斷增長(zhǎng),創(chuàng)建真正的匿名數(shù)據(jù)也越來(lái)越難,公司發(fā)布潛在可重新識(shí)別的個(gè)人數(shù)據(jù)的風(fēng)險(xiǎn)也在增加。

本文轉(zhuǎn)載自微信公眾號(hào)「讀芯術(shù)」,可以通過(guò)以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系讀芯術(shù)公眾號(hào)。

 

責(zé)任編輯:武曉燕 來(lái)源: 讀芯術(shù)
相關(guān)推薦

2023-09-11 07:25:52

2023-09-07 07:13:51

2019-10-23 19:33:24

數(shù)據(jù)科學(xué)保護(hù)數(shù)據(jù)匿名化

2020-12-20 17:30:17

數(shù)據(jù)匿名化敏感數(shù)據(jù)數(shù)據(jù)庫(kù)

2023-06-06 18:51:34

2018-03-09 11:08:31

2023-10-17 11:34:42

2011-03-04 15:38:54

Vsftpd

2014-07-17 10:38:30

大數(shù)據(jù)

2022-09-02 15:10:21

醫(yī)療保健AI

2013-09-23 16:28:32

LinuxUbuntuUbuntu 12.1

2020-10-05 21:33:15

隱私數(shù)據(jù)匿名數(shù)據(jù)安全

2025-04-03 09:10:00

數(shù)據(jù)匿名化數(shù)據(jù)保護(hù)數(shù)據(jù)安全

2010-06-30 15:57:23

匿名FTP

2011-02-25 10:48:04

Proftpf

2013-02-26 17:32:36

2009-08-10 17:25:58

C#匿名類(lèi)型

2023-11-01 16:55:27

Golang匿名函數(shù)

2009-09-10 14:37:57

LINQ匿名類(lèi)型

2009-09-14 15:50:52

Linq匿名委托類(lèi)型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)