大數(shù)據(jù)時代不可能匿名
大數(shù)據(jù)時代的匿名化并非100%
普林斯頓的計算機(jī)科學(xué)家艾文德奈瑞 · 亞南,曾在2006年發(fā)表的一篇文章中稱,在本該匿名的互聯(lián)網(wǎng)電影數(shù)據(jù)中,Netflix用戶的各種租借歷史數(shù)據(jù)卻能在交叉引用過程中被泄露。亞南登在7月9日的一份報告中稱,匿名化支持者們(認(rèn)為匿名化可行的人)也許還沒預(yù)感到當(dāng)下大數(shù)據(jù)中的危險漏洞。
不管是理論上還是實踐中,匿名化的作用并不大。那些認(rèn)為匿名化很安全的人,其實是在營造一種“偽安全感”,嚴(yán)重低估了那些數(shù)據(jù)駭客的威脅力,他們很有可能從大數(shù)據(jù)中竊取到個人信息。
個人地理位置數(shù)據(jù)并未被隱藏
一份2013年的報告稱,從人們的手機(jī)中收集到的龐大數(shù)據(jù)組中看來,95%的手機(jī)用戶能被監(jiān)測到,因為他們在網(wǎng)上總會留下登錄痕跡,實時照片分享信息。匿名化專家們會坦白地告訴你,根本沒辦法隱藏用戶的地理位置信息。
數(shù)據(jù)庫防線多么脆弱,專家也無法預(yù)知
在一份11萬3千名病人的醫(yī)療記錄案例研究中,匿名處理專家埃阿曼估計,不到1%的病人數(shù)據(jù)能做到再識別。但,亞南估計超過12%的病人數(shù)據(jù)能被鎖定。襲擊者要在數(shù)據(jù)庫中鎖定目標(biāo)數(shù)據(jù),簡直是輕而易舉。
匿名化很難,而數(shù)據(jù)再識別可永久
數(shù)據(jù)匿名化過程充滿挑戰(zhàn),也容易發(fā)生錯誤。在近期發(fā)表紐約市一億七千三百萬組有關(guān)的士的數(shù)據(jù)中,包括司機(jī)都可能被重新識別出來,因為在駕照上使用的數(shù)據(jù)散列法(一種將字符組成的字符串轉(zhuǎn)換為固定長度的數(shù)值或索引值的方法)也是粗制濫造的。
如果某人的匿名數(shù)據(jù)被公開,那么會一直存在于網(wǎng)上,不會消除。這比起某公司或某應(yīng)用軟件數(shù)據(jù)被入侵要嚴(yán)重的多了 。當(dāng)一家公司的數(shù)據(jù)庫被入侵了,只需要做好安全工作:修復(fù)數(shù)據(jù)漏洞,警報通知各用戶,一切照常進(jìn)行。 但是,這不代表我們要放棄使用數(shù)據(jù),只需放棄被泄露的數(shù)據(jù)賬號即可。
那么,我們要不要砸碎手機(jī),放棄醫(yī)療(醫(yī)療數(shù)據(jù)泄露),直接隱居山林呢?但埃阿曼教授卻不太認(rèn)同,他極力支持匿名化技術(shù),并表示:“亞南稱超過12%的病人數(shù)據(jù)能被鎖定,但他并沒有對單個病人的數(shù)據(jù)進(jìn)行再識別。如果亞南是再識別技術(shù)領(lǐng)域的引領(lǐng)者,那么匿名化是非常可行的。”
這對我們這些處在大數(shù)據(jù)時代中的人來說,是一個大好消息。但是,大數(shù)據(jù)匿名化沒有崩盤,不代表匿名化技術(shù)堅不可摧。