自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="jfnrg"><rp id="jfnrg"><form id="jfnrg"></form></rp></cite>

<style id="jfnrg"></style>

<style id="jfnrg"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

數(shù)據(jù)科學(xué)：合成數(shù)據(jù)如何解決匿名化問題？

作者：張曉藝 2019-10-23 19:33:24

大數(shù)據(jù)

現(xiàn)在，隨著GDPR的生效，企業(yè)在保護(hù)數(shù)據(jù)時(shí)必須格外小心。傳統(tǒng)匿名通常不是真正的匿名，最終個(gè)人身份是可以識(shí)別的。對(duì)數(shù)據(jù)添加額外級(jí)別匿名化的一種方法是引入合成數(shù)據(jù)。

現(xiàn)在，隨著GDPR的生效，企業(yè)在保護(hù)數(shù)據(jù)時(shí)必須格外小心。傳統(tǒng)匿名通常不是真正的匿名，最終個(gè)人身份是可以識(shí)別的。對(duì)數(shù)據(jù)添加額外級(jí)別匿名化的一種方法是引入合成數(shù)據(jù)。

自歐盟范圍內(nèi)的數(shù)據(jù)監(jiān)管規(guī)定GDPR于2018年5月生效以來，許多在歐盟有業(yè)務(wù)的企業(yè)可能會(huì)對(duì)其侵權(quán)處罰感到擔(dān)憂，這可導(dǎo)致高達(dá)全球年?duì)I業(yè)額4%的罰款。

上個(gè)月，英國(guó)航空公司(British Airways)和萬豪國(guó)際(Marriott International)分別被處以令人咋舌的罰款(分別為1.83億英鎊和1億英鎊)，想必各大企業(yè)應(yīng)該都知道數(shù)據(jù)泄露意味著什么。對(duì)于銀行和金融機(jī)構(gòu)等處理大量個(gè)人數(shù)據(jù)的大型企業(yè)來說，這尤其令人生畏。

我們都知道“數(shù)據(jù)是新的石油”這個(gè)說法，現(xiàn)代企業(yè)需要利用客戶數(shù)據(jù)來更好地了解客戶，同時(shí)訓(xùn)練人工智能和機(jī)器學(xué)習(xí)算法。但現(xiàn)在，為了避免數(shù)據(jù)泄露，許多企業(yè)都將自己的數(shù)據(jù)嚴(yán)格控制，并對(duì)誰能在何時(shí)獲取這些數(shù)據(jù)制定了嚴(yán)格的程序。盡管這是數(shù)據(jù)隱私的一個(gè)積極趨勢(shì)，但它仍然限制了組織的數(shù)據(jù)靈活性和創(chuàng)新能力。

傳統(tǒng)匿名化的問題

聰明一點(diǎn)的企業(yè)現(xiàn)在正在尋找新的隱私增強(qiáng)技術(shù)，以便在數(shù)據(jù)效用和安全性之間取得平衡，有很多企業(yè)現(xiàn)在在“匿名”數(shù)據(jù)集上運(yùn)行數(shù)據(jù)密集型流程(例如測(cè)試和數(shù)據(jù)分析)。

匿名化技術(shù)多種多樣，但最常用的方法之一是一般化，即將數(shù)據(jù)點(diǎn)的特殊性(如客戶的完整家庭地址)更改為更廣泛的數(shù)據(jù)點(diǎn)(如客戶的地區(qū)或城市)。通過犧牲數(shù)據(jù)集中一定程度的實(shí)用功能，確保數(shù)據(jù)集中的個(gè)人是匿名的、不可識(shí)別的。

匿名化變得如此流行的原因之一是，GDPR并不適用于匿名化的個(gè)人數(shù)據(jù)。但更令人擔(dān)憂的是，最近的研究表明，目前使用的大量匿名化在掩蓋一個(gè)人的身份方面效果很差。在絕大多數(shù)情況下，機(jī)器學(xué)習(xí)模型可以重新識(shí)別個(gè)人。

所以，實(shí)際上你并不需要個(gè)人的詳細(xì)信息來識(shí)別他們。因此，傳統(tǒng)的匿名化技術(shù)根本達(dá)不到要求。

復(fù)雜的合成數(shù)據(jù)

在綜合數(shù)據(jù)集中，每個(gè)數(shù)據(jù)點(diǎn)都屬于完全理論化的個(gè)體，有自己的名字、年齡、地址、銀行賬號(hào)、稅務(wù)記錄、醫(yī)療記錄，以及數(shù)據(jù)分析所需的任何其他細(xì)節(jié)。從歷史上看，這些數(shù)據(jù)的主要問題是很難生成足夠高質(zhì)量的合成數(shù)據(jù)，以滿足高級(jí)數(shù)據(jù)科學(xué)的需要。

然而這些情況都會(huì)隨著人工智能和機(jī)器學(xué)習(xí)的發(fā)展而改變。通過在“真實(shí)”數(shù)據(jù)上訓(xùn)練算法，我們現(xiàn)在可以生成保留原始數(shù)據(jù)所有底層統(tǒng)計(jì)信息的合成數(shù)據(jù)集，但個(gè)人或可識(shí)別信息為零。

一個(gè)簡(jiǎn)單的方法是通過Nvidia生成對(duì)抗網(wǎng)絡(luò)(GANs)的方法，這是This Person Does Not Exist網(wǎng)站背后所用的技術(shù)。該網(wǎng)站利用真實(shí)的名人面孔數(shù)據(jù)集來生成不存在的人的超現(xiàn)實(shí)圖像。本質(zhì)上，這是合成數(shù)據(jù)，每個(gè)人都有許多可以分析的屬性(例如眼睛的顏色、頭發(fā)的顏色、膚色)，但是這些數(shù)據(jù)不能被破壞，因?yàn)樗鼈儾粚儆谡鎸?shí)的人。

如果將這項(xiàng)技術(shù)應(yīng)用于客戶數(shù)據(jù)，您就可擁有可以在整個(gè)數(shù)據(jù)科學(xué)團(tuán)隊(duì)中共享的數(shù)據(jù)，并用于各種建模，不需要過多的管理，也沒有隱私風(fēng)險(xiǎn)。同時(shí)，您的“真實(shí)”客戶數(shù)據(jù)可以存儲(chǔ)在一個(gè)安全的服務(wù)器上，很少有人需要訪問它。

寫在最后

隨著越來越多的企業(yè)希望采用綜合數(shù)據(jù)策略，毫無疑問，所有行業(yè)都將產(chǎn)生連鎖反應(yīng)。配備有必要的工具才能釋放其數(shù)據(jù)潛力，組織將可以利用他們的客戶數(shù)據(jù)，同時(shí)避免風(fēng)險(xiǎn)和承擔(dān)責(zé)任。

有了數(shù)據(jù)科學(xué)和先進(jìn)的機(jī)器學(xué)習(xí)以及各種各樣的新技術(shù)，數(shù)據(jù)經(jīng)濟(jì)即將被重塑，數(shù)據(jù)創(chuàng)新的新時(shí)代即將到來。

社交媒體的出現(xiàn)給人工智能領(lǐng)域帶來了巨大的飛躍，但很少有人關(guān)注數(shù)據(jù)的安全。現(xiàn)在，有了合成數(shù)據(jù)，我們可以沿著數(shù)據(jù)科學(xué)的道路繼續(xù)前進(jìn)。但這一次，在堅(jiān)持規(guī)則的同時(shí)，也需要更謹(jǐn)慎地謹(jǐn)慎對(duì)待數(shù)據(jù)。

責(zé)任編輯：未麗燕來源： IT168

數(shù)據(jù)科學(xué)保護(hù)數(shù)據(jù)匿名化

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<blockquote id="ik04x"></blockquote>}

<sub id="ik04x"><rt id="ik04x"></rt></sub>