關(guān)于GDPR,數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師需要知道些什么
本文要點即將于2018年5月生效的GDPR將會改變企業(yè)收集和管理數(shù)據(jù)的方式。
- 違反條例可能遭到罰款,罰款***相當于整個企業(yè)利潤的4%。
- GDPR主要圍繞數(shù)據(jù)的收集、數(shù)據(jù)的可見性和數(shù)據(jù)的使用限制。
- 新的工具、框架和數(shù)據(jù)管理方式需要通過最基本的“GDPR測試”,以免違反條例。
- GDPR為數(shù)據(jù)管理策略的現(xiàn)代化和數(shù)據(jù)科學(xué)應(yīng)用的強化帶來了契機。
歐盟***隱私條例的推出,給企業(yè)的數(shù)據(jù)管理帶來了更多的挑戰(zhàn)。新條例將會給所有使用數(shù)據(jù)的應(yīng)用程序帶來深遠的影響。
歐盟的通用數(shù)據(jù)保護條例(General Data Protection Regulation,GDPR)將會在2018年5月25日生效。如果企業(yè)違反條例,***需要付出4%的利潤作為罰款。因此,GDPR可以說是世界上罰款最重的數(shù)據(jù)條例。
從理論上說,GDPR只對歐盟地區(qū)的“個人數(shù)據(jù)”有效,但實際上,任何能夠用于識別個人的數(shù)據(jù)都適用該條例。也就是說,任何歐盟地區(qū)的數(shù)據(jù)都在GDPR的管轄范圍之內(nèi),因為研究表明,只要數(shù)據(jù)足夠多,到***都有可能關(guān)聯(lián)到與數(shù)據(jù)主體。舉個例子,最近有一組研究人員使用蜂窩位置數(shù)據(jù)(比如某一時間點某個信號塔覆蓋到的用戶數(shù))——理論上這些數(shù)據(jù)都是匿名的——定位到個人的位置軌跡,準確率高達73%到91%。
那么,那些在企業(yè)中負責收集、組織和使用數(shù)據(jù)的數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師們應(yīng)該如何看待GDPR?他們應(yīng)該如何調(diào)整他們的數(shù)據(jù)策略?
關(guān)于GDPR,你需要知道些什么
從高層面來看,GDPR主要關(guān)注三個方面的問題:數(shù)據(jù)收集管理、數(shù)據(jù)可見性和數(shù)據(jù)使用限制。
收集管理涉及到如何管理數(shù)據(jù)和如何收集數(shù)據(jù)。GDPR要求在進行數(shù)據(jù)收集時,隱私是首要的考慮因素。例如,條例中有很多限制條件與數(shù)據(jù)主體的授權(quán)有關(guān),也就是說,企業(yè)在收集數(shù)據(jù)時,需要讓數(shù)據(jù)主體知道,并獲得他們的同意。換言之,在企業(yè)收集用戶的數(shù)據(jù)時,用戶需要知道企業(yè)為什么要收集數(shù)據(jù),這一點是重中之重。
數(shù)據(jù)可見性是指了解企業(yè)持有哪些數(shù)據(jù)以及將持有多長時間?,F(xiàn)如今,大多數(shù)企業(yè)都意識到數(shù)據(jù)就是“寶藏”,他們竭盡所能地收集數(shù)據(jù)。但大部分企業(yè)對他們所持有的數(shù)據(jù)并不了解,或者不知道該把它們存在哪里,或者在保存好以后不知道數(shù)據(jù)的來源是哪里。
在Immuta,我們通常把這看成是合規(guī)和IT架構(gòu)問題,我們有數(shù)據(jù)孤島和不同的團隊,數(shù)據(jù)庫管理員負責管理各類數(shù)據(jù)。在GDPR出臺之后,這種方式就不符合規(guī)范了。如果有用戶要求刪除他們的數(shù)據(jù)(這個是經(jīng)常被“遺忘”的用戶權(quán)利),企業(yè)就要找到這些數(shù)據(jù),并刪除它們。GDPR中例舉了相關(guān)的例子。
***,也是最重要的一點,數(shù)據(jù)使用限制指的是企業(yè)必須基于使用意圖來使用數(shù)據(jù)。例如,如果一個用戶只同意將數(shù)據(jù)用于“營銷”,那么企業(yè)就必須遵循這樣的限制。GDPR列出了六個合理的使用意圖,企業(yè)可以在GDPR允許的范圍內(nèi)制定自己的使用意圖。這個指南為企業(yè)提供了15個使用數(shù)據(jù)的建議。對于企業(yè)來說,遵循數(shù)據(jù)使用意圖是最為重要也是***的挑戰(zhàn)。
如果通過基本的GDPR測試我們先假設(shè)GDPR已經(jīng)生效,歐盟當局開始強制執(zhí)行該條例。
實際上,在寫這篇文章的時候,GDPR還有很多模棱兩可的地方,在接下來的幾個月(甚至是幾年),條例制定者還會對其進行調(diào)整。也就是說,在條例正式生效那天,條例制定者們并不會指望能夠達到100%的合規(guī)性。他們期待的是人們能夠以一種合理、嚴肅的態(tài)度和努力來遵守條例。
通過基本的“GDPR測試”意味著什么?
這意味著企業(yè)需要展示他們的合規(guī)性——了解收集的數(shù)據(jù),了解數(shù)據(jù)的使用意圖,并向條例制定者和數(shù)據(jù)主體證明自己能夠做到這些。
更具體地說,企業(yè)收集的數(shù)據(jù)至少需要加入一些元數(shù)據(jù),比如“意圖”和“收集時間”。這樣就可以更好地跟蹤數(shù)據(jù)的使用,并嚴格遵守數(shù)據(jù)的保留時間。也就是說,在持有數(shù)據(jù)一段時間之后,需要刪除或隱匿這些數(shù)據(jù)。
如果企業(yè)能夠在這些方面展示他們的合規(guī)性,從數(shù)據(jù)收集、使用到刪除,他們對數(shù)據(jù)有充分的了解,知道該持有數(shù)據(jù)多長時間,知道數(shù)據(jù)的使用意圖,并且符合GDPR的每一項要求,那么他們就可以順利地通過基本的“GDPR測試”。
GDPR下的機遇
在聰明的企業(yè)看來,GDPR不只是一組新準則而已。那些以數(shù)據(jù)為驅(qū)動的敏捷企業(yè)把GDPR看成是一種機遇,他們會重新思考他們的整體框架,以便更好地收集和使用數(shù)據(jù)。
以亞馬遜和谷歌這樣的科技巨頭為例,他們的關(guān)鍵差異在于如何收集和使用數(shù)據(jù)。這些不是事后才來考慮的事情,而是需要進行謹慎的前期規(guī)劃。擁有正確的數(shù)據(jù)才能讓他們在營銷、零售等方面無往不勝。
事實上,教科文獻早就證實,好的監(jiān)管會帶來更好的產(chǎn)出,在數(shù)據(jù)管理方面也是如此。更好、更長遠的數(shù)據(jù)洞見要求在數(shù)據(jù)的收集和銷毀方面進行深思熟慮和謹慎的計劃。
GDPR讓數(shù)據(jù)科學(xué)家明白了他們能夠訪問和使用哪些數(shù)據(jù),這或許就是GDPR為我們帶來的主要機遇之一。我一直覺得“數(shù)據(jù)科學(xué)家”更像是“數(shù)據(jù)清道夫”——大多數(shù)數(shù)據(jù)科學(xué)家大部分時間都是在查找他們需要的數(shù)據(jù)上,然后訪問這些數(shù)據(jù),把它們轉(zhuǎn)換到恰當?shù)臓顟B(tài),然后使用它們。
但這種狀況會導(dǎo)致大量的時間和資源的浪費。數(shù)據(jù)科學(xué)家并不是被請來做數(shù)據(jù)清道夫的,也不是為企業(yè)的數(shù)據(jù)策略做一次性解決方案的。他們的職責應(yīng)該是從數(shù)據(jù)中挖掘洞見,這也是他們擅長的事情,這也就是為什么企業(yè)高薪聘請他們。
在組織中制定全盤的數(shù)據(jù)策略,并集中管理數(shù)據(jù),數(shù)據(jù)科學(xué)家們就可以脫身出來做他們擅長的事情,從而讓公司發(fā)展得更快,變得更高效和靈活。
GDPR實施之后會發(fā)生什么?
我們需要以全新的方式來看待數(shù)據(jù),隨著新規(guī)則的出現(xiàn),它會變得越來越重要。事實上,不管是土耳其、中國還是其他國家,數(shù)據(jù)變得越來越規(guī)范,對于以數(shù)據(jù)作為驅(qū)動的企業(yè)來說,數(shù)據(jù)管理變得越來越重要,也是***的挑戰(zhàn)之一。
以下是幾點有關(guān)未來數(shù)據(jù)管理的洞見:
- 數(shù)據(jù)湖不復(fù)存在。通常在說到數(shù)據(jù)管理時,企業(yè)的***直覺是將所有數(shù)據(jù)放到一個地方,以此來解決所有的問題。如果是出于處理數(shù)據(jù)的目的(比如Spark),這樣做是可以的。但說到數(shù)據(jù)監(jiān)管和數(shù)據(jù)發(fā)現(xiàn),數(shù)據(jù)湖就會成為問題。隨著數(shù)據(jù)的不斷加入、數(shù)據(jù)存儲工具的不斷出現(xiàn)以及底層IT架構(gòu)的演進,數(shù)據(jù)湖會變成數(shù)據(jù)池塘,然后是數(shù)據(jù)沼澤。在未來,你可能需要通過集中存儲數(shù)據(jù)來解決數(shù)據(jù)管理問題。
- 多元化是你的好朋友。在大型組織中,以標準化的方式來存儲數(shù)據(jù)是幾乎不可能的,我建議要長遠地考慮數(shù)據(jù)管理問題。你將會擁有多元化的數(shù)據(jù)存儲系統(tǒng)和數(shù)據(jù)工具——事實上,多元化是不可避免的。一旦你意識到標準化并非你的***,就要想想多元化,它才是數(shù)據(jù)管理策略的核心。
- 進行審計。如果你不進行審計,就無法向條例制定者證明你的數(shù)據(jù)管理框架符合條例的要求。所以,要確保自己具有集中式的審計能力,創(chuàng)建審計報告是數(shù)據(jù)管理策略的一個關(guān)鍵組件。另外,在必要時需要對審計進行測試。企業(yè)通常認為他們?yōu)閷徲嬎占臄?shù)據(jù)是正確的,但經(jīng)常會出現(xiàn)錯誤,而一旦發(fā)現(xiàn)出問題就為時已晚。
關(guān)于GDPR之下的未來數(shù)據(jù)管理框架還有很多可以說的。對于企業(yè)來說,最為關(guān)鍵的是,數(shù)據(jù)管理不再只是數(shù)據(jù)策略中可有可無的一個組件。數(shù)據(jù)科學(xué)在企業(yè)中的重要性與日俱增,隨著數(shù)據(jù)條例的出臺,企業(yè)需要越來越重視數(shù)據(jù)管理。