谷歌、蘋果、英特爾們的“醫(yī)療數(shù)據(jù)隱私保衛(wèi)戰(zhàn)”:三種AI技術你最傾向哪一個?
人工智能有希望改變(事實上已經(jīng)改變了)現(xiàn)有的一些行業(yè),但隱私問題仍是一個懸而未決的挑戰(zhàn)。
此前,英國的NHS基金會被曝出,在沒有經(jīng)過160萬名患者的同意下公布了DeepMind的數(shù)據(jù)。但是,從全世界范圍來看,數(shù)據(jù)隱私尤其是醫(yī)療數(shù)據(jù)的隱私保護問題,并不是一個新鮮的話題。
去年11月,Google與Ascension的健康數(shù)據(jù)共享合作伙伴關系成為了審查的對象,該公司放棄了公布胸部X光掃描圖的計劃,原因是擔心這些掃描圖中含有個人身份信息。
去年夏天,微軟悄悄地刪除了一個擁有超過1000萬張用戶圖片的數(shù)據(jù)集(MS Celeb),此前有消息稱,這些人并不知道他們被包括在內。
另外,一些報告揭露了包括蘋果和谷歌在內的科技巨頭為改進Siri和Google Assistant等可能非法使用收集的錄音。今年4月,Bloomberg披露,亞馬遜雇傭合同工對Alexa供電設備數(shù)千小時的音頻進行注釋,促使亞馬遜推出面向用戶的工具來快速刪除云存儲的數(shù)據(jù)。
隱私不僅僅是一個倫理問題,而且是商業(yè)過程中的博弈。美國的州、地方和聯(lián)邦各級的法律旨在將隱私權作為法規(guī)管理的強制性內容。美國50個州、地區(qū)和哥倫比亞特區(qū),數(shù)百項涉及隱私、網(wǎng)絡安全和數(shù)據(jù)泄露的法案正在等待或已經(jīng)通過。
可以說,其中最全面的一項——《加州消費者隱私法》——大約在兩年前已成為法律,這還不包括《健康保險可攜帶性和責任法案》(HIPAA)。該法案要求公司在披露個人健康信息之前必須獲得授權。而像歐盟一般隱私數(shù)據(jù)保護條例(GDPR)這樣的國際規(guī)定,其目的在于讓消費者對個人數(shù)據(jù)的收集和使用有更大的控制權。
回顧人工智能技術的發(fā)展歷史,我們可以看到,隱私問題并沒有被當成一把懸在頭上的“達摩克利斯之劍”。但是機器學習的一個分支——保護隱私的機器學習——試圖探索可能防止個人識別數(shù)據(jù)泄露的方法。而聯(lián)邦學習、微分隱私和同態(tài)加密被認為是最有前景的三種技術。
神經(jīng)網(wǎng)絡的“漏洞”
大多數(shù)人工智能系統(tǒng)的核心是神經(jīng)網(wǎng)絡,它由層層排列的功能神經(jīng)元組成,神經(jīng)元將信號傳遞給其他神經(jīng)元。這些信號輸入到網(wǎng)絡中,從一層傳遞到另一層,并緩慢地“調整”網(wǎng)絡,實際上調整了每個連接的突觸強度(權重)。隨著時間的推移,網(wǎng)絡從數(shù)據(jù)集中提取特征并識別交叉樣本,最終做出預測。
神經(jīng)網(wǎng)絡不會直接處理原始圖像、視頻、音頻或文本。訓練語料庫中的樣本通過數(shù)學轉換成多維數(shù)組,如標量(單個數(shù)字)、向量(標量的有序數(shù)組)和矩陣(標量排列成一列或多列和一行或多列)。第四種實體類型,封裝標量、向量和矩陣形成張量添加到有效線性轉換(或關系)中。
盡管存在這些轉換,但通??梢詮纳窠?jīng)網(wǎng)絡的輸出中識別出敏感信息,數(shù)據(jù)集本身也易受攻擊,因為它們通常不會被打亂,而且存儲在易受數(shù)據(jù)泄露攻擊的集中存儲庫中。
到目前為止,最常見的機器學習逆向工程為成員推斷攻擊,攻擊者使用單個數(shù)據(jù)點或多個數(shù)據(jù)點來確定它是否屬于訓練目標模型的語料庫。事實證明,從數(shù)據(jù)集中刪除敏感信息并不意味著無法重新推斷,因為人工智能特別擅長重新創(chuàng)建樣本。除非使用隱私保護技術,訓練后的模型包含了所有訓練集的信息。
Wisconsin大學和Marshfield臨床研究學會的研究人員能夠從一個被訓練用于預測藥物劑量機器學習模型中提取患者的基因組信息。
而在另一項研究中,卡內基梅隆大學和Wisconsin-Madison大學的研究人員成功地從用來進行面部識別的訓練模型中重建了頭部拍攝圖像。
一個更復雜的數(shù)據(jù)提取攻擊方法使用生成性對抗網(wǎng)絡,或GANs,由兩部分人工智能系統(tǒng)組成,分別是生成樣本的生成器和區(qū)分生成樣本和真實樣本的鑒別器組成。他們被訓練生成與原始語料庫中的樣本非常相似的樣本,而無需接觸原始樣本,并通過與有辨別力的深層神經(jīng)網(wǎng)絡交互來學習數(shù)據(jù)的分布。
2017年,研究人員證明,GANs可以被訓練來產(chǎn)生私有數(shù)據(jù)集集的原始樣本,從中揭示敏感信息。在另一項研究中,一個團隊使用GANs來推斷用于訓練圖像生成機器學習模型的樣本,在“白盒”設置中,他們可以訪問目標模型的參數(shù)(例如AI技術用來擬合數(shù)據(jù)的變量),成功率高達100%。
幸運的是,像聯(lián)邦學習和微分隱私這樣的方法是有希望保護數(shù)據(jù)隱私的。
聯(lián)邦學習
聯(lián)邦學習是今年AI領域的熱詞之一,多位學術大咖和企業(yè)界的研究者都對這種方法表示看好。
簡單地說,聯(lián)邦學習是一種采用分布式設備或服務器(即節(jié)點)訓練人工智能算法的技術,這些設備或服務器保存數(shù)據(jù)樣本,而不交換這些樣本,使各個節(jié)點能夠在不共享數(shù)據(jù)的情況下構建通用的機器學習模型。這與傳統(tǒng)的分布式方法不同,后者假設本地數(shù)據(jù)樣本分布廣泛。
中央服務器可用于安排算法的執(zhí)行步驟并充當參考時鐘,或者執(zhí)行步驟可能是對等的(在這種情況下,不存在中央服務器)。不管怎樣,局部模型都是在局部數(shù)據(jù)樣本上訓練的,并且在模型之間以一定的頻率交換權值以生成全局模型。
這是一個迭代過程,被分解成一組聯(lián)合學習輪次的交互,其中每輪都將當前全局模型狀態(tài)傳輸?shù)絽⑴c節(jié)點。在節(jié)點上訓練局部模型,每個節(jié)點上生成一組可能的模型更新,然后將局部更新聚合并處理為單個全局更新,并應用于全局模型。
谷歌最早探索了聯(lián)邦學習的方法,并且已經(jīng)將其部署到生產(chǎn)中。雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))了解到,谷歌在其“數(shù)千萬”iOS和Android設備的Gboard預測鍵盤中使用它進行個性化。在Pixel4發(fā)布的同時,谷歌推出了一個改進版的“正在播放的音樂識別”功能,該功能以聯(lián)合方式聚合歌曲的播放次數(shù),按地區(qū)識別最受歡迎的歌曲,以提高識別率。
據(jù)雷鋒網(wǎng)了解,谷歌最近推出了一個名為TensorFlow federed的TensorFlow機器學習框架模塊,該模塊旨在更容易在分布式數(shù)據(jù)上進行深度學習和其他計算。
當然,沒有哪種技術是完美的;聯(lián)邦學習需要在學習過程中進行節(jié)點間頻繁的通信。為了使機器學習模型能夠交換參數(shù),它們需要大量的處理能力和內存。其他挑戰(zhàn)包括無法檢查訓練示例,以及由于人工智能模型僅在供電和傳輸參數(shù)方法可用時才能訓練造成的偏差。
微分隱私
聯(lián)邦學習與微分隱私密切相關,微分隱私是一種通過描述語料庫中組的模式而公開共享數(shù)據(jù)集信息的系統(tǒng),同時保留個人的數(shù)據(jù)。它通常需要在原始數(shù)據(jù)輸入到本地機器學習模型之前向其注入少量噪聲,這樣竊取數(shù)據(jù)者就很難從訓練模型中提取原始數(shù)據(jù)。
直觀地說,如果一個觀察者看不到某個特定個體的信息是否被用于計算,那么這個算法可以被認為是微分隱私的。微分隱私的聯(lián)合學習過程允許節(jié)點共同學習一個模型,同時隱藏任何節(jié)點所持有的數(shù)據(jù)。
開源的TensorFlow庫TensorFlow Privacy基于微分隱私方法。具體地說,它使用改進的隨機梯度下降方法來調參,該梯度下降將訓練數(shù)據(jù)引起的多個更新平均起來,剪切每個更新,并將噪聲添加到最終平均值。
這就防止了對少數(shù)細節(jié)的記憶,并更加保險,即兩種機器學習模型無法區(qū)分一個人的數(shù)據(jù)是否用于他們的訓練。
自2017年以來,蘋果一直在使用微分隱私來識別流行的表情符號、Safari中的媒體播放偏好等,該公司在最新的移動操作系統(tǒng)版本(iOS 13)中將其與聯(lián)邦學習相結合。這兩種技術都有助于改善Siri的結果,以及蘋果QuickType鍵盤和iOS等應用程序的apps功能。后者掃描日歷和郵件應用程序以查找聯(lián)系人和呼叫者的姓名,這些聯(lián)系人和呼叫者的號碼不存儲在本地。
Nvidia和倫敦國王學院的研究人員最近利用聯(lián)邦學習訓練了一種用于腦腫瘤分割的神經(jīng)網(wǎng)絡,Nvidia聲稱這是醫(yī)學圖像分析的第一個里程碑。他們的模型使用了來自BraTS(多模式腦腫瘤分割)挑戰(zhàn)的285名腦腫瘤患者數(shù)據(jù)集,與Google和Apple采取的方法一樣,該模型利用微分隱私為該數(shù)據(jù)庫添加噪音。
Nvidia高級研究員Nicola Rieke在之前的一次采訪中說到:“通過這樣的方式每個參與節(jié)點存儲更新,并限制我們在機構之間實際共享的信息的粒度。”如果50%或60%模型進行更新,我們還能以全局模型聚合的方式合并更新嗎?我們發(fā)現(xiàn)“是的,我們可以。”這真是振奮人心的結果。甚至只共享模型的10%,也可以聚合模型。”
當然,微分隱私也不是完美的。注入底層數(shù)據(jù)、輸入、輸出或參數(shù)中的任何噪聲都會影響整個模型的性能。在一項研究中,在訓練數(shù)據(jù)集中加入噪聲后,作者注意到預測精度從94.4%下降到24.7%。另一種保護隱私的機器學習技術——同態(tài)加密——沒有這些缺點,但它離完美也還很遠。
同態(tài)加密
同態(tài)加密并不是什么新鮮事,IBM研究員克雷格·根特里(Craig Gentry)在2009年開發(fā)了第一個方案。
但近年來,隨著計算能力和效率的提高,同態(tài)加密得到了廣泛的應用。它本質上是一種密碼學形式,允許對使用算法加密的明文(文件內容),也稱為密文,進行計算,使生成的加密結果與對未加密文本執(zhí)行的操作結果完全匹配。
使用這種技術,一個“加密網(wǎng)”(例如,任何可以應用于加密數(shù)據(jù)的學習神經(jīng)網(wǎng)絡)可以對數(shù)據(jù)執(zhí)行計算,并將加密結果返回給某個客戶端,然后客戶端可以使用加密密鑰(不公開共享)來解密返回的數(shù)據(jù)并獲得實際結果。
英特爾物聯(lián)網(wǎng)集團副總裁Jonathan Ballon今年早些時候接受VentureBeat 采訪時說:“如果發(fā)送核磁共振圖像,我希望我的醫(yī)生能夠立即看到,但其他人看不到。“
同態(tài)加密可以做到這一點。此外,模型本身也是加密的。所以公司可以把這個模型放在公共云上,而云提供商不知道他們的模型是什么樣子的。“實際上,同態(tài)加密庫還沒有充分利用現(xiàn)代硬件,而且至少比傳統(tǒng)模型慢一個數(shù)量級。但是像cuHE這樣的新項目,一個加速的加密庫,聲稱在各種加密任務上比以前實現(xiàn)快12到50倍的加速。
此外,像PySyft和tf-encrypted這樣的圖書館——它們分別建立在Facebook的PyTorch和TensorFlow機器學習框架上——在最近幾個月取得了長足的進步。有像HE Transformer這樣的抽象層,它是nggraph(Intel's neural network compiler)的后端,可以在一些密碼網(wǎng)絡上提供領先的性能。
事實上,就在幾個月前,英特爾的研究人員提出了nGraph-HE2,它是HE-Transformr 的繼承者,它可以利用自身的激活函數(shù)對標準的、預先訓練的機器學習模型進行推理。他們在一篇論文中報告說,其運行時標量編碼(將一個數(shù)值編碼成一個比特數(shù)組)的速度要快3倍到88倍,吞吐量要翻一番,此外,額外的乘法和加法優(yōu)化使運行時的速度進一步提高了2.6倍至4.2倍。
IBM高級研究科學家Flavio Bergamaschi研究了使用邊緣硬件實現(xiàn)同態(tài)加密操作的方法。
在最近的一項研究中,他和同事在一個裝備了人工智能攝像頭的設備上部署了一個本地同態(tài)數(shù)據(jù)庫,使得搜索能夠直接在該攝像頭上進行。他們報告說,這是“同態(tài)加速”的性能,每個數(shù)據(jù)庫條目的查找僅需1.28秒,這相當于5分鐘內查詢200條條目。
他在最近的一次電話采訪中表示:“我們正處于性能轉折點。目前完全同態(tài)加密在性能上足夠快,足夠滿足某些用例。”
在生產(chǎn)方面,Bergamaschi和他的團隊與一個美國銀行客戶合作,使用同態(tài)技術對機器學習過程進行加密。這個機器學習過程是一個線性回歸模型,有十幾個變量,分析了24個月當前賬戶持有人的交易數(shù)據(jù),以預測這些賬戶的財務狀況,部分原因是為了推薦貸款等產(chǎn)品。
出于客戶的隱私和遵從性的考慮,IBM團隊加密了現(xiàn)有模型和所使用的事務數(shù)據(jù),并且他們使用加密和未加密的模型進行預測以比較性能。雖然前者跑得比后者慢,但準確度是一樣的。
“這是很重要的一點。如果我們沒有任何預測模型,我們可以獲取交易數(shù)據(jù),并在運營中執(zhí)行新模型的訓練。”Bergamaschi說。
對同態(tài)加密的研究熱情催生了一個將其引入商業(yè)的創(chuàng)業(yè)公司。
總部位于新澤西州紐瓦克的Duality Technologies最近得到了英特爾風險投資部門的投資,將其同態(tài)加密平臺定位為“眾多”企業(yè)(尤其是被監(jiān)管行業(yè)中的企業(yè))的隱私保護解決方案。銀行可以跨機構進行隱私保護的金融犯罪調查,該公司的銷售宣傳也是如此,而科學家可以利用它來研究基于患者就醫(yī)記錄的問題。
但是像聯(lián)邦學習和微分隱私一樣,同態(tài)加密也不是沒有缺點的。即使是領先的技術也只能計算多項式函數(shù)——對于機器學習中許多非多項式的激活函數(shù)來說,這是一個非標準函數(shù)。另外,對加密數(shù)據(jù)的操作只能涉及整數(shù)的加法和乘法,這在學習算法需要浮點計算的情況下是一個挑戰(zhàn)。
巴倫說:“在你可以用10秒來進行推斷的項目里,同態(tài)加密也可以,但是如果你今天只有3毫秒的周轉時間,那就沒有辦法了。”“計算量太高,這要追溯到工程領域。”
自2014年以來,Bergamaschi和他的同事們一直在試驗加速同態(tài)運算的硬件方法。從歷史上看,帶寬一直是最大的絆腳石——雖然加速器單獨產(chǎn)生了強大的基準性能,但總體上并不能產(chǎn)生強大的系統(tǒng)性能。這是因為執(zhí)行操作所需的數(shù)據(jù)需要處理器和加速器之間的大量帶寬。
解決方案可能在于更有效地利用處理器上存儲的技術。韓國高級科學技術研究所的研究人員發(fā)表的一篇論文主張,對所有正常和安全的數(shù)據(jù)使用組合緩存,并對安全處理器和緩存插入模塊使用內存調度和映射方案。
他們說,綜合起來,在典型的8核和16核安全處理器中,這兩種方法可以將加密性能的下降從25%-34%降低到8%-14%以下,同時將額外的硬件成本降到最低。
保護數(shù)據(jù)隱私——任重而道遠
新技術或許可以解決人工智能和機器學習中固有的一些隱私問題,但它們還處于初級階段,并非沒有弱點。
聯(lián)邦學習在分布式服務器上訓練算法,而不需要交換數(shù)據(jù)樣本,但是在功率、計算和互聯(lián)網(wǎng)的波動下很難檢查和控制。
微分隱私,在保存?zhèn)€人信息時暴露數(shù)據(jù)集的信息,由于注入噪聲而導致準確性下降。
至于同態(tài)加密—一種允許對加密數(shù)據(jù)進行計算的加密形式——它有點慢,計算量也很高。
不過,像巴倫這樣的人相信,這三種方法都是朝著正確方向邁出的一步。“這與從HTTP到HTTPS非常相似。”Ballon說,“總有一天,我們將擁有使機器學習中的隱私無懈可擊的工具和能力,但我們還沒有完全實現(xiàn)。”
本文轉自雷鋒網(wǎng),如需轉載請至雷鋒網(wǎng)官網(wǎng)申請授權。