自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

隱私計(jì)算中的聯(lián)邦學(xué)習(xí)

原創(chuàng) 精選
人工智能
聯(lián)邦學(xué)習(xí)正在應(yīng)用到更多類型的數(shù)據(jù)和問題領(lǐng)域,甚至已經(jīng)被認(rèn)為是隱私計(jì)算的重要方式,即面向AI的隱私保護(hù)手段,個(gè)人精力所限,本文沒有涉及聯(lián)邦學(xué)習(xí)中個(gè)性化、健壯性、公平性和系統(tǒng)實(shí)現(xiàn)的挑戰(zhàn)。關(guān)于聯(lián)邦學(xué)習(xí)的實(shí)踐,TensorFlow Federated 或許是一個(gè)不錯(cuò)的起點(diǎn)。

數(shù)據(jù)資產(chǎn)已經(jīng)成為產(chǎn)品和服務(wù)設(shè)計(jì)的關(guān)鍵工具,但是集中采集用戶數(shù)據(jù)會(huì)使個(gè)人隱私面臨風(fēng)險(xiǎn),進(jìn)而使組織面臨法律風(fēng)險(xiǎn)。從2016年開始,人們開始探索如何在用戶隱私保護(hù)下使用數(shù)據(jù)的所有權(quán)和來源,這使得聯(lián)邦學(xué)習(xí)和聯(lián)邦分析成為關(guān)注的熱點(diǎn)。隨著研究范圍的不斷擴(kuò)大,聯(lián)邦學(xué)習(xí)已經(jīng)開始應(yīng)用到物聯(lián)網(wǎng)等更廣泛的領(lǐng)域。

圖片

那么,什么是聯(lián)邦學(xué)習(xí)呢?

聯(lián)邦學(xué)習(xí)是在中心服務(wù)器或服務(wù)提供商的協(xié)調(diào)下,多個(gè)實(shí)體協(xié)作解決機(jī)器學(xué)習(xí)問題的一種機(jī)器學(xué)習(xí)設(shè)置。每個(gè)客戶端的原始數(shù)據(jù)存儲(chǔ)在本地,不進(jìn)行交換或者傳輸; 相反,使用用于即時(shí)聚合的重點(diǎn)數(shù)據(jù)更新來實(shí)現(xiàn)學(xué)習(xí)的目標(biāo)。

類似地,從分散數(shù)據(jù)集的組合信息中產(chǎn)生分析的洞察力,稱為聯(lián)邦分析,在聯(lián)邦學(xué)習(xí)中遇到的場(chǎng)景同樣適用于 聯(lián)邦分析。

本文簡(jiǎn)要介紹了聯(lián)合學(xué)習(xí)和分析中的關(guān)鍵概念,重點(diǎn)介紹了如何將隱私技術(shù)與現(xiàn)實(shí)世界的系統(tǒng)相結(jié)合,以及如何利用這些技術(shù)在新的領(lǐng)域通過匯總統(tǒng)計(jì)數(shù)據(jù)獲得社會(huì)效益,并將個(gè)人和數(shù)據(jù)保管機(jī)構(gòu)的風(fēng)險(xiǎn)降至最低。

圖片

1. 隱私保護(hù)與聯(lián)邦學(xué)習(xí)

隱私本質(zhì)上是一個(gè)多元概念,有三個(gè)關(guān)鍵的組成部分: 透明度和用戶許可; 數(shù)據(jù)最小化; 以及數(shù)據(jù)的匿名化。

透明度和用戶許可是隱私保護(hù)的基礎(chǔ):,它們是用戶理解和認(rèn)可其數(shù)據(jù)使用的方式。隱私保護(hù)技術(shù)不能取代透明度和用戶許可,但是更容易推斷哪種類型的數(shù)據(jù)可以被使用或者被設(shè)計(jì)排除在外 ,從而使隱私聲明更容易理解、驗(yàn)證和執(zhí)行。數(shù)據(jù)使用的目標(biāo)主要是產(chǎn)生聯(lián)邦學(xué)習(xí)的模型和計(jì)算用戶數(shù)據(jù)的度量或其他聚合統(tǒng)計(jì)(如聯(lián)邦分析)。

應(yīng)用于聚合的數(shù)據(jù)最小化包括僅收集特定計(jì)算所需的數(shù)據(jù),限制在所有階段都能對(duì)該數(shù)據(jù)進(jìn)行訪問,盡早處理個(gè)人數(shù)據(jù) ,并最小保留數(shù)據(jù)。也就是說,數(shù)據(jù)最小化意味著將對(duì)所有數(shù)據(jù)的訪問限制在盡可能小的人群中,通常通過安全機(jī)制來實(shí)現(xiàn),例如加密,訪問控制,以及安全多方計(jì)算和可信執(zhí)行環(huán)境等。

數(shù)據(jù)匿名化是指計(jì)算的最終輸出不會(huì)顯示任何個(gè)人獨(dú)有的東西。當(dāng)用于匿名聚合時(shí),任何個(gè)體用戶提供給計(jì)算的數(shù)據(jù)對(duì)最終聚合輸出的影響很小。例如,當(dāng)向公眾發(fā)布聚合統(tǒng)計(jì)數(shù)據(jù)時(shí),包括模型參數(shù)在內(nèi)的聚合統(tǒng)計(jì)數(shù)據(jù)不應(yīng)因聚合中是否包含特定用戶的數(shù)據(jù)而有顯著差異。

也就是說,數(shù)據(jù)最小化涉及計(jì)算的執(zhí)行和數(shù)據(jù)的處理,而數(shù)據(jù)匿名化涉及計(jì)算和發(fā)布的內(nèi)容。

聯(lián)邦學(xué)習(xí)在結(jié)構(gòu)上體現(xiàn)了數(shù)據(jù)最小化。需要注意的是,數(shù)據(jù)收集和聚合在聯(lián)邦方法中是不可分割的,客戶端數(shù)據(jù)被轉(zhuǎn)換收集以便立即聚合,而分析人員無法訪問每個(gè)客戶端的消息。聯(lián)邦學(xué)習(xí)和聯(lián)邦分析是體現(xiàn)數(shù)據(jù)最小化實(shí)踐的一般聯(lián)邦計(jì)算模式的實(shí)例。傳統(tǒng)的方法是集中處理,即用數(shù)據(jù)收集取代設(shè)備上的預(yù)處理和聚合,在處理日志數(shù)據(jù)期間,數(shù)據(jù)的最小化發(fā)生在服務(wù)器上。

聯(lián)邦學(xué)習(xí)和聯(lián)邦分析的目標(biāo)是與匿名聚合的目標(biāo)一致的。使用機(jī)器學(xué)習(xí),目標(biāo)是訓(xùn)練一個(gè)能夠準(zhǔn)確預(yù)測(cè)所有用戶的模型,而不會(huì)過度擬合。同樣,對(duì)于統(tǒng)計(jì)查詢,目標(biāo)是估計(jì)統(tǒng)計(jì)數(shù)據(jù),這也不應(yīng)該受到任何一個(gè)用戶數(shù)據(jù)的太大影響。

聯(lián)邦學(xué)習(xí)與差分隱私等隱私保護(hù)技術(shù)相結(jié)合,可以確保發(fā)布的聚合具有足夠的匿名性。在很多情況下,數(shù)據(jù)匿名可能不適用,服務(wù)提供者直接訪問個(gè)人的敏感數(shù)據(jù)是不可避免的,但是在這些交互中,服務(wù)提供者應(yīng)該只為預(yù)期目的來使用數(shù)據(jù)。

2. 聯(lián)邦學(xué)習(xí)要點(diǎn)

聯(lián)邦學(xué)習(xí)的特點(diǎn)是保持了原始數(shù)據(jù)去中心化和通過聚合進(jìn)行學(xué)習(xí)。本地生成的數(shù)據(jù)在分布和數(shù)量上都是異構(gòu)的,這使得聯(lián)邦學(xué)習(xí)與傳統(tǒng)的基于數(shù)據(jù)中心的分布式學(xué)習(xí)環(huán)境區(qū)別開來,后者的數(shù)據(jù)可以任意分布和清洗,計(jì)算中的任何節(jié)點(diǎn)都可以訪問任何數(shù)據(jù)。實(shí)際上,控制中心的作用是顯著的,并且通常是必要的,例如對(duì)于缺乏固定 IP 地址并且需要中心服務(wù)器來通信的移動(dòng)設(shè)備。

2.1 典型場(chǎng)景和應(yīng)用

有兩個(gè)聯(lián)邦場(chǎng)景得到了特別的關(guān)注:

跨設(shè)備聯(lián)邦學(xué)習(xí),客戶端是大量的移動(dòng)設(shè)備或物聯(lián)網(wǎng)設(shè)備。

跨組織的聯(lián)邦學(xué)習(xí),客戶端通常是一個(gè)較小的組織、機(jī)構(gòu)或其他數(shù)據(jù)孤島。

表1,改編自 Kairouz 等人,10總結(jié)了 FL 設(shè)置的關(guān)鍵特征,并強(qiáng)調(diào)了跨設(shè)備和跨豎井設(shè)置之間的一些關(guān)鍵差異,以及與數(shù)據(jù)中心分布式學(xué)習(xí)的對(duì)比。

跨設(shè)備的聯(lián)邦學(xué)習(xí)已經(jīng)被分別用于 Android 和 iOS 手機(jī),用于許多應(yīng)用程序,例如鍵盤預(yù)測(cè)。跨組織的聯(lián)邦學(xué)習(xí)被用于健康研究等問題。另一個(gè)正在興起的應(yīng)用是金融,來自 WeBank、瑞士信貸(Credit Suisse)、英特爾(Intel)等公司的投資。

聯(lián)邦學(xué)習(xí)典型場(chǎng)景的特征對(duì)比如下表所示:

項(xiàng)目 

數(shù)據(jù)中心分布式學(xué)習(xí) 

跨組織的聯(lián)邦學(xué)習(xí) 

跨設(shè)備的聯(lián)邦學(xué)習(xí) 

配置 

在大型扁平數(shù)據(jù)集上訓(xùn)練模型,客戶端是一個(gè)集群或一個(gè)數(shù)據(jù)中心上的節(jié)點(diǎn) 

跨越數(shù)據(jù)孤島訓(xùn)練模型,客戶端是不同的組織或者不同地域的數(shù)據(jù)中心 

客戶端是海量的移動(dòng)設(shè)備或者IoT設(shè)備 

數(shù)據(jù)分布 

數(shù)據(jù)是中心存儲(chǔ)的,可以跨客戶端清洗和均衡。任一客戶端可以訪問數(shù)據(jù)集的任一部分。 

數(shù)據(jù)本地產(chǎn)生并存儲(chǔ),保持了去中心化。每一客戶端不能訪問其他客戶端的數(shù)據(jù),數(shù)據(jù)不是獨(dú)立的或同質(zhì)分布的 

數(shù)據(jù)本地產(chǎn)生并存儲(chǔ),保持了去中心化。每一客戶端不能訪問其他客戶端的數(shù)據(jù),數(shù)據(jù)不是獨(dú)立的或同質(zhì)分布的

編排 

集中編排

集中編排服務(wù)但原始數(shù)據(jù)不可見 

集中編排服務(wù)但原始數(shù)據(jù)不可見

分布規(guī)模 

1~1000 

2~100 

成萬上億

客戶端屬性

客戶端真實(shí)可信,總是參與計(jì)算,并在計(jì)算中保持狀態(tài)。

客戶端真實(shí)可信,總是參與計(jì)算,并在計(jì)算中保持狀態(tài)。 

并非所有客戶端可用,通常從可用設(shè)備中隨機(jī)抽樣。大量客戶端在一次計(jì)算著只參與一次。

2.2 聯(lián)邦學(xué)習(xí)算法

機(jī)器學(xué)習(xí)尤其是深度學(xué)習(xí),一般都是數(shù)據(jù)饑餓和計(jì)算密集型的,因此聯(lián)合訓(xùn)練質(zhì)量模型的可行性還遠(yuǎn)遠(yuǎn)沒有達(dá)到預(yù)定的結(jié)論。聯(lián)邦學(xué)習(xí)算法建立在經(jīng)典的隨機(jī)梯度下降算法的基礎(chǔ)上,該隨機(jī)梯度下降算法被廣泛用于傳統(tǒng)環(huán)境下訓(xùn)練機(jī)器學(xué)習(xí)模型。該模型是一個(gè)從訓(xùn)練樣本到預(yù)測(cè)的函數(shù),由模型權(quán)重向量參數(shù)化,以及一個(gè)測(cè)量預(yù)測(cè)與真實(shí)輸出之間誤差的損失函數(shù)組成。通過采樣一批訓(xùn)練樣本(通常從數(shù)萬到數(shù)千) ,計(jì)算損失函數(shù)相對(duì)于模型權(quán)重的平均梯度,然后在梯度的相反方向調(diào)整模型權(quán)重。通過適當(dāng)調(diào)整每次迭代的步長(zhǎng),即使對(duì)于非凸函數(shù),也可以得到具有令人滿意的收斂性。

擴(kuò)展到聯(lián)邦學(xué)習(xí),是將當(dāng)前的模型權(quán)重廣播給一組隨機(jī)的客戶端,讓它們各自計(jì)算本地?cái)?shù)據(jù)上的損失梯度,在服務(wù)器上的客戶端上平均這些梯度,然后更新全局模型權(quán)重。然而, 通常需要更多多次迭代才能產(chǎn)生高精度的模型。粗略的計(jì)算表明,在聯(lián)邦學(xué)習(xí)環(huán)境下,一次迭代可能需要幾分鐘,這意味著聯(lián)邦訓(xùn)練可能需要一個(gè)月到一年的時(shí)間,超出了實(shí)用性的范圍。

聯(lián)邦學(xué)習(xí)的關(guān)鍵思想是直觀的,通過在每個(gè)設(shè)備上本地執(zhí)行隨機(jī)梯度下降的多個(gè)步驟來降低通信和啟動(dòng)成本,然后減少模型更新的平均次數(shù)。如果模型在每個(gè)局部步驟之后取平均值,那么可能太慢了; 如果模型取平均值太少,就可能會(huì)發(fā)散,而取平均值可能會(huì)產(chǎn)生更差的模型。

模型訓(xùn)練可以簡(jiǎn)化為聯(lián)邦聚合的應(yīng)用程序,即模型梯度或更新的平均值。

2.3 典型工作流程

擁有一個(gè)可行的聯(lián)邦算法是一個(gè)必要的起點(diǎn),但是,如果要使跨設(shè)備聯(lián)邦學(xué)習(xí)成為驅(qū)動(dòng)產(chǎn)品團(tuán)隊(duì)的一個(gè)有效方法,則需要更多的東西。對(duì)于跨設(shè)備聯(lián)邦學(xué)習(xí)而言,典型的工作流程通常如下:

(1)識(shí)別問題

通常這意味著需要一個(gè)中等大小(1-50MB)設(shè)備上的模型; 設(shè)備上可用的潛在訓(xùn)練數(shù)據(jù)比數(shù)據(jù)中心可用的數(shù)據(jù)更豐富或更具代表性; 有隱私或其他原因傾向于不集中數(shù)據(jù); 訓(xùn)練模型所需的反饋信號(hào)在設(shè)備上很容易獲得。

(2)模型開發(fā)和評(píng)估

與任何機(jī)器學(xué)習(xí)任務(wù)一樣,選擇正確的模型結(jié)構(gòu)和超參數(shù)(學(xué)習(xí)率、批量大小、正則化)對(duì)于機(jī)器學(xué)習(xí)的成功至關(guān)重要。在聯(lián)邦學(xué)習(xí)中,挑戰(zhàn)可能更大,它引入了許多新的超參數(shù),例如,每輪參與的客戶端數(shù)量,需要執(zhí)行多少本地步驟等。通常的起點(diǎn)是使用基于數(shù)據(jù)中心中可用代理數(shù)據(jù)的聯(lián)邦學(xué)習(xí)來模擬,并進(jìn)行粗模型選擇和調(diào)優(yōu)。最終的調(diào)整和評(píng)估必須使用真實(shí)設(shè)備上的聯(lián)邦訓(xùn)練來進(jìn)行。評(píng)估還必須以聯(lián)合方式進(jìn)行: 獨(dú)立于訓(xùn)練過程,候選全局模型被發(fā)送到設(shè)備,以便準(zhǔn)確度指標(biāo)可以在這些設(shè)備的本地?cái)?shù)據(jù)集上計(jì)算并由服務(wù)器匯總,例如每個(gè)客戶端性能的簡(jiǎn)單平均值和直方圖都很重要。這些需求產(chǎn)生了兩個(gè)關(guān)鍵的基礎(chǔ)設(shè)施需求: (1)提供高性能的聯(lián)邦學(xué)習(xí)模擬基礎(chǔ)設(shè)施,允許平穩(wěn)過渡到在真實(shí)設(shè)備上運(yùn)行; (2)跨設(shè)備基礎(chǔ)設(shè)施,使其易于管理多個(gè)同時(shí)進(jìn)行的訓(xùn)練和評(píng)估任務(wù)。

(3)部署

一旦在步驟2中選擇了一個(gè)高質(zhì)量的候選模型,該模型的部署通常遵循與數(shù)據(jù)中心訓(xùn)練模型相同的程序,包括額外的驗(yàn)證和測(cè)試(可能包括手動(dòng)質(zhì)量保證) ,與以前的生產(chǎn)模型進(jìn)行比較的現(xiàn)場(chǎng) A/B 測(cè)試,以及分階段推出到整個(gè)設(shè)備群(可能比實(shí)際參與模型訓(xùn)練的設(shè)備多出幾個(gè)數(shù)量級(jí))。

值得注意的是,步驟2中的所有工作對(duì)參與訓(xùn)練和評(píng)估的設(shè)備用戶體驗(yàn)沒有影響; 使用聯(lián)邦學(xué)習(xí)進(jìn)行訓(xùn)練的模型不會(huì)讓用戶看到預(yù)測(cè),除非他們完成了部署步驟。確保這種處理不會(huì)對(duì)設(shè)備造成負(fù)面影響是一個(gè)關(guān)鍵的基礎(chǔ)設(shè)施挑戰(zhàn)。例如,密集計(jì)算可能只在設(shè)備空閑、網(wǎng)絡(luò)空閑上時(shí)執(zhí)行。

這些工作流程為構(gòu)建可伸縮的基礎(chǔ)設(shè)施和 API 是一個(gè)重大挑戰(zhàn)。

3. 聯(lián)邦計(jì)算中的隱私保護(hù)

聯(lián)邦學(xué)習(xí)提供了各種開箱即用的隱私優(yōu)勢(shì)。本著數(shù)據(jù)最小化的原則,原始數(shù)據(jù)保留在設(shè)備上,發(fā)送到服務(wù)器的更新集中在一個(gè)特定的目標(biāo)上,且盡可能快地聚合。特別地,沒有非聚合數(shù)據(jù)保存在服務(wù)器上,端對(duì)端加密保護(hù)傳輸中的數(shù)據(jù),解密密鑰和解密值都只是暫時(shí)保存在 RAM 中。與系統(tǒng)交互的機(jī)器學(xué)習(xí)工程師和分析師只能訪問聚合數(shù)據(jù)。聚合是在聯(lián)邦方法中的基本作用,使得限制任何單個(gè)客戶對(duì)輸出的影響成為自然而然的事情,但如果目標(biāo)是提供更正式的保證,比如差分隱私,那么算法就需要仔細(xì)設(shè)計(jì)。

雖然基本的聯(lián)邦學(xué)習(xí)方法已經(jīng)被證明是可行的,并得到了大量的采用,但是仍然遠(yuǎn)遠(yuǎn)不能默認(rèn)使用,與公平性、準(zhǔn)確性、開發(fā)速度和計(jì)算成本之間的內(nèi)在緊張關(guān)系可能會(huì)阻礙數(shù)據(jù)最小化和匿名化方法。因此,我們需要可組合的隱私增強(qiáng)技術(shù)。最終,關(guān)于隱私技術(shù)部署的決定是由產(chǎn)品或服務(wù)團(tuán)隊(duì)在與特定領(lǐng)域的隱私、政策和法律專家協(xié)商后做出的。產(chǎn)品能夠通過可用的聯(lián)邦學(xué)習(xí)系統(tǒng)提供更多的隱私保護(hù),或許更重要的是,隨著時(shí)間的推移,幫助政策專家加強(qiáng)隱私定義和要求。

在考慮聯(lián)邦系統(tǒng)的隱私特性時(shí),考慮訪問點(diǎn)和威脅模型是有用的。參與者可以訪問物理設(shè)備或網(wǎng)絡(luò)嗎?通過 root 或物理訪問提供 FL 服務(wù)的服務(wù)器?發(fā)布給機(jī)器學(xué)習(xí)工程師的模型和度量?最終部署的模型?當(dāng)信息流經(jīng)這個(gè)系統(tǒng)時(shí),潛在的惡意方的數(shù)量變化很大。因此,隱私聲明必須評(píng)估為一個(gè)完整的端到端系統(tǒng)。如果沒有采取適當(dāng)?shù)陌踩胧﹣肀Wo(hù)設(shè)備上的原始數(shù)據(jù)或傳輸中的中間計(jì)算狀態(tài),那么最終部署的模型是否存儲(chǔ)用戶數(shù)據(jù)的保證可能無關(guān)緊要。

數(shù)據(jù)最小化通過提高安全性和最小化數(shù)據(jù)和中間結(jié)果的保留來解決設(shè)備、網(wǎng)絡(luò)和服務(wù)器的潛在威脅。當(dāng)模型和度量被發(fā)布給模型工程師或部署到生產(chǎn)環(huán)境中時(shí),匿名聚合將保護(hù)個(gè)人數(shù)據(jù)不受訪問這些已發(fā)布輸出的各方的影響。

3.1 聚合數(shù)據(jù)最小化

在聯(lián)邦計(jì)算的幾個(gè)點(diǎn)上,參與者期望彼此采取適當(dāng)?shù)牟僮?,而且只能采取那些操作。例如,服?wù)器期望客戶端準(zhǔn)確地執(zhí)行他們的預(yù)處理步驟; 客戶端期望服務(wù)器將他們的個(gè)人更新保密,直到它們被聚合; 客戶端和服務(wù)器都期望數(shù)據(jù)分析師和已部署的機(jī)器學(xué)習(xí)模型用戶都不能提取個(gè)人數(shù)據(jù); 等等。

保護(hù)隱私的技術(shù)支持這些跨組成部分的結(jié)構(gòu)性執(zhí)行,防止參與者偏離。事實(shí)上,聯(lián)邦系統(tǒng)本身可以被視為一種保護(hù)隱私的技術(shù),從結(jié)構(gòu)上防止服務(wù)器訪問客戶端提交的更新中沒有包含的任何客戶端數(shù)據(jù)。

以聚合階段為例。一個(gè)理想化的系統(tǒng)可以想象一個(gè)完全可信的第三方聚合客戶端的更新,并且只向服務(wù)器顯示最終的聚合。實(shí)際上,通常不存在這種相互信任的第三方來扮演這個(gè)角色,但是各種技術(shù)允許 聯(lián)邦學(xué)習(xí)系統(tǒng)在各種條件下模擬這樣的第三方。

例如,服務(wù)器可以在一個(gè)安全區(qū)域內(nèi)運(yùn)行聚合過程,這個(gè)安全區(qū)域是一個(gè)特殊構(gòu)造的硬件,它不僅可以向客戶機(jī)證明它正在運(yùn)行什么代碼,還可以確保沒有人可以觀察或篡改代碼的執(zhí)行。然而,目前,安全環(huán)境的可用性是有限的,無論是在云端還是在消費(fèi)者設(shè)備上,可用的安全環(huán)境可能只實(shí)現(xiàn)一些指定的屬性領(lǐng)域。此外,即使在可用和功能齊全的情況下,安全環(huán)境也可能帶來額外的限制,包括非常有限的內(nèi)存或速度; 容易受到通過副通道暴露的數(shù)據(jù)(例如,緩存定時(shí)攻擊) ; 難以驗(yàn)證的正確性; 依賴于制造商提供的認(rèn)證服務(wù)(如密鑰保密) 等等。

用于多方安全計(jì)算的分布式加密協(xié)議可以協(xié)同使用來模擬可信的第三方,而不需要專門的硬件,只要參與者的足夠誠(chéng)實(shí)。雖然任意函數(shù)的多方安全計(jì)算在大多數(shù)情況下仍然是計(jì)算上的障礙,但是已經(jīng)開發(fā)了聯(lián)邦環(huán)境中向量求和的專門聚合算法,即使對(duì)觀察服務(wù)器并控制大部分客戶端的對(duì)手也可以保護(hù)隱私,同時(shí)保持對(duì)客戶端退出計(jì)算的魯棒性:

通信效率——每個(gè)客戶端的 O (log n + l)通信,其中 n 表示用戶數(shù)量,l 表示向量長(zhǎng)度,在廣泛的應(yīng)用中,小常數(shù)產(chǎn)生的通信量不到聚合通信量的兩倍; 

計(jì)算效率——每個(gè)客戶端的 O (log2n + llogn)計(jì)算

密碼安全聚合協(xié)議已經(jīng)在商業(yè)聯(lián)邦計(jì)算系統(tǒng)中部署了很多。除了私有聚合之外,隱私保護(hù)技術(shù)還可以用于保護(hù) 聯(lián)邦系統(tǒng)的其他部分。例如,安全環(huán)境或加密技術(shù)(例如,零知識(shí)證明)可以確保服務(wù)器可以信任客戶端已經(jīng)如實(shí)地進(jìn)行了預(yù)處理。甚至模型廣播階段也可以受益: 對(duì)于許多學(xué)習(xí)任務(wù),一個(gè)單獨(dú)的客戶端可能只有與模型的一小部分相關(guān)的數(shù)據(jù),在這種情況下,客戶端可以私下檢索模型的那一部分用于訓(xùn)練,再次使用安全環(huán)境或加密技術(shù),以確保服務(wù)器不會(huì)了解與客戶端有相關(guān)訓(xùn)練數(shù)據(jù)的模型的任何部分。

3.2 計(jì)算和驗(yàn)證的匿名聚合

雖然安全環(huán)境和隱私聚合技術(shù)可以加強(qiáng)數(shù)據(jù)最小化,但它們并非專門用于生成匿名聚合的。例如,限制用戶對(duì)正在訓(xùn)練模型的影響。事實(shí)上,學(xué)習(xí)的模型在某些情況下是會(huì)泄露敏感信息的。

數(shù)據(jù)匿名的標(biāo)準(zhǔn)方法是差分隱私。對(duì)于一個(gè)聚合數(shù)據(jù)庫(kù)中記錄的通用過程,差分隱私需要將任何記錄的貢獻(xiàn)限定在聚合上,然后添加一個(gè)適當(dāng)比例的隨機(jī)擾動(dòng)。例如,在差分隱私隨機(jī)梯度下降算法中,剪切了梯度的范數(shù),聚合了剪切后的梯度,并在每個(gè)訓(xùn)練回合中添加高斯噪聲。

差分隱私算法必然是隨機(jī)的,因此可以考慮由算法產(chǎn)生的模型在特定數(shù)據(jù)集上的分布。直觀地說,當(dāng)差分隱私算法運(yùn)行在單個(gè)記錄不同的輸入數(shù)據(jù)集上時(shí),這種模型之間的分布是相似的。形式上,差分隱私由隱私損失參數(shù)(ε,δ)量化,其中較小的(ε,δ)對(duì)應(yīng)于增加的隱私。這不僅僅是簡(jiǎn)單地將模型的靈敏度限制在每個(gè)記錄上,通過添加與任何記錄的影響成比例的噪聲,從而確保足夠的隨機(jī)性來掩蓋任何一個(gè)記錄對(duì)輸出的貢獻(xiàn)。

在跨設(shè)備聯(lián)邦學(xué)習(xí)的場(chǎng)景中,記錄被定義為單個(gè)用戶/客戶端的所有訓(xùn)練實(shí)例。差分隱私可以是用戶級(jí)的,也可以是比例級(jí)。即使在中心化的配置中,聯(lián)邦學(xué)習(xí)算法也非常適合用戶級(jí)隱私保證的訓(xùn)練,因?yàn)樗鼈儚囊粋€(gè)用戶的所有數(shù)據(jù)中計(jì)算出一個(gè)單一的模型更新,使得更容易綁定每個(gè)用戶對(duì)模型更新的總影響。

在跨設(shè)備聯(lián)邦學(xué)習(xí)系統(tǒng)的背景下提供形式(ε,δ)保證可能特別具有挑戰(zhàn)性,因?yàn)樗泻细裼脩舻募鲜莿?dòng)態(tài)的,并且事先不知道,參與的用戶可能在訓(xùn)練階段中的任何點(diǎn)退出,構(gòu)建一個(gè)適用于生產(chǎn)型聯(lián)邦學(xué)習(xí)系統(tǒng)的端到端協(xié)議仍然是一個(gè)需要解決的重要問題。

在跨組織聯(lián)邦學(xué)習(xí)的場(chǎng)景中,隱私單元可以具有不同的含義。例如,如果參與機(jī)構(gòu)希望確保能夠訪問模型迭代或最終模型無法確定某個(gè)特定機(jī)構(gòu)的數(shù)據(jù)集是否用于該模型的訓(xùn)練,則可以將記錄定義為數(shù)據(jù)孤島中的所有示例。用戶級(jí)差分隱私在跨組織設(shè)置中仍然有意義。然而,如果多個(gè)機(jī)構(gòu)擁有來自同一個(gè)用戶的記錄,實(shí)施用戶級(jí)隱私可能會(huì)更具挑戰(zhàn)性。

過去的差分隱私數(shù)據(jù)分析主要是用于中央或可信聚合器,其中原始數(shù)據(jù)由實(shí)現(xiàn)差分隱私算法的可信服務(wù)提供商收集。本地差分隱私避免了對(duì)完全可信的聚合器的需要,但是會(huì)導(dǎo)致精確度的急劇下降。

為了恢復(fù)中心化差分隱私的效用而不必依賴于一個(gè)完全可信的中央服務(wù)器,可以使用一些新興的方法,通常稱為分布式差分隱私。目標(biāo)是在服務(wù)器看到輸出之前(以明文形式)使輸出具有不同的隱私性。在分布式差分隱私下,客戶端首先計(jì)算特定于應(yīng)用程序的最小數(shù)據(jù),用隨機(jī)噪聲輕微干擾這些數(shù)據(jù),并執(zhí)行隱私聚合協(xié)議。然后,服務(wù)器只能訪問隱私聚合協(xié)議的輸出。單個(gè)客戶添加的噪音通常不足以為本地差分提供有意義的擔(dān)保。然而,在隱私聚合之后,隱私聚合協(xié)議的輸出基于所有客戶端的噪聲總和提供了更強(qiáng)的 DP 保證。根據(jù)隱私聚合協(xié)議所需的安全假設(shè),這甚至適用于具有服務(wù)器訪問權(quán)限的人。

對(duì)于一個(gè)提供正式用戶級(jí)隱私保證的算法,不僅必須將模型的靈敏度與每個(gè)用戶的數(shù)據(jù)綁定在一起,而且還必須添加與該靈敏度成比例的噪聲。雖然需要添加足夠的隨機(jī)噪聲來確保差分隱私定義具有足夠小的 ε 來提供強(qiáng)有力的保證,但是即使使用小噪聲限制靈敏度也可以顯著降低破譯。因?yàn)椴罘蛛[私假設(shè)了一個(gè)“最壞情況的對(duì)手”,具有無限的計(jì)算和訪問任意側(cè)的信息。這些假設(shè)在實(shí)踐中往往是不切實(shí)際的。因此,使用限制每個(gè)用戶影響的差分隱私算法進(jìn)行訓(xùn)練具有實(shí)質(zhì)性的優(yōu)勢(shì)。然而,設(shè)計(jì)實(shí)用的聯(lián)邦學(xué)習(xí)和聯(lián)邦分析算法來實(shí)現(xiàn)小 ε 的保證是一個(gè)重要的研究領(lǐng)域。

模型審計(jì)技術(shù)可以用來進(jìn)一步量化用差分隱私進(jìn)行訓(xùn)練的優(yōu)勢(shì)。它們包括量化模型過度學(xué)習(xí)或罕見訓(xùn)練例子的程度,以及量化在何種程度上可以推斷用戶是否在訓(xùn)練期間使用該技術(shù)。這些審計(jì)技術(shù)甚至在使用大 ε 時(shí)也很有用,它們可以量化差分隱私最壞情況下的對(duì)手與計(jì)算能力和側(cè)面信息有限的現(xiàn)實(shí)對(duì)手之間的差距。它們還可以作為壓力測(cè)試的補(bǔ)充技術(shù): 與差分隱私的正式數(shù)學(xué)聲明不同,這些審計(jì)技術(shù)適用于完整的端到端系統(tǒng),可能捕獲軟件錯(cuò)誤或錯(cuò)誤的參數(shù)選擇。

4. 聯(lián)邦分析

除了學(xué)習(xí)機(jī)器學(xué)習(xí)模型之外,數(shù)據(jù)分析師通常對(duì)將數(shù)據(jù)科學(xué)方法應(yīng)用于分析本地用戶設(shè)備上的原始數(shù)據(jù)感興趣。例如,分析師可能對(duì)聚合模型度量、流行趨勢(shì)和活動(dòng)或地理空間位置熱力圖感興趣。所有這些都可以通過使用聯(lián)邦分析來完成。與聯(lián)邦學(xué)習(xí)類似,聯(lián)邦分析的工作方式是對(duì)每個(gè)設(shè)備的數(shù)據(jù)運(yùn)行本地計(jì)算,并且只提供聚合的結(jié)果。然而,與聯(lián)邦學(xué)習(xí)不同的是,聯(lián)邦分析旨在支持基本的數(shù)據(jù)科學(xué)需求,如計(jì)數(shù)、平均值、直方圖、分位數(shù)和其他類似 SQL 的查詢。

對(duì)于一個(gè)應(yīng)用程序,其中分析人員希望使用聯(lián)邦分析來學(xué)習(xí)許多用戶共享的音樂庫(kù)中最常播放的10首歌曲??梢允褂蒙厦嬗懻摰穆?lián)邦技術(shù)和隱私技術(shù)來執(zhí)行此任務(wù)。例如,客戶端可以將他們聽過的歌曲編碼成一個(gè)長(zhǎng)度等于庫(kù)大小的二進(jìn)制向量,并使用分布式差分隱私來確保服務(wù)器只能看到這些向量的一個(gè)值,給出每首歌曲有多少用戶播放的 差分隱私直方圖。

然而,聯(lián)邦分析任務(wù)與聯(lián)邦學(xué)習(xí)任務(wù)在幾個(gè)方面有所不同:

聯(lián)邦分析算法通常是非交互式的,并且涉及大量客戶端。換句話說,與聯(lián)邦學(xué)習(xí)應(yīng)用不同,在一輪中擁有更多的客戶是沒有收益遞減的。因此,在聯(lián)邦分析中應(yīng)用差分隱私的挑戰(zhàn)性較小,因?yàn)槊恳惠喛梢园罅康目蛻?,并且需要的輪?shù)較少。

相同的客戶沒有必要再次參與以后的輪次。事實(shí)上,再次參與的客戶可能還會(huì)使算法的結(jié)果產(chǎn)生偏差。因此,一個(gè)限制任何個(gè)體可以參與的次數(shù)的基礎(chǔ)結(jié)構(gòu)可以最好地服務(wù)聯(lián)邦分析任務(wù)。

聯(lián)邦分析任務(wù)通常是稀疏的,這使得有效的隱私稀疏聚合成為一個(gè)特別重要的主題。

值得注意的是,盡管限制客戶參與和稀疏聚合與聯(lián)邦分析特別相關(guān),但它們也可以應(yīng)用于聯(lián)邦學(xué)習(xí)問題。

5. 小結(jié)

聯(lián)邦學(xué)習(xí)正在應(yīng)用到更多類型的數(shù)據(jù)和問題領(lǐng)域,甚至已經(jīng)被認(rèn)為是隱私計(jì)算的重要方式,即面向AI的隱私保護(hù)手段,個(gè)人精力所限,本文沒有涉及聯(lián)邦學(xué)習(xí)中個(gè)性化、健壯性、公平性和系統(tǒng)實(shí)現(xiàn)的挑戰(zhàn)。關(guān)于聯(lián)邦學(xué)習(xí)的實(shí)踐,TensorFlow Federated 或許是一個(gè)不錯(cuò)的起點(diǎn)。

責(zé)任編輯:武曉燕 來源: 51CTO
相關(guān)推薦

2022-05-19 12:04:07

隱私保護(hù)攻擊威脅

2021-06-04 15:38:18

聯(lián)邦學(xué)習(xí)人工智能數(shù)據(jù)

2023-10-16 11:30:59

2022-05-05 15:02:26

機(jī)器學(xué)習(xí)人工智能開源

2023-08-24 07:33:28

2014-11-19 09:59:26

隱私控制

2022-05-05 15:04:41

阿里巴巴達(dá)摩院聯(lián)邦學(xué)習(xí)

2021-05-20 11:20:52

數(shù)據(jù)隱私安全

2011-09-01 11:08:38

云計(jì)算服務(wù)

2022-09-04 21:46:12

數(shù)據(jù)信息風(fēng)險(xiǎn)

2021-04-29 14:40:11

數(shù)據(jù)安全隱私

2020-12-25 16:30:17

機(jī)器學(xué)習(xí)/隱私保護(hù)

2023-02-26 14:17:44

2013-01-31 10:07:57

2022-11-16 12:48:38

2020-09-23 18:10:27

算法可視化大數(shù)據(jù)

2025-01-13 12:33:42

2024-04-07 07:40:00

2022-05-05 14:10:30

達(dá)摩院聯(lián)邦學(xué)習(xí)框架數(shù)據(jù)隱私
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)