阿里達(dá)摩院開源新框架:入局隱私保護(hù)計(jì)算,聯(lián)邦學(xué)習(xí)迎來重磅玩家
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
沒人愿意隨便交出自己的隱私。
當(dāng)蘋果正式推出“應(yīng)用跟蹤透明度”隱私保護(hù)功能時(shí),只有16%的用戶選擇了允許App跟蹤自己的活動(dòng)。
但正如蘋果提示所說,有時(shí)又不得不用隱私數(shù)據(jù)來交換便利和服務(wù)質(zhì)量。
于是一年后的今天,據(jù)Adjust數(shù)據(jù)分析公司統(tǒng)計(jì),這一數(shù)字又回升到25%。
也就是說,更多的用戶重新認(rèn)可了接收個(gè)性化內(nèi)容對自己的價(jià)值。
究竟有沒有方法能做到兩全其美,讓互聯(lián)網(wǎng)平臺在嚴(yán)格保障用戶隱私的前提下,仍為用戶提供優(yōu)質(zhì)的服務(wù)?
還真有。
當(dāng)下最主流的一種解決方案就是聯(lián)邦學(xué)習(xí),一種用來建立機(jī)器學(xué)習(xí)模型的算法框架。
在聯(lián)邦學(xué)習(xí)的框架下,用戶自身的數(shù)據(jù)從始至終都停留在用戶自己的手機(jī)、汽車和各類物聯(lián)網(wǎng)設(shè)備等終端內(nèi)。
同時(shí),訓(xùn)練機(jī)器學(xué)習(xí)模型需要的信息會以加密、加噪聲或拆分等方式保護(hù)起來,聚合到云端的服務(wù)器進(jìn)行模型更新,此后云端再將更新的模型推送給用戶終端。
通過這樣的交互和迭代過程,服務(wù)提供商既能夠訓(xùn)練高性能的模型為用戶提供服務(wù),同時(shí)也能保護(hù)好用戶的數(shù)據(jù)隱私。
聯(lián)邦學(xué)習(xí)2016年由谷歌首次提出,之后逐漸成為熱門研究領(lǐng)域。
學(xué)術(shù)上,論文發(fā)表數(shù)量迅猛增長。
△來自清華大學(xué)《2021聯(lián)邦學(xué)習(xí)全球研究與應(yīng)用趨勢報(bào)告》
開源框架上,也匯聚了國內(nèi)外眾多大廠。
△來自Github倉庫Awesome-Federated-Machine-Learning
谷歌Tensorflow-Federated是橫向聯(lián)邦學(xué)習(xí)的代表:
本地和云端模型特征共享,樣本數(shù)據(jù)不共享,更適合于C端同一企業(yè)為多個(gè)用戶提供服務(wù)的情況。
楊強(qiáng)教授帶領(lǐng)的微眾銀行FATE框架是縱向聯(lián)邦學(xué)習(xí)的代表:
模型特征不一致,樣本數(shù)據(jù)有重疊,更適合B端如兩家企業(yè)共享一群客戶但關(guān)注的特征不同。
再進(jìn)一步又有聯(lián)邦遷移學(xué)習(xí),兼顧了上面兩者的特點(diǎn),適用于參與者間特征和樣本重疊都很少的情況。
就在最近,又有重磅玩家悄然入局:阿里達(dá)摩院開源新的聯(lián)邦學(xué)習(xí)框架FederatedScope。
△https://federatedscope.io
問題也隨之而來:
新框架與之前有何差異點(diǎn)與競爭優(yōu)勢?達(dá)摩院為何選擇此時(shí)入局?
不妨先從聯(lián)邦學(xué)習(xí)領(lǐng)域現(xiàn)狀,和FederatedScope框架自身的特性來一窺究竟。
當(dāng)下需要什么樣的聯(lián)邦學(xué)習(xí)框架?
隨著5G、物聯(lián)網(wǎng)、云計(jì)算技術(shù)的發(fā)展,聯(lián)邦學(xué)習(xí)涉及的設(shè)備的應(yīng)用場景也越發(fā)多樣。
異構(gòu)性成了對傳統(tǒng)聯(lián)邦學(xué)習(xí)最大的挑戰(zhàn)。
不同設(shè)備在算力、存儲能力和通訊能力上的差異稱為系統(tǒng)資源異構(gòu)。
各個(gè)設(shè)備本地?cái)?shù)據(jù)非獨(dú)立同分布會導(dǎo)致數(shù)據(jù)異構(gòu)。
不同的應(yīng)用場景又會帶來行為異構(gòu)。
這些異構(gòu)性對聯(lián)邦學(xué)習(xí)提出了新的要求:
首先,聯(lián)邦學(xué)習(xí)參與方之間傳遞的信息形式會更加豐富,不再局限于模型參數(shù)或者梯度這一類的同質(zhì)信息。
如在金融、電信行業(yè)常用的圖數(shù)據(jù)上進(jìn)行聯(lián)邦學(xué)習(xí),參與方之間還會傳遞節(jié)點(diǎn)的嵌入式表示等信息。
△來自《Federated Graph Learning - A Position Paper》
豐富的信息種類要求聯(lián)邦學(xué)習(xí)框架能靈活支持不同類型的信息傳遞。
其次,跨設(shè)備聯(lián)邦學(xué)習(xí)不能再拘泥于傳統(tǒng)的“服務(wù)器端負(fù)責(zé)聚合,用戶端負(fù)責(zé)本地訓(xùn)練”模式。
服務(wù)器端往往需要對模型做壓縮處理,來滿足終端設(shè)備的運(yùn)行要求。而終端設(shè)備還要負(fù)責(zé)對收到的模型進(jìn)行微調(diào)來取得更好的效果。
多樣化的參與方的行為要求聯(lián)邦學(xué)習(xí)框架能夠靈活支持多種自定義行為。
跨設(shè)備還會帶來的各參與方響應(yīng)速度和可靠性參差不齊的問題,需要聯(lián)邦學(xué)習(xí)框架允許開發(fā)者根據(jù)真實(shí)情況采用不同的異步訓(xùn)練策略。
甚至跨設(shè)備參與方還會使用不同的后端環(huán)境,例如有些設(shè)備使用PyTorch,另外一些則使用TensorFlow。
這要求聯(lián)邦學(xué)習(xí)框架需要有更好的兼容性,支持跨平臺組建聯(lián)邦學(xué)習(xí),避免要求使用者費(fèi)時(shí)費(fèi)力地對所有參與方進(jìn)行環(huán)境的適配。
最后,隨著聯(lián)邦學(xué)習(xí)從研究前沿逐漸走向工業(yè)應(yīng)用,需要聯(lián)邦學(xué)習(xí)框架為單機(jī)仿真和分布式部署提供統(tǒng)一的算法描述和接口,以滿足研究者和開發(fā)人員不同的應(yīng)用需求,并降低從仿真到部署的遷移難度。
達(dá)摩院智能計(jì)算實(shí)驗(yàn)室開源的新聯(lián)邦學(xué)習(xí)框架FederatedScope,正是為解決這些新挑戰(zhàn)而生。
對于消息類型和自定義行為,F(xiàn)ederatedScope將聯(lián)邦學(xué)習(xí)看成是參與方之間收發(fā)消息的過程。
這樣便可以通過定義消息類型以及處理消息的行為來描述聯(lián)邦學(xué)習(xí)過程,同時(shí)支持用戶通過添加額外的消息類型和處理行為進(jìn)行定制化。
FederatedScope把聯(lián)邦過程(例如協(xié)調(diào)不同的參與方)和模型訓(xùn)練行為(例如訓(xùn)練數(shù)據(jù)采樣、優(yōu)化等)解耦開,使開發(fā)者能夠?qū)W⒂诙ㄖ茀⑴c方的行為。
相比現(xiàn)有的聯(lián)邦學(xué)習(xí)框架,F(xiàn)ederatedScope不需要從順序執(zhí)行的角度考慮如何串聯(lián)不同參與方,降低了開發(fā)的復(fù)雜度及所需代碼量。
△經(jīng)典聯(lián)邦學(xué)習(xí)
△FederatedScope模式
對于異步訓(xùn)練,F(xiàn)ederatedScope采用事件驅(qū)動(dòng)的編程范式來支持,并借鑒分布式機(jī)器學(xué)習(xí)的相關(guān)研究成果,集成了異步訓(xùn)練策略來提升訓(xùn)練效果。
對于后端跨平臺支持,F(xiàn)ederatedScope對訓(xùn)練模塊做了抽象,使核心框架不依賴任意一種深度學(xué)習(xí)后端,能兼容不同的設(shè)備運(yùn)行環(huán)境,大幅降低了聯(lián)邦學(xué)習(xí)在真實(shí)場景部署的難度和成本。
除了解決這些挑戰(zhàn)以外,F(xiàn)ederatedScope還十分注意框架對多樣化場景的適用性,以及對開發(fā)者的易用性。
對此,F(xiàn)ederatedScope集成了多種功能模塊,包括自動(dòng)調(diào)參、隱私保護(hù)、性能監(jiān)控、端模型個(gè)性化。
同時(shí)支持開發(fā)者通過配置文件便捷地調(diào)用集成模塊,也允許通過注冊的方式為這些模塊添加新的算法實(shí)現(xiàn)并調(diào)用。
例如通過注冊的方式使用準(zhǔn)備好的新數(shù)據(jù)集和模型架構(gòu),可以方便的將經(jīng)典聯(lián)邦學(xué)習(xí)應(yīng)用在不同下游任務(wù),不需要修改其他的細(xì)節(jié)。
為了讓即使是剛剛接觸聯(lián)邦學(xué)習(xí)的初學(xué)者能快速上手,F(xiàn)ederatedScope提供了詳盡的教程、文檔和運(yùn)行腳本。
同時(shí)FederatedScope也包含了常用的模型架構(gòu)實(shí)現(xiàn),對一些基準(zhǔn)數(shù)據(jù)集也做了統(tǒng)一的預(yù)處理和封裝,以幫助用戶便捷地開展實(shí)驗(yàn)。
隱私保護(hù)計(jì)算發(fā)展到什么階段了?
綜上不難看出,達(dá)摩院對于聯(lián)邦學(xué)習(xí)框架的考量,更多集中在了便捷與廣泛的應(yīng)用方面。
之所以會形成這樣的局面,其實(shí)還要看整個(gè)大環(huán)境的變化。
從去年開始,隱私保護(hù)計(jì)算行業(yè)發(fā)展日趨火熱。
日前IDC發(fā)布報(bào)告顯示,2021中國隱私保護(hù)計(jì)算市場規(guī)模突破8.6億元人民幣大關(guān),未來增長率有望超過110%。
Gartner預(yù)測表示,到2025年之前,約60%的大型企業(yè)預(yù)計(jì)將應(yīng)用至少一種隱私保護(hù)計(jì)算技術(shù),達(dá)摩院2022十大科技趨勢同樣將隱私保護(hù)計(jì)算列為重要趨勢。
量子位智庫估算,截至今年3月,國內(nèi)具有隱私保護(hù)計(jì)算相關(guān)業(yè)務(wù)的廠商可能已經(jīng)達(dá)到150家左右。
整個(gè)賽道呈現(xiàn)出第三方初創(chuàng)公司、大型互聯(lián)網(wǎng)公司、AI軟件開發(fā)商、轉(zhuǎn)型公司、甲方自研參與的“混戰(zhàn)局面”。
市場蓬勃發(fā)展的同時(shí),國家、社會對隱私保護(hù)計(jì)算的關(guān)注度也在增加。
2020年,國家將數(shù)據(jù)納入生產(chǎn)要素,與土地、勞動(dòng)力、技術(shù)等傳統(tǒng)要素并列;
2021年,《中華人民共和國數(shù)據(jù)安全法》《中華人民共和國個(gè)人信息保護(hù)法》《汽車數(shù)據(jù)安全管理若干規(guī)定(試行)》相繼實(shí)施。
可以看到,政府近兩年來一邊在大力培育以數(shù)據(jù)為基礎(chǔ)的資源市場,另一邊也在加速建立相關(guān)規(guī)范。
社會層面對隱私保護(hù)計(jì)算的需求也在增長。
尤其是近兩年來,健康碼、人臉識別等應(yīng)用讓大眾看到了數(shù)據(jù)流通帶來的價(jià)值,但隱私泄露引發(fā)的安全事件也層出不窮。
這導(dǎo)致社會上關(guān)于合理合規(guī)使用隱私數(shù)據(jù)的呼聲愈加高漲,進(jìn)而催生出隱私保護(hù)計(jì)算產(chǎn)業(yè)更多需求和場景。
實(shí)際上,量子位智庫分析,隱私保護(hù)計(jì)算產(chǎn)業(yè)非常重要的一層價(jià)值,就來自于為社會提供生產(chǎn)力。
量子位智庫分析,隱私保護(hù)計(jì)算的價(jià)值分為三層:
- 第一層:行業(yè)自身發(fā)展
- 第二層:產(chǎn)業(yè)協(xié)同發(fā)展
- 第三層:推動(dòng)數(shù)據(jù)要素流通,提升社會生產(chǎn)力
預(yù)計(jì)到2030年,我國隱私保護(hù)計(jì)算行業(yè)的總市場規(guī)模將達(dá)到1134億。
其中第三層價(jià)值占比最高,可達(dá)到62%;第一層、第二層占比分別是11%、27%。
而另一邊,學(xué)術(shù)研究上近兩年對于聯(lián)邦學(xué)習(xí)、隱私保護(hù)計(jì)算的關(guān)注度也在增高。
去年7月,Gartner預(yù)測,在2021-2025年的周期中,聯(lián)邦學(xué)習(xí)將發(fā)揮主流作用,引導(dǎo)隱私保護(hù)計(jì)算的商業(yè)化大潮。
清華大學(xué)人工智能研究院聯(lián)合多方發(fā)布的《2021 聯(lián)邦學(xué)習(xí)全球研究與應(yīng)用趨勢報(bào)告》中也提及,聯(lián)邦學(xué)習(xí)科研發(fā)展呈整體熱度逐年上升趨勢。
研究論文產(chǎn)出量及專利申請受理量,中美兩國占據(jù)領(lǐng)先主導(dǎo)地位。
2016-2020年期間,中國聯(lián)邦學(xué)習(xí)論文發(fā)表量為666篇,位居同期全球第一。
聯(lián)邦學(xué)習(xí)高被引論文半數(shù)來自中美,全球該領(lǐng)域?qū)W者也主要聚集在這兩國。
顯然,科研界與產(chǎn)業(yè)界出現(xiàn)了協(xié)同共進(jìn)的趨勢。
△來自清華大學(xué)《2021聯(lián)邦學(xué)習(xí)全球研究與應(yīng)用趨勢報(bào)告》
在此背景下,也就不難理解達(dá)摩院為何在此時(shí)以開源平臺,入局隱私保護(hù)計(jì)算了。
但為什么選擇從底層技術(shù)做起?我們找到達(dá)摩院的技術(shù)專家,直接求問思考和答案。
一方面源自于達(dá)摩院的自身屬性。
作為技術(shù)圈重磅玩家,達(dá)摩院自然更關(guān)注前沿技術(shù)本身的價(jià)值及前瞻性。
另一方面,還來自達(dá)摩院對隱私保護(hù)計(jì)算長期的洞察。
達(dá)摩院智能計(jì)算實(shí)驗(yàn)室資深技術(shù)專家丁博麟,有著十余年的隱私保護(hù)計(jì)算研究經(jīng)歷。他在與我們的交談中提到,近兩年來,聯(lián)邦學(xué)習(xí)方面的科研成果開始集中涌現(xiàn)。
作為技術(shù)人員,自然而然想到從工具入手,推動(dòng)這股研究浪潮更快前進(jìn)。
“我們也是希望能夠開源一個(gè)輕量級、易用的平臺,讓大家能夠在上面實(shí)現(xiàn)更多的科研協(xié)同,從而產(chǎn)生更多學(xué)術(shù)成果,并更進(jìn)一步推動(dòng)產(chǎn)業(yè)創(chuàng)新?!?/span>
舉個(gè)例子來說,現(xiàn)在很多服務(wù)商都需要申請用戶的隱私數(shù)據(jù)權(quán)限,但每個(gè)人對隱私保護(hù)的要求不同。
在并不是所有人都愿意提供數(shù)據(jù)的情況下,如何保證產(chǎn)品能不斷優(yōu)化?
這就需要學(xué)界和產(chǎn)界進(jìn)行共同探索。
FederatedScope開源平臺便能為此提供一個(gè)模擬環(huán)境,支持多方聯(lián)合開發(fā)。
而最后探索出來的成果,達(dá)摩院也會將它用開源框架工具的形式固定下來,避免后續(xù)開發(fā)者重復(fù)工作。
達(dá)摩院智能計(jì)算實(shí)驗(yàn)室高級技術(shù)專家李雅亮,負(fù)責(zé)了此次FederatedScope開源。
他表示目前這一版開源平臺,主要是為技術(shù)開發(fā)提供助力,下一階段將會更加側(cè)重產(chǎn)業(yè)部署方面的考量。
而且除了聯(lián)邦學(xué)習(xí),達(dá)摩院在隱私保護(hù)計(jì)算的其他領(lǐng)域(如多方安全計(jì)算、可信執(zhí)行環(huán)境等)也有部署。
達(dá)摩院智能計(jì)算實(shí)驗(yàn)室一直在密切關(guān)注數(shù)據(jù)安全和隱私保護(hù)方面技術(shù)發(fā)展,注重研究數(shù)據(jù)采集、數(shù)據(jù)共享和數(shù)據(jù)呈現(xiàn)等階段中用戶隱私安全保護(hù)問題,同時(shí)關(guān)注降低數(shù)據(jù)損耗、提高數(shù)據(jù)分析能力等研究。
技術(shù)和法規(guī)之間的gap如何填補(bǔ)?
值得一提的是,在與達(dá)摩院兩位技術(shù)專家交談的過程中,“合規(guī)”一詞,被提及了20余次。
與之相關(guān)的內(nèi)容,不是技術(shù)在法規(guī)壓力下發(fā)展受限,在法規(guī)推動(dòng)下蓬勃發(fā)展。
在隱私保護(hù)計(jì)算領(lǐng)域已有十余年研發(fā)經(jīng)驗(yàn)的丁博麟提到,隱私保護(hù)計(jì)算技術(shù)的首要價(jià)值,就是促進(jìn)合規(guī)。
這一點(diǎn)是任何一項(xiàng)隱私保護(hù)計(jì)算服務(wù)設(shè)計(jì)和開發(fā)階段,最先考慮的問題。
或者說,在合規(guī)條件下實(shí)現(xiàn)技術(shù)創(chuàng)新、讓數(shù)據(jù)流通價(jià)值更大化,是隱私保護(hù)計(jì)算技術(shù)的初衷之一。
那么,怎樣才是合規(guī)的?技術(shù)的邊界到底在哪里?
這個(gè)標(biāo)準(zhǔn)答案業(yè)內(nèi)期盼已久。
實(shí)際上,我國不僅近年來出臺多部數(shù)據(jù)隱私相關(guān)法律政策,立法嚴(yán)格程度也處于世界領(lǐng)先水平,這在一定程度上,促使我國隱私保護(hù)計(jì)算市場在起步較晚的情況下高速發(fā)展。
丁博麟認(rèn)為,應(yīng)該明確的邊界包括幾個(gè)層面:“哪些數(shù)據(jù)嚴(yán)格不能采集”,“哪些數(shù)據(jù)可以通過技術(shù)方案實(shí)現(xiàn)安全地采集和應(yīng)用”,以及“哪些技術(shù)方案可以通過圍繞合規(guī)法條構(gòu)建的安全模型檢驗(yàn)、在什么樣的場景下可被使用”。
近年來出臺的法規(guī)逐步明確了第一層面的邊界,第二層面和第三層面的邊界還有待政府部門聯(lián)同產(chǎn)學(xué)研界共同探索。
這其中需要學(xué)術(shù)界來提供最核心和前沿的技術(shù)進(jìn)展,也需要產(chǎn)業(yè)界從實(shí)際技術(shù)應(yīng)用中提煉案例思考,共同為邊界的細(xì)化提供參考。
而當(dāng)邊界更加清晰后,技術(shù)探索和產(chǎn)業(yè)發(fā)展的腳步還會加快,從而持續(xù)驅(qū)動(dòng)數(shù)據(jù)隱私保護(hù)技術(shù)的進(jìn)步和發(fā)揮數(shù)據(jù)應(yīng)用的價(jià)值。
最后,回到文章的開始:
對于“隱私和便利是否能兩全”這個(gè)問題,你怎么看?
FederatedScope開源地址:
https://github.com/alibaba/FederatedScope