特斯聯(lián)打造聯(lián)邦學(xué)習(xí)算法引擎盤活城市靜默數(shù)據(jù)
數(shù)據(jù)是人工智能及機(jī)器學(xué)習(xí)的基礎(chǔ)。隨著人工智能從計(jì)算、感知階段發(fā)展到認(rèn)知階段,其進(jìn)一步發(fā)展對數(shù)據(jù)的需求量亦在逐步攀升。然而在大多數(shù)行業(yè)中,囿于各種各樣的原因,數(shù)據(jù)常常以孤島的形式存在——即使是在同一個公司的不同部門之間,要實(shí)現(xiàn)數(shù)據(jù)的集中整合也面臨著重重阻力——在現(xiàn)實(shí)中將分散在各地、各個機(jī)構(gòu)的數(shù)據(jù)進(jìn)行整合幾乎是不可能做到的事,其成本也十分高昂。此外,隨著人工智能的進(jìn)一步發(fā)展,數(shù)據(jù)的隱私和安全業(yè)已成為了世界性的議題。
針對人工智能發(fā)展及其所面臨的數(shù)據(jù)孤島和數(shù)據(jù)隱私的兩難問題,聯(lián)邦機(jī)器學(xué)習(xí)(Federated Machine Learning)即為能有效幫助多個機(jī)構(gòu)在滿足用戶隱私保護(hù)、數(shù)據(jù)安全和政府法規(guī)的要求下,進(jìn)行數(shù)據(jù)使用和機(jī)器學(xué)習(xí)建模的機(jī)器學(xué)習(xí)框架。
日前特斯聯(lián)所打造的德陽科創(chuàng)中心正式落地運(yùn)營。德陽科創(chuàng)中心的設(shè)立旨在充分貫通學(xué)術(shù)生態(tài)和產(chǎn)業(yè)生態(tài),以“成本共擔(dān)”的方式,為周邊的中小微企業(yè)提供AI所需的算力、數(shù)據(jù)、算法模型等核心要素,讓各體量、具備不同AI基礎(chǔ)的企業(yè)均能通過學(xué)術(shù)機(jī)構(gòu)所研發(fā)出的模型,以低代碼、模塊化的生產(chǎn)方式依據(jù)自身的需求,實(shí)現(xiàn)自有知識產(chǎn)權(quán)算法的孵化及既有成熟算法的調(diào)用,而支撐產(chǎn)業(yè)算法孵化的原料來自于學(xué)術(shù)科研生態(tài)的研究成果——預(yù)訓(xùn)練模型。
通過聯(lián)邦學(xué)習(xí)的核心技術(shù),特斯聯(lián)向?qū)W術(shù)科研生態(tài)提供科研的原料——城市及產(chǎn)業(yè)數(shù)據(jù)——并將算力下沉至數(shù)據(jù)端,形成聯(lián)邦學(xué)習(xí)智算節(jié)點(diǎn),通過九章算法賦能平臺為學(xué)術(shù)科研提供服務(wù)。
據(jù)特斯聯(lián)透露,在聯(lián)邦學(xué)習(xí)方向,特斯聯(lián)基于九章算法賦能平臺打造了聯(lián)邦學(xué)習(xí)算法引擎,以其作為研究型算法孵化平臺的核心。目前聯(lián)邦學(xué)習(xí)算法引擎已支持橫向聯(lián)邦學(xué)習(xí)算法和縱向聯(lián)邦學(xué)習(xí)算法,通過AI-Research-Studio,向?qū)W術(shù)科研生態(tài)提供基于聯(lián)邦學(xué)習(xí)數(shù)據(jù)使用的API接口。
本文通過城市用電數(shù)據(jù)以聯(lián)邦樹模型及聯(lián)邦神經(jīng)網(wǎng)絡(luò)的算法實(shí)現(xiàn)預(yù)測類預(yù)訓(xùn)練模型的研究實(shí)踐,對特斯聯(lián)打造的聯(lián)邦學(xué)習(xí)算法引擎進(jìn)行介紹。
橫向聯(lián)邦學(xué)習(xí):支持跨場域高重疊數(shù)據(jù)特征機(jī)器學(xué)習(xí)
特斯聯(lián)聯(lián)邦學(xué)習(xí)算法引擎橫向聯(lián)邦學(xué)習(xí)架構(gòu)圖
橫向聯(lián)邦學(xué)習(xí)主要應(yīng)用于具有相同特征樣本、用戶重疊度較少的數(shù)據(jù)集。
科研人員通過查看數(shù)據(jù)樣例來確定這些數(shù)據(jù)是否滿足科研要求,在滿足要求的情況下,通過調(diào)用聯(lián)邦學(xué)習(xí)的API實(shí)現(xiàn)數(shù)據(jù)的使用。而特斯聯(lián)聯(lián)邦學(xué)習(xí)算法引擎的橫向聯(lián)邦學(xué)習(xí)內(nèi)部運(yùn)行過程主要由如下幾步構(gòu)成:
各智算節(jié)點(diǎn)從中心安全可信服務(wù)器中下載由科研人員提供需要訓(xùn)練的模型;
每個智算節(jié)點(diǎn)利用本地?cái)?shù)據(jù)訓(xùn)練模型(無需上傳本地?cái)?shù)據(jù)),將數(shù)據(jù)加密梯度上傳至中心安全可信服務(wù)器,并由中心安全可信服務(wù)器聚合各數(shù)據(jù)持有方的梯度更新模型參數(shù);
中心安全可信服務(wù)器依據(jù)貢獻(xiàn)度,將更新后的模型返回至各智算節(jié)點(diǎn);
各智算節(jié)點(diǎn)更新各自模型,并從第2步重復(fù)直至訓(xùn)練完成;
完成訓(xùn)練后,研究人員即可使用模型完成其目標(biāo)任務(wù)。
特斯聯(lián)所打造引擎的橫向聯(lián)邦學(xué)習(xí)部分目前已實(shí)現(xiàn)基于聯(lián)邦DNN實(shí)現(xiàn)片區(qū)用電數(shù)據(jù)的打通。通過上述橫向聯(lián)邦學(xué)習(xí)步驟完成訓(xùn)練后,引擎可實(shí)現(xiàn)一鍵部署,并為用戶提供相應(yīng)的API調(diào)用接口——后續(xù)可直接面向科研人員提供服務(wù),在保證數(shù)據(jù)安全的前提下實(shí)現(xiàn)預(yù)訓(xùn)練模型的研究。
縱向聯(lián)邦學(xué)習(xí):面向固定場域低重疊數(shù)據(jù)特征機(jī)器學(xué)習(xí)
特斯聯(lián)聯(lián)邦學(xué)習(xí)算法引擎縱向聯(lián)邦學(xué)習(xí)架構(gòu)圖
與橫向聯(lián)邦學(xué)習(xí)不同,縱向聯(lián)邦學(xué)習(xí)主要應(yīng)用于具有用戶重疊較多而特征重疊較少的特性的數(shù)據(jù)集。
具體而言,科研人員通過查看數(shù)據(jù)樣例來確定這些數(shù)據(jù)是否滿足科研要求,在滿足要求的情況下,通過調(diào)用聯(lián)邦學(xué)習(xí)的API實(shí)現(xiàn)數(shù)據(jù)的使用。特斯聯(lián)的聯(lián)邦學(xué)習(xí)算法引擎的縱向聯(lián)邦學(xué)習(xí)過程由如下幾步構(gòu)成:
中心安全可信服務(wù)器通過特定選擇及評估機(jī)制,將科研人員提供的算法模型打散成多個小模型(如圖示中將原模型分解為A-part和B-part兩部分),然后分發(fā)到每個智算節(jié)點(diǎn)下。中心保留模型完整結(jié)構(gòu)信息和各小模型在各方節(jié)點(diǎn)的信息;
引擎參考SecureBoost算法的去中心化思想,每個智算節(jié)點(diǎn)自行完成加密中間結(jié)果的交互,其中包括各數(shù)據(jù)持有方的小模型計(jì)算結(jié)果,梯度等;
各智算節(jié)點(diǎn)完成加密中間結(jié)果的交互后,各智算節(jié)點(diǎn)方(如圖示A)均可從其他智算節(jié)點(diǎn)(如圖示B)中收集到加密梯度統(tǒng)計(jì),然后進(jìn)行聚合產(chǎn)生最優(yōu)解,再反饋至其他智算節(jié)點(diǎn);重復(fù)第2步,共同完成聯(lián)合建模;
完成聯(lián)合建模后,各智算節(jié)點(diǎn)的小模型信息更新至中心安全可信服務(wù)器,各智算節(jié)點(diǎn)的小模型依舊存儲在其本地;
在使用模型預(yù)測時,中心安全可信服務(wù)器通過基于各小模型節(jié)點(diǎn)信息,聯(lián)合調(diào)用各方小模型共同完成推算。
特斯聯(lián)打造的聯(lián)邦學(xué)習(xí)算法引擎的縱向聯(lián)邦學(xué)習(xí)部分目前已應(yīng)用于基于SecureBoost算法通過城市用電數(shù)據(jù)的接入,實(shí)現(xiàn)預(yù)測類預(yù)訓(xùn)練模型的研究和抽象。在穩(wěn)定性實(shí)驗(yàn)下,基于SecureBoost算法所實(shí)現(xiàn)的城市用電預(yù)測模型和傳統(tǒng)本地訓(xùn)練模型的結(jié)果進(jìn)行對比,預(yù)測結(jié)果誤差在8%左右;在準(zhǔn)確率實(shí)驗(yàn)下,多縱向節(jié)點(diǎn)聯(lián)合建模的城市用電預(yù)測模型相對于單節(jié)點(diǎn)建模的結(jié)果進(jìn)行對比,性能提升了30%,即多縱向節(jié)點(diǎn)聯(lián)合建模的預(yù)測結(jié)果相較于標(biāo)簽結(jié)果的誤差更小。特斯聯(lián)將這一模型進(jìn)行抽象化封裝,以應(yīng)用于跨行業(yè)的更多場景。
通過用電數(shù)據(jù)抽象預(yù)測類預(yù)訓(xùn)練模型
城市用電量預(yù)測算法圖示
具體在城市用電案例下,由于數(shù)據(jù)的保密性,聯(lián)邦學(xué)習(xí)算法引擎得到的特征都經(jīng)過脫敏處理。在具體的操作過程中,首先,我們考慮一個具有三個parties(參與方)的系統(tǒng),如圖所示,其中party2和party3為passive parties(被參與動方),party1是一個activity party(主動方)。我們首先通過前述算法訓(xùn)練得到一個樹模型,并生成對應(yīng)的lookup table(查找表)。為了預(yù)測在2021年1月1日的用電量,三個參與方將協(xié)作工作,由主動方調(diào)動被動方完成。首先從根節(jié)點(diǎn)開始,通過[party id:1, record id:1]的記錄,主動方可以知道其所控制節(jié)點(diǎn)的劃分,主動方則可通過其對應(yīng)的查找表找到對應(yīng)的劃分屬性和閾值。通過這一過程我們可以發(fā)現(xiàn)相應(yīng)節(jié)點(diǎn)是通過屬性weather(天氣)進(jìn)行劃分的,且劃分閾值為40,因此該節(jié)點(diǎn)落下左節(jié)點(diǎn),依次類推,一直到達(dá)葉子節(jié)點(diǎn)。而這個模型通過抽象轉(zhuǎn)化可應(yīng)用于其他行業(yè)的預(yù)測領(lǐng)域。通過前述過程可進(jìn)一步達(dá)到去中心化效果,實(shí)現(xiàn)數(shù)據(jù)的跨行業(yè)使用,訓(xùn)練過程中無需數(shù)據(jù)擁有方的直接參與,科研機(jī)構(gòu)即可使用上述能源數(shù)據(jù)實(shí)現(xiàn)跨界的預(yù)測算法研究,解決單邊數(shù)據(jù)規(guī)模小和標(biāo)簽樣本少的問題,同時,也降低了能源數(shù)據(jù)泄露的幾率,提升數(shù)據(jù)的安全性。
提升數(shù)據(jù)可及性及安全性,聯(lián)邦學(xué)習(xí)推動AI與各行各業(yè)深度滲透
事實(shí)上,針對用電數(shù)據(jù)的模型化抽象僅是特斯聯(lián)聯(lián)邦學(xué)習(xí)數(shù)據(jù)應(yīng)用場景的冰山一角,特斯聯(lián)將行業(yè)數(shù)據(jù)根據(jù)技術(shù)分類進(jìn)行抽象,按視頻圖像、自然語言處理、推薦預(yù)測、知識圖譜進(jìn)行歸類劃分,通過API對科研機(jī)構(gòu)、高校提供數(shù)據(jù)服務(wù)??蒲袡C(jī)構(gòu)高校將研究的成果以預(yù)訓(xùn)練模型的形式通過九章算法賦能平臺的弱監(jiān)督大模型技術(shù)向產(chǎn)業(yè)提供低門檻、高質(zhì)量的人工智能算法孵化功能。
在特斯聯(lián)看來,能夠盤活城市中龐大的沉默數(shù)據(jù)資源,使數(shù)據(jù)真正有效地為行業(yè)所應(yīng)用即為其打造科創(chuàng)中心最大的價值。特斯聯(lián)德陽科創(chuàng)中心負(fù)責(zé)人認(rèn)為,作為人工智能發(fā)展的三大核心要素之一,數(shù)據(jù)是人工智能得以不斷向前發(fā)展的基礎(chǔ),“可以說未來行業(yè)的發(fā)展與數(shù)據(jù)的可及性、安全性是正相關(guān)的。通過打造聯(lián)邦學(xué)習(xí)算法引擎,我們希望在確保數(shù)據(jù)隱私的同時,為各個行業(yè)尤其是中小微企業(yè)降低數(shù)據(jù)獲取的門檻,推動AI與各行各業(yè)更深度地綁定。這也是推動AI普惠化發(fā)展必經(jīng)的一段路程。”