阿里媽媽開源曲率空間學(xué)習(xí)框架、聯(lián)邦學(xué)習(xí)解決方案,向社會開放AI技術(shù)共同進步
9月15日,阿里媽媽宣布同時開源兩項AI技術(shù):曲率空間學(xué)習(xí)框架和聯(lián)邦學(xué)習(xí)解決方案。兩項最新技術(shù)成果的開源,將助力業(yè)界提高數(shù)據(jù)隱私保護能力,預(yù)計可降低80%的存儲消耗量和提升15%的用戶請求匹配精準(zhǔn)度,上述技術(shù)也可應(yīng)用于互聯(lián)網(wǎng)行業(yè)之外的各個科研計算領(lǐng)域。
據(jù)了解,曲率空間學(xué)習(xí)框架(Curvature Learning Framework,簡稱CLF)是中國首個經(jīng)過工業(yè)級場景驗證的曲率空間深度學(xué)習(xí)框架;聯(lián)邦學(xué)習(xí)解決方案(Elastic Federated Learning Solution,簡稱EFLS),是百億級工業(yè)場景跨企業(yè)合作的聯(lián)邦學(xué)習(xí)解決方案。
用戶即日起可在全球最大開源網(wǎng)站GitHub搜索“Curvature-Learning-Framework”,9月30日以后搜索“Elastic-Federated-Learning-Solution”,查看兩個項目的開源文件。
“AI技術(shù)是新一代生產(chǎn)力。在基于龐大的工業(yè)級場景應(yīng)用成熟后,我們選擇向社會開放這些技術(shù)能力,以最大化共享AI技術(shù)紅利,共同進步。”阿里媽媽CTO鄭波表示。
曲率空間學(xué)習(xí)框架開源:AI換軌,坐上曲率飛船
曲率是一個衡量空間彎曲程度的量,曲率越接近零,空間越平坦。在科幻小說《三體》中,人類正是利用空間曲率的變化建造出曲率飛船。
AI所需的海量數(shù)據(jù)與計算往往基于曲率為零的歐氏空間,這潛在制約了表達能力。阿里媽媽技術(shù)團隊發(fā)現(xiàn),曲率空間能更精準(zhǔn)的建模圖數(shù)據(jù)結(jié)構(gòu),此次開源的曲率空間學(xué)習(xí)框架,包含流形、算子、模型及黎曼優(yōu)化器整套深度學(xué)習(xí)流程,用戶可便捷的將模型遷移到曲率空間中,從而給AI的發(fā)展打開一條新通路。
想象一下,使用曲率空間建模就像“吹起一個氣球”。假設(shè)一個干癟的氣球表面上有十億個節(jié)點,這會是非常致密的狀態(tài)。隨著氣球逐漸充氣變大,氣球表面越來越“彎曲”,節(jié)點之間就分的越開,構(gòu)成的形狀也越立體,我們就能越好的觀察這些節(jié)點并進行區(qū)分。
曲率空間正如一個膨脹的氣球表面,相對于同樣大小的歐氏空間,它能容納的數(shù)據(jù)更多,而且對樹、環(huán)等幾何特性展現(xiàn)的更全面精準(zhǔn)。基于圖數(shù)據(jù)Cora的實驗證明,替換歐氏空間為曲率空間,模型能提升約8%的預(yù)測精度。
阿里媽媽技術(shù)人士表示,該技術(shù)已經(jīng)在阿里媽媽業(yè)務(wù)中展現(xiàn)出很高的應(yīng)用潛力?;谔詫毸阉鲝V告場景,曲率空間能精準(zhǔn)建模十億級商家與用戶的交互行為,利用空間曲率變化實現(xiàn)數(shù)據(jù)的“定向放大”與“精準(zhǔn)分割”。系統(tǒng)全量上線后,存儲消耗量降低80%,用戶側(cè)請求匹配精準(zhǔn)度相對提升15%。
該技術(shù)有望廣泛應(yīng)用到其他行業(yè),引領(lǐng)新一輪的AI落地浪潮。業(yè)內(nèi)專家表示,曲率空間可以建模地球表面的云層運動軌跡,航空航海路線等,也能表征物流運輸圖、資源流動圖等。從更及時的天氣預(yù)報、更精準(zhǔn)的地圖導(dǎo)航,到更高效的物流運輸、更公平的社會資源分配,此項新技術(shù)能切實改善人們的生活。
聯(lián)邦學(xué)習(xí)解決方案開源:兼收并蓄,開放共建
聯(lián)邦學(xué)習(xí)是2016年由谷歌提出,在保護終端隱私的前提下進行機器學(xué)習(xí),幫助廣告主實現(xiàn)跨公司多端投放的解決方案。通俗一點講,聯(lián)邦學(xué)習(xí)就像幾位老師傅共同訓(xùn)練一個徒弟,老師傅們各有所長,卻互相防備不能共享,而徒弟則兼收并蓄,融會貫通,集合各家所長,終學(xué)有所成。
據(jù)了解,阿里媽媽此次開源的聯(lián)邦學(xué)習(xí)解決方案,更加關(guān)注隱私保護和加密計算,并在此基礎(chǔ)上建立APP孤島的信息鏈接,構(gòu)建機器學(xué)習(xí)模型,在高并發(fā)、加密性、易用性和產(chǎn)品化等方面提供更好支持,方便多方在超大規(guī)模稀疏場景下進行聯(lián)邦學(xué)習(xí)的合作與實踐。
具體而言,聯(lián)邦學(xué)習(xí)解決方案具備以下特點:
1. 大規(guī)模高可用:云原生實現(xiàn)方案支持百億規(guī)模數(shù)據(jù)求交;多種驗證方式保證最終結(jié)果的完整性和正確性;精簡的訓(xùn)練交互協(xié)議與高效的底層實現(xiàn),保證分布式訓(xùn)練的高吞吐;精細(xì)的狀態(tài)恢復(fù)與模型校驗,確保分布式容災(zāi)的正確性。
2.加密保護隱私:通過數(shù)據(jù)安全與計算安全兩種手段以保障用戶隱私,支持多種隱私保護方案以提供安全和性能的最佳平衡。
3.更強大更便捷:首次開源了基于水平聚合、層次聚合的兩種模型,并通過可視化web界面方便任務(wù)流程的開發(fā)、配對、調(diào)度和管理,極大地提升迭代效率。
依托于聯(lián)邦學(xué)習(xí)解決方案,阿里媽媽Unidesk產(chǎn)品已助力珀萊雅、卡姿蘭、薇諾娜、花西子、修正等多個企業(yè)實現(xiàn)品牌和業(yè)務(wù)雙豐收。據(jù)了解,花西子采用Unidesk產(chǎn)品以后,經(jīng)營效果提升明顯,短短2個月時間,品牌ROI提升15%,且放量也在逐步提高。
未來,該技術(shù)可以擴展到金融、醫(yī)療共建等場景,普適性較高。
將開源進行到底
此次開源,延續(xù)了阿里媽媽“將開源進行到底”的一貫做法。從2015年開始,阿里媽媽技術(shù)團隊將大規(guī)模深度學(xué)習(xí)、圖學(xué)習(xí)、強化學(xué)習(xí)等多項AI技術(shù)深度應(yīng)用到業(yè)務(wù),引領(lǐng)了AI在互聯(lián)網(wǎng)廣告領(lǐng)域的探索和大規(guī)模應(yīng)用,并沉淀出多個業(yè)內(nèi)領(lǐng)先的AI工程系統(tǒng)。
2018年11月,阿里媽媽對外開源了業(yè)界首個面向高維稀疏場景的大規(guī)模工業(yè)級訓(xùn)練引擎XDL,并同時開源包含深度興趣網(wǎng)絡(luò)(DIN)、深度興趣進化網(wǎng)絡(luò)(DIEN)、深度樹匹配(TDM)在內(nèi)的多個工業(yè)級創(chuàng)新算法。在GitHub上,XDL項目開源一個月內(nèi)所獲星贊數(shù)超過1000個,到現(xiàn)在已有4000多星贊,近1000次復(fù)制使用。
2019年1月,阿里媽媽的大規(guī)模圖深度學(xué)習(xí)框架Euler正式對外開源,在工業(yè)界引起巨大反響的同時,也引起學(xué)術(shù)界關(guān)注。2021年4月,Euler2.0發(fā)布,通用性和靈活性得到進一步提升。在GitHub網(wǎng)站上,Euler項目現(xiàn)在已經(jīng)有超過2500個星贊和500次復(fù)制使用。