自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICML 獲獎?wù)哧戧懦桑喝ブ行幕瘷C器學(xué)習(xí)的理論極限在哪里?

新聞 人工智能
當(dāng)下互聯(lián)網(wǎng)時代,數(shù)十億用戶每天生產(chǎn)著百億級規(guī)模的數(shù)據(jù)。作為AI煉丹的底層燃料,這些海量數(shù)據(jù)至關(guān)重要。然而,由于訓(xùn)練數(shù)據(jù)和模型規(guī)模的增大,機器之間的通信成本越高,機器學(xué)習(xí)系統(tǒng)經(jīng)常會出現(xiàn)高延遲、低負載的現(xiàn)象。

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

如何高效訓(xùn)練大規(guī)模數(shù)據(jù),一直是機器學(xué)習(xí)系統(tǒng)面臨的重要挑戰(zhàn)。

當(dāng)下互聯(lián)網(wǎng)時代,數(shù)十億用戶每天生產(chǎn)著百億級規(guī)模的數(shù)據(jù)。作為AI煉丹的底層燃料,這些海量數(shù)據(jù)至關(guān)重要。然而,由于訓(xùn)練數(shù)據(jù)和模型規(guī)模的增大,機器之間的通信成本越高,機器學(xué)習(xí)系統(tǒng)經(jīng)常會出現(xiàn)高延遲、低負載的現(xiàn)象。

2004年,谷歌首次提出并行算法 Mapreduce,通過將大規(guī)模數(shù)據(jù)分發(fā)給網(wǎng)絡(luò)上的每個節(jié)點,實現(xiàn)了1TB以上的運算量。之后,AI科學(xué)家李沐又提出異步可擴展的Parameter Server算法,基本上解決了大規(guī)模數(shù)據(jù)的分布式訓(xùn)練問題。

然而,近年來以  BERT 為代表預(yù)訓(xùn)練模型,其體積規(guī)模不斷突破極限。動輒上百萬、甚至上億級參數(shù)量的超大模型,讓傳統(tǒng)分布式機器學(xué)習(xí)系統(tǒng)越來越難以高效運轉(zhuǎn)。基于此,業(yè)內(nèi)普遍認為,去中心化(Decentralized )的分布式訓(xùn)練方法將成為下一個“最優(yōu)解”。

陸昱成向AI科技評論表示,隨著機器學(xué)習(xí)的應(yīng)用越來越多樣化,中心化分布式系統(tǒng)的局限性也會越來越明顯,比如“中心節(jié)點負載過大”,“容錯性差”,“數(shù)據(jù)安全”等問題。如果設(shè)計好節(jié)點之間的協(xié)議,去中心化算法將有助于大幅提升系統(tǒng)的魯棒性。

陸昱成是康奈爾大學(xué)計算機系在讀博士,主要研究大規(guī)模機器學(xué)習(xí)系統(tǒng),側(cè)重于隨機和并行算法。近日,他發(fā)表的一篇名為《Optimal Complexity in Decentralized Training》的研究論文獲得了ICML 2021杰出論文榮譽提名獎。

在這篇論文中,他主要研究了去中心化算法的理論極限,通過對D-PSGD(羅切斯特大學(xué)Ji Liu團隊提出)和SGP(Facebook AI Lab提出)等經(jīng)典算法的系統(tǒng)性分析,推導(dǎo)出了隨機非凸環(huán)境下迭代復(fù)雜度的最優(yōu)下界,并進一步提出DeTAG算法證明了該理論下界是可實現(xiàn)的。ICML組委會一致認為,這項研究成果推動了分布式機器學(xué)習(xí)系統(tǒng)在理論層面的發(fā)展。

 

1

去中心化:機器學(xué)習(xí)系統(tǒng)的最優(yōu)解

“雖不及熱門領(lǐng)域諸如NLP等備受媒體追捧,但在‘煉大模型’這股浪潮的驅(qū)動下,去中心化已經(jīng)成為機器學(xué)習(xí)系統(tǒng)領(lǐng)域的熱門研究方向”。陸昱成表示。

去中心化并不是一個全新的概念,它在金融、移動互聯(lián)網(wǎng)、云計算等領(lǐng)域早已有了廣泛的應(yīng)用。只是最近五年來才逐漸部署到人工智能領(lǐng)域。例如,應(yīng)用于金融服務(wù)的區(qū)塊鏈技術(shù),采用的是去中心化的理念;用于優(yōu)化計算機網(wǎng)絡(luò)負載和容量的點對點拓撲結(jié)構(gòu),依靠的也是去中心化的思想。

在機器學(xué)習(xí)系統(tǒng)中,中心化是指由一個節(jié)點管理所有計算機機器之間的數(shù)據(jù)交互與同步。而去中心化,則強調(diào)所有節(jié)點都是平等的,它不圍繞任何一個節(jié)點做中心化的設(shè)計。實驗證明,不同節(jié)點之間的信息交互也可以達到與集中式交互類似的效果,甚至訓(xùn)練出無損的全局模型。

谷歌于2017年推出的FedAvg算法,是一種典型的去中心化聯(lián)邦學(xué)習(xí)架構(gòu)。它以中心節(jié)點為server(服務(wù)器),各分支節(jié)點為本地的client(設(shè)備)。其運算模式是在各分支節(jié)點分別利用本地數(shù)據(jù)訓(xùn)練模型,再將訓(xùn)練好的模型匯合到中心節(jié)點,獲得一個更好的全局模型。

在本地訓(xùn)練移動端數(shù)據(jù),而無需用戶向外發(fā)送信息,是數(shù)據(jù)層去中心化的一個典型應(yīng)用。分布式機器學(xué)習(xí)系統(tǒng)是可以看做一個棧式結(jié)構(gòu),包括數(shù)據(jù)、應(yīng)用、協(xié)議、網(wǎng)絡(luò)拓撲等不同的層。

這些層通過不同的去中心化設(shè)計,可以適應(yīng)不同的應(yīng)用場景。D-PSGD是擴展隨機梯度下降(SGD)最基本算法之一,也是應(yīng)用于協(xié)議層的一種典型去中心化算法,可實現(xiàn)線性并行加速。

雖然學(xué)術(shù)界已有一些成熟的去中心化算法,但落地工業(yè)級別的去中心化系統(tǒng)仍處于初步階段。傳統(tǒng)的機器學(xué)習(xí)框架諸如Facebook的Pytorch,谷歌的TensorFlow,亞馬遜的MXNet仍采用的是Parameter Server或AllReduce等中心化解決方案;但一些初創(chuàng)公司如Openmined等則已將去中心化作為其機器學(xué)習(xí)系統(tǒng)的一部分。

陸昱成認為,在接下來的幾年內(nèi),不同層的去中心化設(shè)計會成為擴展機器學(xué)習(xí)/深度學(xué)習(xí)在不同場景下應(yīng)用的關(guān)鍵因素。其原因在于三點:

1. 在數(shù)據(jù)中心和集群式的模型訓(xùn)練中,去中心化的設(shè)計提供了良好的容錯性和魯棒性,并減少了不同機器間的帶寬需求;

2. 去中心化可以為更多場景下的AI落地提供可能,比如近年來不斷發(fā)展的終端設(shè)備學(xué)習(xí)就是應(yīng)用層去中心化的典型設(shè)計;

3、去中心化在分布式系統(tǒng)領(lǐng)域有大量關(guān)于協(xié)議層和安全性的研究,為其在機器學(xué)習(xí)領(lǐng)域的發(fā)展奠定了理論基礎(chǔ)。

從現(xiàn)有研究成果來看,陸昱成認為,類似于D-PSGD的眾多分布式算法在收斂速度方面仍存在理論差距,尤其是在隨機非凸環(huán)境下,其迭代復(fù)雜度的極限仍是一個未知數(shù)。而關(guān)于這一問題的探討,讓他獲得了ICML 2021杰出論文提名獎,并為機器學(xué)習(xí)系統(tǒng)的理論發(fā)展做出了貢獻。

 

2

理論下界:迭代復(fù)雜度的極限

 

論文地址:https://arxiv.org/abs/2006.08085

在這篇論文中,陸昱成團隊提供了去中心化分布式系統(tǒng)的一個最優(yōu)的理論下界,并通過DeTAG和 DeFacto兩個算法證明了該下界是可實現(xiàn)的。

通信復(fù)雜度和網(wǎng)絡(luò)延遲是衡量機器學(xué)習(xí)模型在訓(xùn)練過程是否高效的重要指標(biāo),二者展示了去中心化系統(tǒng)在運算過程中,每個節(jié)點的迭代次數(shù)和收斂速度,而下界則代表了這種迭代復(fù)雜度的理論極限,即在處理任意一個任務(wù)時,去中心化系統(tǒng)所需要最低迭代次數(shù)。

在陸昱成看來,任何一個最優(yōu)算法的設(shè)計都需要理論下界的指導(dǎo)。“如果沒有下界的指導(dǎo),我們其實并不知道現(xiàn)有算法的提升空間在哪里。只有明確一個極限,不斷趨近于極限,才能設(shè)計出接近最優(yōu)的算法”。也因如此,這篇研究論文更注重機器學(xué)習(xí)系統(tǒng)優(yōu)化的理論創(chuàng)新。

DeTAG算法是包含應(yīng)用層、協(xié)議層、網(wǎng)絡(luò)拓撲層的棧式結(jié)構(gòu)。陸昱成介紹稱,他們在算法設(shè)計過程中使用了一些去中心化的常見技巧,比如梯度追蹤,階段式通信和加速化的Gossip協(xié)議。

基于這些技巧,他們最大貢獻就是發(fā)現(xiàn)了一個最優(yōu)的理論下界,并且提出了一個可以分析去中心化算法復(fù)雜度的理論框架。

實驗證明,DeTAG算法只需一個對數(shù)間隔即可達到理論下限。在論文中,陸昱成團隊將DeTAG與D-PSGD、D2、DSGT以及DeTAG等其他分布式算法在圖像分類任務(wù)上進行了比較,結(jié)果表明,DeTAG比基線算法具有更快的收斂速度,尤其是在異質(zhì)數(shù)據(jù)和稀疏網(wǎng)絡(luò)中。

1、在異質(zhì)數(shù)據(jù)上的收斂性

在許多應(yīng)用場景中,節(jié)點間數(shù)據(jù)往往并不服從同一分布。在實驗中,當(dāng)不同節(jié)點間數(shù)據(jù)完全同質(zhì)時,除了D-PSGD的收斂速度略慢外,其他算法幾乎相差不大;當(dāng)不同節(jié)點數(shù)據(jù)的同質(zhì)程度為50%-25%時,DeTAG算法的收斂速度最快,而D-PSGD即使微調(diào)的超參數(shù)也無法收斂;當(dāng)數(shù)據(jù)的同質(zhì)程度為零時,DSGT獲得了比D2更穩(wěn)定的性能。

圖注:0%、25%、50%、100%代表不同的同質(zhì)程度

2、在不同稀疏性通信網(wǎng)絡(luò)上的收斂性

與基線相比,在不同的控制參數(shù)(κ=1、0.1、0.05、0.01)下,DeTAG具有更快的收斂速度;此外,當(dāng)網(wǎng)絡(luò)變得稀疏,即參數(shù)K減小時,DeTAG具有更穩(wěn)健的收斂性。

陸昱成表示,DeTAG算法通過優(yōu)化不同節(jié)點之心的通信過程,在一定程度上實現(xiàn)了負載均衡,提高了系統(tǒng)的容錯率。同時也驗證了去中心化算法在優(yōu)化分布式機器學(xué)習(xí)系統(tǒng)方面的潛力——機器學(xué)習(xí)的范圍不再局限于云端,或者大規(guī)模集群,而是可以從更廣的范圍上擬合更多的終端數(shù)據(jù)。

 

3

ICML獲獎?wù)?/span>

 

[[416203]]

陸昱成是康奈爾大學(xué)計算機科學(xué)系三年級博士生,師從 Chris De Sa.教授。主要研究如何優(yōu)化分布式機器學(xué)習(xí)系統(tǒng),集中于系統(tǒng)性能,通信壓縮、去中心化、采樣算法等方向。

在博士期間獲得頂級學(xué)術(shù)會議獎項的學(xué)生并不多見,尤其是ICML、CVPR、ACL等主流會議。作為機器學(xué)習(xí)領(lǐng)域的最熱門的頂會,ICML 2021共收到有效投稿5513篇,接受1184篇,接受率僅為21.48%。

這次大會頒發(fā)了一篇杰出論文獎,四篇杰出論文榮譽提名獎,其中陸昱成(第一作者)是唯一一位獲獎的華人博士生。另外一位獲獎的華人學(xué)者是Facebook AI 科學(xué)家田淵棟。

陸昱成本科就讀于上海交通大學(xué),后來前往康奈爾大學(xué)攻讀博士。讀博后,他的研究方向開始聚焦于去中心化算法,并接觸一些更有挑戰(zhàn)性和影響力的課題。在微軟和AWS AI Lab 實習(xí)期間,他從采樣和通信壓縮的角度探討了如何優(yōu)化分布式訓(xùn)練算法。

通常來講,博士階段的研究更適合從小眾而具體的選題開始做起,以便培養(yǎng)科研信心,循序漸進為之后的研究積累經(jīng)驗。在談到為何一開始便選擇熱門的去中心化算法時,陸昱成表示,從個人角度來講,第一篇論文從簡單易出成果的研究入手,建立自信心是非常必要的,但同時我們也應(yīng)該有意識地為自己的研究逐級增加難度,擴大問題的主線。

另外,不同于計算機視覺、自然語言處理等研究更偏向工業(yè)界,優(yōu)化算法領(lǐng)域的工作通常更注重基礎(chǔ)理論。工業(yè)界和學(xué)術(shù)界要的研究需求是不一樣的。除了理論層面外,也可以從非算法角度可以挖掘一些選題。

 

 

責(zé)任編輯:張燕妮 來源: 雷鋒網(wǎng)
相關(guān)推薦

2010-10-21 16:37:13

2020-10-27 09:56:37

CIOIT領(lǐng)導(dǎo)領(lǐng)導(dǎo)經(jīng)驗

2017-03-02 11:59:03

數(shù)據(jù)中心網(wǎng)絡(luò)帶寬極限

2016-07-14 13:46:44

華為

2016-07-22 18:07:58

華為

2016-07-15 10:44:34

華為

2012-03-24 21:28:17

Windows Pho

2013-09-24 15:10:03

甲骨文Duke

2018-05-28 09:09:00

機器學(xué)習(xí)深度學(xué)習(xí)

2021-12-03 20:33:08

計算

2016-09-27 10:29:44

2017-03-29 16:42:35

互聯(lián)網(wǎng)

2016-07-22 18:18:14

華為

2016-08-12 14:06:41

國際 企業(yè)

2023-04-18 07:51:30

人工智能AI生成圖像

2021-01-20 15:46:11

機器學(xué)習(xí)人工智能無服務(wù)

2021-09-17 16:05:06

Google開源貢獻者獲獎?wù)?/a>

2023-08-08 12:57:35

AI研究

2010-03-26 08:54:22

點贊
收藏

51CTO技術(shù)棧公眾號