自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效

發(fā)布于 2024-5-10 09:39
瀏覽
0收藏

本論文作者趙博是加州大學(xué)圣地亞哥分校的三年級(jí)在讀博士,其導(dǎo)師為 Rose Yu。她的主要研究方向?yàn)樯窠?jīng)網(wǎng)絡(luò)參數(shù)空間中的對(duì)稱性,及其對(duì)優(yōu)化、泛化和損失函數(shù)地貌的影響。她曾獲 DeepMind 獎(jiǎng)學(xué)金,并且是高通創(chuàng)新獎(jiǎng)學(xué)金的決賽入圍者。


眾多神經(jīng)網(wǎng)絡(luò)模型中都會(huì)有一個(gè)有趣的現(xiàn)象:不同的參數(shù)值可以得到相同的損失值。這種現(xiàn)象可以通過參數(shù)空間對(duì)稱性來解釋,即某些參數(shù)的變換不會(huì)影響損失函數(shù)的結(jié)果?;谶@一發(fā)現(xiàn),傳送算法(teleportation)被設(shè)計(jì)出來,它利用這些對(duì)稱變換來加速尋找最優(yōu)參數(shù)的過程。盡管傳送算法在實(shí)踐中表現(xiàn)出了加速優(yōu)化的潛力,但其背后的確切機(jī)制尚不清楚。


近日,來自加州大學(xué)圣地亞哥分校、Flatiron Institute、美國東北大學(xué)等機(jī)構(gòu)的研究人員發(fā)布的《Improving Convergence and Generalization Using Parameter Symmetries》論文中,展示了傳送不僅能在短期內(nèi)加快優(yōu)化過程,而且能總體上縮短收斂時(shí)間。此外,研究還發(fā)現(xiàn),傳送到具有不同曲率的最小值可以改善模型的泛化能力,這意味著最小值的曲率與泛化能力之間存在聯(lián)系。研究者們進(jìn)一步將傳送技術(shù)與多種優(yōu)化算法以及基于優(yōu)化的元學(xué)習(xí)相結(jié)合,這些結(jié)果充分展示了在優(yōu)化過程中融入?yún)?shù)空間對(duì)稱性的潛力。


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效-AI.x社區(qū)


  • 論文鏈接:https://openreview.net/forum?id=L0r0GphlIL
  • 代碼鏈接:https://github.com/Rose-STL-Lab/Teleportation-Optimization
  • 作者主頁:https://b-zhao.github.io/


背景:對(duì)稱性和傳送算法


參數(shù)空間對(duì)稱性(parameter space symmetry)是群 G 在參數(shù)空間(Param)上的一個(gè)作用,該作用使得損失函數(shù) L 的值保持不變:


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效-AI.x社區(qū)


對(duì)稱傳送算法(symmetry teleportation)在損失函數(shù)水平集中尋找更陡峭的點(diǎn)以加速梯度下降:


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效-AI.x社區(qū)


傳送后,損失值不會(huì)改變。然而,梯度和之后的訓(xùn)練軌跡會(huì)有所不同。


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效-AI.x社區(qū)


傳送對(duì)收斂速度的提高


論文第一部分提供了對(duì)傳送提高收斂速度的理論證明。


通過傳送,隨機(jī)梯度下降(SGD)會(huì)收斂到一個(gè)包含多個(gè)靜止點(diǎn)的盆地,其中通過傳送可達(dá)的每個(gè)點(diǎn)都是靜止的。圖 1 中的定理提供了損失函數(shù)梯度期望值的上限。相比之下,普通 SGD 只能保證存在一個(gè)點(diǎn) wt,使得梯度最終會(huì)很小。加入傳送后,對(duì)于群作用軌道上所有的點(diǎn),梯度都將很小。


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效-AI.x社區(qū)

圖 1:該定理提供了損失函數(shù)梯度期望值的上限


此外,在進(jìn)行一次傳送后,梯度下降的方向與牛頓法(Newton’s method)方向相同。因此,收斂速度具有一個(gè)二次收縮項(xiàng),這是二階方法的典型特征。相反,如果在相同的假設(shè)下省略傳送步驟,算法的收斂速度將僅呈現(xiàn)線性收斂。圖 2 中的定理展示了傳送導(dǎo)致的線性和二次收斂的混合。


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效-AI.x社區(qū)

圖 2:該定理展示了傳送導(dǎo)致的線性和二次收斂的混合


通過傳送改善泛化能力


在探索機(jī)器學(xué)習(xí)模型優(yōu)化的過程中,「傳送」這一概念最初被提出是為了加速收斂并提高算法的效率。然而,在該論文的第二部分,研究者們將視野擴(kuò)展到了一個(gè)新的目標(biāo) —— 提升模型的泛化能力。


泛化能力通常與模型在訓(xùn)練過程中達(dá)到的極小值的「銳度」(sharpness) 相關(guān)。為了深入理解這一點(diǎn),研究者們引入了一個(gè)新的概念 ——「極小值曲率」(curvature),并討論其對(duì)泛化的影響。通過觀察極小值的銳度、曲率與泛化能力之間的關(guān)聯(lián),研究者們提出了一種新的方法,將銳度和曲率納入傳送的目標(biāo)中來提升模型的泛化性能。 


圖 3 通過可視化的方式展示了一個(gè)梯度流 L (w) 和一條極小值上的曲線(γ),這兩條曲線的曲率對(duì)應(yīng)著極小值的銳度和曲率。此外,表中還顯示了測試集上的損失與銳度或曲率之間的 Pearson 相關(guān)性。在三個(gè)數(shù)據(jù)集中,銳度與驗(yàn)證損失呈強(qiáng)正相關(guān),而極小值的曲率則與驗(yàn)證損失呈負(fù)相關(guān)。這些發(fā)現(xiàn)表明,具有較小銳度或較大曲率的極小值,可能會(huì)帶來更好的泛化效果。


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效-AI.x社區(qū)

圖 3:展示了一個(gè)梯度流 L (w) 和一條極小值上的曲線(γ)


這些相關(guān)性的一種解釋來源于損失地形(loss landscape)在不同數(shù)據(jù)分布上的變化。當(dāng)數(shù)據(jù)分布發(fā)生變化導(dǎo)致?lián)p失地形變化時(shí),尖銳的極小值損失增加較大(如圖 4 右側(cè)所示)。在圖 4 中,曲率較大的極小值與變化后的極小值距離更遠(yuǎn)(如圖 4 左側(cè)所示)。


ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效-AI.x社區(qū)

圖 4


取得了極小值的屬性與泛化能力的相關(guān)性后,該研究人員將參數(shù)傳送到具有不同銳度和曲率的區(qū)域,以提高模型的泛化能力。圖 5 為在 CIFAR-10 上 SGD 的訓(xùn)練曲線,其中在第 20 個(gè) epoch 進(jìn)行了一次傳送。實(shí)線代表平均測試損失,虛線代表平均訓(xùn)練損失。

ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效-AI.x社區(qū)

圖 5


傳送到更平坦的點(diǎn)略微改善了驗(yàn)證損失。通過傳送改變曲率對(duì)泛化能力有更顯著的影響。傳送到曲率較大的點(diǎn)有助于找到具有較低驗(yàn)證損失的極小值,而傳送到曲率較小的點(diǎn)則產(chǎn)生相反的效果。這表明至少在局部,曲率與泛化相關(guān)。


傳送和其他優(yōu)化器的結(jié)合


標(biāo)準(zhǔn)優(yōu)化器


傳送不僅有助于 SGD 的收斂速度。為了展示傳送與其他標(biāo)準(zhǔn)優(yōu)化器的良好兼容性,研究者們使用不同的優(yōu)化器在 MNIST 上訓(xùn)練了一個(gè)三層神經(jīng)網(wǎng)絡(luò),并進(jìn)行了帶傳送和不帶傳送的訓(xùn)練。如圖 6 所示,在使用 AdaGrad、帶動(dòng)量的 SGD、RMSProp 和 Adam 時(shí),傳送提高了這些算法的收斂速度。

ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效-AI.x社區(qū)

圖 6:在使用 AdaGrad、帶動(dòng)量的 SGD、RMSProp 和 Adam 時(shí),傳送提高了這些算法的收斂速度


學(xué)習(xí)傳送


受條件編程(conditional programming)和基于優(yōu)化的元學(xué)習(xí)(meta-learning)的啟發(fā),研究者們還提出了一個(gè)元優(yōu)化器,用于學(xué)習(xí)在損失水平集中移動(dòng)參數(shù)的位置。這種方法避免了在群流形上優(yōu)化的計(jì)算成本,并改進(jìn)了現(xiàn)有的僅限于局部更新的元學(xué)習(xí)方法。


圖 7 總結(jié)了訓(xùn)練算法。研究人員使用了兩個(gè) LSTM 元優(yōu)化器 (m1, m2) 來學(xué)習(xí)局部更新 ft 和傳送中使用的群元素 gt。在兩層 LeakyReLU 神經(jīng)網(wǎng)絡(luò)上的實(shí)驗(yàn)中,他們使用了不同初始化創(chuàng)建的多個(gè)梯度下降軌跡上訓(xùn)練元優(yōu)化器,并在訓(xùn)練中未見過的新初始值上測試收斂速度。

ICLR 2024 Oral|用巧妙的「傳送」技巧,讓神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加高效-AI.x社區(qū)

圖 7:總結(jié)了訓(xùn)練算法


與基線相比,同時(shí)學(xué)習(xí)兩種更新類型(LSTM (update,tele))比單獨(dú)學(xué)習(xí)它們(LSTM (update) 、LSTM (lr,tele))能夠?qū)崿F(xiàn)更好的收斂速率。


總結(jié)


該論文的主要貢獻(xiàn)包括傳送加速 SGD 收斂的理論保證、極小值曲率的量化及其與泛化相關(guān)性的證據(jù)、基于傳送的改善泛化的算法以及學(xué)習(xí)傳送位置的元學(xué)習(xí)算法。


傳送廣泛適用于在損失水平集中搜索具有優(yōu)秀屬性的參數(shù)。對(duì)稱性與優(yōu)化之間的密切關(guān)系開啟了許多激動(dòng)人心的機(jī)會(huì)。探索傳送中的其他目標(biāo)是一個(gè)有潛力的未來方向。其他可能的應(yīng)用包括將傳送擴(kuò)展到不同的架構(gòu),如卷積或圖神經(jīng)網(wǎng)絡(luò),以及不同的算法,如基于采樣的優(yōu)化。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/IK9ZIez7hVYuT4yM5OyG4A??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦