自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Adam又要“退休”了?耶魯大學(xué)團(tuán)隊(duì)提出AdaBelief

新聞 人工智能
近日NeurIPS 2020收錄論文提出的一個優(yōu)化器,在深度學(xué)習(xí)社區(qū)成為焦點(diǎn),引起廣泛討論。

本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

要挑戰(zhàn)Adam地位的優(yōu)化器又多了一個。

近日NeurIPS 2020收錄論文提出的一個優(yōu)化器,在深度學(xué)習(xí)社區(qū)成為焦點(diǎn),引起廣泛討論。

這就是由耶魯大學(xué)團(tuán)隊(duì)提出的AdaBelief。團(tuán)隊(duì)在論文中表示,該優(yōu)化器兼具Adam的快速收斂特性和SGD的良好泛化性。

Adam又要“退休”了?耶魯大學(xué)團(tuán)隊(duì)提出AdaBelief

所謂AdaBelief,是指根據(jù)梯度方向上的“信念”(Belief)來調(diào)整訓(xùn)練的步長。它和Adam在算法上的差別并不大。

二者差別在下面的算法實(shí)現(xiàn)上可以輕易看出。

Adam又要“退休”了?耶魯大學(xué)團(tuán)隊(duì)提出AdaBelief

相比Adam,AdaBelief沒有引入任何其他新參數(shù),只是在最后一步更新時有差異,已在上圖中用藍(lán)色標(biāo)出。

Adam的更新方向是

Adam又要“退休”了?耶魯大學(xué)團(tuán)隊(duì)提出AdaBelief

而AdaBelief的更新方向是

Adam又要“退休”了?耶魯大學(xué)團(tuán)隊(duì)提出AdaBelief

vt和st的差別在于,后者是

Adam又要“退休”了?耶魯大學(xué)團(tuán)隊(duì)提出AdaBelief

的指數(shù)移動平均(EMA)。

mt可以看做是gt的預(yù)測值,當(dāng)實(shí)際值與預(yù)測值相差不大時,分母

Adam又要“退休”了?耶魯大學(xué)團(tuán)隊(duì)提出AdaBelief

較小,步長較大,權(quán)重放心大膽邁開步子更新。

而實(shí)際值與預(yù)測值相差很大時,AdaBelief傾向于“不相信”當(dāng)前梯度,此時分母較大,更新步長較短。

為什么AdaBelief更好

只做在最后一步做了了一個小小的改變,未審核會產(chǎn)生如此之大的影響呢?

這主要是因?yàn)锳daBelief考慮了兩點(diǎn)。

1、損失函數(shù)的曲率問題

理想的優(yōu)化器應(yīng)該考慮損失函數(shù)的曲線,而不是簡單地在梯度較大的地方下采取較大的步長。

Adam又要“退休”了?耶魯大學(xué)團(tuán)隊(duì)提出AdaBelief

在“大梯度、小曲率”(圖中區(qū)域3)情況下|gt-gt-1|和|st|很小,優(yōu)化器應(yīng)增加其步長。

2、分母中的梯度符號

Adam又要“退休”了?耶魯大學(xué)團(tuán)隊(duì)提出AdaBelief

在上圖損失函數(shù)為

Adam又要“退休”了?耶魯大學(xué)團(tuán)隊(duì)提出AdaBelief

的情況下,藍(lán)色矢量代表梯度,十字叉代表最優(yōu)解。

Adam優(yōu)化器在y方向上振蕩,并在x方向上保持前進(jìn)。這是由于

Adam又要“退休”了?耶魯大學(xué)團(tuán)隊(duì)提出AdaBelief

在低方差情況下,Adam中的更新方向接近“符號下降”。

而在AdaBelief中,

Adam又要“退休”了?耶魯大學(xué)團(tuán)隊(duì)提出AdaBelief

因此AdaBelief在x方向上走了一大步,在y方向上只會走一小步,防止振蕩產(chǎn)生。

實(shí)驗(yàn)結(jié)果

在簡單的幾種3維損失函數(shù)曲面上,AdamBelief展現(xiàn)出了優(yōu)秀的性能。

Adam又要“退休”了?耶魯大學(xué)團(tuán)隊(duì)提出AdaBelief
Adam又要“退休”了?耶魯大學(xué)團(tuán)隊(duì)提出AdaBelief

圖像分類

在CIFAR-10和CIFAR-100數(shù)據(jù)集上,用VGG11、ResNet34和DenseNet121三種網(wǎng)絡(luò)進(jìn)行訓(xùn)練,AdaBelief都顯示出更好的收斂結(jié)果。

而且在ImageNet數(shù)據(jù)上,AdaBelief在Top-1準(zhǔn)確率上僅次于SGD。

Adam又要“退休”了?耶魯大學(xué)團(tuán)隊(duì)提出AdaBelief

時間序列建模

在Penn TreeBank數(shù)據(jù)集上,用LSTM進(jìn)行實(shí)驗(yàn),AdaBelief都實(shí)現(xiàn)了最低的困惑度。

Adam又要“退休”了?耶魯大學(xué)團(tuán)隊(duì)提出AdaBelief

GAN

在WGAN和WGAN-GP上的實(shí)驗(yàn)表明,經(jīng)AdaBelief訓(xùn)練的結(jié)果都得到了最低的FID。

Adam又要“退休”了?耶魯大學(xué)團(tuán)隊(duì)提出AdaBelief

網(wǎng)友質(zhì)疑

雖然AdaBelief在多個任務(wù)上取得了不錯的效果,但該方法還是遭到不少網(wǎng)友質(zhì)疑。

因?yàn)檫@些年來號稱取代Adam的優(yōu)化器不計其數(shù),但最終獲得時間檢驗(yàn)的卻寥寥無幾。

網(wǎng)友首先質(zhì)疑的是實(shí)驗(yàn)baseline的選取問題。

有人認(rèn)為,在CIFAR上,很難相信2020年SOTA模型的準(zhǔn)確率低于96%,因此AdaBelief論文最終在選取baseline時有可能是選擇了與不太好的結(jié)果進(jìn)行比較。

在ImageNet測試的表2里,為什么要使用ResNet18代替更標(biāo)準(zhǔn)的ResNet50?而且AdaBelief不是最優(yōu)結(jié)果,卻用加粗方式標(biāo)出,容易讓人產(chǎn)生誤解。絕妙的技巧是將提出的方法的得分加粗。

另外,還有人在作者未測試的NLP任務(wù)上進(jìn)行實(shí)驗(yàn),很快AdaBelief就“崩潰”了,而SGD能夠很好地收斂。

Adam又要“退休”了?耶魯大學(xué)團(tuán)隊(duì)提出AdaBelief

AdaBelief不會是最后一個意圖取代Adam的優(yōu)化器,它的泛化能力究竟如何,還有待更多研究者進(jìn)一步地檢驗(yàn)。

項(xiàng)目地址:
https://juntang-zhuang.github.io/adabelief/

論文地址:
https://arxiv.org/abs/2010.07468

代碼地址:
https://github.com/juntang-zhuang/Adabelief-Optimizer

 

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-02-11 10:01:19

2012-09-27 09:49:50

華為耶魯大學(xué)電信

2011-04-12 14:34:20

2023-11-13 18:19:54

模型訓(xùn)練

2023-03-31 13:50:15

計算機(jī)NLP

2018-09-07 23:06:18

量子計算機(jī)架構(gòu)開發(fā)

2009-04-22 15:12:17

埃里森EllisonOracle

2024-12-23 13:50:00

數(shù)據(jù)訓(xùn)練模型

2025-04-24 09:16:00

2019-10-31 15:13:11

Python

2021-04-27 05:57:12

ReadWriteLo容器

2012-06-11 09:23:41

云計算云服務(wù)

2020-09-17 09:42:26

TikTok

2025-04-08 09:16:00

推理模型AI

2021-06-29 12:27:19

Spring BootCAS 登錄

2010-02-06 09:36:46

gPadChrome

2010-12-03 11:17:12

2011-04-11 16:04:29

DBA

2020-09-24 06:47:06

ServiceMesh模式

2011-12-31 09:11:08

OracleAMD
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號