Adam獲時間檢驗獎!清華揭示保辛動力學(xué)本質(zhì),提出全新RAD優(yōu)化器
ICLR(國際學(xué)習(xí)表征會議)是機器學(xué)習(xí)領(lǐng)域三大頂會之一,以推動深度學(xué)習(xí)基礎(chǔ)理論和技術(shù)創(chuàng)新著稱。每年,ICLR時間檢驗獎都會授予近十年對深度學(xué)習(xí)領(lǐng)域產(chǎn)生深遠影響的里程碑式論文。
今年這一殊榮花落Adam優(yōu)化器(Adaptive Moment Estimation),該算法于2014年由OpenAI工程師Diederik Kingma和University of Toronto研究生Jimmy Ba提出。
從計算機視覺到自然語言處理,從強化學(xué)習(xí)到生成模型,Adam以其卓越的自適應(yīng)能力,成為當代深度學(xué)習(xí)模型的「標配」優(yōu)化器,堪稱AI領(lǐng)域的「萬金油」。
Diederik Kingma是谷歌的一名研究科學(xué)家,曾經(jīng)是OpenAI初創(chuàng)團隊的一員,期間領(lǐng)導(dǎo)了基礎(chǔ)算法研究團隊。2018年,Kingma跳槽到谷歌,加入Google Brain(現(xiàn)為Google DeepMind),專注于生成式模型研究,包括擴散模型和大型語言模型。他是變分自編碼器(VAE)、Adam優(yōu)化器、Glow和變分擴散模型等工作的主要作者。
Jimmy Ba是深度學(xué)習(xí)教父Geoffrey Hinton的得意門生,于2018年獲得University of Toronto的博士學(xué)位。作為Hinton學(xué)術(shù)家族的核心成員,他在ICLR、NeurIPS等頂級會議發(fā)表多篇開創(chuàng)性論文(其中Adam優(yōu)化器論文引用量已突破21萬次),堪稱AI領(lǐng)域最具影響力的青年科學(xué)家之一。
Adam優(yōu)化器雖在工程實踐中表現(xiàn)優(yōu)異,但長期以來缺乏對其優(yōu)異性能的理論解釋。
近期,清華大學(xué)李升波教授課題組發(fā)文 《Conformal Symplectic Optimization for Stable Reinforcement Learning》,解析了這一「黑箱」算法的優(yōu)化動力學(xué)機理。
該課題組的研究發(fā)現(xiàn)了神經(jīng)網(wǎng)絡(luò)優(yōu)化過程與共形哈密頓系統(tǒng)演化存在「完美」的數(shù)學(xué)對偶性,揭示了Adam優(yōu)化器暗藏的「相對論動力學(xué)」和「保辛離散化」本質(zhì),并由此提出了訓(xùn)練更加穩(wěn)定、性能更加優(yōu)秀的RAD優(yōu)化器(Relativistic Adaptive Gradient Descent),這一研究工作為神經(jīng)網(wǎng)絡(luò)優(yōu)化動力學(xué)的分析及全新算法的設(shè)計開辟了新航道。
Adam優(yōu)化器的歷史與算法特點
神經(jīng)網(wǎng)絡(luò)的優(yōu)化主要依賴梯度下降方法。自20世紀50年代隨機梯度下降(SGD)首次提出以來,優(yōu)化算法經(jīng)歷了多次重要演進。從動量方法如SGD-M和NAG,到自適應(yīng)方法如AdaGrad、RMSprop,優(yōu)化算法的「演變之戰(zhàn)」已持續(xù)超過70年。
2014年,Diederik Kingma與Jimmy Ba聯(lián)合提出了Adam優(yōu)化器(算法1),將神經(jīng)網(wǎng)絡(luò)優(yōu)化算法的性能向前推進了一大步。該算法的核心設(shè)計思想是融合Momentum和RMSProp兩大優(yōu)化方法的優(yōu)勢:
通過指數(shù)移動平均計算一階動量vk+1和二階動量yk+1,分別估計梯度的一階矩(即梯度期望)和原始二階矩(近似于梯度方差)。針對動量零初始化導(dǎo)致的估計偏差,通過引入偏差修正技術(shù),Adam兼具了快速收斂與穩(wěn)定訓(xùn)練的雙重特性。
從算法原理看,Adam優(yōu)化器通過動態(tài)維護一階動量(方向修正)和二階動量(步長調(diào)節(jié)),實現(xiàn)了參數(shù)更新的雙重自適應(yīng):既優(yōu)化了更新方向,又自動調(diào)整了有效學(xué)習(xí)率,顯著加速了網(wǎng)絡(luò)收斂。其偏差修正機制有效消除了訓(xùn)練初期的估計偏差,確保了參數(shù)更新的準確性。
此外,Adam展現(xiàn)出優(yōu)異的超參數(shù)魯棒性,在大多數(shù)場景下無需精細調(diào)參即可獲得穩(wěn)定性能。正是這些優(yōu)勢使其成為各類監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)任務(wù)的首選優(yōu)化器。
Adam優(yōu)化器為何具備如此出色的訓(xùn)練性能?至今仍缺乏對其優(yōu)化動力學(xué)機理的深入解釋,這已成為限制新一代神經(jīng)網(wǎng)絡(luò)優(yōu)化算法設(shè)計的關(guān)鍵障礙。
梯度下降過程與動力學(xué)演化的對偶機制
受中國科學(xué)院院士馮康先生和美國國家三院院士M. I. Jordan的研究啟發(fā)(前者開創(chuàng)了哈密頓算法與保辛離散化理論,后者成功將保辛理論引入最優(yōu)化領(lǐng)域),清華大學(xué)的研究團隊提出了一種神經(jīng)網(wǎng)絡(luò)優(yōu)化算法的性能理論解釋框架:
第一步,將神經(jīng)網(wǎng)絡(luò)的參數(shù)優(yōu)化過程對偶為共形哈密頓系統(tǒng)的狀態(tài)演化過程,建立參數(shù)梯度下降與系統(tǒng)能量耗散之間的內(nèi)在聯(lián)系。
第二步,利用保辛機制實現(xiàn)共形哈密頓系統(tǒng)的離散化,將離散系統(tǒng)的優(yōu)勢動態(tài)特性映射到神經(jīng)網(wǎng)絡(luò)的優(yōu)化過程,從而完成對算法優(yōu)化動力學(xué)的機理解釋。
研究發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)梯度下降過程與共形哈密頓離散系統(tǒng)的演化呈現(xiàn)高度相似性,通過將網(wǎng)絡(luò)參數(shù)θ對偶為系統(tǒng)狀態(tài)q,目標函數(shù)J(θ)對偶為系統(tǒng)勢能U(q),可直接建立二者間的對偶關(guān)系。
研究者據(jù)此開發(fā)了一個全新的網(wǎng)絡(luò)優(yōu)化算法開發(fā)框架,包含兩個核心步驟:
1)動能建模:通過設(shè)計合適的動能項T(p)以嵌入期望的動態(tài)特性;
2)保辛離散:采用保辛離散方法以精確保持系統(tǒng)的動力學(xué)性質(zhì)。
RAD優(yōu)化器的設(shè)計思路與性能對比
進一步地,研究者將神經(jīng)網(wǎng)絡(luò)參數(shù)的優(yōu)化過程建模為多粒子相對論系統(tǒng)狀態(tài)的演化過程,通過引入狹義相對論的光速最大原理,抑制了網(wǎng)絡(luò)參數(shù)的異常更新速率,同時提供了各網(wǎng)絡(luò)參數(shù)的獨立自適應(yīng)調(diào)節(jié)能力,從理論上引入了對網(wǎng)絡(luò)訓(xùn)練穩(wěn)定性和收斂性等動態(tài)特性的保障機制。
這一工作使得研究者提出了既具備穩(wěn)定動力學(xué)特性又適用于非凸隨機優(yōu)化的神經(jīng)網(wǎng)絡(luò)優(yōu)化算法,即RAD優(yōu)化器(算法2)。
研究發(fā)現(xiàn),當速度系數(shù)σ=1且保辛因子ζk取固定小值ε時,RAD優(yōu)化器將退化為Adam優(yōu)化器,揭示了Adam優(yōu)化器的動力學(xué)機理,說明了Adam優(yōu)化器是新提出的RAD優(yōu)化器的一個特例。
相比于Adam優(yōu)化器,RAD優(yōu)化器具有更加優(yōu)異的長期訓(xùn)練穩(wěn)定性,這是因為:
1)優(yōu)化前期:RAD具有類似Adam的快速收斂特性,能夠高效定位到最優(yōu)解的鄰域;
2)優(yōu)化后期:RAD的保辛結(jié)構(gòu)逐漸增強,具備維持共形哈密頓系統(tǒng)動態(tài)特性的能力,確保算法具備更加優(yōu)異的抗干擾能力。
值得注意的是,Adam中的有理因子ε是一個「人為引入」的小常數(shù),用于避免分母為零的數(shù)值錯誤。而RAD的保辛因子ζ與哈密頓系統(tǒng)的「質(zhì)量×質(zhì)能」(即m2c2)相關(guān),具有明確的物理根源。
這為之前的經(jīng)驗性發(fā)現(xiàn)(即適度增加ε可提升Adam性能)提供了理論性解釋:增大ε使得優(yōu)化過程更加接近原始的動力學(xué)系統(tǒng)。該研究成果不僅深化了Adam與動力學(xué)系統(tǒng)的本質(zhì)聯(lián)系,同時也為分析其他主流自適應(yīng)優(yōu)化器(如AdaGrad、NAdam、AdamW等)提供了普適性的框架。
為了評估RAD優(yōu)化器的性能,研究者在5種主流深度強化學(xué)習(xí)(DRL)算法(包括DQN、DDPG、TD3、SAC和ADP)和12個測試環(huán)境(包括1個CartPole任務(wù)、6個MuJoCo任務(wù)、4個Atari任務(wù)和1個自動駕駛?cè)蝿?wù))中開展了廣泛測試,并與9種主流神經(jīng)網(wǎng)絡(luò)優(yōu)化器(包括SGD、SGD-M、DLPF、RGD、NAG、Adam、NAdam、SWATS和AdamW)進行了比較,結(jié)果表明RAD綜合性能均排名第一。
特別在圖像類標準測試環(huán)境Seaquest任務(wù)中,RAD性能達到Adam優(yōu)化器的2.5倍,得分提升了155.1%