自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="wmya0"><p id="wmya0"></p></sub>

<blockquote id="wmya0"><i id="wmya0"><video id="wmya0"></video></i></blockquote>

<center id="wmya0"></center>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

Adam獲時間檢驗獎！清華揭示保辛動力學(xué)本質(zhì)，提出全新RAD優(yōu)化器

作者：新智元 2025-04-24 09:16:00

人工智能新聞

Adam優(yōu)化器是深度學(xué)習(xí)中常用的優(yōu)化算法，但其性能背后的理論解釋一直不完善。近日，來自清華大學(xué)的團隊提出了RAD優(yōu)化器，擴展了Adam的理論基礎(chǔ)，提升了訓(xùn)練穩(wěn)定性。實驗顯示RAD在多種強化學(xué)習(xí)任務(wù)中表現(xiàn)優(yōu)于Adam。

ICLR（國際學(xué)習(xí)表征會議）是機器學(xué)習(xí)領(lǐng)域三大頂會之一，以推動深度學(xué)習(xí)基礎(chǔ)理論和技術(shù)創(chuàng)新著稱。每年，ICLR時間檢驗獎都會授予近十年對深度學(xué)習(xí)領(lǐng)域產(chǎn)生深遠影響的里程碑式論文。

今年這一殊榮花落Adam優(yōu)化器（Adaptive Moment Estimation），該算法于2014年由OpenAI工程師Diederik Kingma和University of Toronto研究生Jimmy Ba提出。

從計算機視覺到自然語言處理，從強化學(xué)習(xí)到生成模型，Adam以其卓越的自適應(yīng)能力，成為當代深度學(xué)習(xí)模型的「標配」優(yōu)化器，堪稱AI領(lǐng)域的「萬金油」。

Diederik Kingma是谷歌的一名研究科學(xué)家，曾經(jīng)是OpenAI初創(chuàng)團隊的一員，期間領(lǐng)導(dǎo)了基礎(chǔ)算法研究團隊。2018年，Kingma跳槽到谷歌，加入Google Brain（現(xiàn)為Google DeepMind），專注于生成式模型研究，包括擴散模型和大型語言模型。他是變分自編碼器(VAE)、Adam優(yōu)化器、Glow和變分擴散模型等工作的主要作者。

Jimmy Ba是深度學(xué)習(xí)教父Geoffrey Hinton的得意門生，于2018年獲得University of Toronto的博士學(xué)位。作為Hinton學(xué)術(shù)家族的核心成員，他在ICLR、NeurIPS等頂級會議發(fā)表多篇開創(chuàng)性論文（其中Adam優(yōu)化器論文引用量已突破21萬次），堪稱AI領(lǐng)域最具影響力的青年科學(xué)家之一。

Adam優(yōu)化器雖在工程實踐中表現(xiàn)優(yōu)異，但長期以來缺乏對其優(yōu)異性能的理論解釋。

近期，清華大學(xué)李升波教授課題組發(fā)文《Conformal Symplectic Optimization for Stable Reinforcement Learning》，解析了這一「黑箱」算法的優(yōu)化動力學(xué)機理。

該課題組的研究發(fā)現(xiàn)了神經(jīng)網(wǎng)絡(luò)優(yōu)化過程與共形哈密頓系統(tǒng)演化存在「完美」的數(shù)學(xué)對偶性，揭示了Adam優(yōu)化器暗藏的「相對論動力學(xué)」和「保辛離散化」本質(zhì)，并由此提出了訓(xùn)練更加穩(wěn)定、性能更加優(yōu)秀的RAD優(yōu)化器（Relativistic Adaptive Gradient Descent），這一研究工作為神經(jīng)網(wǎng)絡(luò)優(yōu)化動力學(xué)的分析及全新算法的設(shè)計開辟了新航道。

Adam優(yōu)化器的歷史與算法特點

神經(jīng)網(wǎng)絡(luò)的優(yōu)化主要依賴梯度下降方法。自20世紀50年代隨機梯度下降（SGD）首次提出以來，優(yōu)化算法經(jīng)歷了多次重要演進。從動量方法如SGD-M和NAG，到自適應(yīng)方法如AdaGrad、RMSprop，優(yōu)化算法的「演變之戰(zhàn)」已持續(xù)超過70年。

2014年，Diederik Kingma與Jimmy Ba聯(lián)合提出了Adam優(yōu)化器（算法1），將神經(jīng)網(wǎng)絡(luò)優(yōu)化算法的性能向前推進了一大步。該算法的核心設(shè)計思想是融合Momentum和RMSProp兩大優(yōu)化方法的優(yōu)勢：

通過指數(shù)移動平均計算一階動量v_k+1和二階動量y_{k+1，分別估計梯度的一階矩（即梯度期望）和原始二階矩（近似于梯度方差）。針對動量零初始化導(dǎo)致的估計偏差，通過引入偏差修正技術(shù)，Adam兼具了快速收斂與穩(wěn)定訓(xùn)練的雙重特性。}

從算法原理看，Adam優(yōu)化器通過動態(tài)維護一階動量（方向修正）和二階動量（步長調(diào)節(jié)），實現(xiàn)了參數(shù)更新的雙重自適應(yīng)：既優(yōu)化了更新方向，又自動調(diào)整了有效學(xué)習(xí)率，顯著加速了網(wǎng)絡(luò)收斂。其偏差修正機制有效消除了訓(xùn)練初期的估計偏差，確保了參數(shù)更新的準確性。

此外，Adam展現(xiàn)出優(yōu)異的超參數(shù)魯棒性，在大多數(shù)場景下無需精細調(diào)參即可獲得穩(wěn)定性能。正是這些優(yōu)勢使其成為各類監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)任務(wù)的首選優(yōu)化器。

Adam優(yōu)化器為何具備如此出色的訓(xùn)練性能？至今仍缺乏對其優(yōu)化動力學(xué)機理的深入解釋，這已成為限制新一代神經(jīng)網(wǎng)絡(luò)優(yōu)化算法設(shè)計的關(guān)鍵障礙。

梯度下降過程與動力學(xué)演化的對偶機制

受中國科學(xué)院院士馮康先生和美國國家三院院士M. I. Jordan的研究啟發(fā)（前者開創(chuàng)了哈密頓算法與保辛離散化理論，后者成功將保辛理論引入最優(yōu)化領(lǐng)域），清華大學(xué)的研究團隊提出了一種神經(jīng)網(wǎng)絡(luò)優(yōu)化算法的性能理論解釋框架：

第一步，將神經(jīng)網(wǎng)絡(luò)的參數(shù)優(yōu)化過程對偶為共形哈密頓系統(tǒng)的狀態(tài)演化過程，建立參數(shù)梯度下降與系統(tǒng)能量耗散之間的內(nèi)在聯(lián)系。

第二步，利用保辛機制實現(xiàn)共形哈密頓系統(tǒng)的離散化，將離散系統(tǒng)的優(yōu)勢動態(tài)特性映射到神經(jīng)網(wǎng)絡(luò)的優(yōu)化過程，從而完成對算法優(yōu)化動力學(xué)的機理解釋。

研究發(fā)現(xiàn)，神經(jīng)網(wǎng)絡(luò)梯度下降過程與共形哈密頓離散系統(tǒng)的演化呈現(xiàn)高度相似性，通過將網(wǎng)絡(luò)參數(shù)θ對偶為系統(tǒng)狀態(tài)q，目標函數(shù)J(θ)對偶為系統(tǒng)勢能U(q)，可直接建立二者間的對偶關(guān)系。

研究者據(jù)此開發(fā)了一個全新的網(wǎng)絡(luò)優(yōu)化算法開發(fā)框架，包含兩個核心步驟：

1）動能建模：通過設(shè)計合適的動能項T(p)以嵌入期望的動態(tài)特性；

2）保辛離散：采用保辛離散方法以精確保持系統(tǒng)的動力學(xué)性質(zhì)。

RAD優(yōu)化器的設(shè)計思路與性能對比

進一步地，研究者將神經(jīng)網(wǎng)絡(luò)參數(shù)的優(yōu)化過程建模為多粒子相對論系統(tǒng)狀態(tài)的演化過程，通過引入狹義相對論的光速最大原理，抑制了網(wǎng)絡(luò)參數(shù)的異常更新速率，同時提供了各網(wǎng)絡(luò)參數(shù)的獨立自適應(yīng)調(diào)節(jié)能力，從理論上引入了對網(wǎng)絡(luò)訓(xùn)練穩(wěn)定性和收斂性等動態(tài)特性的保障機制。

這一工作使得研究者提出了既具備穩(wěn)定動力學(xué)特性又適用于非凸隨機優(yōu)化的神經(jīng)網(wǎng)絡(luò)優(yōu)化算法，即RAD優(yōu)化器（算法2）。

研究發(fā)現(xiàn)，當速度系數(shù)σ=1且保辛因子ζ_k取固定小值ε時，RAD優(yōu)化器將退化為Adam優(yōu)化器，揭示了Adam優(yōu)化器的動力學(xué)機理，說明了Adam優(yōu)化器是新提出的RAD優(yōu)化器的一個特例。

相比于Adam優(yōu)化器，RAD優(yōu)化器具有更加優(yōu)異的長期訓(xùn)練穩(wěn)定性，這是因為：

1）優(yōu)化前期：RAD具有類似Adam的快速收斂特性，能夠高效定位到最優(yōu)解的鄰域；

2）優(yōu)化后期：RAD的保辛結(jié)構(gòu)逐漸增強，具備維持共形哈密頓系統(tǒng)動態(tài)特性的能力，確保算法具備更加優(yōu)異的抗干擾能力。

值得注意的是，Adam中的有理因子ε是一個「人為引入」的小常數(shù)，用于避免分母為零的數(shù)值錯誤。而RAD的保辛因子ζ與哈密頓系統(tǒng)的「質(zhì)量×質(zhì)能」（即m²c²）相關(guān)，具有明確的物理根源。

這為之前的經(jīng)驗性發(fā)現(xiàn)（即適度增加ε可提升Adam性能）提供了理論性解釋：增大ε使得優(yōu)化過程更加接近原始的動力學(xué)系統(tǒng)。該研究成果不僅深化了Adam與動力學(xué)系統(tǒng)的本質(zhì)聯(lián)系，同時也為分析其他主流自適應(yīng)優(yōu)化器（如AdaGrad、NAdam、AdamW等）提供了普適性的框架。

為了評估RAD優(yōu)化器的性能，研究者在5種主流深度強化學(xué)習(xí)（DRL）算法（包括DQN、DDPG、TD3、SAC和ADP）和12個測試環(huán)境（包括1個CartPole任務(wù)、6個MuJoCo任務(wù)、4個Atari任務(wù)和1個自動駕駛?cè)蝿?wù)）中開展了廣泛測試，并與9種主流神經(jīng)網(wǎng)絡(luò)優(yōu)化器（包括SGD、SGD-M、DLPF、RGD、NAG、Adam、NAdam、SWATS和AdamW）進行了比較，結(jié)果表明RAD綜合性能均排名第一。

特別在圖像類標準測試環(huán)境Seaquest任務(wù)中，RAD性能達到Adam優(yōu)化器的2.5倍，得分提升了155.1%

責(zé)任編輯：張燕妮來源：新智元

強化學(xué)習(xí)AI 模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="q6iqk"><p id="q6iqk"></p></blockquote>