自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

50%優(yōu)勢(shì)，力壓OpenAI和DeepMind！清華DSAC系列算法全面解析

作者：新智元 2025-01-17 13:41:24

清華大學(xué)團(tuán)隊(duì)在強(qiáng)化學(xué)習(xí)領(lǐng)域取得重大突破，開發(fā)出DSAC及DSAC-T系列算法，有效解決強(qiáng)化學(xué)習(xí)中的過(guò)估計(jì)問(wèn)題，提升學(xué)習(xí)效果穩(wěn)定性；團(tuán)隊(duì)還提出DACER算法，將擴(kuò)散模型與在線強(qiáng)化學(xué)習(xí)結(jié)合，進(jìn)一步刷新性能記錄；RAD優(yōu)化器為強(qiáng)化學(xué)習(xí)訓(xùn)練穩(wěn)定性提供保障，相關(guān)成果將集成入開源軟件GOPS，推動(dòng)具身智能發(fā)展。

在當(dāng)今的人工智能浪潮中，如何讓機(jī)器獲得像人一樣的學(xué)習(xí)能力，是推動(dòng)機(jī)器智能化水平不斷進(jìn)化，最終實(shí)現(xiàn)具身智能甚至通用人工智能（AGI）的關(guān)鍵。

想象一下幼兒的成長(zhǎng)過(guò)程，在不斷探索與試錯(cuò)中積累經(jīng)驗(yàn)、提升智慧。這正是強(qiáng)化學(xué)習(xí)的核心思想：通過(guò)與環(huán)境的互動(dòng)，不斷調(diào)整策略以最大化長(zhǎng)期回報(bào)。

從上世紀(jì)末期以來(lái)，強(qiáng)化學(xué)習(xí)技術(shù)快速發(fā)展，2016年AlphaGo擊敗圍棋世界冠軍李世石展示出這項(xiàng)技術(shù)解決復(fù)雜問(wèn)題的巨大潛力。

然而，將強(qiáng)化學(xué)習(xí)應(yīng)用于機(jī)器人，在真實(shí)世界中產(chǎn)生智能，還面臨許多挑戰(zhàn)，主要是因?yàn)檎鎸?shí)世界的環(huán)境更加復(fù)雜多變，現(xiàn)有技術(shù)難以應(yīng)對(duì)這種復(fù)雜性，導(dǎo)致學(xué)習(xí)效果不穩(wěn)定。

清華大學(xué)深度強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室長(zhǎng)期深耕強(qiáng)化學(xué)習(xí)的基礎(chǔ)理論和應(yīng)用，于近期連續(xù)取得關(guān)鍵性技術(shù)突破！

研究人員模擬人類對(duì)自然世界的真實(shí)感知模式，突破傳統(tǒng)強(qiáng)化學(xué)習(xí)依賴點(diǎn)估計(jì)處理連續(xù)動(dòng)作空間的局限，構(gòu)建動(dòng)作空間概率模型，在復(fù)雜環(huán)境中動(dòng)態(tài)調(diào)整動(dòng)作概率分布，開發(fā)出DSAC（Distributional Soft Actor-Critic）及DSAC-T系列算法。在基準(zhǔn)測(cè)試環(huán)境中，該系列算法取得了大幅的性能提升，并以50%以上的優(yōu)勢(shì)領(lǐng)先于OpenAI的PPO和Deepmind的DDPG算法。

在剛剛落幕的機(jī)器學(xué)習(xí)頂會(huì)NIPS2024中，團(tuán)隊(duì)進(jìn)一步將擴(kuò)散模型與在線強(qiáng)化學(xué)習(xí)深度融合，發(fā)布了DACER算法。算法把擴(kuò)散模型的反向過(guò)程定義為新策略近似函數(shù)，利用其強(qiáng)大表示能力提升性能，再次刷新了強(qiáng)化學(xué)習(xí)性能的世界記錄。

不同基準(zhǔn)任務(wù)上的訓(xùn)練曲線

為保證強(qiáng)化學(xué)習(xí)訓(xùn)練效果的穩(wěn)定性，團(tuán)隊(duì)提出了強(qiáng)化學(xué)習(xí)專用的神經(jīng)網(wǎng)絡(luò)優(yōu)化器RAD。該優(yōu)化器從動(dòng)力學(xué)視角將神經(jīng)網(wǎng)絡(luò)參數(shù)優(yōu)化建模為多粒子相對(duì)論系統(tǒng)演化，賦予參數(shù)獨(dú)立自適應(yīng)能力，確保訓(xùn)練長(zhǎng)時(shí)域穩(wěn)定與快速收斂。

相較于9個(gè)主流神經(jīng)網(wǎng)絡(luò)優(yōu)化器，RAD優(yōu)化器在12個(gè)測(cè)試環(huán)境及5種主流強(qiáng)化學(xué)習(xí)算法中綜合性能均排名第一。特別在圖像類標(biāo)準(zhǔn)測(cè)試環(huán)境Seaquest任務(wù)中，RAD性能達(dá)到當(dāng)前流行的Adam優(yōu)化器的2.5倍。

上述算法將逐步集成入團(tuán)隊(duì)開源的最優(yōu)控制問(wèn)題求解軟件GOPS中。該軟件以強(qiáng)化學(xué)習(xí)為核心理論，擁有完全自主知識(shí)產(chǎn)權(quán)，兼容多種機(jī)器人和工業(yè)仿真環(huán)境，能夠有效地處理高維度、非線性、高動(dòng)態(tài)等復(fù)雜場(chǎng)景的具身智能控制問(wèn)題，目前已經(jīng)應(yīng)用于自動(dòng)駕駛、物流機(jī)器人、特種作業(yè)機(jī)械臂、火箭回收等不同領(lǐng)域。

未來(lái)隨著GOPS軟件的進(jìn)一步升級(jí)，現(xiàn)實(shí)世界的眾多機(jī)器將可能擁有像人一樣的智能，屆時(shí)將迎來(lái)一個(gè)全新的具身智能時(shí)代。

DSAC和DSAC-T系列算法解讀

從Q-learning算法開始，不少研究者均發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)存在嚴(yán)重的過(guò)估計(jì)問(wèn)題。由于Q學(xué)習(xí)算法中不斷的對(duì)下?時(shí)刻的狀態(tài)值進(jìn)?max操作，任何引起的Q值誤差的因素如環(huán)境中的噪聲、?絡(luò)的近似誤差都會(huì)導(dǎo)致對(duì)Q值的偏?的估計(jì)，即過(guò)估計(jì)。

?在時(shí)間差分學(xué)習(xí)中，這種估計(jì)誤差?會(huì)被進(jìn)?步放?，因?yàn)楹?狀態(tài)的過(guò)估計(jì)誤差在更新過(guò)程中?會(huì)進(jìn)?步傳播到前?的狀態(tài)中。

過(guò)估計(jì)原理

為了解決過(guò)估計(jì)問(wèn)題，研究者提出著名的Double DQN算法及諸多以其為基礎(chǔ)的變種，但是此類?法只能解決離散動(dòng)作空間的問(wèn)題。對(duì)于連續(xù)控制任務(wù)，以Clipped Double Q-learning為基礎(chǔ)的TD3和SAC等算法則?臨著低估問(wèn)題。DSAC?次從理論層?發(fā)現(xiàn)和論證了分布式回報(bào)函數(shù)的學(xué)習(xí)降低Q值過(guò)估計(jì)的原理，并將分布式回報(bào)學(xué)習(xí)嵌?到Maximum Entropy架構(gòu)中。

DSAC算法流程

事實(shí)上，?類?腦給出的獎(jiǎng)勵(lì)并不是?個(gè)單?的信號(hào)，?是基于某種概率分布，這也顯示了分布式回報(bào)機(jī)制設(shè)計(jì)的合理性和巨?潛?。同時(shí)，與現(xiàn)有Distributional RL算法（如C51，IQN，D4PG等）不同的是，DSAC可以直接學(xué)習(xí)?個(gè)連續(xù)型分布式值函數(shù)，這避免了離散分布學(xué)習(xí)帶來(lái)的??設(shè)計(jì)分割區(qū)間需求。

圖片

論文鏈接：https://arxiv.org/pdf/2001.02811.pdf

論文代碼：https://github.com/Jingliang-Duan/Distributional-Soft-Actor-Critic

視頻鏈接：https://www.bilibili.com/video/BV1fa4y1h7Mo#reply3178996263

Wikipedia簡(jiǎn)介：https://en.wikipedia.org/wiki/Distributional_Soft_Actor_Critic

DSAC算法是一種off-policy算法，可以通過(guò)學(xué)習(xí)連續(xù)的高斯值分布來(lái)有效提高值估計(jì)精度。然而DSAC算法也存在學(xué)習(xí)不穩(wěn)定、參數(shù)敏感等缺點(diǎn)。

針對(duì)該問(wèn)題，團(tuán)隊(duì)在DSAC算法的基礎(chǔ)上進(jìn)一步提出了DSAC-T: Distributional Soft Actor-Critic with Three Refinements算法。相較于DSAC，DSAC-T算法主要做了三方面改進(jìn)：Expected value substituting、Twin value distribution learning與Variance-based critic gradient adjusting。

Expected value substituting：傳統(tǒng)RL算法在策略評(píng)估階段利用下一時(shí)刻的回報(bào)均值（即Q值）構(gòu)建TD error，而DSAC算法參與critic更新時(shí)利用隨機(jī)回報(bào)Z構(gòu)建TD error，增加了critic更新梯度隨機(jī)性，降低了學(xué)習(xí)穩(wěn)定性。為此，DSAC-T利用隨機(jī)回報(bào)Z和Q值的期望等價(jià)性，將值分布函數(shù)均值（即Q值）更新公式中下一時(shí)刻的隨機(jī)回報(bào)替換為其均值，實(shí)現(xiàn)了算法性能提升。

Expected value substituting

Twin value distribution learning：DSAC算法利用值分布學(xué)習(xí)極大抑制了過(guò)估計(jì)偏差，在此基礎(chǔ)上，為進(jìn)一步減輕值函數(shù)過(guò)估計(jì)偏差，DSAC-T結(jié)合douple-Q learning，在已有的值分布網(wǎng)絡(luò)基礎(chǔ)上額外獨(dú)立訓(xùn)練了一個(gè)參數(shù)化的值分布網(wǎng)絡(luò)。在進(jìn)行actor和critic的梯度更新時(shí)，選擇均值較小的值分布網(wǎng)絡(luò)構(gòu)建目標(biāo)。

Twin value distribution learning

Variance-based critic gradient adjusting：為防止梯度爆炸，DSAC算法對(duì)隨機(jī)TD error設(shè)置了固定的clipping boundary，該參數(shù)對(duì)任務(wù)reward量級(jí)極為敏感，嚴(yán)重依賴reward scaling的人工調(diào)校。

針對(duì)該問(wèn)題，DSAC-T引入了方差相關(guān)的動(dòng)態(tài)clipping boundary，實(shí)現(xiàn)了TD error邊界的動(dòng)態(tài)調(diào)節(jié)。此外，值分布函數(shù)更新梯度與值分布方差平方項(xiàng)/立方項(xiàng)成反比，導(dǎo)致了其學(xué)習(xí)過(guò)程對(duì)方差敏感。為此，DSAC-T引入gradient scaler降低方差變化對(duì)梯度的影響，進(jìn)一步減小了算法對(duì)不同任務(wù)的參數(shù)敏感性。

Variance-based critic gradient adjusting

論文鏈接：https://arxiv.org/abs/2310.05858

論文代碼：https://github.com/Jingliang-Duan/DSAC-v2

DACER算法解讀

在線強(qiáng)化學(xué)習(xí)（Online Reinforcement Learning, Online RL）作為人工智能領(lǐng)域解決復(fù)雜序列決策問(wèn)題的核心方法之一，其應(yīng)用范圍持續(xù)擴(kuò)展。擴(kuò)散模型作為一種生成模型因其強(qiáng)大的擬合多模態(tài)分布能力而廣為人知。它通過(guò)逐步添加和移除噪聲來(lái)學(xué)習(xí)原始數(shù)據(jù)分布，在圖像和視頻生成領(lǐng)域表現(xiàn)出色。

然而，擴(kuò)散模型直接用于Online RL可能遇到的問(wèn)題包括：1. 擴(kuò)散模型的損失函數(shù)項(xiàng)本質(zhì)上是一種模仿學(xué)習(xí)損失項(xiàng)，但與Offline RL不同，Online RL中并不存在可供模仿的數(shù)據(jù)；2. 擴(kuò)散模型的反向過(guò)程無(wú)法進(jìn)行解析求熵，這使得其難以與最大熵強(qiáng)化學(xué)習(xí)框架相結(jié)合，從而導(dǎo)致算法收斂性能不佳。

為了解決上述的問(wèn)題，DACER（Diffusion Actor-Critic with Entropy Regulator）建立在去噪擴(kuò)散概率模型（DDPM）的基礎(chǔ)上。擴(kuò)散模型的表示能力主要來(lái)源于反向擴(kuò)散過(guò)程而非正向，因此將擴(kuò)散模型的反向過(guò)程重新概念化為一種新的策略近似函數(shù)，利用其強(qiáng)大的表示能力來(lái)提升RL算法的性能。這個(gè)新策略函數(shù)的優(yōu)化目標(biāo)是最大化期望Q值。

在RL中，最大化熵對(duì)于策略探索至關(guān)重要，但擴(kuò)散策略的熵難以解析確定。因此，算法選擇在固定間隔處采樣動(dòng)作，并使用高斯混合模型（GMM）來(lái)擬合動(dòng)作分布，可計(jì)算每個(gè)狀態(tài)下策略的近似熵。這些熵的平均值之后被用作當(dāng)前擴(kuò)散策略熵的近似。最后，算法使用估計(jì)的熵來(lái)平衡擴(kuò)散策略在訓(xùn)練過(guò)程中的探索與利用。

1. 擴(kuò)散策略表征

將條件擴(kuò)散模型的反向過(guò)程用作參數(shù)化策略

圖片

采樣過(guò)程可以重新表述為：

圖片

2. 擴(kuò)散策略學(xué)習(xí)

在Online RL中，由于沒(méi)有可供模仿的數(shù)據(jù)集，算法放棄了行為克隆項(xiàng)和模仿學(xué)習(xí)框架。策略學(xué)習(xí)的目標(biāo)是最大化由擴(kuò)散網(wǎng)絡(luò)在給定狀態(tài)下生成的動(dòng)作的期望Q值：

圖片

此外，算法使用先前提出的分布式Q學(xué)習(xí)的方法來(lái)緩解值函數(shù)的過(guò)估計(jì)問(wèn)題。然而，直接使用上述擴(kuò)散策略學(xué)習(xí)方法進(jìn)行訓(xùn)練時(shí)，會(huì)因策略動(dòng)作過(guò)于確定性而導(dǎo)致性能不佳。

3. 擴(kuò)散策略與熵調(diào)節(jié)器

對(duì)于每個(gè)狀態(tài)，我們使用擴(kuò)散策略來(lái)采樣N個(gè)動(dòng)作，然后使用高斯混合模型（GMM）來(lái)擬合策略分布?？梢酝ㄟ^(guò)以下方式估計(jì)對(duì)應(yīng)于該狀態(tài)的動(dòng)作分布的熵：

圖片

類似于最大化熵的RL，根據(jù)估計(jì)的熵學(xué)習(xí)一個(gè)參數(shù)α：

圖片

最終，使用下式在訓(xùn)練的采樣階段調(diào)整擴(kuò)散策略的熵。熵調(diào)節(jié)機(jī)制是解鎖探索潛能的關(guān)鍵。

圖片

DACER算法整體流程如下：

DACER算法流程

圖片

論文鏈接：https://arxiv.org/pdf/2405.15177

論文代碼：https://github.com/happy-yan/DACER-Diffusion-with-Online-RL

RAD優(yōu)化器解讀

價(jià)值函數(shù)和策略函數(shù)是RL算法的關(guān)鍵部件，二者交替迭代更新是RL訓(xùn)練的核心步驟。當(dāng)前主要以深度神經(jīng)網(wǎng)絡(luò)作為價(jià)值函數(shù)和策略函數(shù)的載體，其訓(xùn)練過(guò)程通常依賴于神經(jīng)網(wǎng)絡(luò)優(yōu)化器以實(shí)現(xiàn)參數(shù)更新。

然而，目前主流的神經(jīng)網(wǎng)絡(luò)優(yōu)化器（如SGD-M、Adam和AdamW等）雖然在緩解局部最優(yōu)和加速收斂方面有所幫助，但其算法設(shè)計(jì)和參數(shù)選擇均依賴于人工經(jīng)驗(yàn)和實(shí)用技巧，缺乏對(duì)優(yōu)化動(dòng)態(tài)特性的解釋與分析，難以從理論上保障RL訓(xùn)練的穩(wěn)定性。

研究者從動(dòng)力學(xué)視角出發(fā)，將神經(jīng)網(wǎng)絡(luò)參數(shù)的優(yōu)化過(guò)程建模為多粒子相對(duì)論系統(tǒng)狀態(tài)的演化過(guò)程，通過(guò)引入狹義相對(duì)論的光速最大原理，抑制了網(wǎng)絡(luò)參數(shù)的異常更新速率，同時(shí)提供了各網(wǎng)絡(luò)參數(shù)的獨(dú)立自適應(yīng)調(diào)節(jié)能力，從理論上引入了對(duì)RL訓(xùn)練穩(wěn)定性和收斂性等動(dòng)態(tài)特性的保障機(jī)制。

圖片

進(jìn)而，研究者提出了既具備穩(wěn)定動(dòng)力學(xué)特性又適用于深度神經(jīng)網(wǎng)絡(luò)非凸隨機(jī)優(yōu)化的RAD優(yōu)化器。特別的，當(dāng)速度系數(shù)δ設(shè)為1且保辛因子ζk固定為小常數(shù)ε時(shí)，RAD優(yōu)化器將退化為深度學(xué)習(xí)中廣泛采用的Adam優(yōu)化器。這一發(fā)現(xiàn)也為從動(dòng)力學(xué)視角探究其他主流自適應(yīng)梯度優(yōu)化方法（如AdaGrad、NAdam、AdamW和Lion等）開辟了全新路徑。

RAD算法流程

圖片

論文地址：https://ieeexplore.ieee.org/document/10792938

代碼倉(cāng)庫(kù)：https://github.com/TobiasLv/RAD

責(zé)任編輯：武曉燕來(lái)源：新智元

OpenAI DSAC 算法

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<legend id="ezv1z"><track id="ezv1z"></track></legend>

<cite id="ezv1z"></cite>