自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

50%優(yōu)勢(shì),力壓OpenAI和DeepMind!清華DSAC系列算法全面解析

人工智能
清華大學(xué)團(tuán)隊(duì)在強(qiáng)化學(xué)習(xí)領(lǐng)域取得重大突破,開發(fā)出DSAC及DSAC-T系列算法,有效解決強(qiáng)化學(xué)習(xí)中的過(guò)估計(jì)問(wèn)題,提升學(xué)習(xí)效果穩(wěn)定性;團(tuán)隊(duì)還提出DACER算法,將擴(kuò)散模型與在線強(qiáng)化學(xué)習(xí)結(jié)合,進(jìn)一步刷新性能記錄;RAD優(yōu)化器為強(qiáng)化學(xué)習(xí)訓(xùn)練穩(wěn)定性提供保障,相關(guān)成果將集成入開源軟件GOPS,推動(dòng)具身智能發(fā)展。

在當(dāng)今的人工智能浪潮中,如何讓機(jī)器獲得像人一樣的學(xué)習(xí)能力,是推動(dòng)機(jī)器智能化水平不斷進(jìn)化,最終實(shí)現(xiàn)具身智能甚至通用人工智能(AGI)的關(guān)鍵。

想象一下幼兒的成長(zhǎng)過(guò)程,在不斷探索與試錯(cuò)中積累經(jīng)驗(yàn)、提升智慧。這正是強(qiáng)化學(xué)習(xí)的核心思想:通過(guò)與環(huán)境的互動(dòng),不斷調(diào)整策略以最大化長(zhǎng)期回報(bào)。

從上世紀(jì)末期以來(lái),強(qiáng)化學(xué)習(xí)技術(shù)快速發(fā)展,2016年AlphaGo擊敗圍棋世界冠軍李世石展示出這項(xiàng)技術(shù)解決復(fù)雜問(wèn)題的巨大潛力。

然而,將強(qiáng)化學(xué)習(xí)應(yīng)用于機(jī)器人,在真實(shí)世界中產(chǎn)生智能,還面臨許多挑戰(zhàn),主要是因?yàn)檎鎸?shí)世界的環(huán)境更加復(fù)雜多變,現(xiàn)有技術(shù)難以應(yīng)對(duì)這種復(fù)雜性,導(dǎo)致學(xué)習(xí)效果不穩(wěn)定。

清華大學(xué)深度強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室長(zhǎng)期深耕強(qiáng)化學(xué)習(xí)的基礎(chǔ)理論和應(yīng)用,于近期連續(xù)取得關(guān)鍵性技術(shù)突破!

研究人員模擬人類對(duì)自然世界的真實(shí)感知模式,突破傳統(tǒng)強(qiáng)化學(xué)習(xí)依賴點(diǎn)估計(jì)處理連續(xù)動(dòng)作空間的局限,構(gòu)建動(dòng)作空間概率模型,在復(fù)雜環(huán)境中動(dòng)態(tài)調(diào)整動(dòng)作概率分布,開發(fā)出DSAC(Distributional Soft Actor-Critic)及DSAC-T系列算法。在基準(zhǔn)測(cè)試環(huán)境中,該系列算法取得了大幅的性能提升,并以50%以上的優(yōu)勢(shì)領(lǐng)先于OpenAI的PPO和Deepmind的DDPG算法。

在剛剛落幕的機(jī)器學(xué)習(xí)頂會(huì)NIPS2024中,團(tuán)隊(duì)進(jìn)一步將擴(kuò)散模型與在線強(qiáng)化學(xué)習(xí)深度融合,發(fā)布了DACER算法。算法把擴(kuò)散模型的反向過(guò)程定義為新策略近似函數(shù),利用其強(qiáng)大表示能力提升性能,再次刷新了強(qiáng)化學(xué)習(xí)性能的世界記錄。

不同基準(zhǔn)任務(wù)上的訓(xùn)練曲線不同基準(zhǔn)任務(wù)上的訓(xùn)練曲線

為保證強(qiáng)化學(xué)習(xí)訓(xùn)練效果的穩(wěn)定性,團(tuán)隊(duì)提出了強(qiáng)化學(xué)習(xí)專用的神經(jīng)網(wǎng)絡(luò)優(yōu)化器RAD。該優(yōu)化器從動(dòng)力學(xué)視角將神經(jīng)網(wǎng)絡(luò)參數(shù)優(yōu)化建模為多粒子相對(duì)論系統(tǒng)演化,賦予參數(shù)獨(dú)立自適應(yīng)能力,確保訓(xùn)練長(zhǎng)時(shí)域穩(wěn)定與快速收斂。

相較于9個(gè)主流神經(jīng)網(wǎng)絡(luò)優(yōu)化器,RAD優(yōu)化器在12個(gè)測(cè)試環(huán)境及5種主流強(qiáng)化學(xué)習(xí)算法中綜合性能均排名第一。特別在圖像類標(biāo)準(zhǔn)測(cè)試環(huán)境Seaquest任務(wù)中,RAD性能達(dá)到當(dāng)前流行的Adam優(yōu)化器的2.5倍。

上述算法將逐步集成入團(tuán)隊(duì)開源的最優(yōu)控制問(wèn)題求解軟件GOPS中。該軟件以強(qiáng)化學(xué)習(xí)為核心理論,擁有完全自主知識(shí)產(chǎn)權(quán),兼容多種機(jī)器人和工業(yè)仿真環(huán)境,能夠有效地處理高維度、非線性、高動(dòng)態(tài)等復(fù)雜場(chǎng)景的具身智能控制問(wèn)題,目前已經(jīng)應(yīng)用于自動(dòng)駕駛、物流機(jī)器人、特種作業(yè)機(jī)械臂、火箭回收等不同領(lǐng)域。

未來(lái)隨著GOPS軟件的進(jìn)一步升級(jí),現(xiàn)實(shí)世界的眾多機(jī)器將可能擁有像人一樣的智能,屆時(shí)將迎來(lái)一個(gè)全新的具身智能時(shí)代。

DSAC和DSAC-T系列算法解讀

從Q-learning算法開始,不少研究者均發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)存在嚴(yán)重的過(guò)估計(jì)問(wèn)題。由于Q學(xué)習(xí)算法中不斷的對(duì)下?時(shí)刻的狀態(tài)值進(jìn)?max操作,任何引起的Q值誤差的因素如環(huán)境中的噪聲、?絡(luò)的近似誤差都會(huì)導(dǎo)致對(duì)Q值的偏?的估計(jì),即過(guò)估計(jì)。

?在時(shí)間差分學(xué)習(xí)中,這種估計(jì)誤差?會(huì)被進(jìn)?步放?,因?yàn)楹?狀態(tài)的過(guò)估計(jì)誤差在更新過(guò)程中?會(huì)進(jìn)?步傳播到前?的狀態(tài)中。

過(guò)估計(jì)原理過(guò)估計(jì)原理

為了解決過(guò)估計(jì)問(wèn)題,研究者提出著名的Double DQN算法及諸多以其為基礎(chǔ)的變種,但是此類?法只能解決離散動(dòng)作空間的問(wèn)題。對(duì)于連續(xù)控制任務(wù),以Clipped Double Q-learning為基礎(chǔ)的TD3和SAC等算法則?臨著低估問(wèn)題。DSAC?次從理論層?發(fā)現(xiàn)和論證了分布式回報(bào)函數(shù)的學(xué)習(xí)降低Q值過(guò)估計(jì)的原理,并將分布式回報(bào)學(xué)習(xí)嵌?到Maximum Entropy架構(gòu)中。

DSAC算法流程DSAC算法流程

事實(shí)上,?類?腦給出的獎(jiǎng)勵(lì)并不是?個(gè)單?的信號(hào),?是基于某種概率分布,這也顯示了分布式回報(bào)機(jī)制設(shè)計(jì)的合理性和巨?潛?。同時(shí),與現(xiàn)有Distributional RL算法(如C51,IQN,D4PG等)不同的是,DSAC可以直接學(xué)習(xí)?個(gè)連續(xù)型分布式值函數(shù),這避免了離散分布學(xué)習(xí)帶來(lái)的??設(shè)計(jì)分割區(qū)間需求。

圖片圖片

論文鏈接:https://arxiv.org/pdf/2001.02811.pdf

論文代碼:https://github.com/Jingliang-Duan/Distributional-Soft-Actor-Critic

視頻鏈接:https://www.bilibili.com/video/BV1fa4y1h7Mo#reply3178996263

Wikipedia簡(jiǎn)介:https://en.wikipedia.org/wiki/Distributional_Soft_Actor_Critic

DSAC算法是一種off-policy算法,可以通過(guò)學(xué)習(xí)連續(xù)的高斯值分布來(lái)有效提高值估計(jì)精度。然而DSAC算法也存在學(xué)習(xí)不穩(wěn)定、參數(shù)敏感等缺點(diǎn)。

針對(duì)該問(wèn)題,團(tuán)隊(duì)在DSAC算法的基礎(chǔ)上進(jìn)一步提出了DSAC-T: Distributional Soft Actor-Critic with Three Refinements算法。相較于DSAC,DSAC-T算法主要做了三方面改進(jìn):Expected value substituting、Twin value distribution learning與Variance-based critic gradient adjusting。

Expected value substituting:傳統(tǒng)RL算法在策略評(píng)估階段利用下一時(shí)刻的回報(bào)均值(即Q值)構(gòu)建TD error,而DSAC算法參與critic更新時(shí)利用隨機(jī)回報(bào)Z構(gòu)建TD error,增加了critic更新梯度隨機(jī)性,降低了學(xué)習(xí)穩(wěn)定性。為此,DSAC-T利用隨機(jī)回報(bào)Z和Q值的期望等價(jià)性,將值分布函數(shù)均值(即Q值)更新公式中下一時(shí)刻的隨機(jī)回報(bào)替換為其均值,實(shí)現(xiàn)了算法性能提升。

Expected value substitutingExpected value substituting

Twin value distribution learning:DSAC算法利用值分布學(xué)習(xí)極大抑制了過(guò)估計(jì)偏差,在此基礎(chǔ)上,為進(jìn)一步減輕值函數(shù)過(guò)估計(jì)偏差,DSAC-T結(jié)合douple-Q learning,在已有的值分布網(wǎng)絡(luò)基礎(chǔ)上額外獨(dú)立訓(xùn)練了一個(gè)參數(shù)化的值分布網(wǎng)絡(luò)。在進(jìn)行actor和critic的梯度更新時(shí),選擇均值較小的值分布網(wǎng)絡(luò)構(gòu)建目標(biāo)。

Twin value distribution learningTwin value distribution learning

Variance-based critic gradient adjusting:為防止梯度爆炸,DSAC算法對(duì)隨機(jī)TD error設(shè)置了固定的clipping boundary,該參數(shù)對(duì)任務(wù)reward量級(jí)極為敏感,嚴(yán)重依賴reward scaling的人工調(diào)校。

針對(duì)該問(wèn)題,DSAC-T引入了方差相關(guān)的動(dòng)態(tài)clipping boundary,實(shí)現(xiàn)了TD error邊界的動(dòng)態(tài)調(diào)節(jié)。此外,值分布函數(shù)更新梯度與值分布方差平方項(xiàng)/立方項(xiàng)成反比,導(dǎo)致了其學(xué)習(xí)過(guò)程對(duì)方差敏感。為此,DSAC-T引入gradient scaler降低方差變化對(duì)梯度的影響,進(jìn)一步減小了算法對(duì)不同任務(wù)的參數(shù)敏感性。

Variance-based critic gradient adjustingVariance-based critic gradient adjusting

圖片

論文鏈接:https://arxiv.org/abs/2310.05858

論文代碼:https://github.com/Jingliang-Duan/DSAC-v2

DACER算法解讀

在線強(qiáng)化學(xué)習(xí)(Online Reinforcement Learning, Online RL)作為人工智能領(lǐng)域解決復(fù)雜序列決策問(wèn)題的核心方法之一,其應(yīng)用范圍持續(xù)擴(kuò)展。擴(kuò)散模型作為一種生成模型因其強(qiáng)大的擬合多模態(tài)分布能力而廣為人知。它通過(guò)逐步添加和移除噪聲來(lái)學(xué)習(xí)原始數(shù)據(jù)分布,在圖像和視頻生成領(lǐng)域表現(xiàn)出色。

然而,擴(kuò)散模型直接用于Online RL可能遇到的問(wèn)題包括:1. 擴(kuò)散模型的損失函數(shù)項(xiàng)本質(zhì)上是一種模仿學(xué)習(xí)損失項(xiàng),但與Offline RL不同,Online RL中并不存在可供模仿的數(shù)據(jù);2. 擴(kuò)散模型的反向過(guò)程無(wú)法進(jìn)行解析求熵,這使得其難以與最大熵強(qiáng)化學(xué)習(xí)框架相結(jié)合,從而導(dǎo)致算法收斂性能不佳。

為了解決上述的問(wèn)題,DACER(Diffusion Actor-Critic with Entropy Regulator)建立在去噪擴(kuò)散概率模型(DDPM)的基礎(chǔ)上。擴(kuò)散模型的表示能力主要來(lái)源于反向擴(kuò)散過(guò)程而非正向,因此將擴(kuò)散模型的反向過(guò)程重新概念化為一種新的策略近似函數(shù),利用其強(qiáng)大的表示能力來(lái)提升RL算法的性能。這個(gè)新策略函數(shù)的優(yōu)化目標(biāo)是最大化期望Q值。

在RL中,最大化熵對(duì)于策略探索至關(guān)重要,但擴(kuò)散策略的熵難以解析確定。因此,算法選擇在固定間隔處采樣動(dòng)作,并使用高斯混合模型(GMM)來(lái)擬合動(dòng)作分布,可計(jì)算每個(gè)狀態(tài)下策略的近似熵。這些熵的平均值之后被用作當(dāng)前擴(kuò)散策略熵的近似。最后,算法使用估計(jì)的熵來(lái)平衡擴(kuò)散策略在訓(xùn)練過(guò)程中的探索與利用。

1. 擴(kuò)散策略表征

將條件擴(kuò)散模型的反向過(guò)程用作參數(shù)化策略

圖片圖片

采樣過(guò)程可以重新表述為:

圖片圖片

2. 擴(kuò)散策略學(xué)習(xí)

在Online RL中,由于沒(méi)有可供模仿的數(shù)據(jù)集,算法放棄了行為克隆項(xiàng)和模仿學(xué)習(xí)框架。策略學(xué)習(xí)的目標(biāo)是最大化由擴(kuò)散網(wǎng)絡(luò)在給定狀態(tài)下生成的動(dòng)作的期望Q值:

圖片圖片

此外,算法使用先前提出的分布式Q學(xué)習(xí)的方法來(lái)緩解值函數(shù)的過(guò)估計(jì)問(wèn)題。然而,直接使用上述擴(kuò)散策略學(xué)習(xí)方法進(jìn)行訓(xùn)練時(shí),會(huì)因策略動(dòng)作過(guò)于確定性而導(dǎo)致性能不佳。

3. 擴(kuò)散策略與熵調(diào)節(jié)器

對(duì)于每個(gè)狀態(tài),我們使用擴(kuò)散策略來(lái)采樣N個(gè)動(dòng)作,然后使用高斯混合模型(GMM)來(lái)擬合策略分布??梢酝ㄟ^(guò)以下方式估計(jì)對(duì)應(yīng)于該狀態(tài)的動(dòng)作分布的熵:

圖片圖片

類似于最大化熵的RL,根據(jù)估計(jì)的熵學(xué)習(xí)一個(gè)參數(shù)α:

圖片圖片

最終,使用下式在訓(xùn)練的采樣階段調(diào)整擴(kuò)散策略的熵。熵調(diào)節(jié)機(jī)制是解鎖探索潛能的關(guān)鍵。

圖片圖片

DACER算法整體流程如下:

DACER算法流程DACER算法流程

圖片圖片

論文鏈接:https://arxiv.org/pdf/2405.15177

論文代碼:https://github.com/happy-yan/DACER-Diffusion-with-Online-RL

RAD優(yōu)化器解讀

價(jià)值函數(shù)和策略函數(shù)是RL算法的關(guān)鍵部件,二者交替迭代更新是RL訓(xùn)練的核心步驟。當(dāng)前主要以深度神經(jīng)網(wǎng)絡(luò)作為價(jià)值函數(shù)和策略函數(shù)的載體,其訓(xùn)練過(guò)程通常依賴于神經(jīng)網(wǎng)絡(luò)優(yōu)化器以實(shí)現(xiàn)參數(shù)更新。

然而,目前主流的神經(jīng)網(wǎng)絡(luò)優(yōu)化器(如SGD-M、Adam和AdamW等)雖然在緩解局部最優(yōu)和加速收斂方面有所幫助,但其算法設(shè)計(jì)和參數(shù)選擇均依賴于人工經(jīng)驗(yàn)和實(shí)用技巧,缺乏對(duì)優(yōu)化動(dòng)態(tài)特性的解釋與分析,難以從理論上保障RL訓(xùn)練的穩(wěn)定性。

研究者從動(dòng)力學(xué)視角出發(fā),將神經(jīng)網(wǎng)絡(luò)參數(shù)的優(yōu)化過(guò)程建模為多粒子相對(duì)論系統(tǒng)狀態(tài)的演化過(guò)程,通過(guò)引入狹義相對(duì)論的光速最大原理,抑制了網(wǎng)絡(luò)參數(shù)的異常更新速率,同時(shí)提供了各網(wǎng)絡(luò)參數(shù)的獨(dú)立自適應(yīng)調(diào)節(jié)能力,從理論上引入了對(duì)RL訓(xùn)練穩(wěn)定性和收斂性等動(dòng)態(tài)特性的保障機(jī)制。

圖片圖片

進(jìn)而,研究者提出了既具備穩(wěn)定動(dòng)力學(xué)特性又適用于深度神經(jīng)網(wǎng)絡(luò)非凸隨機(jī)優(yōu)化的RAD優(yōu)化器。特別的,當(dāng)速度系數(shù)δ設(shè)為1且保辛因子ζk固定為小常數(shù)ε時(shí),RAD優(yōu)化器將退化為深度學(xué)習(xí)中廣泛采用的Adam優(yōu)化器。這一發(fā)現(xiàn)也為從動(dòng)力學(xué)視角探究其他主流自適應(yīng)梯度優(yōu)化方法(如AdaGrad、NAdam、AdamW和Lion等)開辟了全新路徑。

RAD算法流程RAD算法流程

圖片圖片

論文地址:https://ieeexplore.ieee.org/document/10792938

代碼倉(cāng)庫(kù):https://github.com/TobiasLv/RAD


責(zé)任編輯:武曉燕 來(lái)源: 新智元
相關(guān)推薦

2010-08-13 09:34:22

紅帽云計(jì)算

2024-11-11 17:20:52

2021-01-22 16:25:15

AI 數(shù)據(jù)人工智能

2017-04-10 18:34:16

AndroidNotificatio

2024-10-05 11:03:10

2024-07-29 14:22:13

2010-06-11 12:37:53

UML視圖

2024-05-13 10:38:08

2009-10-19 16:39:19

Linux虛擬化

2023-03-06 10:15:31

論文谷歌

2013-05-22 09:26:36

亞馬遜谷歌微軟

2024-07-05 15:06:00

2009-12-30 17:30:43

EPON技術(shù)

2010-03-09 17:19:01

Linux時(shí)鐘

2010-07-22 09:25:09

telnet命令

2010-06-24 15:35:04

IPx協(xié)議

2011-05-08 17:23:15

英特爾優(yōu)勢(shì)

2017-09-18 09:05:24

ConstraintL編輯器測(cè)量

2017-03-28 12:25:36

2015-03-23 09:37:52

光纖光纜網(wǎng)線電纜
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)