自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Nature:最大擴(kuò)散強(qiáng)化學(xué)習(xí)

發(fā)布于 2024-5-7 11:26
瀏覽
0收藏

?強(qiáng)化學(xué)習(xí)(RL)智能體(Agent)常常很難在現(xiàn)實(shí)世界中廣泛部署:初始化差異影響大,樣本效率低下,情境之外難以泛化。

研究發(fā)現(xiàn)問(wèn)題的關(guān)鍵是違反了數(shù)據(jù)獨(dú)立同分布 (iid) 的假設(shè),而 iid 是大多數(shù)機(jī)器學(xué)習(xí)的基礎(chǔ)。

強(qiáng)化學(xué)習(xí)(特別是具身)智能體的經(jīng)驗(yàn)不可避免是連續(xù)的,且跨時(shí)間點(diǎn)相關(guān),這也是筆者強(qiáng)調(diào)的RL的非馬爾可夫性 。

昨日,Nature機(jī)器智能,發(fā)文“最大擴(kuò)散強(qiáng)化學(xué)習(xí)(MaxDiff RL)”解決了此問(wèn)題。

Nature:最大擴(kuò)散強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

圖1:時(shí)間相關(guān)性破壞了強(qiáng)化學(xué)習(xí)的SOTA技術(shù),對(duì)于大多數(shù)系統(tǒng),可控屬性決定了狀態(tài)轉(zhuǎn)換之間的時(shí)間相關(guān)性。

強(qiáng)化學(xué)習(xí)領(lǐng)域的大多數(shù)方法都假設(shè)隨機(jī)行為會(huì)產(chǎn)生有效的探索,最大熵強(qiáng)化學(xué)習(xí)(MaxEnt RL)這樣的高級(jí)技術(shù),也隱含這一假設(shè)。

不同于從固定的均勻分布或高斯分布中采樣,最大熵強(qiáng)化學(xué)習(xí)最大化學(xué)習(xí)到的路徑分布(即策略)的熵,以期確保足夠的隨機(jī)性來(lái)改善探索。

而實(shí)際是否可行,取決于智能體的可控屬性,與其引發(fā)的時(shí)間相關(guān)性。狀態(tài)轉(zhuǎn)換之間的時(shí)間相關(guān)性可能會(huì)阻礙有效探索,嚴(yán)重影響深度強(qiáng)化學(xué)習(xí)智能體的性能。 

Nature:最大擴(kuò)散強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

圖2:最大擴(kuò)散RL緩解了時(shí)間相關(guān)性以實(shí)現(xiàn)有效的探索。a、b,具有不同平面可控屬性的系統(tǒng)。c,行動(dòng)隨機(jī)化是否導(dǎo)致有效的狀態(tài)探索取決于基礎(chǔ)狀態(tài)轉(zhuǎn)移動(dòng)力學(xué)的屬性。

論文從最大熵原理的統(tǒng)計(jì)力學(xué)中汲取靈感,該原理是最大口徑變分優(yōu)化,在連續(xù)性或時(shí)間關(guān)聯(lián)約束下,優(yōu)化目標(biāo)是找到軌跡分布Pmax[x(t)], 優(yōu)化一個(gè)熵函數(shù)S[P[x(t)]]。

幸運(yùn)的是,這個(gè)受限變分優(yōu)化問(wèn)題對(duì)于最大熵路徑分布具有解析解,其中Z是一個(gè)歸一化常數(shù):

Nature:最大擴(kuò)散強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

   

滿(mǎn)足遍歷性對(duì)最終智能體的性質(zhì)具有深遠(yuǎn)的影響。遍歷性是動(dòng)力系統(tǒng)的一個(gè)正式屬性,保證了單個(gè)軌跡的統(tǒng)計(jì)量在漸近情況下等同于大量軌跡的統(tǒng)計(jì)量。

盡管強(qiáng)化學(xué)習(xí)智能體時(shí)間相關(guān)性使得iid采樣不可行,遍歷性強(qiáng)化學(xué)習(xí)智能體的全局統(tǒng)計(jì)量與iid采樣的統(tǒng)計(jì)量卻無(wú)法區(qū)分。

Nature:最大擴(kuò)散強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

圖3:最大擴(kuò)散RL智能體對(duì)隨機(jī)種子和初始化具有魯棒性。

最大擴(kuò)散強(qiáng)化學(xué)習(xí)核心是找到一個(gè)能夠滿(mǎn)足最大擴(kuò)散路徑統(tǒng)計(jì)的策略(policy),一個(gè)policy 意味著一個(gè)軌跡分布。

找到滿(mǎn)足最大擴(kuò)散的軌跡分布的policy,是一個(gè)優(yōu)化問(wèn)題:最小化“agent現(xiàn)在的軌跡分布與 最大擴(kuò)散軌跡分布“之間的KL距離。

此KL距離可被寫(xiě)成等效的隨機(jī)最優(yōu)控制問(wèn)題,目標(biāo)是找到一種policy,最大化“智能體在環(huán)境中累計(jì)獎(jiǎng)勵(lì)的數(shù)學(xué)期望”。α>0是超參,用于平衡擴(kuò)散探索和獎(jiǎng)勵(lì)。

Nature:最大擴(kuò)散強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

Nature:最大擴(kuò)散強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

智能體路徑熵的局部估計(jì)則可以從觀察中學(xué)習(xí)到:

Nature:最大擴(kuò)散強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

Nature:最大擴(kuò)散強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

圖4:訓(xùn)練系統(tǒng)的具身性確定了部署系統(tǒng)的性能。

MaxDiffRL 同時(shí)考慮策略和智能體-環(huán)境動(dòng)力學(xué)的時(shí)間相關(guān)性的一般形式,若不考慮時(shí)間相關(guān)性,就褪化成MaxEntropy,即MaxEnt是MaxDiff的特例。

Nature:最大擴(kuò)散強(qiáng)化學(xué)習(xí)-AI.x社區(qū)

圖5:最大擴(kuò)散RL智能體能夠進(jìn)行單次學(xué)習(xí)。

驗(yàn)證表明,MaxDiffRL方法針對(duì)初始化具有魯棒性,實(shí)現(xiàn)了高效單樣本學(xué)習(xí),情境之外也易于泛化。

流行的基準(zhǔn)測(cè)試中,MaxDiffRL也穩(wěn)健地超越了SOTA。為強(qiáng)化學(xué)習(xí)智能體(如運(yùn)動(dòng)機(jī)器人和自動(dòng)駕駛汽車(chē))的更透明更可靠的決策奠定了基礎(chǔ)。

SORA 學(xué)習(xí)到物理原理,看起來(lái)也可以以某種方式借鑒MaxDiffRL  類(lèi)似的方法,以更好的處理時(shí)空碎片狀態(tài)空間時(shí)間相關(guān)性,更好把控其動(dòng)態(tài)性。

本文轉(zhuǎn)載自 ??清熙??,作者: 王慶法

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦