基于擴散模型的,開源世界模型DIAMOND
日內(nèi)瓦大學(xué)、微軟研究院和愛丁堡大學(xué)的研究人員聯(lián)合開源了,基于擴散模型的世界模型—DIAMOND。
研究人員之所以選擇擴散模型作為基礎(chǔ),是因為可以更好地捕捉視覺細(xì)節(jié),同時具有建模復(fù)雜多模態(tài)分布的能力,以便在不同的環(huán)境下進(jìn)行訓(xùn)練和細(xì)致的行為觀察。
DIAMOND主要用于智能體訓(xùn)練、世界建模、多模態(tài)分布建模等多種強化學(xué)習(xí)應(yīng)用。為了評估其性能,研究人員在Atari 100k上進(jìn)行了綜合測試。
結(jié)果顯示,DIAMOND不僅在視覺復(fù)雜度高的環(huán)境中能夠生成連貫且高質(zhì)量的軌跡,還取得了平均為1.46的測試分?jǐn)?shù),在訓(xùn)練智能體方面非常強。
論文地址:https://arxiv.org/abs/2405.12399
Github地址:https://github.com/eloialonso/diamond
最近幾年,強化學(xué)習(xí)在游戲、機器人控制和自動駕駛等領(lǐng)域得到了應(yīng)用,但其樣本、訓(xùn)練效率低的問題仍是擴大應(yīng)用范圍的關(guān)鍵難點。
為了克服這一困難 “世界模型”作為一種輔助工具應(yīng)運而生,使智能體能夠在模擬環(huán)境中學(xué)習(xí)規(guī)劃、決策等擬人化思維。
但現(xiàn)有世界模型多依賴于序列化的離散潛變量,來模擬環(huán)境動態(tài),這可能導(dǎo)致視覺細(xì)節(jié)的損失,而這些細(xì)節(jié)對于強化學(xué)習(xí)至關(guān)重要。所以,DIAMOND使用了一種基于擴散模型的創(chuàng)新架構(gòu),可以捕捉更豐富的視覺信息。
擴散模型
?
擴散模型是DIAMOND的核心模塊,主要通過逆向?qū)W習(xí)噪聲過程來生成高質(zhì)量的視覺數(shù)據(jù)。這種模型與傳統(tǒng)的基于離散潛在變量的方法有顯著不同,因為它能夠生成更加豐富和細(xì)致的視覺信息。
擴散模型不僅能生成數(shù)據(jù),還構(gòu)成了世界模型的基礎(chǔ),負(fù)責(zé)模擬環(huán)境的動態(tài)變化。這意味著,給定過去的觀察和動作,DIAMOND能夠預(yù)測未來的觀察、獎勵和終止?fàn)顟B(tài)。
DIAMOND通過擴散模型可以生成連續(xù)的潛在變量序列,這些序列捕捉了環(huán)境狀態(tài)的細(xì)微變化。對于強化學(xué)習(xí)智能體來說至關(guān)重要,因為它們需要準(zhǔn)確地理解環(huán)境的動態(tài),才能制定有效的策略。
獎勵模型
?
在強化學(xué)習(xí)中,智能體的行為是由環(huán)境提供的獎勵信號來引導(dǎo)的,可預(yù)測智能體在執(zhí)行特定動作后所獲得的獎勵。獎勵模型使得智能體能夠評估其行為,并據(jù)此調(diào)整其決策能力。
在DIAMOND中,獎勵模型可以采用多種不同的形式,如神經(jīng)網(wǎng)絡(luò)或其他機器學(xué)習(xí)模型。這些模型通過學(xué)習(xí)大量的交互數(shù)據(jù),能夠捕捉到觀察和動作與獎勵之間的復(fù)雜映射關(guān)系。
終止模型
?
終止模型的作用是可以幫助智能體,識別何時一個任務(wù)已經(jīng)完成或需要重新開始。例如,在自動駕駛的場景中,智能體需要知道何時到達(dá)了目的地。
終止模型的工作原理基于對智能體歷史行為和觀察的分析。它通過學(xué)習(xí)智能體與環(huán)境交互的數(shù)據(jù)來預(yù)測,何時結(jié)束當(dāng)前執(zhí)行的各種事件。
終止模型通常采用機器學(xué)習(xí)算法來實現(xiàn),如決策樹、邏輯回歸或神經(jīng)網(wǎng)絡(luò)等。這些算法能夠從歷史數(shù)據(jù)中學(xué)習(xí)事件結(jié)束的模式,并據(jù)此進(jìn)行預(yù)測。
例如,在一個游戲場景中,智能體需要再失去所有生命時來預(yù)測結(jié)束。而終止模型便能夠識別導(dǎo)致游戲結(jié)束的行為和狀態(tài),并預(yù)測未來可能出現(xiàn)的類似情況。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
