自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基于擴散模型的,開源世界模型DIAMOND

發(fā)布于 2024-5-29 10:27
瀏覽
0收藏

日內(nèi)瓦大學(xué)、微軟研究院和愛丁堡大學(xué)的研究人員聯(lián)合開源了,基于擴散模型的世界模型—DIAMOND。


研究人員之所以選擇擴散模型作為基礎(chǔ),是因為可以更好地捕捉視覺細(xì)節(jié),同時具有建模復(fù)雜多模態(tài)分布的能力,以便在不同的環(huán)境下進(jìn)行訓(xùn)練和細(xì)致的行為觀察。


DIAMOND主要用于智能體訓(xùn)練、世界建模、多模態(tài)分布建模等多種強化學(xué)習(xí)應(yīng)用。為了評估其性能,研究人員在Atari 100k上進(jìn)行了綜合測試。


結(jié)果顯示,DIAMOND不僅在視覺復(fù)雜度高的環(huán)境中能夠生成連貫且高質(zhì)量的軌跡,還取得了平均為1.46的測試分?jǐn)?shù),在訓(xùn)練智能體方面非常強。


論文地址:https://arxiv.org/abs/2405.12399

Github地址:https://github.com/eloialonso/diamond

基于擴散模型的,開源世界模型DIAMOND-AI.x社區(qū)

基于擴散模型的,開源世界模型DIAMOND-AI.x社區(qū)

最近幾年,強化學(xué)習(xí)在游戲、機器人控制和自動駕駛等領(lǐng)域得到了應(yīng)用,但其樣本、訓(xùn)練效率低的問題仍是擴大應(yīng)用范圍的關(guān)鍵難點。


為了克服這一困難 “世界模型”作為一種輔助工具應(yīng)運而生,使智能體能夠在模擬環(huán)境中學(xué)習(xí)規(guī)劃、決策等擬人化思維。


但現(xiàn)有世界模型多依賴于序列化的離散潛變量,來模擬環(huán)境動態(tài),這可能導(dǎo)致視覺細(xì)節(jié)的損失,而這些細(xì)節(jié)對于強化學(xué)習(xí)至關(guān)重要。所以,DIAMOND使用了一種基于擴散模型的創(chuàng)新架構(gòu),可以捕捉更豐富的視覺信息。


擴散模型

?

擴散模型是DIAMOND的核心模塊,主要通過逆向?qū)W習(xí)噪聲過程來生成高質(zhì)量的視覺數(shù)據(jù)。這種模型與傳統(tǒng)的基于離散潛在變量的方法有顯著不同,因為它能夠生成更加豐富和細(xì)致的視覺信息。


擴散模型不僅能生成數(shù)據(jù),還構(gòu)成了世界模型的基礎(chǔ),負(fù)責(zé)模擬環(huán)境的動態(tài)變化。這意味著,給定過去的觀察和動作,DIAMOND能夠預(yù)測未來的觀察、獎勵和終止?fàn)顟B(tài)。

基于擴散模型的,開源世界模型DIAMOND-AI.x社區(qū)


DIAMOND通過擴散模型可以生成連續(xù)的潛在變量序列,這些序列捕捉了環(huán)境狀態(tài)的細(xì)微變化。對于強化學(xué)習(xí)智能體來說至關(guān)重要,因為它們需要準(zhǔn)確地理解環(huán)境的動態(tài),才能制定有效的策略。


獎勵模型

?

在強化學(xué)習(xí)中,智能體的行為是由環(huán)境提供的獎勵信號來引導(dǎo)的,可預(yù)測智能體在執(zhí)行特定動作后所獲得的獎勵。獎勵模型使得智能體能夠評估其行為,并據(jù)此調(diào)整其決策能力。

基于擴散模型的,開源世界模型DIAMOND-AI.x社區(qū)

在DIAMOND中,獎勵模型可以采用多種不同的形式,如神經(jīng)網(wǎng)絡(luò)或其他機器學(xué)習(xí)模型。這些模型通過學(xué)習(xí)大量的交互數(shù)據(jù),能夠捕捉到觀察和動作與獎勵之間的復(fù)雜映射關(guān)系。


終止模型

?

終止模型的作用是可以幫助智能體,識別何時一個任務(wù)已經(jīng)完成或需要重新開始。例如,在自動駕駛的場景中,智能體需要知道何時到達(dá)了目的地。


終止模型的工作原理基于對智能體歷史行為和觀察的分析。它通過學(xué)習(xí)智能體與環(huán)境交互的數(shù)據(jù)來預(yù)測,何時結(jié)束當(dāng)前執(zhí)行的各種事件。


基于擴散模型的,開源世界模型DIAMOND-AI.x社區(qū)

終止模型通常采用機器學(xué)習(xí)算法來實現(xiàn),如決策樹、邏輯回歸或神經(jīng)網(wǎng)絡(luò)等。這些算法能夠從歷史數(shù)據(jù)中學(xué)習(xí)事件結(jié)束的模式,并據(jù)此進(jìn)行預(yù)測。


例如,在一個游戲場景中,智能體需要再失去所有生命時來預(yù)測結(jié)束。而終止模型便能夠識別導(dǎo)致游戲結(jié)束的行為和狀態(tài),并預(yù)測未來可能出現(xiàn)的類似情況。


本文轉(zhuǎn)自 AIGC開放社區(qū)  ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/o97gClQmSC3-39QkOQH6lg??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦