自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<p id="i6wrf"><li id="i6wrf"></li></p>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

基于擴散模型的，開源世界模型DIAMOND

發(fā)布于 2024-5-29 10:27

瀏覽

0收藏

日內(nèi)瓦大學(xué)、微軟研究院和愛丁堡大學(xué)的研究人員聯(lián)合開源了，基于擴散模型的世界模型—DIAMOND。

研究人員之所以選擇擴散模型作為基礎(chǔ)，是因為可以更好地捕捉視覺細(xì)節(jié)，同時具有建模復(fù)雜多模態(tài)分布的能力，以便在不同的環(huán)境下進(jìn)行訓(xùn)練和細(xì)致的行為觀察。

DIAMOND主要用于智能體訓(xùn)練、世界建模、多模態(tài)分布建模等多種強化學(xué)習(xí)應(yīng)用。為了評估其性能，研究人員在Atari 100k上進(jìn)行了綜合測試。

結(jié)果顯示，DIAMOND不僅在視覺復(fù)雜度高的環(huán)境中能夠生成連貫且高質(zhì)量的軌跡，還取得了平均為1.46的測試分?jǐn)?shù)，在訓(xùn)練智能體方面非常強。

論文地址：https://arxiv.org/abs/2405.12399

Github地址：https://github.com/eloialonso/diamond

基于擴散模型的，開源世界模型DIAMOND-AI.x社區(qū)

基于擴散模型的，開源世界模型DIAMOND-AI.x社區(qū)

最近幾年，強化學(xué)習(xí)在游戲、機器人控制和自動駕駛等領(lǐng)域得到了應(yīng)用，但其樣本、訓(xùn)練效率低的問題仍是擴大應(yīng)用范圍的關(guān)鍵難點。

為了克服這一困難 “世界模型”作為一種輔助工具應(yīng)運而生，使智能體能夠在模擬環(huán)境中學(xué)習(xí)規(guī)劃、決策等擬人化思維。

但現(xiàn)有世界模型多依賴于序列化的離散潛變量，來模擬環(huán)境動態(tài)，這可能導(dǎo)致視覺細(xì)節(jié)的損失，而這些細(xì)節(jié)對于強化學(xué)習(xí)至關(guān)重要。所以，DIAMOND使用了一種基于擴散模型的創(chuàng)新架構(gòu)，可以捕捉更豐富的視覺信息。

擴散模型

?

擴散模型是DIAMOND的核心模塊，主要通過逆向?qū)W習(xí)噪聲過程來生成高質(zhì)量的視覺數(shù)據(jù)。這種模型與傳統(tǒng)的基于離散潛在變量的方法有顯著不同，因為它能夠生成更加豐富和細(xì)致的視覺信息。

擴散模型不僅能生成數(shù)據(jù)，還構(gòu)成了世界模型的基礎(chǔ)，負(fù)責(zé)模擬環(huán)境的動態(tài)變化。這意味著，給定過去的觀察和動作，DIAMOND能夠預(yù)測未來的觀察、獎勵和終止?fàn)顟B(tài)。

基于擴散模型的，開源世界模型DIAMOND-AI.x社區(qū)

DIAMOND通過擴散模型可以生成連續(xù)的潛在變量序列，這些序列捕捉了環(huán)境狀態(tài)的細(xì)微變化。對于強化學(xué)習(xí)智能體來說至關(guān)重要，因為它們需要準(zhǔn)確地理解環(huán)境的動態(tài)，才能制定有效的策略。

獎勵模型

?

在強化學(xué)習(xí)中，智能體的行為是由環(huán)境提供的獎勵信號來引導(dǎo)的，可預(yù)測智能體在執(zhí)行特定動作后所獲得的獎勵。獎勵模型使得智能體能夠評估其行為，并據(jù)此調(diào)整其決策能力。

基于擴散模型的，開源世界模型DIAMOND-AI.x社區(qū)

在DIAMOND中，獎勵模型可以采用多種不同的形式，如神經(jīng)網(wǎng)絡(luò)或其他機器學(xué)習(xí)模型。這些模型通過學(xué)習(xí)大量的交互數(shù)據(jù)，能夠捕捉到觀察和動作與獎勵之間的復(fù)雜映射關(guān)系。

終止模型

?

終止模型的作用是可以幫助智能體，識別何時一個任務(wù)已經(jīng)完成或需要重新開始。例如，在自動駕駛的場景中，智能體需要知道何時到達(dá)了目的地。

終止模型的工作原理基于對智能體歷史行為和觀察的分析。它通過學(xué)習(xí)智能體與環(huán)境交互的數(shù)據(jù)來預(yù)測，何時結(jié)束當(dāng)前執(zhí)行的各種事件。

基于擴散模型的，開源世界模型DIAMOND-AI.x社區(qū)

終止模型通常采用機器學(xué)習(xí)算法來實現(xiàn)，如決策樹、邏輯回歸或神經(jīng)網(wǎng)絡(luò)等。這些算法能夠從歷史數(shù)據(jù)中學(xué)習(xí)事件結(jié)束的模式，并據(jù)此進(jìn)行預(yù)測。

例如，在一個游戲場景中，智能體需要再失去所有生命時來預(yù)測結(jié)束。而終止模型便能夠識別導(dǎo)致游戲結(jié)束的行為和狀態(tài)，并預(yù)測未來可能出現(xiàn)的類似情況。

本文轉(zhuǎn)自 AIGC開放社區(qū) ，作者：AIGC開放社區(qū)

原文鏈接:??https://mp.weixin.qq.com/s/o97gClQmSC3-39QkOQH6lg??

標(biāo)簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

從文字模型到世界模型！Meta新研究讓AI Agent理解物理世界

duhorse ? 2131瀏覽 ? 0回復(fù)
首個基于Mamba的MLLM來了！模型權(quán)重、訓(xùn)練代碼等已全部開源

輕薄滴假象 ? 3253瀏覽 ? 0回復(fù)
加速擴散模型，最快1步生成SOTA級圖片，字節(jié)Hyper-SD開源了

輕薄滴假象 ? 2624瀏覽 ? 0回復(fù)
Sora的狂歡、世界模型和AGI

lintoms ? 2349瀏覽 ? 0回復(fù)
GPT-4不是世界模型，LeCun雙手贊同！ACL力證LLM永遠(yuǎn)無法模擬世界

duhorse ? 2066瀏覽 ? 0回復(fù)
PWM: 基于世界模型的策略學(xué)習(xí)

AIGC最前線 ? 2522瀏覽 ? 0回復(fù)
蘋果開源高清擴散模型MDM，能在多個分辨率下同時去噪

Aceryt ? 2042瀏覽 ? 0回復(fù)
首次超越擴散模型和非自回歸Transformer模型！字節(jié)開源RAR：自回歸生成最新SOTA！

angel ? 2114瀏覽 ? 0回復(fù)
擊敗擴散和非擴散奪得SOTA！FLOAT：基于流匹配的音頻驅(qū)動說話者頭像生成模型

angel ? 2114瀏覽 ? 0回復(fù)
PartGen：基于多視圖擴散模型的多模態(tài)部件級3D生成和重建！

angel ? 1879瀏覽 ? 0回復(fù)
英偉達(dá)開源世界大模型，完美模擬物理世界！

Aceryt ? 2461瀏覽 ? 0回復(fù)
FinRobot：基于大型語言模型的金融領(lǐng)域開源AI框架

靈度智能 ? 2363瀏覽 ? 0回復(fù)
上交&哈佛提出FluxSR：首個基于12B+大模型的單步擴散真實世界超分模型

angel ? 2601瀏覽 ? 0回復(fù)
深度剖析：為何擴散模型會成為語言模型的未來？

AI論文解讀 ? 1811瀏覽 ? 0回復(fù)
從 GPT-4O 生圖看自回歸模型與擴散模型的博弈：誰才是圖像生成的未來？

智駐未來 ? 1277瀏覽 ? 0回復(fù)
從零開始微調(diào)Embedding模型：基于BERT的實戰(zhàn)教程

AI悠閑區(qū) ? 787瀏覽 ? 0回復(fù)
PixelFlow：基于流的像素空間生成模型

AIRoobt ? 352瀏覽 ? 0回復(fù)
動態(tài)噪聲重塑：基于時間嵌入U-Net的PyTorch擴散模型實戰(zhàn)?

51CTO內(nèi)容精選 ? 519瀏覽 ? 0回復(fù)
語言與擴散模型的精準(zhǔn)控制

ceesoft ? 207瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

剛剛，OpenAI發(fā)布GPT-image-1模型，更強吉卜力版本來啦 6天前發(fā)布
字節(jié)跳動開源多模態(tài)AI Agent—UI-TARS-1.5 7天前發(fā)布

熱門推薦

微軟開源DeepSeek-R1魔改版：響應(yīng)99%敏感提示，風(fēng)險降50% 0回復(fù)

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇： ChatGPT成知名度最高生成式AI產(chǎn)品，使用頻率卻不高

下一篇：終于來啦！Stable Diffusion 3將在6月12日正式開源

社區(qū)精華內(nèi)容

目錄

<ruby id="zdwlq"></ruby>

<li id="zdwlq"></li>

<style id="zdwlq"><rp id="zdwlq"></rp></style>