自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="fswjl"><strike id="fswjl"></strike></pre>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

具身智能新高度！智元機(jī)器人推出全球首個(gè)4D世界模型EnerVerse

作者：機(jī)器之心 2025-01-09 12:39:27

人工智能新聞

針對(duì)上述難題，智元機(jī)器人團(tuán)隊(duì)提出了 EnerVerse 架構(gòu)，通過自回歸擴(kuò)散模型（autoregressive diffusion），在生成未來具身空間的同時(shí)引導(dǎo)機(jī)器人完成復(fù)雜任務(wù)。

如何讓機(jī)器人在任務(wù)指引和實(shí)時(shí)觀測(cè)的基礎(chǔ)上規(guī)劃未來動(dòng)作，一直是具身智能領(lǐng)域的核心科學(xué)問題。然而，這一目標(biāo)的實(shí)現(xiàn)受兩大關(guān)鍵挑戰(zhàn)制約：

模態(tài)對(duì)齊：需在語言、視覺和動(dòng)作等多模態(tài)空間中建立精確的對(duì)齊機(jī)制。
數(shù)據(jù)稀缺：缺乏規(guī)?；?、多模態(tài)且具備動(dòng)作標(biāo)簽的數(shù)據(jù)集。

針對(duì)上述難題，智元機(jī)器人團(tuán)隊(duì)提出了 EnerVerse 架構(gòu)，通過自回歸擴(kuò)散模型（autoregressive diffusion），在生成未來具身空間的同時(shí)引導(dǎo)機(jī)器人完成復(fù)雜任務(wù)。不同于現(xiàn)有方法簡(jiǎn)單應(yīng)用視頻生成模型，EnerVerse 深度結(jié)合具身任務(wù)需求，創(chuàng)新性地引入稀疏記憶機(jī)制（Sparse Memory）與自由錨定視角（Free Anchor View, FAV），在提升 4D 生成能力的同時(shí)，實(shí)現(xiàn)了動(dòng)作規(guī)劃性能的顯著突破。實(shí)驗(yàn)結(jié)果表明，EnerVerse 不僅具備卓越的未來空間生成能力，更在機(jī)器人動(dòng)作規(guī)劃任務(wù)中實(shí)現(xiàn)了當(dāng)前最優(yōu)（SOTA）表現(xiàn)。

項(xiàng)目主頁(yè)與論文已上線，模型與相關(guān)數(shù)據(jù)集即將開源：

主頁(yè)地址：https://sites.google.com/view/enerverse/home
論文地址：https://arxiv.org/abs/2501.01895

如何讓未來空間生成賦能機(jī)器人動(dòng)作規(guī)劃？

機(jī)器人動(dòng)作規(guī)劃的核心在于基于實(shí)時(shí)觀測(cè)和任務(wù)指令，預(yù)測(cè)并完成一系列復(fù)雜的未來操作。然而，現(xiàn)有方法在應(yīng)對(duì)復(fù)雜具身任務(wù)時(shí)存在如下局限：

通用模型局限性：當(dāng)前通用視頻生成模型缺乏對(duì)具身場(chǎng)景的針對(duì)性優(yōu)化，無法適應(yīng)具身任務(wù)中的特殊需求。
視覺記憶泛化能力不足：現(xiàn)有方法依賴稠密連續(xù)的視覺記憶，容易導(dǎo)致生成長(zhǎng)程任務(wù)序列時(shí)邏輯不連貫，動(dòng)作預(yù)測(cè)性能下降。

為此，EnerVerse 通過逐塊生成的自回歸擴(kuò)散框架，結(jié)合創(chuàng)新的稀疏記憶機(jī)制與自由錨定視角（FAV）方法，解決了上述瓶頸問題。

技術(shù)方案解析

逐塊擴(kuò)散生成：Next Chunk Diffusion

EnerVerse 采用逐塊生成的自回歸擴(kuò)散模型，通過逐步生成未來具身空間來引導(dǎo)機(jī)器人動(dòng)作規(guī)劃。其關(guān)鍵設(shè)計(jì)包括：

擴(kuò)散模型架構(gòu)：基于結(jié)合時(shí)空注意力的 UNet 結(jié)構(gòu)，每個(gè)空間塊內(nèi)部通過卷積與雙向注意力建模；塊與塊之間通過單向因果邏輯（causal logic）保持時(shí)間一致性，從而確保生成序列的邏輯合理性。
稀疏記憶機(jī)制：借鑒大語言模型（LLM）的上下文記憶，EnerVerse 在訓(xùn)練階段對(duì)歷史幀進(jìn)行高比例隨機(jī)掩碼（mask），推理階段以較大時(shí)間間隔更新記憶隊(duì)列，有效降低計(jì)算開銷，同時(shí)顯著提升長(zhǎng)程任務(wù)的生成能力。
任務(wù)結(jié)束邏輯：通過特殊的結(jié)束幀（EOS frame），實(shí)現(xiàn)對(duì)任務(wù)結(jié)束時(shí)機(jī)的精準(zhǔn)監(jiān)督，確保生成過程在合適節(jié)點(diǎn)終止。

靈活的 4D 生成：Free Anchor View (FAV)

針對(duì)具身操作中復(fù)雜遮擋環(huán)境和多視角需求，EnerVerse 提出了自由錨定視角（FAV）方法，以靈活表達(dá) 4D 空間。其核心優(yōu)勢(shì)包括：

自由設(shè)定視角：FAV 支持動(dòng)態(tài)調(diào)整錨定視角，克服固定多視角（fixed multi-anchor view）在狹窄場(chǎng)景中的局限性。例如，在廚房等場(chǎng)景中，F(xiàn)AV 可輕松適應(yīng)動(dòng)態(tài)遮擋關(guān)系。
跨視角空間一致性：基于光線投射原理（ray casting），EnerVerse 通過視線方向圖（ray direction map）作為視角控制條件，并將 2D 空間注意力擴(kuò)展為跨視角的 3D 空間注意力（cross-view spatial attention），確保生成視頻的幾何一致性。
Sim2Real 適配：通過在仿真數(shù)據(jù)上訓(xùn)練的 4D 生成模型（EnerVerse-D）與 4D 高斯?jié)姙R (4D Gaussian Splatting) 交替迭代，EnerVerse 構(gòu)建了一個(gè)數(shù)據(jù)飛輪，為真實(shí)場(chǎng)景下的 FAV 生成提供偽真值支持。

高效動(dòng)作規(guī)劃：Diffusion Policy Head

EnerVerse 通過在生成網(wǎng)絡(luò)下游集成 Diffusion 策略頭（Diffusion Policy Head），打通未來空間生成與機(jī)器人動(dòng)作規(guī)劃的全鏈條。其關(guān)鍵設(shè)計(jì)包括：

高效動(dòng)作預(yù)測(cè)：生成網(wǎng)絡(luò)在逆擴(kuò)散的第一步即可輸出未來動(dòng)作序列，無需等待完整的空間生成過程，確保動(dòng)作預(yù)測(cè)的實(shí)時(shí)性。
稀疏記憶支持：在動(dòng)作預(yù)測(cè)推理中，稀疏記憶隊(duì)列存儲(chǔ)真實(shí)或重建的 FAV 觀測(cè)結(jié)果，有效提升長(zhǎng)程任務(wù)規(guī)劃能力。

實(shí)驗(yàn)結(jié)果

1. 視頻生成性能

在短程與長(zhǎng)程任務(wù)視頻生成中，EnerVerse 均展現(xiàn)出卓越的性能：

在短程生成任務(wù)中，EnerVerse 表現(xiàn)優(yōu)于現(xiàn)有微調(diào)視頻生成模型，如基于 DynamiCrafter 與 FreeNoise 的擴(kuò)散模型。
在長(zhǎng)程生成任務(wù)中，EnerVerse 展現(xiàn)出更強(qiáng)的邏輯一致性與連續(xù)生成能力，這是現(xiàn)有模型無法實(shí)現(xiàn)的。

此外，EnerVerse 在 LIBERO 仿真場(chǎng)景和 AgiBot World 真實(shí)場(chǎng)景中生成的多視角視頻質(zhì)量也得到了充分驗(yàn)證。

其對(duì)應(yīng)的生成視頻如下所示：

2. 動(dòng)作規(guī)劃能力

在 LIBERO 基準(zhǔn)測(cè)試中，EnerVerse 在機(jī)器人動(dòng)作規(guī)劃任務(wù)中取得顯著優(yōu)勢(shì)：

單視角（one FAV）設(shè)定：EnerVerse 在 LIBERO 四類任務(wù)中的平均成功率已超過現(xiàn)有方法。
多視角（three FAV）設(shè)定：進(jìn)一步提升任務(wù)成功率，在每一類任務(wù)上均超越當(dāng)前最佳方法。

值得注意的是，LIBERO-Long上均為需要機(jī)器多步執(zhí)行的任務(wù)，如下視頻所示：

3. 消融與訓(xùn)練策略分析

稀疏記憶機(jī)制：消融實(shí)驗(yàn)表明，稀疏記憶對(duì)長(zhǎng)程序列生成的邏輯合理性及長(zhǎng)程動(dòng)作預(yù)測(cè)精度至關(guān)重要。

二階段訓(xùn)練策略：先進(jìn)行未來空間生成訓(xùn)練，再進(jìn)行動(dòng)作預(yù)測(cè)訓(xùn)練的二階段策略，可顯著提升動(dòng)作規(guī)劃性能。

4. 注意力可視化

通過可視化 Diffusion 策略頭中的交叉注意力模塊，研究發(fā)現(xiàn) EnerVerse 生成的未來空間與預(yù)測(cè)的動(dòng)作空間具有較強(qiáng)的時(shí)序一致性。這直觀體現(xiàn)了 EnerVerse 在未來空間生成與動(dòng)作規(guī)劃任務(wù)中的相關(guān)性與優(yōu)勢(shì)。

智元機(jī)器人通過 EnerVerse 架構(gòu)開創(chuàng)了未來具身智能的新方向。通過未來空間生成引導(dǎo)動(dòng)作規(guī)劃，EnerVerse 不僅突破了機(jī)器人任務(wù)規(guī)劃的技術(shù)瓶頸，還為多模態(tài)、長(zhǎng)程任務(wù)的研究提供了全新范式。

作者介紹

EnerVerse 主要科研成員來自智元機(jī)器人研究院具身算法團(tuán)隊(duì)。論文共同一作黃思淵是上海交通大學(xué)與上海人工智能實(shí)驗(yàn)室的聯(lián)培博士生，師從 CUHK-MMLab 的李鴻升教授。博士期間的研究課題為基于多模態(tài)大模型的具身智能以及高效智能體的研究。在 CoRL、MM、 IROS、ECCV 等頂級(jí)會(huì)議上，以第一作者或共同第一作者身份發(fā)表多篇論文。另一位共同一作陳立梁是智元機(jī)器人的具身算法專家，主要負(fù)責(zé)具身空間智能與世界模型的研究。

責(zé)任編輯：張燕妮來源：機(jī)器之心

訓(xùn)練模型 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<sub id="1tqcb"></sub>}