自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

WHALE來了，南大周志華團隊做出更強泛化的世界模型

作者：機器之心 2024-11-13 14:25:00

人工智能新聞

來自南京大學、南棲仙策等機構的研究者引入了 WHALE（World models with beHavior-conditioning and retrAcing-rollout LEarning），這是一個用于學習可泛化世界模型的框架，由兩種可以與任何神經網絡架構普遍結合的關鍵技術組成。

人類能夠在腦海中設想一個想象中的世界，以預測不同的動作可能導致不同的結果。受人類智能這一方面的啟發(fā)，世界模型被設計用于抽象化現(xiàn)實世界的動態(tài)，并提供這種「如果…… 會怎樣」的預測。

因此，具身智能體可以與世界模型進行交互，而不是直接與現(xiàn)實世界環(huán)境交互，以生成模擬數(shù)據，這些數(shù)據可以用于各種下游任務，包括反事實預測、離線策略評估、離線強化學習。

世界模型在具身環(huán)境的決策中起著至關重要的作用，使得在現(xiàn)實世界中成本高昂的探索成為可能。為了促進有效的決策，世界模型必須具備強大的泛化能力，以支持分布外 (OOD) 區(qū)域的想象，并提供可靠的不確定性估計來評估模擬體驗的可信度，這兩者都對之前的可擴展方法提出了重大挑戰(zhàn)。

本文，來自南京大學、南棲仙策等機構的研究者引入了 WHALE（World models with beHavior-conditioning and retrAcing-rollout LEarning），這是一個用于學習可泛化世界模型的框架，由兩種可以與任何神經網絡架構普遍結合的關鍵技術組成。

論文地址：https://arxiv.org/pdf/2411.05619
論文標題：WHALE: TOWARDS GENERALIZABLE AND SCALABLE WORLD MODELS FOR EMBODIED DECISION-MAKING

首先，在確定策略分布差異是泛化誤差的主要來源的基礎上，作者引入了一種行為 - 條件（behavior-conditioning）技術來增強世界模型的泛化能力，該技術建立在策略條件模型學習的概念之上，旨在使模型能夠主動適應不同的行為，以減輕分布偏移引起的外推誤差。

此外，作者還提出了一種簡單而有效的技術，稱為 retracing-rollout，以便對模型想象進行有效的不確定性估計。作為一種即插即用的解決方案， retracing-rollout 可以有效地應用于各種實施任務中的末端執(zhí)行器姿態(tài)控制，而無需對訓練過程進行任何更改。

為了實現(xiàn) WHALE 框架，作者提出了 Whale-ST，這是一個基于時空 transformer 的可擴展具身世界模型，旨在為現(xiàn)實世界的視覺控制任務提供忠實的長遠想象。

為了證實 Whale-ST 的有效性，作者在模擬的 Meta-World 基準和物理機器人平臺上進行了廣泛的實驗。

在模擬任務上的實驗結果表明，Whale-ST 在價值估計準確率和視頻生成保真度方面均優(yōu)于現(xiàn)有的世界模型學習方法。此外，作者還證明了基于 retracing-rollout 技術的 Whale-ST 可以有效捕獲模型預測誤差并使用想象的經驗增強離線策略優(yōu)化。

作為進一步的舉措，作者引入了 Whale-X，這是一個具有 414M 參數(shù)的世界模型，該模型在 Open X-Embodiment 數(shù)據集中的 970k 個現(xiàn)實世界演示上進行了訓練。通過在完全沒見過的環(huán)境和機器人中的一些演示進行微調，Whale-X 在視覺、動作和任務視角中展示了強大的 OOD 通用性。此外，通過擴大預訓練數(shù)據集或模型參數(shù)，Whale-X 在預訓練和微調階段都表現(xiàn)出了令人印象深刻的可擴展性。

總結來說，這項工作的主要貢獻概述如下：

作者引入了 WHALE，這是一個學習可泛化世界模型的框架，由兩項關鍵技術組成：行為 - 條件（behavior-conditioning）和 retracing-rollout，以解決世界模型在決策應用中的兩個主要挑戰(zhàn)：泛化和不確定性估計；
通過整合 WHALE 的這兩種技術，作者提出了 Whale-ST，這是一種可擴展的基于時空 transformer 的世界模型，旨在實現(xiàn)更有效的決策，作者進一步提出了 Whale-X，這是一個在 970K 機器人演示上預訓練的 414M 參數(shù)世界模型；
最后，作者進行了大量的實驗，以證明 Whale-ST 和 Whale-X 在模擬和現(xiàn)實世界任務中的卓越可擴展性和泛化性，突出了它們在增強決策方面的效果。

學習可泛化的世界模型以進行具身決策

世界模型中的序列決策通常需要智能體探索超出訓練數(shù)據集的分布外 (OOD) 區(qū)域。這要求世界模型表現(xiàn)出強大的泛化能力，使其能夠做出與現(xiàn)實世界動態(tài)密切相關的準確預測。同時，可靠地量化預測不確定性對于穩(wěn)健的決策至關重要，這可以防止離線策略優(yōu)化利用錯誤的模型預測?？紤]到這些問題，作者提出了 WHALE，這是一個用于學習可泛化世界模型的框架，具有增強的泛化性和高效的不確定性估計。

用于泛化的行為 - 條件

根據公式（2）的誤差分解可知，世界模型的泛化誤差主要來源于策略分歧引起的誤差積累。

為了解決這個問題，一種可能的解決方案是將行為信息嵌入到世界模型中，使得模型能夠主動識別策略的行為模式，并適應由策略引起的分布偏移。

基于行為 - 條件，作者引入了一個學習目標，即從訓練軌跡中獲取行為嵌入，并整合學習到的嵌入。

作者希望將訓練軌跡 τ_H 中的決策模式提取到行為嵌入中，這讓人聯(lián)想到以歷史 τ_h 為條件的軌跡似然 ELBO（evidence lower bound）的最大化：

作者建議通過最大化 H 個決策步驟上的 ELBO 并調整類似于 β-VAE 的 KL 約束數(shù)量來學習行為嵌入：

這里，KL 項將子軌跡的嵌入預測約束到每個時間步驟 h，鼓勵它們近似后驗編碼。這確保了表示保持策略一致，這意味著由相同策略生成的軌跡表現(xiàn)出相似的行為模式，從而表現(xiàn)出相似的表示。然后使用學習到的先驗預測器從歷史 τ_h 中獲得行為嵌入 z_h，以便在世界模型學習期間進行行為調節(jié)，其中行為嵌入被接受為未來預測的額外協(xié)變量：

不確定性估計 Retracing-rollout

世界模型不可避免地會產生不準確和不可靠的樣本，先前的研究從理論和實驗上都證明，如果無限制地使用模型生成的數(shù)據，策略的性能可能會受到嚴重損害。因此，不確定性估計對于世界模型至關重要。

作者引入了一種新穎的不確定性估計方法，即 retracing-rollout。retracing-rollout 的核心創(chuàng)新在于引入了 retracing-action，它利用了具身控制中動作空間的語義結構，從而能夠更準確、更高效地估計基于 Transformer 的世界模型的不確定性。

接下來作者首先介紹了 retracing-action，具體地說，retracing-action 可以等效替代任何給定的動作序列，形式如公式（5），其中表示動作 a_i 第 j 維的值。

接下來是一個全新的概念：Retracing-rollout。

具體來說：假設給定一個「回溯步驟」k，整個過程開始于從當前時間步 t，回溯到時間步 t-k，將 o_t?k 作為起始幀。

然后，執(zhí)行一個回溯動作，從 o_t?k 開始，生成相應的結果 o_k+1。

在實際操作中，為了避免超出動作空間的范圍，回溯動作被分解為 k 步。在每一步中，前六個維度的動作被設置為，而最后一個維度保持不變。通過這種方式，模型可以通過多步回溯產生期望的結果。

為了估計某一時間點 (o_t,a_t) 的不確定性，采用多種回溯步驟生成不同的回溯 - 軌跡預測結果。具體來說，要計算不同回溯 - 軌跡輸出與不使用回溯的輸出之間的「感知損失」。同時，引入動態(tài)模型的預測熵，通過將「感知損失」和預測熵相乘，得到最終的不確定性估計結果。

與基于集成的其他方法不同，retracing-rollout 方法不需要在訓練階段進行任何修改，因此相比集成方法，它顯著減少了計算成本。

作者在論文中還給出了具體的實例。圖 3 展示了 Whale-ST 的整體架構。具體來說，Whale-ST 包含三個主要組件：行為調節(jié)模型、視頻 tokenizer 和動態(tài)模型。這些模塊采用了時空 transformer 架構。

這些設計顯著簡化了計算需求，從相對于序列長度的二次依賴關系簡化為線性依賴關系，從而降低了模型訓練的內存使用量和計算成本，同時提高了模型推理速度。

實驗

該團隊在模擬任務和現(xiàn)實世界任務上進行了廣泛的實驗，主要是為了回答以下問題：

Whale-ST 在模擬任務上與其他基線相比表現(xiàn)如何？行為 - 條件和 retracing-rollout 策略有效嗎？
Whale-X 在現(xiàn)實世界任務上的表現(xiàn)如何？Whale-X 能否從互聯(lián)網規(guī)模數(shù)據的預訓練中受益？
Whale-X 的可擴展性如何？增加模型參數(shù)或預訓練數(shù)據是否能提高在現(xiàn)實世界任務上的表現(xiàn)？

模擬任務中的 Whale-ST

該團隊在 Meta-World 基準測試上開展實驗。Meta-World 是一個包含多種視覺操作任務的測試集。研究者們構建了一個包含 6 萬條軌跡的訓練數(shù)據集，這些軌跡是從 20 個不同的任務中收集來的。模型學習算法需要使用這些數(shù)據從頭開始訓練。

研究團隊將 Whale-ST 與 FitVid、MCVD、DreamerV3、iVideoGPT 進行了對比。評估指標如下：

預測準確性：驗證模型是否能夠正確估計給定動作序列的值，具體通過值差、回報相關性 (Return Correlation) 和 Regret 進行評估；
視頻保真度：研究團隊采用 FVD、PSNR、LPIPS 和 SSIM 來衡量視頻軌跡生成的質量。

下表展示了預測準確性的結果，其中，Whale-ST 在所有三個指標上都表現(xiàn)出色。在 64 × 64 的分辨率下，Whale-ST 的值差與 DreamerV3 的最高分非常接近。當在更高分辨率 256 × 256 測試時，Whale-ST 的表現(xiàn)進一步提升，取得了最小的值差和最高的回報相關性，反映了 Whale-ST 能更細致地理解動態(tài)環(huán)境。

表 2 展示了視頻保真度的結果，Whale-ST 在所有指標上均優(yōu)于其他方法，特別是 FVD 具有顯著優(yōu)勢。

不確定性估計

針對不確定性，研究團隊比較了 retracing-rollout 與兩種基準方法：

（1）基于熵的方法：研究團隊采用基于 Transformer 的動態(tài)模型，它通過計算模型輸出的預測熵來量化不確定性

（2）基于集成的方法：研究團隊訓練了三個獨立的動態(tài)模型，然后通過比較每個模型生成的圖像之間的像素級差異來估計不確定性。

具體來說，他們從模型誤差預測和離線強化學習兩個角度進行評估。

下表展示了模型誤差預測的結果，在所有 5 個任務中，retracing-rollout 均優(yōu)于其他基線方法。與基于集成的方法相比，retracing-rollout 提升了 500%，與基于熵的方法相比，提高了 50%。

下圖展示了離線 MBRL 的結果，retracing-rollout 在 5 個任務中的 3 個任務中收斂得更好、具備更強的穩(wěn)定性。特別是在關水龍頭和滑盤子任務中，retracing-rollout 是唯一能夠穩(wěn)定收斂的方法，而其他方法在訓練后期出現(xiàn)了不同程度的性能下降。

Whale-X 在真實世界中的表現(xiàn)

為了評估 Whale-X 在實際物理環(huán)境中的泛化能力，研究團隊在 ARX5 機器人上進行了全面實驗。

與預訓練數(shù)據不同，評估任務調整了攝像機角度和背景等，增加了對世界模型的挑戰(zhàn)。他們收集了每個任務 60 條軌跡的數(shù)據集用于微調，任務包括開箱、推盤、投球和移動瓶子，還設計了多個模型從未接觸過的任務來測試模型的視覺、運動和任務泛化能力。

如圖 5 所示，Whale-X 在真實世界中展現(xiàn)出了明顯的優(yōu)勢。

具體來說：

1. 與沒有行為 - 條件的模型相比，Whale-X 的一致性提高了 63%，表明該機制顯著提升了 OOD 泛化能力；

2. 在 97 萬個樣本上進行預訓練的 Whale-X，比從零開始訓練的模型具有更高的一致性，凸顯了大規(guī)?；ヂ?lián)網數(shù)據預訓練的優(yōu)勢；

3. 增加模型參數(shù)能夠提升世界模型的泛化能力。Whale-X-base（203M）動態(tài)模型在三個未見任務中的一致性率是 77M 版本的三倍。

此外，視頻生成質量與一致性的結果一致，如表 4 所示。通過行為 - 條件策略、大規(guī)模預訓練數(shù)據集和擴展模型參數(shù)，三種策略結合，顯著提高了模型的 OOD 泛化能力，尤其是在生成高質量視頻方面。

擴展性

固定視頻 token 和行為 - 條件這兩個部分不變，僅調整模型的參數(shù)量和預訓練數(shù)據集的大小，Whale-X 的拓展性如何呢？

研究團隊在預訓練階段訓練了四個動態(tài)模型，參數(shù)數(shù)量從 39M 到 456M 不等，結果如圖 7 的前兩幅圖所示。

這些結果表明，Whale-X 展現(xiàn)出強大的擴展性：無論是增加預訓練數(shù)據還是增加模型參數(shù)，都會降低訓練 loss。

除此之外，研究團隊還驗證了更大的模型在微調階段是否能夠展現(xiàn)更好的性能。

為此，他們微調了一系列動態(tài)模型，結果如圖 7 最左側所示。不難發(fā)現(xiàn)，經過微調后，更大的模型在測試數(shù)據上表現(xiàn)出更低的 loss，進一步突顯了 Whale-X 在真實任務中出色的擴展性。

可視化

定性評估

圖 1 展示了在 Meta-World、Open X-Embodiment 和研究團隊設計的真實任務上的定性評估結果。

結果表明，Whale-ST 和 Whale-X 能夠生成高保真度的視頻軌跡，尤其是在長時間跨度的軌跡生成過程中，保持了視頻的質量和一致性。

可控生成

圖 8 展示了 Whale-X 在控制性和泛化性方面的強大能力。給定一個未見過的動作序列，Whale-X 能夠生成與人類理解相符的視頻，學習動作與機器人手臂移動之間的因果聯(lián)系。

行為條件可視化

通過 t-SNE 可視化，研究表明 Whale-X 成功地學習到行為嵌入，能夠區(qū)分不同策略之間的差異。例如，對于同一任務，不同的策略會有不同的行為表示，而噪聲策略的嵌入則介于專家策略和隨機策略之間，體現(xiàn)了模型在策略建模上的合理性。此外，專家策略在不同任務中的嵌入也能被區(qū)分，而隨機策略則無法區(qū)分，表明模型更擅長表示和區(qū)分策略，而不是任務本身。

更多研究細節(jié)，請參考原文。

責任編輯：張燕妮來源：機器之心

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<style id="8wfyg"></style>

<blockquote id="8wfyg"></blockquote>