自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="d3kjh"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

用MoE橫掃99個子任務！浙大等提出全新通用機器人策略GeRM

作者：新智元 2024-04-17 13:20:29

人工智能新聞

本文分享論文GeRM: A Generalist Robotic Model with Mixture-of-experts for Quadruped Robot，由西湖大學和浙江大學聯(lián)合提出一種基于混合專家模型進行強化學習的通用機器人策略。

多任務機器人學習在應對多樣化和復雜情景方面具有重要意義。然而，當前的方法受到性能問題和收集訓練數(shù)據(jù)集的困難的限制。

這篇論文提出了GeRM（通用機器人模型），研究人員利用離線強化學習來優(yōu)化數(shù)據(jù)利用策略，從演示和次優(yōu)數(shù)據(jù)中學習，從而超越了人類演示的局限性。

作者：宋文軒，趙晗，丁鵬翔，崔燦，呂尚可，范亞凝，王東林

單位：西湖大學、浙江大學

論文地址：https://arxiv.org/abs/2403.13358

項目地址：https://songwxuan.github.io/GeRM/

之后采用基于Transformer的視覺-語言-動作模型來處理多模態(tài)輸入并輸出動作。

通過引入專家混合結構，GeRM實現(xiàn)了更快的推理速度和更高的整體模型容量，從而解決了強化學習參數(shù)量受限的問題，提高了多任務學習中的模型性能，同時控制了計算成本。

通過一系列實驗證明，GeRM在所有任務中均優(yōu)于其他方法，同時驗證了其在訓練和推理過程中的效率。

此外，研究人員還提供了QUARD-Auto數(shù)據(jù)集以支持訓練，該數(shù)據(jù)集的構建遵循文中提出的數(shù)據(jù)自動化收集的新范式，該方法可以降低收集機器人數(shù)據(jù)的成本，推動多任務學習社區(qū)的進步。

主要貢獻：

1. 首次提出了用于四足強化學習的混合專家模型，其在混合質(zhì)量的數(shù)據(jù)上進行訓練，從而具備習得最優(yōu)策略的潛力。

2. 與現(xiàn)有方法相比，GeRM在只激活自身1/2參數(shù)的情況下展現(xiàn)出更高的成功率，激活了涌現(xiàn)能力，同時在訓練過程中展現(xiàn)了更優(yōu)的數(shù)據(jù)利用策略。

3.提出了一個全自動機器人數(shù)據(jù)集收集的范式，并收集了一個大規(guī)模開源數(shù)據(jù)集。

方法

GeRM網(wǎng)絡結構如圖1所示，包含示范數(shù)據(jù)和失敗數(shù)據(jù)的視覺-語言輸入，分別經(jīng)過編碼器和tokenizer后輸入到8層混合專家結構的decoder中，并生成動作token，最終轉化為離散的機器人動作數(shù)據(jù)并通過底層策略部署到機器人上，此外我們用強化學習的方式進行訓練。

圖1 GeRM網(wǎng)絡結構圖

GeRM Decoder是一個包含 Transformer Decoder架構模型，其中前饋網(wǎng)絡（FFN）從一組 8 個不同的專家網(wǎng)絡中選擇。

在每一層，對于每一個標記，門控網(wǎng)絡選擇兩個專家來處理token，并將它們的輸出加權組合。

不同的專家擅長不同的任務/不同的動作維度，以解決不同場景中的問題，從而學習跨多個任務的通用模型。該架構擴大了網(wǎng)絡參數(shù)量，同時保持計算成本基本不變。

圖2 Decoder結構圖

我們提出了一個自動的范式來收集機器人多模態(tài)數(shù)據(jù)。通過這種方式，我們構建了一個大規(guī)模的機器人數(shù)據(jù)集QUARD-Auto，其中包含演示和次優(yōu)數(shù)據(jù)的組合。它包括5個任務和99個子任務，總共有257k條軌跡。我們將進行開源以促進機器人社區(qū)發(fā)展。

表1 數(shù)據(jù)集介紹

圖3 數(shù)據(jù)量統(tǒng)計

實驗

我們進行了一系列全面而可靠的實驗，涵蓋了所有 99 個子任務，每個子任務進行了 400 條軌跡的精心測試。

如表1所示，GeRM在所有任務中具有最高的成功率。與 RT-1 和其他GeRM 的變體相比，它有效地從混合質(zhì)量的數(shù)據(jù)中學習，優(yōu)于其他方法，并在多任務中展現(xiàn)出優(yōu)越的能力。與此同時，MoE 模塊通過在推理時激活部分參數(shù)來平衡計算成本和性能。

表2 多任務對比實驗

GeRM表現(xiàn)出令人稱贊的訓練效率。與其他方法相比，GeRM 僅需極少的batch就獲得了極低的Loss和較高的成功率，凸顯了GeRM優(yōu)化數(shù)據(jù)利用策略的能力。

圖4 成功率/Loss變化曲線

GeRM 在動態(tài)自適應路徑規(guī)劃方面展現(xiàn)出了涌現(xiàn)能力。如視頻所示，四足機器人在初始位置視野受限，難以確定移動方向。為了避開障礙物，它隨機選擇向左轉。

隨后，在遇到錯誤的視覺輸入后，機器人執(zhí)行了大幅度的重新定向，以與原始視野之外的正確目標對齊。然后，它繼續(xù)向目的地駛去，最終完成任務。

值得注意的是，這樣的軌跡不屬于我們的訓練數(shù)據(jù)集分布之內(nèi)。這表明 GeRM 在場景背景下的動態(tài)自適應路徑規(guī)劃方面具有涌現(xiàn)能力，即它能夠根據(jù)視覺感知進行決策、規(guī)劃未來路徑，并根據(jù)需要改變下一步行動。

圖5 涌現(xiàn)能力

責任編輯：張燕妮來源：新智元

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<sub id="dnef6"></sub>

<abbr id="dnef6"></abbr>