北大推出全新機(jī)器人多模態(tài)大模型!面向通用和機(jī)器人場景的高效推理和操作
本文由 HMI Lab 完成。HMI Lab依托北京大學(xué)視頻與視覺技術(shù)國家工程研究中心和多媒體信息處理全國重點(diǎn)實(shí)驗(yàn)室兩大平臺(tái),長期從事機(jī)器學(xué)習(xí)、多模態(tài)學(xué)習(xí)和具身智能方向的研究。本工作第一作者為劉家銘博士,研究方向?yàn)槊嫦蜷_放世界的多模態(tài)具身大模型與持續(xù)性學(xué)習(xí)技術(shù)。本工作第二作者為劉夢(mèng)真,研究方向?yàn)橐曈X基礎(chǔ)模型與機(jī)器人操縱。指導(dǎo)老師為仉尚航,北京大學(xué)計(jì)算機(jī)學(xué)院研究員、博士生導(dǎo)師、博雅青年學(xué)者。從事多模態(tài)大模型與具身智能研究,取得了一系列重要研究成果,在人工智能頂級(jí)期刊和會(huì)議上發(fā)表論文 80 余篇,谷歌引用 9700 余次。榮獲世界人工智能頂會(huì) AAAI 最佳論文獎(jiǎng),位列世界最大學(xué)術(shù)源代碼倉庫 Trending Research 第一位。
為了賦予機(jī)器人端到端的推理和操縱能力,本文創(chuàng)新性地將視覺編碼器與高效的狀態(tài)空間語言模型集成,構(gòu)建了全新的 RoboMamba 多模態(tài)大模型,使其具備視覺常識(shí)任務(wù)和機(jī)器人相關(guān)任務(wù)的推理能力,并都取得了先進(jìn)的性能表現(xiàn)。同時(shí),本文發(fā)現(xiàn)當(dāng) RoboMamba 具備強(qiáng)大的推理能力后,我們可以通過極低的訓(xùn)練成本使得 RoboMamba 掌握多種操縱位姿預(yù)測(cè)能力。
- 論文:RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation
- 論文鏈接:https://arxiv.org/abs/2406.04339
- 項(xiàng)目主頁:https://sites.google.com/view/robomamba-web
- Github:https://github.com/lmzpai/roboMamba
圖 1. RoboMamba 具備的機(jī)器人相關(guān)能力,其中包括任務(wù)規(guī)劃、提示性任務(wù)規(guī)劃、長程任務(wù)規(guī)劃、可操縱性判斷、可操縱性生成、未來與過去預(yù)測(cè)、末端執(zhí)行器位姿預(yù)測(cè)等。
摘要
機(jī)器人操縱的一個(gè)基本目標(biāo)是使模型能夠理解視覺場景并執(zhí)行動(dòng)作。盡管現(xiàn)有的機(jī)器人多模態(tài)大模型(MLLM)可以處理一系列基本任務(wù),但它們?nèi)匀幻媾R兩個(gè)方面的挑戰(zhàn):1) 處理復(fù)雜任務(wù)的推理能力不足;2) MLLM 微調(diào)和推理的計(jì)算成本較高。最近提出的狀態(tài)空間模型(SSM),即 Mamba,其具備線性推理復(fù)雜度同時(shí)在序列建模中展示了令人期待的能力。受此啟發(fā),我們推出了端到端機(jī)器人 MLLM—RoboMamba,它利用 Mamba 模型提供機(jī)器人推理和行動(dòng)能力,同時(shí)保持高效的微調(diào)和推理能力。
具體來說,我們首先將視覺編碼器與 Mamba 集成在一起,通過共同訓(xùn)練將視覺數(shù)據(jù)與語言嵌入對(duì)齊,使我們的模型具有視覺常識(shí)和與機(jī)器人相關(guān)的推理能力。為了進(jìn)一步增強(qiáng) RoboMamba 的操縱位姿預(yù)測(cè)能力,我們探索了一種僅使用簡單 Policy Head 的高效微調(diào)策略。我們發(fā)現(xiàn),一旦 RoboMamba 擁有足夠的推理能力,它可以通過極少的微調(diào)參數(shù)(模型的 0.1%)和微調(diào)時(shí)間(20 分鐘)來掌握多種操作技能。在實(shí)驗(yàn)中,RoboMamba 在通用和機(jī)器人評(píng)估基準(zhǔn)上展示了出色的推理能力,如圖 2 所示。同時(shí),我們的模型在模擬和現(xiàn)實(shí)世界實(shí)驗(yàn)中展示了令人印象深刻的操縱位姿預(yù)測(cè)能力,其推理速度比現(xiàn)有的機(jī)器人 MLLMs 快 7 倍。
圖 2. 概述:Robomamba 是一種高效的機(jī)器人多模態(tài)大模型,同時(shí)具備強(qiáng)大的推理和操作能力。RoboMamba-2.8B 在通用 MLLM 基準(zhǔn)上實(shí)現(xiàn)了與其他 7B MLLM 可競爭的推理性能,同時(shí)在機(jī)器人任務(wù)中展示了長程推理能力。隨后,我們引入了一種極其高效的微調(diào)策略,使 RoboMamba 具備操縱位姿預(yù)測(cè)能力,只需 20 分鐘即可微調(diào)一個(gè)簡單的策略頭。
本文主要貢獻(xiàn)總結(jié)如下:
- 我們創(chuàng)新地將視覺編碼器與高效的 Mamba 語言模型集成,構(gòu)建了全新的端到端機(jī)器人多模態(tài)大模型,RoboMamba,其具備視覺常識(shí)和機(jī)器人相關(guān)的全面推理能力。
- 為了使 RoboMamba 具備末端執(zhí)行器操縱位姿預(yù)測(cè)能力,我們探索了一種使用簡單 Policy Head 的高效微調(diào)策略。我們發(fā)現(xiàn),一旦 RoboMamba 達(dá)到足夠的推理能力,它可以以極低的成本掌握操縱位姿預(yù)測(cè)技能。
- 在我們的大量實(shí)驗(yàn)中,RoboMamba 在通用和機(jī)器人推理評(píng)估基準(zhǔn)上表現(xiàn)出色,并在模擬器和真實(shí)世界實(shí)驗(yàn)中展示了令人印象深刻的位姿預(yù)測(cè)結(jié)果。
研究背景
數(shù)據(jù)的 scaling up 顯著推動(dòng)了大語言模型(LLMs)研究的發(fā)展,展示了在自然語言處理(NLP)中推理和泛化能力的顯著進(jìn)步。為了理解多模態(tài)信息,多模態(tài)大語言模型(MLLMs)應(yīng)運(yùn)而生,賦予 LLMs 視覺指令跟隨和場景理解的能力。受 MLLMs 在通用環(huán)境中強(qiáng)大能力的啟發(fā),近期研究旨在將 MLLMs 應(yīng)用于機(jī)器人操作領(lǐng)域。一些研究工作使機(jī)器人能夠理解自然語言和視覺場景,自動(dòng)生成任務(wù)計(jì)劃。另一些研究工作則是利用 MLLMs 的固有能力,使其具備預(yù)測(cè)操作位姿的能力。
機(jī)器人操作涉及在動(dòng)態(tài)環(huán)境中與物體交互,需要類人推理能力以理解場景的語義信息,以及強(qiáng)大的操縱位姿預(yù)測(cè)能力。雖然現(xiàn)有基于機(jī)器人 MLLM 可以處理一系列基礎(chǔ)任務(wù),但它們?cè)趦蓚€(gè)方面仍然面臨挑戰(zhàn)。
1)首先,預(yù)訓(xùn)練的 MLLMs 在機(jī)器人場景中的推理能力被發(fā)現(xiàn)是不足的。正如圖 2
所示,當(dāng)微調(diào)后的機(jī)器人 MLLMs 遇到復(fù)雜推理任務(wù)時(shí),這種缺陷會(huì)帶來挑戰(zhàn)。
2)其次,由于現(xiàn)有 MLLM 注意力機(jī)制的計(jì)算復(fù)雜度較高,微調(diào) MLLMs 并使用它們生成機(jī)器人操作動(dòng)作會(huì)產(chǎn)生更高的計(jì)算成本。
為了平衡推理能力和效率,NLP 領(lǐng)域出現(xiàn)了幾項(xiàng)研究。尤其是,Mamba 引入了創(chuàng)新的選擇性狀態(tài)空間模型(SSM),在保持線性復(fù)雜度的同時(shí),促進(jìn)了上下文感知的推理。
受此啟發(fā),我們提出一個(gè)問題:“我們能否開發(fā)出一種高效的機(jī)器人 MLLM,既具備強(qiáng)大的推理能力,又能以非常經(jīng)濟(jì)的方式獲得機(jī)器人操作技能?”
RoboMamba 方法
1. 背景知識(shí)
- 問題陳述
對(duì)于機(jī)器人視覺推理,我們的 RoboMamba 基于圖像和語言問題
生成語言答案
,表示為
。推理答案通常包含單獨(dú)的子任務(wù)
對(duì)于一個(gè)問題
。例如,當(dāng)面對(duì)一個(gè)計(jì)劃問題,如 “如何收拾桌子?”,反應(yīng)通常包括 “第一步:撿起物體” 和 “第二步:把物體放入盒子” 等步驟。對(duì)于動(dòng)作預(yù)測(cè),我們利用一個(gè)高效簡單的策略頭 π 來預(yù)測(cè)動(dòng)作
。根據(jù)之前的工作,我們使用 6-DoF 來表達(dá) Franka Emika Panda 機(jī)械臂的末端執(zhí)行器位姿。6 自由度包括末端執(zhí)行器位置
表示三維坐標(biāo),方向
表示旋轉(zhuǎn)矩陣。如果訓(xùn)練抓取任務(wù),我們將抓夾狀態(tài)添加到位姿預(yù)測(cè)中,從而實(shí)現(xiàn) 7-DoF 控制。
- 狀態(tài)空間模型 (SSM)
本文選擇 Mamba 作為大語言模型。Mamba 由許多 Mamba block 組成,最關(guān)鍵的組成部分是 SSM。SSM 是基于連續(xù)系統(tǒng)設(shè)計(jì)的,通過隱藏狀態(tài),將 1D 輸入序列
投影到 1D 輸出序列
。SSM 由三個(gè)關(guān)鍵參數(shù)組成:狀態(tài)矩陣
,輸入矩陣
,輸出矩陣
。SSM 可以表示為:
最近的 SSM (例如,Mamba) 被構(gòu)造為使用時(shí)間尺度參數(shù)?的離散連續(xù)系統(tǒng)。該參數(shù)將連續(xù)參數(shù) A 和 B 轉(zhuǎn)換為離散參數(shù)和
。離散化采用零階保持方法,定義如下:
Mamba 引入了選擇性掃描機(jī)制 (S6),在每個(gè) Mamba block 中形成其 SSM 操作。SSM 參數(shù)更新為,實(shí)現(xiàn)更好的內(nèi)容感知推理。下圖 3 中展示了 Mamba block 的詳細(xì)信息。
2. RoboMamba 模型結(jié)構(gòu)
圖 3. Robomamba 整體框架。RoboMamba 通過視覺編碼器和投影層將圖像投影到 Mamba 的語言嵌入空間,然后與文本 tokens 連接,并輸入到 Mamba 模型中。為了預(yù)測(cè)末端執(zhí)行器的位置和方向,我們引入簡單的 MLP 策略頭,并使用池化操作從語言輸出 tokens 生成的全局 token 作為輸入。RoboMamba 的訓(xùn)練策略。為了進(jìn)行模型訓(xùn)練,我們將訓(xùn)練流程分為兩個(gè)階段。在 Stage 1,我們引入對(duì)齊預(yù)訓(xùn)練(Stage 1.1)和指令共同訓(xùn)練(Stage 1.2),以使 RoboMamba 具備常識(shí)推理和機(jī)器人相關(guān)的推理能力。在 Stage 2,我們提出機(jī)器人操作微調(diào),以高效地賦予 RoboMamba Low-Level 操作技能。
為了使 RoboMamba 具備視覺推理和操作能力,我們從預(yù)訓(xùn)練的大語言模型(LLMs)和視覺模型開始,構(gòu)建了一個(gè)高效的 MLLM 架構(gòu)。如上圖 3 所示,我們利用 CLIP 視覺編碼器從輸入圖像 I 中提取視覺特征,其中 B 和 N 分別表示 batch size 和 token 數(shù)。與最近的 MLLMs 不同,我們不采用視覺編碼器集成技術(shù),這種技術(shù)使用了多種骨干網(wǎng)絡(luò)(即 DINOv2、CLIP-ConvNeXt、CLIP-ViT)進(jìn)行圖像特征提取。集成引入了額外的計(jì)算成本,嚴(yán)重影響了機(jī)器人 MLLM 在現(xiàn)實(shí)世界中的實(shí)用性。因此,我們證明了,當(dāng)高質(zhì)量數(shù)據(jù)和適當(dāng)?shù)挠?xùn)練策略結(jié)合時(shí),簡單且直接的模型設(shè)計(jì)也能實(shí)現(xiàn)強(qiáng)大的推理能力。為了使 LLM 理解視覺特征,我們使用多層感知器(MLP)將視覺編碼器連接到 LLM。通過這個(gè)簡單的跨模態(tài)連接器,RoboMamba 可以將視覺信息轉(zhuǎn)換為語言嵌入空間
。
請(qǐng)注意,模型效率在機(jī)器人領(lǐng)域至關(guān)重要,因?yàn)闄C(jī)器人需要根據(jù)人類指令快速響應(yīng)。因此,我們選擇 Mamba 作為我們的大語言模型,因?yàn)樗哂猩舷挛母兄评砟芰途€性計(jì)算復(fù)雜度。文本提示使用預(yù)訓(xùn)練的分詞器編碼為嵌入空間,然后與視覺 token 連接(cat)并輸入 Mamba。我們利用 Mamba 強(qiáng)大的序列建模來理解多模態(tài)信息,并使用有效的訓(xùn)練策略來開發(fā)視覺推理能力(如下一節(jié)所述)。輸出 token (
) 然后被解碼(det),生成自然語言響應(yīng)
。模型的前向過程可以表示如下:
3.RoboMamba 通用視覺和機(jī)器人推理能力訓(xùn)練
在構(gòu)建了 RoboMamba 架構(gòu)后,接下來的目標(biāo)是訓(xùn)練我們的模型學(xué)習(xí)通用視覺推理和機(jī)器人相關(guān)的推理能力。如圖 3 所示,我們將 Stage 1 的訓(xùn)練分為兩個(gè)子步驟:對(duì)齊預(yù)訓(xùn)練(Stage 1.1)和指令共同訓(xùn)練(Stage 1.2)。具體而言,與以往的 MLLM 訓(xùn)練方法不同,我們的目標(biāo)是使 RoboMamba 能夠理解通用視覺和機(jī)器人場景。鑒于機(jī)器人領(lǐng)域涉及許多復(fù)雜且新穎的任務(wù),RoboMamba 需要更強(qiáng)的泛化能力。因此,我們?cè)?Stage 1.2 階段采用了共同訓(xùn)練策略,將高層次的機(jī)器人數(shù)據(jù)(例如任務(wù)規(guī)劃)與通用指令數(shù)據(jù)結(jié)合起來。我們發(fā)現(xiàn),共同訓(xùn)練不僅可以獲得更具泛化能力的機(jī)器人策略,還由于機(jī)器人數(shù)據(jù)中的復(fù)雜推理任務(wù)而帶來的通用場景推理能力增強(qiáng)。訓(xùn)練細(xì)節(jié)如下:
- Stage 1.1:對(duì)齊預(yù)訓(xùn)練。
我們采用 LLaVA 過濾的 558k 圖像 - 文本配對(duì)數(shù)據(jù)集進(jìn)行跨模態(tài)對(duì)齊。如圖 3 所示,我們凍結(jié) CLIP 編碼器和 Mamba 語言模型的參數(shù),僅更新投影層。通過這種方式,我們可以將圖像特征與預(yù)訓(xùn)練的 Mamba 詞嵌入對(duì)齊。
- Stage 1.2:指令共同訓(xùn)練。
在這一階段,我們首先遵循先前 MLLM 的工作進(jìn)行通用視覺指令數(shù)據(jù)收集。我們采用了 655K LLaVA 混合指令數(shù)據(jù)集和 400K LRV-Instruct 數(shù)據(jù)集,分別用于學(xué)習(xí)視覺指令跟隨和減輕幻覺。需要注意的是,減輕幻覺在機(jī)器人場景中起著重要作用,因?yàn)闄C(jī)器人 MLLM 需要基于真實(shí)場景生成任務(wù)規(guī)劃,而不是想象中的場景。例如,現(xiàn)有的 MLLMs 可能公式化地回答 “打開微波爐” 時(shí)說 “步驟 1:找到把手”,但許多微波爐沒有把手。接下來,我們結(jié)合了 800K RoboVQA 數(shù)據(jù)集,以學(xué)習(xí)高層次的機(jī)器人技能,如長程任務(wù)規(guī)劃、可操縱性判斷、可操縱性生成、未來與過去預(yù)測(cè)等。在共同訓(xùn)練期間,如圖 3 所示,我們凍結(jié) CLIP 編碼器的參數(shù),并在 1.8m 合并數(shù)據(jù)集上微調(diào)投影層和 Mamba。所有來自 Mamba 語言模型的輸出都使用交叉熵?fù)p失進(jìn)行監(jiān)督。
4.RoboMamba 操縱能力微調(diào)訓(xùn)練
在 RoboMamba 強(qiáng)大的推理能力基礎(chǔ)上,我們?cè)诒竟?jié)介紹了我們的機(jī)器人操作微調(diào)策略,在圖 3 中稱為訓(xùn)練 Stage 2?,F(xiàn)有的基于 MLLM 的機(jī)器人操作方法在操作微調(diào)階段需要更新投影層和整個(gè) LLM。雖然這種范式可以賦予模型動(dòng)作位姿預(yù)測(cè)能力,但它也破壞了 MLLM 的固有能力,并且需要大量的訓(xùn)練資源。為了解決這些挑戰(zhàn),我們提出了一種高效的微調(diào)策略,如圖 3 所示。我們凍結(jié) RoboMamba 的所有參數(shù),并引入一個(gè)簡單的 Policy head 來建模 Mamba 的輸出 token。Policy head 包含兩個(gè) MLP 分別學(xué)習(xí)末端執(zhí)行器位置和方向,總共占用整個(gè)模型參數(shù)的 0.1%。根據(jù)前期工作 where2act,位置和方向的損失公式如下:
其中,N 表示訓(xùn)練樣本的數(shù)量,Tr (A) 表示矩陣 A 的跡。RoboMamba 只預(yù)測(cè)圖像中接觸像素的二維位置(x, y),然后使用深度信息將其轉(zhuǎn)換為三維空間。為了評(píng)估這一微調(diào)策略,我們使用 SAPIEN 模擬生成了一個(gè)包含 1 萬條末端執(zhí)行器位姿預(yù)測(cè)的數(shù)據(jù)集。
在操作微調(diào)之后,我們發(fā)現(xiàn)一旦 RoboMamba 具備了足夠的推理能力,它可以通過極高效的微調(diào)來獲取位姿預(yù)測(cè)技能。由于微調(diào)參數(shù)(7MB)極少且模型設(shè)計(jì)高效,我們只需 20 分鐘即可實(shí)現(xiàn)新的操作技能學(xué)習(xí)。這一發(fā)現(xiàn)突出了推理能力對(duì)于學(xué)習(xí)操作技能的重要性,并提出了一個(gè)新的視角:我們可以在不影響 MLLM 固有推理能力的情況下,高效地賦予其操作能力。最后,RoboMamba 可以使用語言響應(yīng)進(jìn)行常識(shí)和與機(jī)器人相關(guān)的推理,并使用 Policy head 進(jìn)行動(dòng)作位姿預(yù)測(cè)。
定量實(shí)驗(yàn)
1. 通用推理能力評(píng)估(MLLM Benchmarks)
為了評(píng)估推理能力,我們使用了幾個(gè)流行的基準(zhǔn),包括 VQAv2、OKVQA、GQA、OCRVQA、VizWiz、POPE、MME、MMBench 和 MM-Vet。除此之外,我們還在 RoboVQA 的 18k 驗(yàn)證數(shù)據(jù)集上直接評(píng)估了 RoboMamba 的機(jī)器人相關(guān)推理能力,涵蓋了機(jī)器人任務(wù),如任務(wù)規(guī)劃、提示性任務(wù)規(guī)劃、長程任務(wù)規(guī)劃、可操縱性判斷、可操縱性生成、過去描述和未來預(yù)測(cè)等。
表 1. Robomamba 與現(xiàn)有 MLLMs 在多個(gè)基準(zhǔn)上的通用推理能力比較。
如表 1 所示,我們將 RoboMamba 與以前最先進(jìn)的 (SOTA) MLLM 在通用的 VQA 和最近的 MLLM 基準(zhǔn)測(cè)試上進(jìn)行比較。首先,我們發(fā)現(xiàn) RoboMamba 僅使用 2.7B 語言模型,就在所有 VQA 基準(zhǔn)測(cè)試中取得了令人滿意的結(jié)果。結(jié)果表明,簡單的結(jié)構(gòu)設(shè)計(jì)是有效的。對(duì)齊預(yù)訓(xùn)練和指令協(xié)同訓(xùn)練顯著提高了 MLLM 的推理能力。例如,由于在協(xié)同訓(xùn)練階段引入了大量的機(jī)器人數(shù)據(jù),RoboMamba 在 GQA 基準(zhǔn)上的空間識(shí)別性能得到了提高。同時(shí),我們還在最近提出的 MLLM 基準(zhǔn)上測(cè)試了我們的 RoboMamba。與以前的 MLLMs 相比,我們觀察到我們的模型在所有基準(zhǔn)測(cè)試中都取得了具有競爭力的結(jié)果。雖然 RoboMamba 的一些性能仍然低于最先進(jìn)的 7B MLLM (e.g., LLaVA1.5 和 SPHINX),但我們優(yōu)先使用更小更快的 Mamba-2.7B 來平衡機(jī)器人模型的效率。在未來,我們計(jì)劃為資源不受限制的場景開發(fā) RoboMamba-7B。
2. 機(jī)器人推理能力評(píng)估(RoboVQA Benchmark)
另外,為了全面比較 RoboMamba 與機(jī)器人相關(guān)的推理能力,我們?cè)?RoboVQA 驗(yàn)證集上與 LLaMA-AdapterV2 進(jìn)行基準(zhǔn)測(cè)試。我們選擇 LLaMA-AdapterV2 作為基準(zhǔn),因?yàn)樗钱?dāng)前 SOTA 機(jī)器人 MLLM (ManipLLM) 的基礎(chǔ)模型。為了進(jìn)行公平的比較,我們加載了 LLaMA-AdapterV2 預(yù)訓(xùn)練參數(shù),并使用其官方指令微調(diào)方法在 RoboVQA 訓(xùn)練集上對(duì)其進(jìn)行了兩個(gè) epoch 的微調(diào)。如圖 4 a)所示,RoboMamba 在 BLEU-1 到 BLEU-4 之間實(shí)現(xiàn)了卓越的性能。結(jié)果表明,我們的模型具有先進(jìn)的機(jī)器人相關(guān)推理能力,并證實(shí)了我們的訓(xùn)練策略的有效性。除了更高的準(zhǔn)確率外,我們的模型實(shí)現(xiàn)的推理速度比 LLaMA-AdapterV2 和 ManipLLM 快 7 倍,這可以歸因于 Mamba 語言模型的內(nèi)容感知推理能力和效率。
圖 4. RoboVQA 上與機(jī)器人相關(guān)的推理對(duì)比。
3. 機(jī)器人操縱能力評(píng)估(SAPIEN)
為了評(píng)估 RoboMamba 的操作能力,我們將我們的模型與四個(gè)基線進(jìn)行了比較:UMPNet, Flowbot3D, RoboFlamingo 和 ManipLLM。在比較之前,我們復(fù)現(xiàn)所有基線并在我們收集的數(shù)據(jù)集上訓(xùn)練它們。對(duì)于 UMPNet,我們?cè)陬A(yù)測(cè)的接觸點(diǎn)上執(zhí)行操作,方向垂直于物體表面。Flowbot3D 在點(diǎn)云上預(yù)測(cè)運(yùn)動(dòng)方向,選擇最大的流作為交互點(diǎn),并使用流方向表示末端執(zhí)行器的方向。RoboFlamingo 和 ManipLLM 分別加載 OpenFlamingo 和 LLaMA-AdapterV2 預(yù)訓(xùn)練參數(shù),并遵循各自的微調(diào)和模型更新策略。如表 2 所示,與之前的 SOTA ManipLLM 相比,我們的 RoboMamba 在可見類別上實(shí)現(xiàn)了 7.0% 的改進(jìn),在不可見類別上實(shí)現(xiàn)了 2.0% 的改進(jìn)。在效率方面,RoboFlamingo 更新了 35.5% (1.8B) 的模型參數(shù),ManipLLM 更新了 LLM 中的適配器 (41.3M),包含 0.5% 的模型參數(shù),而我們的微調(diào) Policy head (3.7M) 僅占模型參數(shù)的 0.1%。RoboMamba 比以前基于 MLLM 的方法更新的參數(shù)少了 10 倍,而推理速度提高了 7 倍。結(jié)果表明,我們的 RoboMamba 不僅具有強(qiáng)大的推理能力,而且能夠以低成本的方式獲得操縱能力。
表 2. Robomamba 與其他 baseline 的成功率比較
定性結(jié)果
圖 4. RoboMamba 面對(duì)現(xiàn)實(shí)世界中各種機(jī)器人下游任務(wù)的可視化。
如圖 4 所示,我們可視化了 RoboMamba 在各種機(jī)器人下游任務(wù)中的推理結(jié)果。在任務(wù)規(guī)劃方面,相較于 LLaMA-AdapterV2, RoboMamba 憑借其強(qiáng)大的推理能力,展現(xiàn)出了更準(zhǔn)確、更長遠(yuǎn)的規(guī)劃能力。為了進(jìn)行公平的比較,我們還對(duì) RoboVQA 數(shù)據(jù)集上的基準(zhǔn) LLaMA-AdapterV2 進(jìn)行了微調(diào)。對(duì)于操縱位姿預(yù)測(cè),我們使用了 Franka Emika 機(jī)械臂來與各種家庭物品進(jìn)行交互。我們將 RoboMamba 預(yù)測(cè)的 3D 位姿投影到 2D 圖像上,使用紅點(diǎn)表示接觸點(diǎn),末端執(zhí)行器表示方向,如圖右下角所示。