具身智能成敗之關(guān)鍵!干貨長文首次全面回顧具身智能領(lǐng)域中的視覺-語言-動作模型!
文章鏈接:https://arxiv.org/pdf/2405.14093
亮點直擊
本綜述是關(guān)于具身智能領(lǐng)域中新興的視覺-語言-動作模型的首次全面回顧。
- 全面回顧。對具身智能領(lǐng)域中涌現(xiàn)的VLA模型進行了全面回顧,涵蓋了架構(gòu)、訓(xùn)練目標和機器人任務(wù)等各個方面。
- 分類法。引入了當(dāng)前機器人系統(tǒng)的分層結(jié)構(gòu)分類法,包含三個主要組件:預(yù)訓(xùn)練、控制策略和任務(wù)規(guī)劃器。預(yù)訓(xùn)練技術(shù)旨在增強VLAs的特定方面,如視覺編碼器或動力學(xué)模型。低層次控制策略根據(jù)指定的語言命令和感知到的環(huán)境執(zhí)行低層次動作。高層次任務(wù)規(guī)劃器將長遠任務(wù)分解為由控制策略執(zhí)行的子任務(wù)。
- 豐富資源。概述了訓(xùn)練和評估VLA模型所需的資源。通過比較它們的關(guān)鍵特性,調(diào)查了最近引入的數(shù)據(jù)集和模擬器。此外,還列出了廣泛采用的基準測試,涉及機器人控制和具身推理等任務(wù)。
- 未來方向。概述了該領(lǐng)域當(dāng)前的挑戰(zhàn)和未來的潛在機遇,例如解決數(shù)據(jù)稀缺問題、增強機器人靈活性、實現(xiàn)跨任務(wù)、環(huán)境和實體的泛化能力,以及提高機器人安全性。
深度學(xué)習(xí)在許多領(lǐng)域中展現(xiàn)出了顯著的成功,包括計算機視覺、自然語言處理和強化學(xué)習(xí)。這些領(lǐng)域的代表性人工神經(jīng)網(wǎng)絡(luò)涵蓋了卷積神經(jīng)網(wǎng)絡(luò)、Transformer模型以及深度Q-networks?;趩我荒B(tài)神經(jīng)網(wǎng)絡(luò),許多多模態(tài)模型被引入以解決一系列任務(wù),如視覺問答、圖像字幕生成和語音識別。隨著指令跟隨機器人策略在具身智能中的興起,一種被稱為視覺-語言-動作模型(VLAs)的新型多模態(tài)模型類別應(yīng)運而生。這些模型的多模態(tài)能力已成為機器人學(xué)習(xí)的基礎(chǔ)要素。為了增強模型的多功能性、靈活性和泛化能力,提出了各種方法。有些模型專注于通過預(yù)訓(xùn)練來優(yōu)化特定組件,另一些則旨在開發(fā)能夠預(yù)測低級別動作的控制策略。某些VLAs作為高層次任務(wù)規(guī)劃器,可以將長遠任務(wù)分解為可執(zhí)行的子任務(wù)。在過去幾年中,眾多VLAs應(yīng)運而生,反映了具身智能的快速發(fā)展。因此,有必要通過全面的綜述來把握這一不斷演變的領(lǐng)域。
I. 引言
視覺-語言-動作模型(VLAs)是一類旨在處理多模態(tài)輸入的模型,結(jié)合了來自視覺、語言和動作模態(tài)的信息。該術(shù)語最近由RT-2提出。VLAs的開發(fā)目的是為具身智能(embodied AI)處理指令跟隨任務(wù)。與其他人工智能形式如以ChatGPT為代表的對話式人工智能不同,具身智能需要控制物理實體并與環(huán)境交互。機器人技術(shù)是具身智能最突出的領(lǐng)域。在基于語言的機器人任務(wù)中,策略必須具備理解語言指令、視覺感知環(huán)境并生成適當(dāng)動作的能力,這就需要VLAs的多模態(tài)能力。與早期的深度強化學(xué)習(xí)方法相比,基于VLA的策略在復(fù)雜環(huán)境中表現(xiàn)出更強的多功能性、靈活性和泛化能力。這使得VLAs不僅適用于工廠等受控環(huán)境,還適用于日常任務(wù),如烹飪和房間清潔。
早期的深度學(xué)習(xí)發(fā)展主要由單一模態(tài)模型組成。在計算機視覺(CV)領(lǐng)域,像AlexNet這樣的模型展示了人工神經(jīng)網(wǎng)絡(luò)(ANNs)的潛力。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)為眾多自然語言處理(NLP)模型奠定了基礎(chǔ),但近年來逐漸被Transformer模型所取代。深度Q-network(Deep Q-network)展示了人工神經(jīng)網(wǎng)絡(luò)可以成功應(yīng)對強化學(xué)習(xí)問題。借助單一模態(tài)模型在各個機器學(xué)習(xí)領(lǐng)域的進步,多模態(tài)模型演變得足夠強大,可以應(yīng)對各種任務(wù),如視覺問答、圖像字幕生成、語音識別等。
傳統(tǒng)基于強化學(xué)習(xí)的機器人策略大多專注于有限的一組任務(wù),通常在工廠和實驗室等受控環(huán)境中進行。例如,文獻 [68] 訓(xùn)練了一個專門用于抓取物體的策略。然而,對于更具多功能性的多任務(wù)策略的需求日益增加,類似于最近在大型語言模型(LLMs)和視覺-語言模型(VLMs)中的進展。開發(fā)多任務(wù)策略更具挑戰(zhàn)性,因為它需要學(xué)習(xí)更廣泛的技能并適應(yīng)動態(tài)和不確定的環(huán)境。此外,任務(wù)規(guī)范也增加了另一層復(fù)雜性。一些方法使用單熱向量來選擇任務(wù),但這些方法受限于訓(xùn)練集中任務(wù)的數(shù)量。
基于預(yù)訓(xùn)練視覺基礎(chǔ)模型、大型語言模型和視覺-語言模型的成功,視覺-語言-動作模型(VLAs)已展示出應(yīng)對這些挑戰(zhàn)的能力。來自最先進的視覺編碼器的預(yù)訓(xùn)練視覺表示幫助VLAs感知復(fù)雜環(huán)境,提供更精確的估計,例如對象類別、對象姿態(tài)和對象幾何形狀。隨著語言模型能力的增強,基于語言指令的任務(wù)規(guī)范成為一種可行的選擇?;A(chǔ)VLMs探索了多種將視覺模型與語言模型結(jié)合的方式,包括BLIP-2、Flamingo等。來自不同領(lǐng)域的這些創(chuàng)新使VLAs能夠應(yīng)對具身智能的挑戰(zhàn)。
不同的視覺-語言-動作模型(VLAs)各自側(cè)重不同的方面,如下圖1中的分類所示。部分VLAs通過采用專門為機器人任務(wù)設(shè)計的預(yù)訓(xùn)練任務(wù),力求增強其預(yù)訓(xùn)練的視覺表示,重點在于獲取改進的視覺編碼器。同時,還有大量研究專注于機器人控制策略。在這一類別中,語言指令輸入控制策略,控制策略根據(jù)環(huán)境生成動作,然后將這些動作轉(zhuǎn)發(fā)給運動規(guī)劃器以執(zhí)行。相比之下,另一類VLAs作為高層次任務(wù)規(guī)劃器運作,它們抽象了低層次的控制,專注于將長遠的機器人任務(wù)分解為子任務(wù)。這些子任務(wù)可以由控制策略逐一完成,最終完成整體任務(wù)。
相關(guān)工作。 盡管目前缺乏關(guān)于VLAs的綜述,但相關(guān)領(lǐng)域的現(xiàn)有綜述為VLA研究提供了有價值的見解。在計算機視覺領(lǐng)域,綜述涵蓋了從卷積神經(jīng)網(wǎng)絡(luò) 到Transformer的廣泛視覺模型。自然語言處理模型在綜述 [75], [76] 中得到了全面總結(jié)。強化學(xué)習(xí)的深入評論可在綜述 [77]–[79] 中找到。圖神經(jīng)網(wǎng)絡(luò)的綜述也可供參考 [80]。此外,現(xiàn)有的視覺-語言模型比較綜述為VLA提供了啟發(fā) [67], [81]–[83]。另外,還有一篇關(guān)于早期具身智能的綜述 [84]。
論文結(jié)構(gòu)。 § II-A 概述了單模態(tài)模型的代表性發(fā)展和里程碑。由于視覺-語言模型與視覺-語言-動作模型密切相關(guān),§ II-B 對近期視覺-語言模型的進展進行了比較?!?III 探討了各種類型的視覺-語言-動作模型。§ IV 總結(jié)了最近的數(shù)據(jù)集、環(huán)境和具身智能的基準測試。挑戰(zhàn)和未來方向在§ V 中討論。
II. 背景
A. 單模態(tài)模型
視覺-語言-動作模型(VLAs)整合了三種模態(tài),通常依賴于現(xiàn)有的單模態(tài)模型來處理不同模態(tài)的輸入。在計算機視覺領(lǐng)域,從卷積神經(jīng)網(wǎng)絡(luò)向視覺Transformer的轉(zhuǎn)變推動了更通用視覺模型的發(fā)展。在自然語言處理領(lǐng)域,從循環(huán)神經(jīng)網(wǎng)絡(luò)向Transformer的演變最初引領(lǐng)了“預(yù)訓(xùn)練-微調(diào)”范式,隨后是由大型語言模型驅(qū)動的提示調(diào)優(yōu)的成功。強化學(xué)習(xí)領(lǐng)域也出現(xiàn)了使用Transformer將馬爾可夫決策過程(MDP)建模為自回歸序列數(shù)據(jù)的趨勢。
近期單模態(tài)模型的進展在促進多模態(tài)模型(包括VLA模型)的成功方面發(fā)揮了關(guān)鍵作用。近期單模態(tài)模型成功的一個重要因素是其參數(shù)規(guī)模的不斷擴大。關(guān)于各模態(tài)中近期里程碑式發(fā)展的更全面概述,請參閱附錄中的詳細總結(jié)。
B. 視覺-語言模型
視覺-語言任務(wù),包括圖像字幕生成、視覺問答、視覺定位,需要融合計算機視覺和自然語言處理技術(shù)。早期的嘗試,如Show and Tell,利用了早期卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)的成功。隨著BERT 和GPT等高級語言模型的引入,基于Transformer的視覺-語言模型(VLMs)開啟了一個新時代。隨著Transformer模型的不斷擴展,大型語言模型成為了許多VLMs的新骨干。視覺Transformer的集成在增強VLMs的視覺能力方面起到了關(guān)鍵作用。VLMs與VLAs關(guān)系密切,因為VLMs的多模態(tài)架構(gòu)可以很容易地被VLAs采用。例如,將動作解碼器附加到VLMs上可以將其轉(zhuǎn)化為用于低層次控制的VLAs。如果VLMs具備足夠的推理能力,它們也可以作為高層次任務(wù)規(guī)劃器。
VLMs的發(fā)展經(jīng)歷了三個主要階段:自監(jiān)督預(yù)訓(xùn)練、對比預(yù)訓(xùn)練和大型多模態(tài)模型。VLMs的一個開創(chuàng)性自監(jiān)督預(yù)訓(xùn)練方法是ViLBERT,它利用了多流Transformer架構(gòu)來處理多模態(tài)輸入。受ViLBERT啟發(fā),后續(xù)的工作探索了單流架構(gòu)。在自監(jiān)督預(yù)訓(xùn)練之后,引入了多模態(tài)對比預(yù)訓(xùn)練方法。CLIP率先利用對比學(xué)習(xí)對齊不同模態(tài),引領(lǐng)了一系列相關(guān)研究。其他方法探索了其他路徑,包括擴展預(yù)訓(xùn)練數(shù)據(jù)集或采用專門的多模態(tài)架構(gòu),如 [102]、BEiT-3 等工作中所見。隨著大型語言模型的興起,開發(fā)出了大型多模態(tài)模型(LMMs),其中預(yù)訓(xùn)練的大規(guī)模視覺和語言模型相結(jié)合,在多模態(tài)指令跟隨任務(wù)中達到了最先進的性能。代表性的LMMs包括Flamingo、BLIP-2、LLaVA。關(guān)于VLMs近期發(fā)展的詳細介紹,請參閱附錄II-B。
C. 具身智能與機器人學(xué)習(xí)
具身智能是一種獨特的人工智能形式,能夠主動與物理環(huán)境進行交互。這使其與其他AI模型不同,如主要處理文本對話的對話AI(如ChatGPT),或?qū)W⒂谏扇蝿?wù)的生成式AI模型(如文本轉(zhuǎn)視頻生成的Sora)。具身智能涵蓋了廣泛的實體形式,包括智能家電、智能眼鏡、自動駕駛汽車等。其中,機器人是最突出的具身形式之一。
III. 視覺-語言-動作模型
視覺-語言-動作模型(VLAs)是處理視覺和語言多模態(tài)輸入并輸出機器人動作以完成具身任務(wù)的模型。它們是具身智能領(lǐng)域中指令跟隨機器人策略的基石。這些模型依賴于強大的視覺編碼器、語言編碼器和動作解碼器。為了提升在各種機器人任務(wù)中的表現(xiàn),一些VLA模型側(cè)重于獲取優(yōu)越的預(yù)訓(xùn)練視覺表示(見第III-A節(jié));另一些則集中于完善低層次控制策略,擅長接收短期任務(wù)指令并生成可通過機器人運動規(guī)劃執(zhí)行的動作(見第III-B節(jié));此外,某些VLA模型將低層次控制抽象化,專注于將長期任務(wù)分解為可由低層次控制策略執(zhí)行的子任務(wù)(見第III-C節(jié))。因此,低層次控制策略與高層次任務(wù)規(guī)劃器的結(jié)合可以被視為一種分層策略,如下圖3所示。本節(jié)內(nèi)容圍繞這些主要方面展開。
A. 預(yù)訓(xùn)練
VLA模型通常由處理多種模態(tài)的獨立組件組成。其中,視覺編碼器尤為重要,因為它需要編碼環(huán)境狀態(tài)并提供關(guān)于環(huán)境的充足信息。幾項研究致力于通過預(yù)訓(xùn)練視覺編碼器來獲得高質(zhì)量的預(yù)訓(xùn)練視覺表示(PVRs)(見III-A1)。其他研究嘗試通過正向或逆向動力學(xué)預(yù)訓(xùn)練模型,以學(xué)習(xí)環(huán)境的動態(tài)特性(見III-A2)。在動力學(xué)學(xué)習(xí)方面的進一步進展是學(xué)習(xí)一個世界模型(見III-A3),這允許模型從當(dāng)前狀態(tài)進行狀態(tài)推演,并為策略提供更豐富的世界知識。
1)預(yù)訓(xùn)練視覺表示
視覺編碼器的有效性直接影響策略的表現(xiàn),因為它提供了關(guān)于對象類別、位置和環(huán)境功能的重要信息。因此,許多方法致力于通過預(yù)訓(xùn)練視覺編碼器來提高PVRs的質(zhì)量。其技術(shù)細節(jié)在表I中進行了比較。
盡管對比語言-圖像預(yù)訓(xùn)練(CLIP)最初并不是為強化學(xué)習(xí)或機器人任務(wù)設(shè)計的,但它已廣泛應(yīng)用于機器人模型中的視覺編碼器。CLIP的主要目標是在給定批次中從所有可能的組合中識別正確的文本-圖像對。通過訓(xùn)練來增強視覺編碼器與語言編碼器之間的對齊,CLIP在提供文本指令作為輸入的任務(wù)中表現(xiàn)尤為出色。CLIP在WebImageText(WIT)數(shù)據(jù)集上進行訓(xùn)練,該自定義數(shù)據(jù)集包含4億個圖文對。大規(guī)模的訓(xùn)練使得CLIP能夠?qū)σ曈X和文本信息之間的關(guān)系形成豐富的理解。值得注意的是,CLIP對各種視覺編碼器進行了全面的比較,探索了ResNet和ViT的不同配置。這種分析為準確性和效率之間的權(quán)衡提供了寶貴的見解。
用于機器人操作的可重用表示(R3M) 提出了兩個主要的預(yù)訓(xùn)練目標:時間對比學(xué)習(xí)和視頻-語言對齊。時間對比學(xué)習(xí)的目標是最小化時間上接近的視頻幀之間的距離,同時增加時間上相距較遠的幀之間的分離度。該目標旨在創(chuàng)建能夠捕捉視頻序列中時間關(guān)系的PVRs。另一方面,視頻-語言對齊的目標是學(xué)習(xí)一個視頻是否與某個語言指令對應(yīng)。該目標豐富了PVRs中嵌入的語義相關(guān)性。
Masked Visual Pre-training (MVP) 采用了計算機視覺領(lǐng)域的遮罩自編碼器(MAE)方法。MAE 的工作原理是對輸入到 ViT 模型的一部分圖像塊進行遮罩處理,然后訓(xùn)練模型重建這些被破壞的圖像塊。這種方法與 BERT中使用的遮罩語言模型技術(shù)非常相似,屬于自監(jiān)督訓(xùn)練的范疇。MVP 將這種 MAE 目標擴展到各種機器人數(shù)據(jù)集上,證明預(yù)訓(xùn)練的視覺編碼器在后續(xù)操控任務(wù)中的表現(xiàn)顯著提升。
Value-Implicit Pre-training (VIP)
Visual Cortex (VC-1) 對先前的預(yù)訓(xùn)練視覺表示(PVRs)進行了深入研究,并通過在不同數(shù)據(jù)集中系統(tǒng)地探索最佳 ViT 配置,推出了一種改進的 PVR 模型。此外,他們還在多個操控和導(dǎo)航數(shù)據(jù)集上對其模型與之前的方法進行了全面的比較分析,揭示了提升 PVR 表現(xiàn)的關(guān)鍵因素。另一項研究 [113] 也比較了在監(jiān)督學(xué)習(xí)或自監(jiān)督學(xué)習(xí)下獲得的先前 PVRs。
Voltron 引入了一種新穎的預(yù)訓(xùn)練目標,通過將語言調(diào)節(jié)和語言生成引入到遮罩自編碼(MAE)目標中。采用編碼器-解碼器結(jié)構(gòu)的 Transformer ,預(yù)訓(xùn)練在語言調(diào)節(jié)的遮罩圖像重建和從遮罩圖像生成語言之間交替進行。這增強了語言和視覺模態(tài)之間的對齊,從而在語言調(diào)節(jié)的模仿任務(wù)中顯著提高了成功率。
RPT RPT(Reinforcement Pretraining)在預(yù)訓(xùn)練過程中,不僅專注于重建視覺輸入和機器人動作,還關(guān)注本體感受狀態(tài)。在評估三種不同的遮罩方案時,發(fā)現(xiàn)token masking特別能顯著提高模型的性能。
GR-1 GR-1 引入了一種新穎的視頻預(yù)測預(yù)訓(xùn)練任務(wù),專為 GPT 風(fēng)格的模型設(shè)計。該視頻預(yù)測目標在微調(diào)階段也會被使用,特別是利用機器人數(shù)據(jù)。其理由在于,能夠預(yù)測未來幀有助于更準確的動作預(yù)測。實驗結(jié)果表明,在機器人操控領(lǐng)域,該方法的主張得到了實證支持。
SpawnNet SpawnNet 采用了一個雙流架構(gòu),通過適配器層融合了預(yù)訓(xùn)練視覺編碼器的特征和從零開始學(xué)習(xí)的特征。這種創(chuàng)新方法不需要訓(xùn)練預(yù)訓(xùn)練的視覺編碼器,同時超越了參數(shù)高效微調(diào)(PEFT)方法的性能,實驗結(jié)果在機器人操控任務(wù)中驗證了這一點。
2) 動力學(xué)學(xué)習(xí)
動力學(xué)學(xué)習(xí)包含了使模型理解正向或逆向動力學(xué)的目標。正向動力學(xué)涉及預(yù)測給定動作后的下一個狀態(tài),而逆向動力學(xué)則涉及確定從先前狀態(tài)過渡到已知后續(xù)狀態(tài)所需的動作。一些研究方法還將這些目標框定為打亂狀態(tài)序列的重新排序問題。雖然正向動力學(xué)模型與世界模型密切相關(guān),本小節(jié)專注于利用動力學(xué)學(xué)習(xí)作為輔助任務(wù)來提升主要機器人任務(wù)性能的研究方法。在下表 II 中進行了比較。
Vi-PRoM Vi-PRoM 提出了三種不同的預(yù)訓(xùn)練目標。首先是對比自監(jiān)督學(xué)習(xí)目標,旨在區(qū)分不同的視頻。其余兩個目標集中在監(jiān)督學(xué)習(xí)任務(wù)上:時間動態(tài)學(xué)習(xí),旨在恢復(fù)打亂的視頻幀;以及使用偽標簽進行的圖像分類。通過與先前的預(yù)訓(xùn)練方法進行全面比較,Vi-PRoM 在行為克隆和 PPO(Proximal Policy Optimization)任務(wù)中展示了其有效性。
MIDAS MIDAS 引入了逆向動力學(xué)預(yù)測任務(wù)作為其預(yù)訓(xùn)練的一部分。其目標是訓(xùn)練模型從觀察中預(yù)測動作,這被制定為一個跟隨運動的任務(wù)。這種方法增強了模型對環(huán)境過渡動態(tài)的理解。
SMART SMART 提出了一個包含三種不同目標的預(yù)訓(xùn)練方案:前向動力學(xué)預(yù)測、逆向動力學(xué)預(yù)測和隨機遮罩的事后控制。前向動力學(xué)預(yù)測任務(wù)涉及預(yù)測下一個潛在狀態(tài),而逆向動力學(xué)預(yù)測任務(wù)則涉及預(yù)測最后一個動作。在事后控制的情況下,整個控制序列作為輸入提供,其中一些動作被遮罩,模型則被訓(xùn)練以恢復(fù)這些遮罩的動作。前兩種動力學(xué)預(yù)測任務(wù)有助于捕捉局部和短期動態(tài),而第三個任務(wù)旨在捕捉全局和長期的時間依賴性。
MaskDP MaskDP 特點是遮罩決策預(yù)測任務(wù),其中狀態(tài)和動作token都被遮罩以進行重建。這個遮罩建模任務(wù)專門設(shè)計來使模型理解前向和逆向動力學(xué)。與之前的遮罩建模方法(如 BERT 或 MAE)不同的是,MaskDP 直接應(yīng)用于下游任務(wù)。
Perception-Action Causal Transformer (PACT) PACT 引入了一種預(yù)訓(xùn)練目標,旨在建模狀態(tài)-動作過渡。PACT 接收狀態(tài)和動作序列作為輸入,并以自回歸的方式預(yù)測每個狀態(tài)和動作token。這個預(yù)訓(xùn)練模型作為動力學(xué)模型,之后可以針對各種下游任務(wù)如定位、地圖制作和導(dǎo)航進行微調(diào)。
Video Pretraining (VPT) VPT 提出了一個利用未token的互聯(lián)網(wǎng)數(shù)據(jù)來預(yù)訓(xùn)練 Minecraft 游戲基礎(chǔ)模型的方法。該方法首先使用有限量的token數(shù)據(jù)訓(xùn)練逆向動力學(xué)模型,然后利用該模型token互聯(lián)網(wǎng)視頻。隨后,使用這些新自動token的數(shù)據(jù)通過行為克隆來訓(xùn)練 VPT 基礎(chǔ)模型。這種方法遵循了半監(jiān)督模仿學(xué)習(xí)。因此,該模型在多種任務(wù)上展示了人類水平的表現(xiàn)。
3) 世界模型
Dreamer使用三個主要模塊構(gòu)建潛在動力學(xué)模型:表示模型(負責(zé)將圖像編碼為潛在狀態(tài));過渡模型(捕捉潛在狀態(tài)之間的過渡);和獎勵模型(預(yù)測與給定狀態(tài)相關(guān)的獎勵)。在演員-評論家框架下,Dreamer 利用動作模型和價值模型通過傳播分析梯度來學(xué)習(xí)行為。基于這一基礎(chǔ),DreamerV2引入了離散的潛在狀態(tài)空間,并改進了目標。DreamerV3擴展了其關(guān)注的領(lǐng)域范圍,并固定了超參數(shù)。
Masked World Model (MWM)
Iso-Dream Iso-Dream 對 Dreamer 框架進行了兩個關(guān)鍵改進:1)逆向動力學(xué)優(yōu)化: 它將可控和不可控動力學(xué)分離,使處理不直接受控制的狀態(tài)過渡更加高效。2) 優(yōu)化代理行為: 通過使用分離的潛在想象,Iso-Dream 改進了長遠任務(wù)的決策能力,因為不可控的動態(tài)可以與動作獨立展開。
基于Transformer的世界模型 (TWM)
IRIS IRIS 使用類似 GPT 的自回歸Transformer作為其世界模型的基礎(chǔ),并采用 VQ-VAE 作為視覺編碼器。該策略通過從真實觀察中生成的潛在軌跡進行訓(xùn)練,這些軌跡由世界模型生成,類似于 TWM 的方法。
SWIM
DECKARD
優(yōu)缺點
預(yù)訓(xùn)練的視覺表示突出了視覺編碼器的重要性,因為視覺觀察在感知環(huán)境當(dāng)前狀態(tài)中起著關(guān)鍵作用。因此,它為整體模型的性能設(shè)定了上限。在 VLA 中,通用視覺模型通過使用機器人或人類數(shù)據(jù)進行預(yù)訓(xùn)練,以增強在物體檢測、適應(yīng)圖提取甚至視覺-語言對齊等任務(wù)中的能力,這些都是機器人任務(wù)的核心。而動力學(xué)學(xué)習(xí)則專注于理解狀態(tài)之間的過渡。這不僅涉及將視覺觀察映射到良好的狀態(tài)表示,還包括理解不同動作如何導(dǎo)致不同狀態(tài),反之亦然。現(xiàn)有的動力學(xué)學(xué)習(xí)方法通常通過簡單的mask 建?;蛑匦屡判蚰繕藖聿蹲綘顟B(tài)與動作之間的關(guān)系。相比之下,世界模型旨在完全建模世界的動態(tài),使機器人模型能夠基于當(dāng)前狀態(tài)預(yù)測多步未來的狀態(tài),從而更好地預(yù)測最佳動作。因此,盡管世界模型更具吸引力,但實現(xiàn)起來也更具挑戰(zhàn)性。
B. 低級控制策略
通過將動作解碼器與感知模塊(如視覺編碼器和語言編碼器)集成,形成了一個政策網(wǎng)絡(luò),用于在模擬或現(xiàn)實環(huán)境中執(zhí)行指令??刂撇呗跃W(wǎng)絡(luò)的多樣性體現(xiàn)在編碼器/解碼器類型的選擇以及這些模塊的集成策略。該子節(jié)探討了低級控制策略的不同方法。語言指令控制策略包括以下幾種類型:非Transformer型(III-B1)、基于Transformer型(III-B2)和基于大型語言模型型(III-B3)。還有其他一些控制策略處理多模態(tài)指令(III-B4)和目標狀態(tài)指令(III-B5)。在下表 III 中,比較了不同控制策略的各個方面。
1) 非Transformer語言指令控制策略
CLIPort
BC-Z
MCIL MCIL 代表了一種開創(chuàng)性的機器人策略,整合了自由形式自然語言條件,這與早期通常依賴于任務(wù) ID 或目標圖像的條件方法形成對比。MCIL 引入了利用未token和無結(jié)構(gòu)演示數(shù)據(jù)的能力。這通過訓(xùn)練策略以遵循圖像或語言目標來實現(xiàn),其中少量訓(xùn)練數(shù)據(jù)集包含配對的圖像和語言目標。
HULC HULC 介紹了幾種旨在增強機器人學(xué)習(xí)架構(gòu)的技術(shù)。這些技術(shù)包括機器學(xué)習(xí)的分層分解、多模態(tài)Transformer和離散潛在計劃。Transformer學(xué)習(xí)高層行為,分層劃分低層局部策略和全局計劃。此外,HULC 引入了一種基于對比學(xué)習(xí)的視覺-語言語義對齊損失,以對齊視覺-語言(VL)模態(tài)。HULC++進一步整合了自監(jiān)督適應(yīng)模型。該模型指導(dǎo) HULC 到語言指令指定的可操作區(qū)域,使其能夠在該指定區(qū)域內(nèi)完成任務(wù)。
Universal Policy (UniPi)
2) 基于Transformer的語言指令控制策略:
Language Costs
Interactive Language Interactive Language 提出了一個機器人系統(tǒng),其中低級控制策略可以通過語言實時引導(dǎo),從而完成長遠的重新排列任務(wù)。這種基于語言的引導(dǎo)的有效性主要歸功于使用了一個精心收集的數(shù)據(jù)集,該數(shù)據(jù)集包含了大量的語言指令,規(guī)模超出了以往數(shù)據(jù)集一個數(shù)量級。
Hiveformer Hiveformer 主要強調(diào)利用多視角場景觀察和保持完整觀察歷史來進行語言條件策略。這一方法相比于之前的系統(tǒng)(如 CLIPort 和 BC-Z)有所進步,后者僅使用當(dāng)前觀察。值得注意的是,Hiveformer 是最早采用Transformer架構(gòu)作為策略骨干的系統(tǒng)之一。
Perceiver-Actor (PerAct) PerAct 在觀察和動作空間上都實現(xiàn)了進步,通過利用 3D 體素表示。這種方法為動作學(xué)習(xí)提供了穩(wěn)健的結(jié)構(gòu)先驗,使得多視角觀察的自然處理和 6-DoF 數(shù)據(jù)增強成為可能。在這個框架中,模型的輸入是從 RGBD 圖像重建的體素圖,而輸出則是引導(dǎo)夾持器運動的最佳體素。通過這種方式,PerAct 即使在只有少量演示的情況下也能有效地進行任務(wù)學(xué)習(xí)。
Gato Gato 提出了一個可以同時玩 Atari 游戲、生成圖像說明和堆疊積木的模型,這些任務(wù)都使用同一組模型參數(shù)。這一成就得益于統(tǒng)一的token化方案,這種方案在不同任務(wù)和領(lǐng)域中協(xié)調(diào)了輸入和輸出。因此,Gato 使得不同任務(wù)的同時訓(xùn)練成為可能。Gato 代表了一個重要的里程碑,體現(xiàn)了構(gòu)建一個“多模態(tài)、多任務(wù)、多體現(xiàn)通用代理”的潛力。
RT-1 RT-1 由與 BC-Z 同一團隊開發(fā),雖然與 BC-Z 類似,但引入了一些關(guān)鍵區(qū)別。特別是,RT-1 采用了基于更高效的 EfficientNet的視覺編碼器,區(qū)別于 BC-Z 使用的 ResNet18。語言指令也通過 USE 進行編碼,并通過 FiLM 層與圖像嵌入結(jié)合。然而,RT-1 不使用視頻作為任務(wù)指令,與 BC-Z 不同。此外,RT-1 將 BC-Z 中的 MLP 動作解碼器替換為Transformer解碼器,生成離散動作。這一修改使得 RT-1 能夠關(guān)注過去的圖像,從而提升了其性能。
Q-Transformer Q-Transformer 通過引入自回歸 Q 函數(shù)擴展了 RT-1。與通過模仿學(xué)習(xí)學(xué)習(xí)專家軌跡的 RT-1 不同,Q-Transformer 采用了 Q 學(xué)習(xí)方法。除了 Q 學(xué)習(xí)的 TD 誤差目標外,Q-Transformer 還引入了保守正則化器,以確保最大值動作保持在分布內(nèi)。這種方法使 Q-Transformer 能夠利用成功的演示和失敗的軌跡進行學(xué)習(xí)。
Scaling Up and Distilling Down (SUDD) SUDD 提出了一個框架,其中大語言模型(LLM)指導(dǎo)數(shù)據(jù)生成,并隨后將過濾后的數(shù)據(jù)集蒸餾成視聽語言動作(visuo-linguo-motor)策略。該框架通過將 LLM 與一套基本的機器人工具(如抓取采樣器、運動規(guī)劃器)組合,實現(xiàn)在語言指導(dǎo)下的數(shù)據(jù)生成。接著,SUDD 擴展了 Diffusion Policy,通過結(jié)合基于語言的條件進行多任務(wù)學(xué)習(xí)。這種基于擴散的策略從成功的軌跡中學(xué)習(xí),促進了過濾數(shù)據(jù)集的蒸餾。
3) 基于 LLM 的語言指令控制策略:
RT-2 RT-2 致力于利用大型多模態(tài)模型在機器人任務(wù)中的能力,受到 PaLI-X和 PaLM-E等模型的啟發(fā)。該方法引入了共同微調(diào)(co-fine-tuning),旨在使模型適應(yīng)互聯(lián)網(wǎng)規(guī)模的視覺問答(VQA)數(shù)據(jù)和機器人數(shù)據(jù)。這種訓(xùn)練方案增強了模型的泛化能力,并帶來了新興的能力。RT-2 代表了低級控制策略與高級任務(wù)規(guī)劃者的整合,追求更全面的機器人系統(tǒng)。
RT-X RT-X 在 RT-1 和 RT-2 模型的基礎(chǔ)上進行構(gòu)建。這些模型使用新引入的開源大型數(shù)據(jù)集 Open X-Embodiment (OXE) 進行了再訓(xùn)練,OXE 的規(guī)模比以前的數(shù)據(jù)集大幾個數(shù)量級。OXE 包含 160,266 個任務(wù),涵蓋 527 種技能和 22 種體現(xiàn)。由于 OXE 數(shù)據(jù)集更廣泛且更大,最終生成的模型 RT-1-X 和 RT-2-X 的性能均優(yōu)于其原始版本。
RT-H RT-H 引入了一種動作層級結(jié)構(gòu),其中包括一個語言動作的中間預(yù)測層,位于語言指令和低級動作(如平移和旋轉(zhuǎn))之間。這一額外的層次促進了不同任務(wù)之間的數(shù)據(jù)共享。例如,語言指令“pick”(拾取)和“pour”(倒出)可能都涉及到語言動作“move the arm up”(抬起手臂)。此外,這種動作層級結(jié)構(gòu)使得用戶能夠指定糾正措施以從失敗中恢復(fù),模型可以從中學(xué)習(xí)。
RoboFlamingo RoboFlamingo 通過將現(xiàn)有的視覺語言模型(VLM)Flamingo 適配為機器人策略,展示了預(yù)訓(xùn)練的 VLM 可以有效轉(zhuǎn)移到語言條件下的機器人操作任務(wù)。具體做法是將一個基于 LSTM 的策略頭附加到 VLM 上。
VoxPoser VoxPoser 使用大語言模型(LLM)和 VLM 創(chuàng)建兩個 3D 體素圖,這些圖表示了可用性和約束。它利用 LLM 的編程能力和 VLM 模型的感知能力(如 ViLD、MDETR、OWL-ViT、SAM)。LLM 將語言指令轉(zhuǎn)換為可執(zhí)行代碼,調(diào)用 VLM 獲取物體坐標。基于組合的可用性和約束圖,VoxPoser 使用模型預(yù)測控制生成機器人手臂末端執(zhí)行器的可行軌跡。值得注意的是,VoxPoser 不需要任何訓(xùn)練,因為它直接連接 LLM 和 VLM 進行運動規(guī)劃,與之前基于 LLM 的高級任務(wù)規(guī)劃器(如 PaLM-E 和 ChatGPT for Robotics)不同。
4) 多模態(tài)指令控制策略:
VIMA
VIMA 重點關(guān)注多模態(tài)提示和模型的泛化能力。通過結(jié)合多模態(tài)提示,可以制定比傳統(tǒng)純文本提示更具體和復(fù)雜的任務(wù)。VIMA 引入了四種主要類型的任務(wù):物體操作、視覺目標到達、新概念基礎(chǔ)、一-shot 視頻模仿、視覺約束滿足、視覺推理。這些任務(wù)通常難以僅用語言提示來表達。VIMA-Bench 已開發(fā)用于評估四個泛化水平:位置、組合、新物體、新任務(wù)。
MOO
MOO 擴展了 RT-1 以處理多模態(tài)提示。利用 RT-1 的基礎(chǔ),MOO 融合了 OWL-ViT 來編碼提示中的圖像。通過用新物體和額外的提示圖像擴展 RT-1 數(shù)據(jù)集,MOO 提升了 RT-1 的泛化能力。這一擴展還促進了指定目標物體的新方法,例如用手指指向或點擊圖形用戶界面。
Octo
Octo 介紹了一種基于Transformer的擴散策略,其特點是開放框架設(shè)計,允許從不同的任務(wù)定義編碼器、觀測編碼器和動作解碼器靈活連接到 Octo Transformer。作為首批利用 Open X-Embodiment 數(shù)據(jù)集的模型之一,Octo 展示了在各種機器人和任務(wù)中的積極遷移和泛化能力。
5) 目標狀態(tài)指令控制策略
RoboCat
RoboCat 提出了一個自我改進過程,旨在使智能體能夠快速適應(yīng)新任務(wù),只需 100 個示例。這個自我改進過程通過對模型進行迭代微調(diào),并使用微調(diào)后的模型自生成新數(shù)據(jù)。基于 Gato 模型,RoboCat 融合了 VQ-GAN 圖像編碼器。在訓(xùn)練過程中,RoboCat 預(yù)測不僅是下一步動作,還有未來的觀測。通過在模擬和現(xiàn)實環(huán)境下的多任務(wù)、多體現(xiàn)設(shè)置中進行的全面實驗,證明了自我改進過程的有效性。
RT-Trajectory
RT-Trajectory 采用軌跡草圖作為策略條件,而不是依賴語言條件或目標條件。這些軌跡草圖由曲線組成,描述了機器人末端執(zhí)行器應(yīng)跟隨的預(yù)期軌跡。它們可以通過圖形用戶界面手動指定、從人類示范視頻中提取,或由基礎(chǔ)模型生成。RT-Trajectory 的策略基于 RT-1 并經(jīng)過訓(xùn)練,以控制機器人手臂準確跟隨軌跡草圖。這種方法促進了對新物體、任務(wù)和技能的泛化,因為來自各種任務(wù)的軌跡是可遷移的。
擴散策略
優(yōu)缺點
a) 架構(gòu):
各種視覺語言架構(gòu)探索了不同的視覺和語言輸入融合方法,包括交叉注意力(cross-attention)、FiLM 和拼接(concatenation),如下圖 4 所示。FiLM 被用于 RT-1,因此其后續(xù)工作繼承了這一機制。盡管交叉注意力可能在小型模型中提供更優(yōu)的性能,但拼接實現(xiàn)較為簡單,并且在大型模型中可以達到類似的結(jié)果。
b) 動作類型及其訓(xùn)練目標:
大多數(shù)低級控制策略預(yù)測末端執(zhí)行器的動作,同時抽象掉了控制各個關(guān)節(jié)運動的運動規(guī)劃模塊,這些模塊使用逆向運動學(xué)進行控制。雖然這種抽象有助于更好的泛化到不同的體現(xiàn)(embodiments),但也對靈活性施加了限制。行為克?。˙C)目標用于模仿學(xué)習(xí),對于不同的動作類型有不同的變體。連續(xù)動作的 BC 目標可以表示為:
其中,CE(·) 表示交叉熵損失。CLIPort和 VIMA使用 SE(2) 動作,其行為克隆目標可以表示為:
擴散控制策略中的 DDPM 目標表示為:
盡管離散動作在 RT-1 中表現(xiàn)出色,Octo認為這會導(dǎo)致早期抓取問題。SE(2) 動作僅要求模型預(yù)測兩個末端執(zhí)行器姿勢,例如抓取姿勢和放置姿勢。雖然這種動作類型最多只能在兩次前向傳遞中進行預(yù)測,但它也限制了動作的靈活性和泛化能力。
c) 擴散基策略:
擴散基策略利用了擴散模型在計算機視覺領(lǐng)域的成功。其中,Diffusion Policy 是最早利用擴散生成動作的模型之一。SUDD為 Diffusion Policy 添加了語言條件支持。Octo采用模塊化設(shè)計以適應(yīng)各種類型的提示和觀察。與常見的行為克隆策略相比,擴散策略在處理多模態(tài)動作分布和高維動作空間方面表現(xiàn)出優(yōu)勢。
d)LLM 與非 LLM:雖然基于 LLM 的控制策略可以顯著增強遵循指令的能力,因為 LLM 更好地解析用戶意圖,但也存在訓(xùn)練成本和部署速度的顧慮。特別是,較慢的推理速度可能會嚴重影響動態(tài)環(huán)境中的性能,因為環(huán)境的變化可能在 LLM 推理過程中發(fā)生。
e)RT 系列:
RT-1 啟發(fā)了一系列“機器人 Transformer”模型。在 RT-1 之前,BC-Z僅使用 MLP 層進行動作預(yù)測。在 RT-1 之后,出現(xiàn)了幾項工作,每項工作都引入了新功能。MOO使 RT-1 能夠處理多模態(tài)提示。RT-Trajectory使 RT-1 能夠處理軌跡草圖作為提示。Q-Transformer 利用 Q 學(xué)習(xí)來訓(xùn)練 RT-1。RT-2 基于 ViT 和 LLM,介紹了與 RT-1 完全不同的架構(gòu)。RT-X 用顯著更大的數(shù)據(jù)集重新訓(xùn)練 RT-1 和 RT-2,導(dǎo)致性能提升。Transformer 膠囊超過了之前的 RNN 膠囊 ,利用 Transformer 的更高容量來吸收更大的機器人數(shù)據(jù)集。基于 RT-2,RT-H引入了動作層次結(jié)構(gòu),以更好地共享數(shù)據(jù)。
C. 高級任務(wù)規(guī)劃器
許多高級任務(wù)規(guī)劃器都是建立在大型語言模型(LLMs)之上的。雖然將多模態(tài)模塊以端到端的方式集成到 LLM 中 (III-C1) 是直觀的,但使用多模態(tài)數(shù)據(jù)進行訓(xùn)練可能成本較高。因此,一些任務(wù)規(guī)劃器更傾向于使用語言 (III-C2) 或代碼 (III-C3) 作為交換多模態(tài)信息的媒介,因為它們可以被 LLM 原生處理。
1)端到端:
盡管控制策略在理解和執(zhí)行簡單語言指令方面有效,但在涉及多個子任務(wù)的長期任務(wù)中,它們往往會遇到困難。大型語言模型被認為是解讀這些復(fù)雜長期任務(wù)的強大工具。因此,許多方法致力于將 LLM 集成作為高級任務(wù)規(guī)劃器。它們的目標是將長期任務(wù)分解成更簡單的子任務(wù),從而使低級控制策略能夠按順序執(zhí)行這些任務(wù),促進層次化機器人系統(tǒng)的發(fā)展。表 IV 列出了這些高級任務(wù)規(guī)劃器的重要細節(jié)。
SayCan 是一個旨在將高級 LLM 規(guī)劃器與低級控制策略集成的框架。在此框架中,LLM 規(guī)劃器接受用戶的高級指令并“告訴”最可能的下一個低級技能,這一概念稱為任務(wù)定位。低級策略提供價值函數(shù)作為能力函數(shù),確定該策略“可以”完成技能的可能性,稱為世界定位。通過考慮 LLM 的計劃和能力,框架為當(dāng)前狀態(tài)選擇最佳技能。
LID 引入了一種新穎的數(shù)據(jù)收集過程,稱為主動數(shù)據(jù)收集(ADG)。ADG 的一個關(guān)鍵方面是事后重新token,它將標簽重新分配給不成功的軌跡,從而有效地最大化數(shù)據(jù)的利用,無論它們的成功與否。通過將所有環(huán)境輸入轉(zhuǎn)換為文本描述,其基于語言模型的策略展示了增強的組合泛化能力。
Translated ?LM? 采用兩步過程將高級指令轉(zhuǎn)化為可執(zhí)行的動作。首先,利用預(yù)訓(xùn)練的因果 LLM 進行計劃生成,將高級指令分解為用自由形式語言短語表達的下一個動作。然后,由于這些短語可能無法直接映射到 VirtualHome 動作,因此使用預(yù)訓(xùn)練的mask LLM 進行動作翻譯。這一步涉及計算生成的動作短語與 VirtualHome 動作之間的相似度。翻譯后的動作被添加到計劃中,更新后的計劃由 LLM 讀取以生成下一個動作短語。兩步過程重復(fù)進行,直到形成完整的計劃。進一步提出了“重新提示”策略以生成糾正動作,當(dāng)代理遇到前置條件錯誤時。
Semi-Supervised Skill Learning with Latent Language (SL)3
EmbodiedGPT 介紹了 embodied-former,它輸出任務(wù)相關(guān)的實例級特征。這是通過結(jié)合視覺編碼器嵌入的信息和 LLM 提供的具身規(guī)劃信息來實現(xiàn)的。實例特征用于通知低級策略有關(guān)需要采取的即時動作。
PaLM-E 集成了 ViT 和 PaLM,創(chuàng)建了一個大型具身多模態(tài)語言模型,能夠執(zhí)行高級具身推理任務(wù)?;诟兄獔D像和高級語言指令,PaLM-E 生成一個文本計劃,作為低級機器人策略的指令。在移動操控環(huán)境中,它將生成的計劃映射到可執(zhí)行的低級指令,并與 SayCan結(jié)合使用。隨著低級策略的執(zhí)行,PaLM-E 還可以根據(jù)環(huán)境變化重新規(guī)劃。作為其核心的 PaLM 使得 PaLM-E 能夠處理正常的視覺問答(VQA)任務(wù),以及額外的具身 VQA 任務(wù)。
LEO 發(fā)現(xiàn)傳統(tǒng)圖像輸入的使用是多模態(tài)通用智能體與 3D 世界交互的一個限制因素。這種新方法涉及通過兩個階段訓(xùn)練基于 LLM 的架構(gòu)。第一階段專注于 3D 視覺-語言對齊,第二階段則涉及 3D 視覺-語言-動作指令調(diào)整。LEO 不僅在 3D 標注和問答任務(wù)中表現(xiàn)出色,還在具身推理、具身導(dǎo)航和機器人操控等任務(wù)中表現(xiàn)優(yōu)異。
2) 基于語言:
Inner Monologue 處于高級指令和低級策略之間,以實現(xiàn)閉環(huán)控制規(guī)劃。它利用 LLM 生成低級控制策略的語言指令,并根據(jù)控制策略收到的反饋動態(tài)更新這些指令。反饋包括多種來源:成功反饋、對象和場景反饋以及人類反饋。由于反饋以文本格式傳達給 LLM,因此無需對 LLM 進行額外訓(xùn)練。類似的方法也在 ReAct 中提出,該方法交錯推理痕跡和任務(wù)特定動作。
LLM-Planner 介紹了一種新穎的方法來構(gòu)建包括高級規(guī)劃器和低級規(guī)劃器的層次化策略。高級規(guī)劃器利用 LLM 的能力生成自然語言計劃,而低級規(guī)劃器將計劃中的每個子目標轉(zhuǎn)換為原始動作。盡管其整體架構(gòu)與之前的方法相似,LLM-Planner 通過引入重新規(guī)劃機制來區(qū)分自己,幫助機器人“擺脫困境”。
Socratic Models (SMs) 提出了一個獨特的框架,其中不同的預(yù)訓(xùn)練模型可以有效地組合在一起,無需微調(diào)。該框架基于關(guān)鍵組件——多模態(tài)信息提示,促進了具有不同多模態(tài)能力的模型之間的信息交換。這個思路是利用多模態(tài)模型將非語言輸入轉(zhuǎn)換為語言描述,從而在語言空間中統(tǒng)一不同的模態(tài)。除了在傳統(tǒng)的多模態(tài)任務(wù)中表現(xiàn)出色,SMs 在機器人感知和規(guī)劃中也展示了其多功能性。
3) 基于語言
ProgPrompt 介紹了一種新穎的任務(wù)規(guī)劃方法,通過類似程序的規(guī)格提示 LLM,詳細描述了可用的動作和對象。這使得 LLM 能夠以少量示例生成家庭任務(wù)的高級計劃。環(huán)境反饋可以通過程序中的斷言進行整合。這個提示方案利用了 LLM 的世界知識和編程技能。
ChatGPT for Robotics 利用 ChatGPT 的編程能力來促進“用戶在環(huán)”控制,區(qū)別于傳統(tǒng)的“工程師在環(huán)”方法。該過程包括幾個步驟:首先,定義一系列 API,如對象檢測 API、抓取 API、移動 API;其次,為 ChatGPT 構(gòu)建一個提示,指定環(huán)境、API 功能、任務(wù)目標等;第三,迭代地提示 ChatGPT 編寫可以執(zhí)行任務(wù)的代碼,提供對模擬和用戶反饋的訪問,以評估代碼質(zhì)量和安全性;最后,執(zhí)行 ChatGPT 生成的代碼。在這個過程中,ChatGPT 作為高級任務(wù)規(guī)劃器,類似于 PaLM-E,并通過調(diào)用相應(yīng)低級 API 生成動作。
Code as Policies (CaP) 也利用了 LLM 的代碼編寫能力。它采用 GPT-3 或 Codex 生成策略代碼,然后調(diào)用感知模塊和控制 API。CaP 在空間幾何推理、新指令的泛化以及低級控制原語的參數(shù)化方面表現(xiàn)出色。
DEPS 代表“描述、解釋、規(guī)劃和選擇”。該方法利用 LLM 生成計劃并基于從環(huán)境中收集的反饋描述解釋失敗,這一過程被稱為“自我解釋”,有助于重新規(guī)劃。此外,DEPS 還引入了一個可訓(xùn)練的目標選擇器,根據(jù)子目標的易達程度進行選擇,這一點是其他高級任務(wù)規(guī)劃器通常忽視的重要方面。
ConceptGraphs 介紹了一種將觀察序列轉(zhuǎn)換為開放詞匯 3D 場景圖的方法。對象通過 2D 分割模型從 RGB 圖像中提取,并利用 VLM 對對象進行標注并建立對象間關(guān)系,從而形成 3D 場景圖。該圖可以轉(zhuǎn)換為文本描述(JSON),為 LLM 提供實體間的豐富語義和空間關(guān)系,用于任務(wù)規(guī)劃。
優(yōu)缺點
端到端任務(wù)規(guī)劃器 如 SayCan與低級控制策略共享類似架構(gòu),可以針對特定任務(wù)進行優(yōu)化,但由于結(jié)合了 LLM 和視覺Transformer的大模型尺寸,其訓(xùn)練成本可能會非常高。
基于語言的任務(wù)規(guī)劃器 提供了與現(xiàn)有語言條件控制策略無縫集成的優(yōu)勢。然而,它們通常需要微調(diào)或?qū)R方法,以將生成的計劃映射到低級控制策略的可執(zhí)行語言指令上。
基于代碼的任務(wù)規(guī)劃器 利用 LLM 的編程能力連接感知和動作模塊。這種方法不需要額外的訓(xùn)練,但其性能可能受限于現(xiàn)有模型的能力。
VI. 數(shù)據(jù)集、模擬器與基準測試
收集真實世界的機器人數(shù)據(jù)面臨顯著的挑戰(zhàn)。首先,數(shù)據(jù)收集過程受到高昂的機器人設(shè)備采購成本、環(huán)境搭建費用以及大量人力資源的限制。其次,收集專家演示數(shù)據(jù)需要大量的時間投入。第三,各種機器人類型和配置的多樣性導(dǎo)致傳感器數(shù)據(jù)、控制模式、夾具類型等的不一致。最后,準確捕捉物體的 6D 姿態(tài)以及精確復(fù)制或重置設(shè)置依然具有挑戰(zhàn)。因此,公共的真實世界機器人數(shù)據(jù)集相對稀缺。此外,在真實世界條件下評估機器人系統(tǒng)的性能引入了另一層復(fù)雜性,因為精確重現(xiàn)設(shè)置非常困難,并且通常需要人工監(jiān)督。我們在表 V 中總結(jié)了最近的 VLA 機器人數(shù)據(jù)集。
因此,許多研究人員轉(zhuǎn)而使用模擬環(huán)境來緩解這些障礙,并加速數(shù)據(jù)收集過程。然而,這種策略也存在其自身的挑戰(zhàn),其中最主要的是模擬與真實之間的差距。這種差距出現(xiàn)于模型在模擬數(shù)據(jù)上訓(xùn)練良好但在真實世界應(yīng)用中表現(xiàn)不佳。造成這種差距的原因多種多樣,包括渲染質(zhì)量的差異、物理模擬的不準確以及領(lǐng)域轉(zhuǎn)移,如不切實際的物體屬性和機器人運動規(guī)劃器。例如,模擬非剛性物體如液體或毛巾存在顯著困難。此外,將新物體引入模擬器需要大量的工作,通常涉及 3D 掃描和網(wǎng)格編輯等技術(shù)。盡管存在這些障礙,模擬環(huán)境提供了自動評估指標,幫助研究人員一致地評估機器人模型。大多數(shù)基準測試基于模擬器,因為只有模擬環(huán)境能夠準確重現(xiàn)實驗設(shè)置,而真實世界的評估則因不同模型而異,使得可靠比較變得不可行。HomeRobot OVMM 基準 提出了一個模擬到真實的基準,但其一致性尚待觀察。以往的研究 [171] [172] 已經(jīng)總結(jié)了一些模擬器,在下表 VI 中比較了與 VLA 最相關(guān)的模擬器。
另一種解決真實世界數(shù)據(jù)稀缺問題的策略是利用人類數(shù)據(jù)。人類行為因其靈活性和多樣性,為機器人策略提供了豐富的指導(dǎo)。然而,這種策略也有其固有的缺點。捕捉和轉(zhuǎn)移人類手部/身體動作到機器人體型上本身具有挑戰(zhàn)性。此外,人類數(shù)據(jù)的不一致性也構(gòu)成了障礙,因為一些數(shù)據(jù)可能是以自我視角捕獲的,而其他數(shù)據(jù)則是從第三方視角捕獲的。此外,過濾人類數(shù)據(jù)以提取有用信息可能是勞動密集型的。這些障礙突顯了將人類數(shù)據(jù)融入機器人學(xué)習(xí)過程中的復(fù)雜性。有關(guān)現(xiàn)有數(shù)據(jù)集的全面比較請參見 [191]。
此外,一些數(shù)據(jù)集和基準測試雖然并不直接針對機器人操作和導(dǎo)航,但卻專注于其他相關(guān)能力,這些能力對于具身人工智能至關(guān)重要,如空間推理、物理理解以及世界知識。這些能力對于任務(wù)規(guī)劃者而言具有極大的價值。其中最顯著的具身任務(wù)之一是具身問答(EQA)。EQA 類似于以前的視覺問答和視頻問答任務(wù),但不同之處在于,智能體可以在回答之前主動探索環(huán)境。EmbodiedQA和 IQUAD是首次引入這一任務(wù)的工作之一。MT-EQA專注于涉及多個目標的問題,提高了理解和回答問題的復(fù)雜性。MP3D-EQA將之前的 RGB 輸入轉(zhuǎn)換為點云,測試了 3D 感知能力。然而,主動探索需要訪問模擬器,這限制了可使用的數(shù)據(jù)類型,如真實世界的視頻。因此,一些 EQA 基準測試不涉及主動探索。
EgoVQA將 VQA 的重點轉(zhuǎn)移到自我中心的視頻上。EgoTaskQA 強調(diào)空間、時間和因果關(guān)系的推理。EQA-MX關(guān)注于多模態(tài)表達(MX),包括常規(guī)的語言表達和非語言手勢,如眼神和指向。OpenEQA評估了七個主要類別,包括功能性推理和世界知識,這些在以前的基準中未曾涵蓋。EgoPlan-Bench和 EgoCOT衡量模型生成任務(wù)計劃的能力,使用如準確率和困惑度等指標。PlanBench全面評估了任務(wù)規(guī)劃能力的各個方面,如成本最優(yōu)性、計劃驗證和重新規(guī)劃等。LoTa-Bench通過在模擬器中執(zhí)行生成的計劃并計算成功率來直接評估任務(wù)規(guī)劃能力。
V 挑戰(zhàn)與未來方向
視覺-語言-行動(VLA)模型在機器人領(lǐng)域面臨若干持久的挑戰(zhàn),需要集中關(guān)注和共同的研究努力:
機器人數(shù)據(jù)稀缺:獲取足夠的現(xiàn)實世界機器人數(shù)據(jù)仍然是一個重大障礙。收集這些數(shù)據(jù)既耗時又資源密集,而僅依賴于模擬數(shù)據(jù)會加劇模擬與現(xiàn)實之間的差距。多樣化的現(xiàn)實世界機器人數(shù)據(jù)集需要不同機構(gòu)之間的密切合作。模擬數(shù)據(jù)則依賴于開發(fā)更現(xiàn)實和高效的模擬器。
運動規(guī)劃:目前的運動規(guī)劃模塊往往缺乏處理各種環(huán)境復(fù)雜性的必要靈活性。這一局限性妨礙了機器人有效地與工具互動、導(dǎo)航復(fù)雜環(huán)境和執(zhí)行高精度操作??朔@些挑戰(zhàn)需要開發(fā)更強大的運動規(guī)劃算法。
實時響應(yīng):許多機器人應(yīng)用需要實時決策和行動執(zhí)行以滿足操作要求。VLA 模型應(yīng)設(shè)計為響應(yīng)迅速,延遲最小。此外,整個機器人系統(tǒng)的各個層次需要進行全局優(yōu)化,從高層任務(wù)規(guī)劃器到運動規(guī)劃器。
多模態(tài)信息整合:VLA 必須處理和整合來自多種模態(tài)的信息,包括視覺、語言和行動。盡管在這方面已取得顯著進展,但實現(xiàn)這些模態(tài)的最佳整合仍然是一個持續(xù)的挑戰(zhàn)。解決這一挑戰(zhàn)需要在多模態(tài)表示學(xué)習(xí)、融合技術(shù)和任務(wù)特定適配方面取得進展。超越單純的視覺和語言能力,機器人還可以從融入音頻或語音等模態(tài)中獲得極大收益。接受更廣泛的感知和交流能力使機器人能夠與用戶進行更有效的合作。
對未知場景的泛化能力:一個真正通用的機器人系統(tǒng)應(yīng)能夠理解和執(zhí)行自然語言指令,適應(yīng)各種多樣和未知的場景。實現(xiàn)這種級別的泛化能力,類似于 ChatGPT 在自然語言處理中的表現(xiàn),需要對指令、環(huán)境、物體和機器人體態(tài)的變化具有魯棒性。這需要開發(fā)具有適應(yīng)性和可擴展性的 VLA 架構(gòu)。
長時間任務(wù)執(zhí)行:單一指令往往可以轉(zhuǎn)化為機器人執(zhí)行的長時間任務(wù),例如指令“清理房間”,這包括物體重新排列、地面清掃、桌面擦拭等。成功執(zhí)行這樣的任務(wù)需要機器人在較長時間內(nèi)規(guī)劃和執(zhí)行一系列低層次動作。盡管當(dāng)前的高層任務(wù)規(guī)劃器取得了初步成功,但它們在許多場景中仍顯不足,因為大多數(shù) LLM 并未針對具身任務(wù)進行調(diào)優(yōu)。解決這一挑戰(zhàn)需要制定高效的規(guī)劃器,這些規(guī)劃器具備強大的感知能力和廣泛的常識。
基礎(chǔ)模型:在機器人任務(wù)中探索 VLA 的基礎(chǔ)模型仍然是未知領(lǐng)域,主要由于機器人領(lǐng)域中多樣化的體態(tài)、環(huán)境和任務(wù)。孤立的數(shù)據(jù)集和評估設(shè)置進一步加劇了這一挑戰(zhàn)。為了建立一個強大的基礎(chǔ) VLA 模型,必須利用互聯(lián)網(wǎng)規(guī)模的具身數(shù)據(jù)集和最先進的多模態(tài)模型。
基準測試
盡管存在許多用于評估低層控制策略 VLA 的基準測試,但它們通常在評估技能的方面存在顯著差異。此外,這些基準測試中包含的對象和場景通常受到模擬器提供能力的限制。為了更全面地評估 VLA 模型,需要基于現(xiàn)實模擬器的基準測試,涵蓋一系列多樣化的技能。對于高層任務(wù)規(guī)劃器 VLA,許多基準測試聲稱可以衡量規(guī)劃能力,通常以問答任務(wù)的形式進行。然而,更理想的方式是將高層任務(wù)規(guī)劃器與低層控制策略一起評估,以執(zhí)行長時間任務(wù)并測量成功率,而不是僅僅依賴于對規(guī)劃器的孤立衡量。這種方法提供了對 VLA 系統(tǒng)能力的更全面的評估。
安全考慮
在機器人技術(shù)中,安全性至關(guān)重要,因為機器人直接與現(xiàn)實世界互動。確保機器人系統(tǒng)的安全性需要在其開發(fā)和部署過程中整合現(xiàn)實世界的常識和復(fù)雜的推理。這涉及到強大的安全機制、風(fēng)險評估框架和人機互動協(xié)議的結(jié)合。VLA 決策過程的可解釋性和可擴展性對于通過錯誤診斷和故障排除來提高機器人安全性也至關(guān)重要。
倫理和社會影響
機器人的部署總是引發(fā)各種倫理、法律和社會問題。這些問題包括隱私風(fēng)險、安全性、職位流失、決策偏見以及對社會規(guī)范和人際關(guān)系的影響。有效的監(jiān)管在促進機器人倫理使用方面發(fā)揮著關(guān)鍵作用。
結(jié)論
VLA 策略在使具身 AI 能夠有效地與周圍世界互動方面具有巨大的潛力。近期的進展展示了這些模型在不同條件下完成復(fù)雜任務(wù)的能力。然而,關(guān)于泛化、效率和安全性等方面仍然存在顯著挑戰(zhàn)。需要進一步研究以解決這些挑戰(zhàn),并為 VLA 驅(qū)動的機器人在現(xiàn)實世界應(yīng)用中的廣泛采用鋪平道路。
本文轉(zhuǎn)自?????AI生成未來,作者:Yueen Ma等
