自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

具身智能的視覺-語言-動作模型:綜述

人工智能 新聞
基于預訓練的視覺基礎模型、大語言模型(LLMs)和視覺-語言模型(VLMs)的成功,視覺-語言-動作模型已經(jīng)證明其在應對這些挑戰(zhàn)方面的能力。

本文經(jīng)自動駕駛之心公眾號授權轉載,轉載請聯(lián)系出處。

24年5月論文“A Survey on Vision-Language-Action Models for Embodied AI”。

深度學習已在計算機視覺、自然語言處理和強化學習等許多領域取得了顯著的成功。這些領域的代表性人工神經(jīng)網(wǎng)絡包括卷積神經(jīng)網(wǎng)絡、Transformers 和深度 Q-網(wǎng)絡。在單模態(tài)神經(jīng)網(wǎng)絡的基礎上,引入了許多多模態(tài)模型來解決一系列任務,例如視覺問答、圖像字幕和語音識別。具身智能中指令跟隨機器人策略的興起,推動了一種多模態(tài)模型的發(fā)展,即視覺-語言-動作模型 (VLA)。這種多模態(tài)能力已成為機器人學習的基礎要素。人們提出了各種方法來增強多功能性、靈活性和通用性等特性。一些模型專注于通過預訓練來改進特定組件。其他模型則旨在開發(fā)善于預測低級動作的控制策略。某些 VLA 充當高級任務規(guī)劃器,能夠將長期任務分解為可執(zhí)行的子任務。過去幾年,大量 VLA 應運而生,體現(xiàn)了具身智能的快速發(fā)展。

視覺-語言-動作模型(VLA)代表一類旨在處理多模態(tài)輸入的模型,結合視覺、語言和動作模態(tài)的信息。該術語最近由RT-2 [36]提出。VLA模型被開發(fā)用于解決具身智能中的指令跟隨任務。與以ChatGPT [62]為代表的聊天AI不同,具身智能需要控制物理實體并與環(huán)境交互。機器人是具身智能最突出的領域。在語言為條件的機器人任務中,策略必須具備理解語言指令、視覺感知環(huán)境并生成適當動作的能力,這就需要VLA的多模態(tài)能力。相比于早期的深度強化學習方法,基于VLA的策略在復雜環(huán)境中表現(xiàn)出更優(yōu)越的多樣性、靈活性和泛化性。這使得VLA不僅適用于像工廠這樣的受控環(huán)境,還適用于日常生活任務 [33]。

基于預訓練的視覺基礎模型、大語言模型(LLMs)和視覺-語言模型(VLMs)的成功,視覺-語言-動作模型已經(jīng)證明其在應對這些挑戰(zhàn)方面的能力。來自最新視覺編碼器的預訓練視覺表征,幫助VLA在感知復雜環(huán)境時提供更精確的估計,如目標類別、姿態(tài)和幾何形狀。隨著語言模型 [36], [69]能力的增強,基于語言指令的任務規(guī)范成為可能。基礎VLMs探索了將視覺模型和語言模型整合的多種方式,包括BLIP-2 [72], Flamingo [70]等。這些不同領域的創(chuàng)新賦予了VLA解決具身智能挑戰(zhàn)的能力。

如圖是VLA 模型的分類?!? 目標-狀態(tài)指導”控制策略與 VLA 密切相關,但不能嚴格定義為 VLA,因為它們不促進語言方式的輸入。

如圖以簡要的時間線追溯從單模態(tài)模型到多模態(tài)模型的演變,為 VLA 模型的引入奠定了基礎。計算機視覺領域的關鍵進步(藍色)包括 ResNet [85]、ViT [86] 和 SAM [87]。自然語言處理領域的開創(chuàng)性工作(橙色)包括 GRU [88]、Transformer [66]、BERT [89]、ChatGPT [62] 等。強化學習(綠色)中,DQN [90]、AlphaGo [91]、PPO [92]、Dactyl [93] 和 DT [94] 做出了顯著貢獻。視覺語言模型已成為多模態(tài)模型的重要類別,例如 ViLBERT [95]、CLIP [1] 和 LLaVA [96]。VLA 的三個主要方向是:預訓練、控制策略和任務規(guī)劃器。

視覺-語言-動作模型 (VLA) 是處理視覺和語言的多模態(tài)輸入并輸出機器人動作以完成具身任務的模型。它們是具身智能領域在機器人策略指令跟隨的基石。這些模型依賴于強大的視覺編碼器、語言編碼器和動作解碼器。它們需要強大的視覺編碼器、語言編碼器和動作解碼器。為了提高各種機器人任務的性能,一些 VLA 優(yōu)先獲取優(yōu)質的預訓練視覺表征;另一些 VLA 則專注于改進低級控制策略,擅長接收短期任務指令并生成可通過機器人運動規(guī)劃執(zhí)行的動作;此外,某些 VLA 脫離了低級控制,專注于將長期任務分解為可由低級控制策略執(zhí)行的子任務。因此,低級控制策略和高級任務規(guī)劃器的組合可以被視為一種分層策略。如圖是機器人分層策略的圖示,包括高級任務規(guī)劃器和低級控制策略。高級任務規(guī)劃器根據(jù)用戶指令生成規(guī)劃,然后由低級控制策略逐步執(zhí)行。

預訓練

視覺編碼器的有效性直接影響策略的性能,因為它提供有關目標類別、位置和環(huán)境可供性的關鍵信息。因此,許多方法都致力于對視覺編碼器進行預訓練,以提高 PVR 的質量。

下表是預訓練的各種視覺表示。其中V:視覺,L:語言,Net:主干網(wǎng)絡,CL:對比學習,MAE:掩碼自動編碼,TFM:Transformer,Sim/Real:模擬/現(xiàn)實世界。Mani/Navi:操縱/導航,[SC]:自收集數(shù)據(jù)。為簡單起見,僅顯示目標(objective)函數(shù)的主要部分,省略溫度、輔助損失等元素。S(·) 是相似度測量。(Ego-Data):Ego4D [105]、Epic Kitchens [106]、Something-Something-v2【107】,100DOH【108】。

動態(tài)學習包含旨在使模型了解正向或逆向動態(tài)的目標。正向動態(tài)涉及預測給定動作導致的后續(xù)狀態(tài),而逆向動態(tài)則涉及確定從先前狀態(tài)過渡到已知后續(xù)狀態(tài)所需的動作。一些研究方法還將這些目標定義為對混洗狀態(tài)序列進行重新排序的問題。雖然正向動態(tài)模型與世界模型密切相關,不過這里特別關注利用動態(tài)學習作為輔助任務來提高主要機器人任務性能的工作。

下表是VLA 的各種動態(tài)學習方法。其中f(·) 是動態(tài)模型,F(xiàn)wd:正向,Inv:逆向。

世界模型中,Dreamer [16] 使用三個主要模塊來構建潛在動態(tài)模型:表示模型,負責將圖像編碼為潛狀態(tài);轉換模型,捕捉潛在狀態(tài)之間的轉換;獎勵模型,預測與給定狀態(tài)相關的獎勵。在演員-評論家框架下,Dreamer 利用動作模型和價值模型,通過學習到的動態(tài)傳播解析梯度,通過想象來學習行為。在此基礎上,DreamerV2 [116] 引入了離散潛在狀態(tài)空間以及改進的目標。DreamerV3 [117] 將其重點擴展到具有固定超參數(shù)的更廣泛的領域。

總結一下,預訓練的視覺表征強調了視覺編碼器的重要性,因為視覺觀察在感知環(huán)境的當前狀態(tài)方面起著至關重要的作用。因此,它為整個模型的性能設定了上限。在 VLA 中,一般視覺模型使用機器人或人類數(shù)據(jù)進行預訓練,以增強其在目標檢測、可供性圖提取甚至視覺語言對齊等任務中的能力,這些任務對于機器人任務至關重要。相比之下,動態(tài)學習側重于理解狀態(tài)之間的轉換。這不僅涉及將視覺觀測映射到良好的狀態(tài)表征,還涉及理解不同的動作如何導致不同的狀態(tài),反之亦然?,F(xiàn)有的動態(tài)學習方法通常旨在使用簡單的掩碼建模或重新排序目標來捕捉狀態(tài)和動作之間的關系。另一方面,世界模型旨在完全模擬世界的動態(tài),使機器人模型能夠根據(jù)當前狀態(tài)將狀態(tài)推廣到未來的多個步驟,從而更好地預測最佳動作。因此,雖然世界模型更受歡迎,但實現(xiàn)起來也更具挑戰(zhàn)性。

低層控制策略

通過將動作解碼器與感知模塊(如視覺編碼器和語言編碼器)集成,形成一個策略網(wǎng)絡來在模擬或真實環(huán)境中執(zhí)行指令??刂撇呗跃W(wǎng)絡的多樣性在于編碼器/解碼器類型的選擇以及集成這些模塊所采用的策略。語言指令控制策略包括以下類型:非 Transformer、基于 Transformer和基于 LLM。一些其他控制策略處理多模態(tài)指令和目標狀態(tài)指令。

下表是各種低級控制策略。還包括一些非 VLA 機器人模型,因為它們密切相關,用 (?) 標記。BC:行為克?。▌幼黝愋?cont/disc:連續(xù)/離散),TFM:Transformer,Xattn:交叉注意,Concat:連接。LMP:潛運動規(guī)劃 [119],DDPM:去噪擴散概率模型 [120],MPC:模型預測控制,MLE:最大似然估計,p/s:提示/狀態(tài)的視覺編碼器。[SC]:自收集數(shù)據(jù)。ER:日常機器人。

各種 VLA 架構探索了融合視覺和語言輸入的不同方法,包括交叉注意、FiLM 和連接,RT-1 中使用了 FiLM,因此其后續(xù)工作也繼承了這一機制。雖然交叉注意在較小的模型規(guī)模下可以提供更好的性能,但連接更易于實現(xiàn),并且可以在較大的模型上實現(xiàn)相當?shù)慕Y果 [41]。

如圖所示,三種最常見的低級控制策略架構的特點,是其視覺-語言融合方法。一些 Transformer 動作解碼器利用交叉注意來條件化指令。在基于 RT-1 的模型中,F(xiàn)iLM 層用于早期融合語言和視覺。連接是 Transformer 動作解碼器中視覺-語言融合的主流方法。

大多數(shù)低級控制策略會預測末端執(zhí)行器姿勢的動作,同時抽象出使用逆運動學控制各個關節(jié)運動的運動規(guī)劃模塊。雖然這種抽象有助于更好地推廣到不同的實施例,但它也對靈活性施加了限制。行為克隆 (BC) 目標用于模仿學習,針對不同的動作類型有不同的變體。

基于擴散的策略利用了計算機視覺領域中擴散模型的成功[120]。其中,擴散策略[46]是最早利用擴散進行動作生成的策略之一。SUDD[35]為擴散策略添加了語言條件支持。Octo[43]采用模塊化設計,以適應各種類型的提示和觀察。與常見的行為克隆策略相比,擴散策略在處理多模態(tài)動作分布和高維動作空間方面表現(xiàn)出優(yōu)勢。

雖然基于 LLM 的控制策略可以大大增強指令跟隨能力,因為 LLM 可以更好地解析用戶意圖,但人們擔心其訓練成本和部署速度。尤其是推理速度慢會嚴重影響動態(tài)環(huán)境中的性能,因為在 LLM 推理期間可能會發(fā)生環(huán)境變化。

高級任務規(guī)劃器

許多高級任務規(guī)劃器都是在 LLM 之上構建的。雖然以端到端方式將多模態(tài)模塊集成到 LLM 中是直觀的,但使用多模態(tài)數(shù)據(jù)進行訓練可能成本高昂。因此,一些任務規(guī)劃器更喜歡使用語言或代碼作為交換多模態(tài)信息的媒介,因為它們可以由 LLM 原生處理。如圖所示將 LLM 連接到高級任務規(guī)劃器中多模態(tài)模塊的不同方法:基于語言和基于代碼。

下表是各種高級任務規(guī)劃器。VL:視覺語言融合。Sim/Real:模擬/現(xiàn)實世界。Mani/Navi:操縱/導航。

總結一下,雖然像 SayCan [47] 這樣的端到端任務規(guī)劃器與低級控制策略具有類似的架構,并且可以針對特定任務進行優(yōu)化,但由于 LLM 和視覺轉換器組合的模型規(guī)模很大,它們的訓練成本可能過高?;谡Z言的任務規(guī)劃器具有與現(xiàn)有語言條件控制策略無縫集成的優(yōu)勢。然而,它們通常需要微調或對齊方法來將生成的規(guī)劃映射到低級控制策略的可執(zhí)行語言指令。另一方面,基于代碼的任務規(guī)劃器利用 LLM 的編程能力來連接感知和動作模塊。這種方法不需要額外的訓練,但其性能可能會受到現(xiàn)有模型能力的限制。

數(shù)據(jù)集、仿真器和基準

下表是近期 VLA 收集的機器人數(shù)據(jù)集。VIMA 技能,指的是“元任務”。這里采用較新的 BridgeData V2。PC:點云。

下表是VLA 中常用的模擬器和基準。其中D:深度,Seg:分割,A:音頻,N:法線,F(xiàn)orce:智體控制末端執(zhí)行器施加力來抓取物品,PD:預定義,Vers:版本。

面臨的挑戰(zhàn)和方向:

  • 機器人數(shù)據(jù)稀缺。獲取足夠的現(xiàn)實世界機器人數(shù)據(jù)仍然是一個重大障礙。收集此類數(shù)據(jù)耗時且耗費資源,而僅依靠模擬數(shù)據(jù)會加劇模擬與現(xiàn)實之間的差距問題。
  • 運動規(guī)劃。當前的運動規(guī)劃模塊通常缺乏解決各種環(huán)境中的復雜性所需的靈活性。這種限制妨礙了機器人與工具有效交互、在復雜環(huán)境中導航和執(zhí)行高精度操作等的能力。
  • 實時響應。許多機器人應用需要實時決策和動作執(zhí)行才能滿足操作要求。VLA 模型應設計為響應迅速、延遲最小。
  • 多模態(tài)集成。VLA 必須處理和集成來自多種模態(tài)的信息,包括視覺、語言和動作。雖然在這方面已經(jīng)取得了重大進展,但實現(xiàn)這些模態(tài)的最佳集成仍然是一個持續(xù)的挑戰(zhàn)。
  • 泛化到未見的場景。一個真正多功能的機器人系統(tǒng)應該能夠在各種未見的場景中理解和執(zhí)行自然語言指令。
  • 對指令、環(huán)境、對象和實施方案的變化具有魯棒性。
  • 長遠任務執(zhí)行。成功執(zhí)行此類任務需要機器人在較長的時間范圍內規(guī)劃和執(zhí)行一系列低級動作。雖然當前的高級任務規(guī)劃器已經(jīng)取得了初步成功,但它們在許多情況下仍然存在不足。
  • 基礎模型。在機器人任務中探索 VLA 的基礎模型仍然是未知領域,這主要是由于機器人技術中遇到的多種具體化、環(huán)境和任務。
  • 基準。盡管存在許多用于評估低級控制策略 VLA 的基準,但它們在評估的技能方面往往存在很大差異。此外,這些基準中包含的對象和場景通常受到模擬器可以提供的內容的限制。
  • 安全注意事項。安全是機器人技術的重中之重,因為機器人直接與現(xiàn)實世界互動。確保機器人系統(tǒng)的安全需要將現(xiàn)實世界的常識和復雜的推理融入到其開發(fā)和部署過程中。這涉及到整合強大的安全機制、風險評估框架和人機交互協(xié)議。
  • 倫理和社會影響。機器人的部署始終引發(fā)各種倫理、法律和社會問題。這些包括與隱私、安全、工作流失、決策偏見以及對社會規(guī)范和人際關系的影響相關的風險。
責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2024-09-27 09:48:28

2024-09-05 13:11:49

2024-08-02 10:00:00

2025-04-25 02:30:00

機械臂大模型多模態(tài)

2025-03-07 10:24:43

2024-12-19 14:44:22

2024-08-09 09:10:33

2023-12-23 23:16:36

機器人模型

2022-06-29 14:49:43

計算機視覺智能

2025-03-10 13:31:28

2022-09-23 09:53:41

機器人機器學習

2025-03-20 10:19:52

2024-01-25 15:48:56

2025-03-31 09:10:00

開源模型智能體

2023-11-06 11:29:02

機器人視覺

2023-10-04 08:03:53

2024-03-11 00:35:00

谷歌智能研究
點贊
收藏

51CTO技術棧公眾號