自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌具身智能新研究:比RT-2優(yōu)秀的RT-H來了

人工智能 新聞
語言是人類推理的引擎,它使我們能夠?qū)?fù)雜概念分解為更簡單的組成部分,糾正我們的誤解,并在新環(huán)境中推廣概念。

隨著 GPT-4 等大型語言模型與機(jī)器人研究的結(jié)合愈發(fā)緊密,人工智能正在越來越多地走向現(xiàn)實(shí)世界,因此具身智能相關(guān)的研究也正受到越來越多的關(guān)注。在眾多研究項(xiàng)目中,谷歌的「RT」系列機(jī)器人始終走在前沿(參見《大模型正在重構(gòu)機(jī)器人,谷歌 Deepmind 這樣定義具身智能的未來》)。

圖片

谷歌 DeepMind 去年 7 月推出的 RT-2:全球第一個(gè)控制機(jī)器人的視覺 - 語言 - 動(dòng)作(VLA)模型。只需要像對(duì)話一樣下達(dá)命令,它就能在一堆圖片中辨認(rèn)出霉霉,并送給她一罐可樂。

如今,這個(gè)機(jī)器人又進(jìn)化了。最新版的 RT 機(jī)器人名叫「RT-H」,它能通過將復(fù)雜任務(wù)分解成簡單的語言指令,再將這些指令轉(zhuǎn)化為機(jī)器人行動(dòng),來提高任務(wù)執(zhí)行的準(zhǔn)確性和學(xué)習(xí)效率。舉例來說,給定一項(xiàng)任務(wù),如「蓋上開心果罐的蓋子」和場(chǎng)景圖像,RT-H 會(huì)利用視覺語言模型(VLM)預(yù)測(cè)語言動(dòng)作(motion),如「向前移動(dòng)手臂」和「向右旋轉(zhuǎn)手臂」,然后根據(jù)這些語言動(dòng)作,預(yù)測(cè)機(jī)器人的行動(dòng)(action)。

圖片

圖片

這個(gè)行動(dòng)層級(jí)(action hierarchy)對(duì)于提高機(jī)器人完成任務(wù)的準(zhǔn)確性和學(xué)習(xí)效率非常有幫助,使得 RT-H 在一系列機(jī)器人任務(wù)中的表現(xiàn)都優(yōu)于 RT-2。

圖片

以下是論文的詳細(xì)信息。

論文概覽

圖片

  • 論文標(biāo)題:RT-H: Action Hierarchies Using Language
  • 論文鏈接:https://arxiv.org/pdf/2403.01823.pdf
  • 項(xiàng)目鏈接:https://rt-hierarchy.github.io/

語言是人類推理的引擎,它使我們能夠?qū)?fù)雜概念分解為更簡單的組成部分,糾正我們的誤解,并在新環(huán)境中推廣概念。近年來,機(jī)器人也開始利用語言高效、組合式的結(jié)構(gòu)來分解高層次概念、提供語言修正或?qū)崿F(xiàn)在新環(huán)境下的泛化。

這些研究通常遵循一個(gè)共同的范式:面對(duì)一個(gè)用語言描述的高層任務(wù)(如「拿起可樂罐」),它們學(xué)習(xí)將觀察和語言中的任務(wù)描述映射到低層次機(jī)器人行動(dòng)的策略,這需要通過大規(guī)模多任務(wù)數(shù)據(jù)集實(shí)現(xiàn)。語言在這些場(chǎng)景中的優(yōu)勢(shì)在于編碼類似任務(wù)之間的共享結(jié)構(gòu)(例如,「拿起可樂罐」與「拿起蘋果」),從而減少了學(xué)習(xí)從任務(wù)到行動(dòng)映射所需的數(shù)據(jù)。然而,隨著任務(wù)變得更加多樣化,描述每個(gè)任務(wù)的語言也變得更加多樣(例如,「拿起可樂罐」與「倒一杯水」),這使得僅通過高層次語言學(xué)習(xí)不同任務(wù)之間的共享結(jié)構(gòu)變得更加困難。

為了學(xué)習(xí)多樣化的任務(wù),研究者的目標(biāo)是更準(zhǔn)確地捕捉這些任務(wù)之間的相似性。

他們發(fā)現(xiàn)語言不僅可以描述高層次任務(wù),還能細(xì)致說明完成任務(wù)的方法 —— 這種表示更細(xì)膩,更貼近具體動(dòng)作。例如,「拿起可樂罐」這一任務(wù)可以分解為一系列更細(xì)節(jié)的步驟,即「語言動(dòng)作(language motion)」:首先「手臂向前伸」,接著「抓緊罐子」,最后「手臂上舉」。研究者的核心洞見是,通過將語言動(dòng)作作為連接高層次任務(wù)描述與底層次動(dòng)作之間的中間層,可以利用它們來構(gòu)建一個(gè)通過語言動(dòng)作形成的行動(dòng)層級(jí)。

建立這種行動(dòng)層級(jí)有幾大好處:

  • 它使不同任務(wù)之間在語言動(dòng)作層面上能夠更好地共享數(shù)據(jù),使得語言動(dòng)作的組合和在多任務(wù)數(shù)據(jù)集中的泛化性得到增強(qiáng)。例如,「倒一杯水」與「拿起可樂罐」雖在語義上有所不同,但在執(zhí)行到撿起物體之前,它們的語言動(dòng)作完全一致。
  • 語言動(dòng)作不是簡單的固定原語,而是根據(jù)當(dāng)前任務(wù)和場(chǎng)景的具體情況通過指令和視覺觀察來學(xué)習(xí)的。比如,「手臂向前伸」并沒具體說明移動(dòng)的速度或方向,這取決于具體任務(wù)和觀察情況。學(xué)習(xí)到的語言動(dòng)作的上下文依賴性和靈活性為我們提供了新的能力:當(dāng)策略未能百分百成功時(shí),允許人們對(duì)語言動(dòng)作進(jìn)行修正(見圖 1 中橙色區(qū)域)。進(jìn)一步地,機(jī)器人甚至可以從這些人類的修正中學(xué)習(xí)。例如,在執(zhí)行「拿起可樂罐」的任務(wù)時(shí),如果機(jī)器人提前關(guān)閉了夾爪,我們可以指導(dǎo)它「保持手臂前伸的姿勢(shì)更久一些」,這種在特定場(chǎng)景下的微調(diào)不僅易于人類指導(dǎo),也更易于機(jī)器人學(xué)習(xí)。

圖片

鑒于語言動(dòng)作存在以上優(yōu)勢(shì),來自谷歌 DeepMind 的研究者設(shè)計(jì)了一個(gè)端到端的框架 ——RT-H(Robot Transformer with Action Hierarchies,即使用行動(dòng)層級(jí)的機(jī)器人 Transformer),專注于學(xué)習(xí)這類行動(dòng)層級(jí)。RT-H 通過分析觀察結(jié)果和高層次任務(wù)描述來預(yù)測(cè)當(dāng)前的語言動(dòng)作指令,從而在細(xì)節(jié)層面上理解如何執(zhí)行任務(wù)。接著,利用這些觀察、任務(wù)以及推斷出的語言動(dòng)作,RT-H 為每一步驟預(yù)測(cè)相應(yīng)的行動(dòng),語言動(dòng)作在此過程中提供額外的上下文,幫助更準(zhǔn)確地預(yù)測(cè)具體行動(dòng)(圖 1 紫色區(qū)域)。

此外,他們還開發(fā)了一種自動(dòng)化方法,從機(jī)器人的本體感受中提取簡化的語言動(dòng)作集,建立了包含超過 2500 個(gè)語言動(dòng)作的豐富數(shù)據(jù)庫,無需手動(dòng)標(biāo)注。

RT-H 的模型架構(gòu)借鑒了 RT-2,后者是一個(gè)在互聯(lián)網(wǎng)規(guī)模的視覺與語言數(shù)據(jù)上共同訓(xùn)練的大型視覺語言模型(VLM),旨在提升策略學(xué)習(xí)效果。RT-H 采用單一模型同時(shí)處理語言動(dòng)作和行動(dòng)查詢,充分利用廣泛的互聯(lián)網(wǎng)規(guī)模知識(shí),為行動(dòng)層級(jí)的各個(gè)層次提供支持。

在實(shí)驗(yàn)中,研究者發(fā)現(xiàn)使用語言動(dòng)作層級(jí)在處理多樣化的多任務(wù)數(shù)據(jù)集時(shí)能夠帶來顯著的改善,相比 RT-2 在一系列任務(wù)上的表現(xiàn)提高了 15%。他們還發(fā)現(xiàn),對(duì)語言動(dòng)作進(jìn)行修正能夠在同樣的任務(wù)上達(dá)到接近完美的成功率,展示了學(xué)習(xí)到的語言動(dòng)作的靈活性和情境適應(yīng)性。此外,通過對(duì)模型進(jìn)行語言動(dòng)作干預(yù)的微調(diào),其表現(xiàn)超過了 SOTA 交互式模仿學(xué)習(xí)方法(如 IWR)50%。最終,他們證明了 RT-H 中的語言動(dòng)作能夠更好地適應(yīng)場(chǎng)景和物體變化,相比于 RT-2 展現(xiàn)出了更優(yōu)的泛化性能。

RT-H 架構(gòu)詳解

為了有效地捕獲跨多任務(wù)數(shù)據(jù)集的共享結(jié)構(gòu)(不由高層次任務(wù)描述表征),RT-H 旨在學(xué)習(xí)顯式利用行動(dòng)層級(jí)策略。

具體來說,研究團(tuán)隊(duì)將中間語言動(dòng)作預(yù)測(cè)層引入策略學(xué)習(xí)中。描述機(jī)器人細(xì)粒度行為的語言動(dòng)作可以從多任務(wù)數(shù)據(jù)集中捕獲有用的信息,并可以產(chǎn)生高性能的策略。當(dāng)學(xué)習(xí)到的策略難以執(zhí)行時(shí),語言動(dòng)作可以再次發(fā)揮作用:它們?yōu)榕c給定場(chǎng)景相關(guān)的在線人工修正提供了直觀的界面。經(jīng)過語言動(dòng)作訓(xùn)練的策略可以自然地遵循低水平的人工修正,并在給定修正數(shù)據(jù)的情況下成功完成任務(wù)。此外,該策略甚至可以根據(jù)語言修正數(shù)據(jù)進(jìn)行訓(xùn)練,并進(jìn)一步提高其性能。

如圖 2 所示,RT-H 有兩個(gè)關(guān)鍵階段:首先根據(jù)任務(wù)描述和視覺觀察預(yù)測(cè)語言動(dòng)作,然后根據(jù)預(yù)測(cè)的語言動(dòng)作、具體任務(wù)、觀察結(jié)果推斷精確的行動(dòng)。

圖片

RT-H 使用 VLM 主干網(wǎng)絡(luò)并遵循 RT-2 的訓(xùn)練過程來進(jìn)行實(shí)例化。與 RT-2 類似,RT-H 通過協(xié)同訓(xùn)練利用了互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)中自然語言和圖像處理方面的大量先驗(yàn)知識(shí)。為了將這些先驗(yàn)知識(shí)合并到行動(dòng)層級(jí)的所有層次中,單個(gè)模型會(huì)同時(shí)學(xué)習(xí)語言動(dòng)作和行動(dòng)查詢。

實(shí)驗(yàn)結(jié)果

為了全面評(píng)估 RT-H 的性能,研究團(tuán)隊(duì)設(shè)置了四個(gè)關(guān)鍵的實(shí)驗(yàn)問題:

  • Q1(性能):帶有語言的行動(dòng)層級(jí)是否可以提高多任務(wù)數(shù)據(jù)集上的策略性能?
  • Q2(情境性):RT-H 學(xué)得的語言動(dòng)作是否與任務(wù)和場(chǎng)景情境相關(guān)?
  • Q3(糾正):在語言動(dòng)作修正上進(jìn)行訓(xùn)練比遠(yuǎn)程(teleoperated)修正更好嗎?
  • Q4(概括):行動(dòng)層級(jí)是否可以提高分布外設(shè)置的穩(wěn)健性?

數(shù)據(jù)集方面,該研究采用一個(gè)大型多任務(wù)數(shù)據(jù)集,其中包含 10 萬個(gè)具有隨機(jī)對(duì)象姿態(tài)和背景的演示樣本。該數(shù)據(jù)集結(jié)合了以下數(shù)據(jù)集:

  • Kitchen:RT-1 和 RT-2 使用的數(shù)據(jù)集,由 70K 樣本中的 6 個(gè)語義任務(wù)類別組成。
  • Diverse:一個(gè)由更復(fù)雜的任務(wù)組成的新數(shù)據(jù)集,具有超過 24 個(gè)語義任務(wù)類別,但只有 30K 樣本。

該研究將此組合數(shù)據(jù)集稱為 Diverse+Kitchen (D+K) 數(shù)據(jù)集,并使用自動(dòng)化程序?qū)ζ溥M(jìn)行語言動(dòng)作標(biāo)記。為了評(píng)估在完整 Diverse+Kitchen 數(shù)據(jù)集上訓(xùn)練的 RT-H 的性能,該研究針對(duì)八項(xiàng)具體任務(wù)進(jìn)行了評(píng)估,包括:

1)將碗直立放在柜臺(tái)上

2)打開開心果罐

3)關(guān)閉開心果罐

4)將碗移離谷物分配器

5)將碗放在谷物分配器下方

6)將燕麥片放入碗中

7)從籃子里拿勺子

8)從分配器中拉出餐巾

選擇這八個(gè)任務(wù)是因?yàn)樗鼈冃枰獜?fù)雜的動(dòng)作序列和高精度。

下表給出了在 Diverse+Kitchen 數(shù)據(jù)集或 Kitchen 數(shù)據(jù)集上訓(xùn)練時(shí) RT-H、RT-H-Joint 和 RT-2 訓(xùn)練檢查點(diǎn)的最小 MSE。RT-H 的 MSE 比 RT-2 低大約 20%,RTH-Joint 的 MSE 比 RT-2 低 5-10%,這表明行動(dòng)層級(jí)有助于改進(jìn)大型多任務(wù)數(shù)據(jù)集中的離線行動(dòng)預(yù)測(cè)。RT-H (GT) 使用 ground truth MSE 指標(biāo),與端到端 MSE 的差距為 40%,這說明正確標(biāo)記的語言動(dòng)作對(duì)于預(yù)測(cè)行動(dòng)具有很高的信息價(jià)值。

圖 4 展示了幾個(gè)從 RT-H 在線評(píng)估中獲取的上下文動(dòng)作示例。可以看到,相同的語言動(dòng)作通常會(huì)導(dǎo)致完成任務(wù)的行動(dòng)發(fā)生微妙的變化,同時(shí)仍尊重更高級(jí)別的語言動(dòng)作。

如圖 5 所示,研究團(tuán)隊(duì)通過在線干預(yù) RT-H 中的語言動(dòng)作來展示 RT-H 的靈活性。

該研究還用比較實(shí)驗(yàn)來分析修正的作用,結(jié)果如下圖 6 所示:

如圖 7 所示,RT-H 和 RT-H-Joint 對(duì)場(chǎng)景變化明顯更加穩(wěn)?。?/span>

實(shí)際上,看似不同的任務(wù)之間具備一些共享結(jié)構(gòu),例如這些任務(wù)中每一個(gè)都需要一些拾取行為來開始任務(wù),并且通過學(xué)習(xí)跨不同任務(wù)的語言動(dòng)作的共享結(jié)構(gòu),RT-H 可以完成拾取階段而無需任何修正。

即使當(dāng) RT-H 不再能夠泛化其語言動(dòng)作預(yù)測(cè)時(shí),語言動(dòng)作修正通常也可以泛化,因此只需進(jìn)行一些修正就可以成功完成任務(wù)。這表明語言動(dòng)作在擴(kuò)大新任務(wù)數(shù)據(jù)收集方面的潛力。

感興趣的讀者可以閱讀論文原文,了解更多研究內(nèi)容。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-07-31 16:19:47

機(jī)器人人工智能

2023-07-29 13:14:40

谷歌人工智能

2024-07-22 08:00:00

機(jī)器人虛擬

2023-08-08 10:12:17

谷歌機(jī)器人

2025-03-21 10:21:19

2024-06-04 09:25:51

2012-04-18 09:29:49

微軟Windows 8RT

2024-08-02 10:00:00

2013-04-02 11:33:45

2025-01-10 09:30:00

2023-11-06 11:29:02

機(jī)器人視覺

2013-10-23 09:40:45

Windows RT 微軟

2025-03-07 10:24:43

2012-11-01 09:47:03

2024-12-19 14:44:22

2024-08-09 09:10:33

2024-11-01 10:30:00

機(jī)器人模型

2013-01-22 10:32:13

2022-06-29 14:49:43

計(jì)算機(jī)視覺智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)