自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NeurIPS 2024 | 機(jī)器人操縱世界模型來(lái)了,成功率超過(guò)谷歌RT-1 26.6%

人工智能 新聞
PIVOT-R 通過(guò)引入原語(yǔ)動(dòng)作驅(qū)動(dòng)的路徑點(diǎn)感知,顯著提升了機(jī)器人在復(fù)雜操控任務(wù)中的性能。

對(duì)于人類而言,一旦掌握了 “打開瓶蓋” 的動(dòng)作,面對(duì) “擰緊螺絲” 這樣的任務(wù)通常也能游刃有余,因?yàn)檫@兩者依賴于相似的手部動(dòng)作。然而,對(duì)于機(jī)器人來(lái)說(shuō),即使是這樣看似簡(jiǎn)單的任務(wù)轉(zhuǎn)換依然充滿挑戰(zhàn)。例如,換成另一種類型的瓶蓋,機(jī)器人可能無(wú)法成功打開。這表明,目前的機(jī)器人方法尚未充分讓模型學(xué)習(xí)到任務(wù)的內(nèi)在執(zhí)行邏輯,而只是單純的依賴于數(shù)據(jù)擬合。

針對(duì)該問(wèn)題,來(lái)自中山大學(xué)和華為諾亞等單位的研究團(tuán)隊(duì)提出了一種全新的原語(yǔ)驅(qū)動(dòng)的路徑點(diǎn)感知世界模型,借助 VLMs 作為機(jī)器人的大腦,理解任務(wù)之間的動(dòng)作關(guān)聯(lián)性,并通過(guò) “世界模型” 獲取對(duì)未來(lái)動(dòng)作的表征,從而更好地幫助機(jī)器人學(xué)習(xí)和決策。該方法顯著提升了機(jī)器人的學(xué)習(xí)能力,并保持良好的泛化性。

圖片


  • 論文地址:https://arxiv.org/abs/2410.10394
  • 項(xiàng)目主頁(yè):https://abliao.github.io/PIVOT-R/

研究動(dòng)機(jī)

圖片

當(dāng)前,現(xiàn)有機(jī)器人操作任務(wù)有兩個(gè)關(guān)鍵問(wèn)題:

  1. 機(jī)器人模型在開放世界中表現(xiàn)差且不穩(wěn)定:許多機(jī)器人操作模型雖然能夠處理復(fù)雜任務(wù),但往往直接將用戶指令和視覺(jué)感知映射到低層次的可執(zhí)行動(dòng)作上,而忽略了操作任務(wù)中關(guān)鍵狀態(tài)(路徑點(diǎn))的建模。這種方式容易使模型記住表面數(shù)據(jù)模式,導(dǎo)致模型在開放環(huán)境中表現(xiàn)脆弱。模型缺乏對(duì)關(guān)鍵路徑點(diǎn)的預(yù)測(cè),使得每個(gè)動(dòng)作的隨機(jī)性可能逐步放大,降低了任務(wù)的執(zhí)行成功率。
  2. 計(jì)算效率低:隨著模型的增大(例如 RT-2, RT-H),運(yùn)行速率隨之降低,無(wú)法滿足機(jī)器人任務(wù)實(shí)時(shí)性的需求。

為了解決上述問(wèn)題,研究團(tuán)隊(duì)提出了 PIVOT-R,一種原語(yǔ)驅(qū)動(dòng)的路徑點(diǎn)感知世界模型。如上圖所示,對(duì)比左圖現(xiàn)有的方法,右圖展示了 PIVOT-R 通過(guò)關(guān)注與任務(wù)相關(guān)的路徑點(diǎn)預(yù)測(cè),提升機(jī)器人操作的準(zhǔn)確性,并設(shè)計(jì)了一個(gè)異步分層執(zhí)行器,降低計(jì)算冗余,提升模型的執(zhí)行效率。

這樣做有幾個(gè)好處:

  1. 它使得模型可以更好的學(xué)習(xí)任務(wù)與動(dòng)作之間的內(nèi)在關(guān)聯(lián)性,減少其他干擾因素的影響,并更好地捕捉不同任務(wù)之間的相似性(例如,擰瓶蓋和擰螺絲的動(dòng)作是相似的,拿杯子和搭積木都有一個(gè)抓住物體的過(guò)程),從而使得模型可以在多任務(wù)數(shù)據(jù)下學(xué)習(xí)到可遷移的知識(shí)。
  2. 通過(guò)世界模型建模的方式獲得對(duì)未來(lái)關(guān)鍵動(dòng)作的表征,避免了文本語(yǔ)言帶來(lái)的模糊性、不確定性。
  3. 通過(guò)異步執(zhí)行的方式,確保各模塊獨(dú)立運(yùn)行、互不阻塞,從而有效避免了大模型導(dǎo)致的低速率問(wèn)題。

研究方法 

圖片

原語(yǔ)動(dòng)作解析

PIVOT-R 的第一個(gè)核心步驟是原語(yǔ)動(dòng)作解析,這一步通過(guò)預(yù)訓(xùn)練的視覺(jué) - 語(yǔ)言模型(VLM)來(lái)解析用戶的語(yǔ)言指令。VLM 可以將復(fù)雜的自然語(yǔ)言指令轉(zhuǎn)換為一組簡(jiǎn)單的原語(yǔ)動(dòng)作,例如 “靠近”、“抓取”、“移動(dòng)” 等。這些原語(yǔ)動(dòng)作為機(jī)器人提供了操作任務(wù)的粗略路徑。

具體流程如下:

  1. 用戶輸入的語(yǔ)言指令(例如 “請(qǐng)給我那個(gè)杯子”)首先被輸入到 VLM 中,VLM 會(huì)將其解析為與任務(wù)相關(guān)的原語(yǔ)動(dòng)作(如 “靠近杯子”、“抓取杯子”)。
  2. 原語(yǔ)動(dòng)作作為提示,指導(dǎo)機(jī)器人在接下來(lái)的步驟中專注于特定的操作軌跡點(diǎn)。這種方式確保機(jī)器人不會(huì)被復(fù)雜的環(huán)境因素干擾,而是明確知道每個(gè)動(dòng)作的目的。

路徑點(diǎn)預(yù)測(cè)

在原語(yǔ)動(dòng)作解析后,PIVOT-R 的下一步是路徑點(diǎn)預(yù)測(cè)。路徑點(diǎn)代表了機(jī)器人操控過(guò)程中一些關(guān)鍵的中間狀態(tài),例如靠近物體、抓取物體、移動(dòng)物體等。通過(guò)預(yù)測(cè)路徑點(diǎn),PIVOT-R 能夠在機(jī)器人執(zhí)行任務(wù)時(shí)提供明確的操作指導(dǎo)。具體來(lái)說(shuō),通過(guò)一個(gè) Transformer 架構(gòu)的模型,預(yù)測(cè)路徑點(diǎn)對(duì)應(yīng)的視覺(jué)特征,為后續(xù)的動(dòng)作預(yù)測(cè)模塊提供指引。

動(dòng)作預(yù)測(cè)模塊

動(dòng)作預(yù)測(cè)模塊負(fù)責(zé)根據(jù)預(yù)測(cè)的路徑點(diǎn)生成具體的低層次機(jī)器人動(dòng)作。它以路徑點(diǎn)為提示,結(jié)合機(jī)器人歷史狀態(tài)(如位置、姿態(tài)等),計(jì)算下一步應(yīng)該執(zhí)行的動(dòng)作。該模塊使用輕量級(jí)的 Transformer 架構(gòu)進(jìn)行動(dòng)作預(yù)測(cè),確保計(jì)算效率和性能的平衡。這一模塊的設(shè)計(jì)重點(diǎn)在于低延遲和高精度執(zhí)行操控任務(wù)。

異步分層執(zhí)行器

此外,PIVOT-R 還引入了一個(gè)關(guān)鍵的執(zhí)行機(jī)制,即異步分層執(zhí)行器。與以往的機(jī)器人模型不同,PIVOT-R 并不對(duì)所有模塊在每一步都進(jìn)行同步更新,而是為不同模塊設(shè)置了不同的執(zhí)行頻率,以多線程的方式進(jìn)行異步更新,從而提升執(zhí)行速度。

實(shí)驗(yàn)

作者在具有復(fù)雜指令的 SeaWave 仿真環(huán)境和真實(shí)環(huán)境下進(jìn)行實(shí)驗(yàn)。

圖片

圖片

如 Table 1 和 Table 2 所示,PIVOT-R 在仿真環(huán)境和真實(shí)環(huán)境都取得了最優(yōu)的效果,同時(shí),模型的速度和 RT-1 等方法速度相近,沒(méi)有因?yàn)槭褂么竽P投鴮?dǎo)致速度變慢。

圖片

作者也在 SeaWave 上做了泛化性測(cè)試,在三種泛化性測(cè)試場(chǎng)景下,PIVOT-R 仍保持遠(yuǎn)高于其他模型的成功率。

研究總結(jié)

PIVOT-R 通過(guò)引入原語(yǔ)動(dòng)作驅(qū)動(dòng)的路徑點(diǎn)感知,顯著提升了機(jī)器人在復(fù)雜操控任務(wù)中的性能。該模型不僅在執(zhí)行效率上具備優(yōu)勢(shì),還能夠更好地應(yīng)對(duì)復(fù)雜、多變的環(huán)境。該方法在仿真環(huán)境和真實(shí)環(huán)境操縱下表現(xiàn)優(yōu)異,為機(jī)器人學(xué)習(xí)提供了一個(gè)新范式。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2022-12-16 15:46:09

機(jī)器人模型

2024-10-16 16:20:00

AI機(jī)器人

2021-04-21 15:22:40

機(jī)器人人工智能系統(tǒng)

2023-08-23 12:33:51

機(jī)器人

2025-03-11 09:10:00

2020-03-05 20:37:08

工業(yè)4.0機(jī)器人工業(yè)物聯(lián)網(wǎng)

2020-03-20 10:30:38

AI 行業(yè) 人工智能

2023-07-29 13:43:26

機(jī)器人模型

2024-04-08 00:01:00

機(jī)器人任務(wù)特斯拉

2015-05-20 14:20:32

大數(shù)據(jù)如何表白成功率高

2023-07-31 16:19:47

機(jī)器人人工智能

2023-09-02 11:22:50

模型訓(xùn)練

2019-03-27 09:27:06

機(jī)器人人工智能系統(tǒng)

2012-10-23 14:27:55

無(wú)奈大裁員濾鏡拍照

2024-09-18 13:30:00

2023-08-08 10:12:17

谷歌機(jī)器人

2010-02-05 10:31:46

谷歌機(jī)器人

2020-04-09 09:56:55

機(jī)器人導(dǎo)航框架

2024-01-05 19:44:48

谷歌機(jī)器人憲法AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)