NeurIPS 2024 | 機(jī)器人操縱世界模型來(lái)了，成功率超過(guò)谷歌RT-1 26.6%

作者：機(jī)器之心 2024-11-01 10:30:00

PIVOT-R 通過(guò)引入原語(yǔ)動(dòng)作驅(qū)動(dòng)的路徑點(diǎn)感知，顯著提升了機(jī)器人在復(fù)雜操控任務(wù)中的性能。

對(duì)于人類而言，一旦掌握了 “打開瓶蓋” 的動(dòng)作，面對(duì) “擰緊螺絲” 這樣的任務(wù)通常也能游刃有余，因?yàn)檫@兩者依賴于相似的手部動(dòng)作。然而，對(duì)于機(jī)器人來(lái)說(shuō)，即使是這樣看似簡(jiǎn)單的任務(wù)轉(zhuǎn)換依然充滿挑戰(zhàn)。例如，換成另一種類型的瓶蓋，機(jī)器人可能無(wú)法成功打開。這表明，目前的機(jī)器人方法尚未充分讓模型學(xué)習(xí)到任務(wù)的內(nèi)在執(zhí)行邏輯，而只是單純的依賴于數(shù)據(jù)擬合。

針對(duì)該問(wèn)題，來(lái)自中山大學(xué)和華為諾亞等單位的研究團(tuán)隊(duì)提出了一種全新的原語(yǔ)驅(qū)動(dòng)的路徑點(diǎn)感知世界模型，借助 VLMs 作為機(jī)器人的大腦，理解任務(wù)之間的動(dòng)作關(guān)聯(lián)性，并通過(guò) “世界模型” 獲取對(duì)未來(lái)動(dòng)作的表征，從而更好地幫助機(jī)器人學(xué)習(xí)和決策。該方法顯著提升了機(jī)器人的學(xué)習(xí)能力，并保持良好的泛化性。

論文地址：https://arxiv.org/abs/2410.10394
項(xiàng)目主頁(yè)：https://abliao.github.io/PIVOT-R/

研究動(dòng)機(jī)

當(dāng)前，現(xiàn)有機(jī)器人操作任務(wù)有兩個(gè)關(guān)鍵問(wèn)題：

機(jī)器人模型在開放世界中表現(xiàn)差且不穩(wěn)定：許多機(jī)器人操作模型雖然能夠處理復(fù)雜任務(wù)，但往往直接將用戶指令和視覺(jué)感知映射到低層次的可執(zhí)行動(dòng)作上，而忽略了操作任務(wù)中關(guān)鍵狀態(tài)（路徑點(diǎn)）的建模。這種方式容易使模型記住表面數(shù)據(jù)模式，導(dǎo)致模型在開放環(huán)境中表現(xiàn)脆弱。模型缺乏對(duì)關(guān)鍵路徑點(diǎn)的預(yù)測(cè)，使得每個(gè)動(dòng)作的隨機(jī)性可能逐步放大，降低了任務(wù)的執(zhí)行成功率。
計(jì)算效率低：隨著模型的增大（例如 RT-2, RT-H），運(yùn)行速率隨之降低，無(wú)法滿足機(jī)器人任務(wù)實(shí)時(shí)性的需求。

為了解決上述問(wèn)題，研究團(tuán)隊(duì)提出了 PIVOT-R，一種原語(yǔ)驅(qū)動(dòng)的路徑點(diǎn)感知世界模型。如上圖所示，對(duì)比左圖現(xiàn)有的方法，右圖展示了 PIVOT-R 通過(guò)關(guān)注與任務(wù)相關(guān)的路徑點(diǎn)預(yù)測(cè)，提升機(jī)器人操作的準(zhǔn)確性，并設(shè)計(jì)了一個(gè)異步分層執(zhí)行器，降低計(jì)算冗余，提升模型的執(zhí)行效率。

這樣做有幾個(gè)好處：

它使得模型可以更好的學(xué)習(xí)任務(wù)與動(dòng)作之間的內(nèi)在關(guān)聯(lián)性，減少其他干擾因素的影響，并更好地捕捉不同任務(wù)之間的相似性（例如，擰瓶蓋和擰螺絲的動(dòng)作是相似的，拿杯子和搭積木都有一個(gè)抓住物體的過(guò)程），從而使得模型可以在多任務(wù)數(shù)據(jù)下學(xué)習(xí)到可遷移的知識(shí)。
通過(guò)世界模型建模的方式獲得對(duì)未來(lái)關(guān)鍵動(dòng)作的表征，避免了文本語(yǔ)言帶來(lái)的模糊性、不確定性。
通過(guò)異步執(zhí)行的方式，確保各模塊獨(dú)立運(yùn)行、互不阻塞，從而有效避免了大模型導(dǎo)致的低速率問(wèn)題。

研究方法

原語(yǔ)動(dòng)作解析

PIVOT-R 的第一個(gè)核心步驟是原語(yǔ)動(dòng)作解析，這一步通過(guò)預(yù)訓(xùn)練的視覺(jué) - 語(yǔ)言模型（VLM）來(lái)解析用戶的語(yǔ)言指令。VLM 可以將復(fù)雜的自然語(yǔ)言指令轉(zhuǎn)換為一組簡(jiǎn)單的原語(yǔ)動(dòng)作，例如 “靠近”、“抓取”、“移動(dòng)” 等。這些原語(yǔ)動(dòng)作為機(jī)器人提供了操作任務(wù)的粗略路徑。

具體流程如下：

用戶輸入的語(yǔ)言指令（例如 “請(qǐng)給我那個(gè)杯子”）首先被輸入到 VLM 中，VLM 會(huì)將其解析為與任務(wù)相關(guān)的原語(yǔ)動(dòng)作（如 “靠近杯子”、“抓取杯子”）。
原語(yǔ)動(dòng)作作為提示，指導(dǎo)機(jī)器人在接下來(lái)的步驟中專注于特定的操作軌跡點(diǎn)。這種方式確保機(jī)器人不會(huì)被復(fù)雜的環(huán)境因素干擾，而是明確知道每個(gè)動(dòng)作的目的。

路徑點(diǎn)預(yù)測(cè)

在原語(yǔ)動(dòng)作解析后，PIVOT-R 的下一步是路徑點(diǎn)預(yù)測(cè)。路徑點(diǎn)代表了機(jī)器人操控過(guò)程中一些關(guān)鍵的中間狀態(tài)，例如靠近物體、抓取物體、移動(dòng)物體等。通過(guò)預(yù)測(cè)路徑點(diǎn)，PIVOT-R 能夠在機(jī)器人執(zhí)行任務(wù)時(shí)提供明確的操作指導(dǎo)。具體來(lái)說(shuō)，通過(guò)一個(gè) Transformer 架構(gòu)的模型，預(yù)測(cè)路徑點(diǎn)對(duì)應(yīng)的視覺(jué)特征，為后續(xù)的動(dòng)作預(yù)測(cè)模塊提供指引。

動(dòng)作預(yù)測(cè)模塊

動(dòng)作預(yù)測(cè)模塊負(fù)責(zé)根據(jù)預(yù)測(cè)的路徑點(diǎn)生成具體的低層次機(jī)器人動(dòng)作。它以路徑點(diǎn)為提示，結(jié)合機(jī)器人歷史狀態(tài)（如位置、姿態(tài)等），計(jì)算下一步應(yīng)該執(zhí)行的動(dòng)作。該模塊使用輕量級(jí)的 Transformer 架構(gòu)進(jìn)行動(dòng)作預(yù)測(cè)，確保計(jì)算效率和性能的平衡。這一模塊的設(shè)計(jì)重點(diǎn)在于低延遲和高精度執(zhí)行操控任務(wù)。

異步分層執(zhí)行器

此外，PIVOT-R 還引入了一個(gè)關(guān)鍵的執(zhí)行機(jī)制，即異步分層執(zhí)行器。與以往的機(jī)器人模型不同，PIVOT-R 并不對(duì)所有模塊在每一步都進(jìn)行同步更新，而是為不同模塊設(shè)置了不同的執(zhí)行頻率，以多線程的方式進(jìn)行異步更新，從而提升執(zhí)行速度。

實(shí)驗(yàn)

作者在具有復(fù)雜指令的 SeaWave 仿真環(huán)境和真實(shí)環(huán)境下進(jìn)行實(shí)驗(yàn)。

如 Table 1 和 Table 2 所示，PIVOT-R 在仿真環(huán)境和真實(shí)環(huán)境都取得了最優(yōu)的效果，同時(shí)，模型的速度和 RT-1 等方法速度相近，沒(méi)有因?yàn)槭褂么竽Ｐ投鴮?dǎo)致速度變慢。

作者也在 SeaWave 上做了泛化性測(cè)試，在三種泛化性測(cè)試場(chǎng)景下，PIVOT-R 仍保持遠(yuǎn)高于其他模型的成功率。

研究總結(jié)

PIVOT-R 通過(guò)引入原語(yǔ)動(dòng)作驅(qū)動(dòng)的路徑點(diǎn)感知，顯著提升了機(jī)器人在復(fù)雜操控任務(wù)中的性能。該模型不僅在執(zhí)行效率上具備優(yōu)勢(shì)，還能夠更好地應(yīng)對(duì)復(fù)雜、多變的環(huán)境。該方法在仿真環(huán)境和真實(shí)環(huán)境操縱下表現(xiàn)優(yōu)異，為機(jī)器人學(xué)習(xí)提供了一個(gè)新范式。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

機(jī)器人模型

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NeurIPS 2024 | 機(jī)器人操縱世界模型來(lái)了，成功率超過(guò)谷歌RT-1 26.6%

研究動(dòng)機(jī)

研究方法

實(shí)驗(yàn)

研究總結(jié)