自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

首個(gè)無師自通、泛化使用各種家具家電的具身三維圖文大模型系統(tǒng)

人工智能 新聞
SAGE 這一研究成果來自斯坦福大學(xué) Leonidas Guibas 教授實(shí)驗(yàn)室、北京大學(xué)王鶴教授具身感知和交互(EPIC Lab)以及智源人工智能研究院。

這幾天,家務(wù)活都被機(jī)器人搶著干了。

前腳來自斯坦福的會用鍋的機(jī)器人剛剛登場,后腳又來了個(gè)會用咖啡機(jī)的機(jī)器人 Figure-01 。

圖片

只需給它觀看示范視頻,加上10個(gè)小時(shí)的訓(xùn)練,F(xiàn)igure-01 就能學(xué)會使用咖啡機(jī),放咖啡膠囊到按下啟動(dòng)鍵,一氣呵成。

但是想要讓機(jī)器人無師自通,第一次見到各式各樣的家具家電,就能在沒有示范視頻的情況下熟練使用。這是個(gè)難以解決的問題,不僅需要機(jī)器人擁有強(qiáng)大的視覺感知、決策規(guī)劃能力,更需要精確的操縱技能。

現(xiàn)在,一個(gè)三維具身圖文大模型系統(tǒng)為以上難題提供了新思路。該系統(tǒng)將基于三維視覺的精準(zhǔn)幾何感知模型與擅長規(guī)劃的二維圖文大模型結(jié)合了起來,無需樣本數(shù)據(jù),即可解決與家具家電有關(guān)的復(fù)雜長程任務(wù)。

這項(xiàng)研究由斯坦福大學(xué)的 Leonidas Guibas 教授、北京大學(xué)的王鶴教授團(tuán)隊(duì),與智源人工智能研究院合作完成。

論文鏈接:https://arxiv.org/abs/2312.01307

項(xiàng)目主頁:https://geometry.stanford.edu/projects/sage/

代碼:https://github.com/geng-haoran/SAGE

研究問題概述

圖片

圖 1:根據(jù)人類指令,機(jī)械臂能夠無師自通地使用各種家用電器。

近日,PaLM-E 和 GPT-4V 帶動(dòng)了圖文大模型在機(jī)器人任務(wù)規(guī)劃中的應(yīng)用,視覺語言引導(dǎo)下的泛化機(jī)器人操控成為了熱門研究領(lǐng)域。

以往的常見方法是建立一個(gè)兩層的系統(tǒng),上層的圖文大模型做規(guī)劃和技能調(diào)度,下層的操控技能策略模型負(fù)責(zé)物理地執(zhí)行動(dòng)作。但當(dāng)機(jī)器人在家務(wù)活中面對各種各樣從未見過并且需要多步操作的家用電器時(shí),現(xiàn)有方法中的上下兩層都將束手無策。

以目前最先進(jìn)的圖文大模型 GPT-4V 為例,雖然它可以對單張圖片進(jìn)行文字描述,但涉及可操作零部件檢測、計(jì)數(shù)、定位及狀態(tài)估計(jì)時(shí),它仍然錯(cuò)誤百出。圖二中的紅色高亮部分是 GPT-4V 在描述抽屜柜、烤箱和立柜的圖片時(shí)出現(xiàn)的各種錯(cuò)誤。基于錯(cuò)誤的描述,機(jī)器人再進(jìn)行技能調(diào)度,顯然不太可靠。

圖片

圖 2:GPT-4V 不能很好處理計(jì)數(shù),檢測,定位,狀態(tài)估計(jì)等泛化操控所關(guān)注的任務(wù)。

下層的操控技能策略模型負(fù)責(zé)在各種各樣的實(shí)際情況中執(zhí)行上層圖文大模型給出的任務(wù)?,F(xiàn)有的研究成果大部分是基于規(guī)則生硬地對一些已知物體的抓取點(diǎn)位和操作方式進(jìn)行了編碼,無法泛應(yīng)對沒見過的新物體類別。而基于端到端的操作模型(如 RT-1,RT-2 等)只使用了 RGB 模態(tài),缺乏對距離的準(zhǔn)確感知,對新環(huán)境中如高度等變化的泛化性較差。

受王鶴教授團(tuán)隊(duì)之前的 CVPR Highlight 工作 GAPartNet [1] 啟迪,研究團(tuán)隊(duì)將重點(diǎn)放在了各種類別的家用電器中的通用零部件(GAPart)之上。雖然家用電器千變?nèi)f化,但總有幾樣零件不可或缺,每個(gè)家電和這些通用的零件之間存在相似的幾何和交互模式。

由此,研究團(tuán)隊(duì)在 GAPartNet [1] 這篇論文中引入了 GAPart 這一概念。GAPart 指可泛化可交互的零部件。GAPart 出現(xiàn)在不同類別的鉸接物體上,例如,在保險(xiǎn)箱,衣柜,冰箱中都能找到鉸接門這種零件。如圖 3,GAPartNet [1] 在各類物體上標(biāo)注了 GAPart 的語義和位姿。

圖片

圖3:GAPart:可泛化可交互的零部件[1]。

在之前研究的基礎(chǔ)上,研究團(tuán)隊(duì)創(chuàng)造性地將基于三維視覺的 GAPart 引入了機(jī)器人的物體操控系統(tǒng) SAGE 。SAGE 將通過可泛化的三維零件檢測 (part detection),精確的位姿估計(jì) (pose estimation) 為 VLM 和 LLM 提供信息。新方法在決策層解決了二維圖文模型精細(xì)計(jì)算和推理能力不足的問題;在執(zhí)行層,新方法通過基于 GAPart 位姿的魯棒物理操作 API 實(shí)現(xiàn)了對各個(gè)零件的泛化性操作。

SAGE 構(gòu)成了首個(gè)三維具身圖文大模型系統(tǒng),為機(jī)器人從感知、物理交互再到反饋的全鏈路提供了新思路,為機(jī)器人能夠智能、通用地操控家具家電等復(fù)雜物體探尋了一條可行的道路。

系統(tǒng)介紹

圖 4 展示了 SAGE 的基本流程。首先,一個(gè)能夠解讀上下文的指令解釋模塊將解析輸入機(jī)器人的指令和其觀察結(jié)果,將這些解析轉(zhuǎn)化為下一步機(jī)器人動(dòng)作程序以及與其相關(guān)的語義部分。接下來,SAGE 將語義部分(如容器 container)與需要進(jìn)行操作部分(如滑動(dòng)按鈕 slider button)對應(yīng)起來,并生成動(dòng)作(如按鈕的 「按壓 press」 動(dòng)作)來完成任務(wù)。

圖 4:方法概覽。

為了方便大家理解整個(gè)系統(tǒng)流程,一起來看看在無需樣本的情況下,讓機(jī)械臂使用操作一款沒見過的微波爐的例子。

指令解析:從視覺和指令輸入到可執(zhí)行的技能指令

輸入指令和 RGBD 圖像觀測后,解釋器首先使用 VLM 和 GAPartNet [1] 生成了場景描述。隨后,LLM(GPT-4)將指令和場景描述作為輸入,生成語義零件和動(dòng)作程序?;蛘咭部梢栽谶@個(gè)環(huán)節(jié)輸入一個(gè)特定的用戶手冊。LLM 將基于輸入生成一個(gè)可操作零件的目標(biāo)。

圖片

圖 5:場景描述的生成(以 zero-shot 使用微波爐為例)。

為了更好地協(xié)助動(dòng)作生成,場景描述包含物體信息、零件信息以及一些與互動(dòng)相關(guān)的信息。在生成場景描述之前,SAGE 還將采用專家級 GAPart 模型 [1] 為 VLM 生成專家描述作為提示。這種兼收了兩種模型的優(yōu)點(diǎn)的方法效果良好。

圖 6:指令理解和運(yùn)動(dòng)規(guī)劃(以 zero-shot 使用微波爐為例)。

零件交互信息的理解與感知

圖片

圖 7:零件理解。

在輸入觀察結(jié)果的過程中,SAGE 綜合了來自 GroundedSAM 的二維(2D)提示和來自 GAPartNet 的三維(3D)提示,然后這些提示被用作可操作零件的具體定位。研究團(tuán)隊(duì)利用 ScoreNet、非極大值抑制(NMS)和 PoseNet 等展示了新方法的感知結(jié)果。

其中:(1)對于零件感知評估基準(zhǔn),文章直接采用了 SAM [2]。然而,在操作流程中,文章使用了 GroundedSAM,它也考慮到了作為輸入的語義零件。(2)如果大型語言模型(LLM)直接輸出了一個(gè)可操作零件的目標(biāo),那么定位過程將被繞過。

圖片

圖 8:零件理解(以 zero-shot 使用微波爐為例)。

動(dòng)作生成

一旦將語義零件定位到可操作零件之上,SAGE 將在這個(gè)零件上生成可執(zhí)行的操作動(dòng)作。首先,SAGE 將估計(jì)零件的姿態(tài),根據(jù)鉸接類型(平移或旋轉(zhuǎn))計(jì)算鉸接狀態(tài)(零件軸線和位置)和可能的運(yùn)動(dòng)方向。然后,它再根據(jù)以上估算生成機(jī)器人操作零件的動(dòng)作。

在啟動(dòng)微波爐這個(gè)任務(wù)中,SAGE 首先預(yù)測機(jī)械臂應(yīng)該以一個(gè)初始夾爪姿態(tài)作為主要?jiǎng)幼?。再根?jù) GAPartNet [1] 中定義的預(yù)定策略產(chǎn)生動(dòng)作。這個(gè)策略是根據(jù)零件姿態(tài)和鉸接狀態(tài)確定的。例如,為了打開一個(gè)帶有旋轉(zhuǎn)鉸接的門,起始位置可以在門的邊緣或把手上,其軌跡是沿著門鉸鏈定向的圓弧。

交互反饋

到目前為止,研究團(tuán)隊(duì)只使用了一個(gè)初始觀測來生成開環(huán)交互。這時(shí),他們引入了一種機(jī)制,可以進(jìn)一步利用在互動(dòng)過程中獲得的觀測結(jié)果,更新感知結(jié)果并相應(yīng)調(diào)整操作。為了實(shí)現(xiàn)這一目標(biāo),研究團(tuán)隊(duì)為互動(dòng)過程中引入了一個(gè)兩部分的反饋機(jī)制。

應(yīng)當(dāng)注意,在首次觀測的感知過程中可能出現(xiàn)遮擋和估算錯(cuò)誤。

圖 9:直接開門不能打開,該輪交互失?。ㄒ?zero-shot 使用微波爐為例)。

為了解決這些問題,研究者們進(jìn)而提出了一個(gè)模型,利用交互式觀測 (Interactive Perception) 來增強(qiáng)操作。在整個(gè)互動(dòng)過程中,目標(biāo)夾持器和零件狀態(tài)的跟蹤得以保持。如果出現(xiàn)顯著的偏差,規(guī)劃器可以自行選擇以下四種狀態(tài)之一:「繼續(xù)」、「轉(zhuǎn)移到下一步」、「停止并重新規(guī)劃」或 「成功」。

例如,如果設(shè)置夾持器沿著一個(gè)關(guān)節(jié)旋轉(zhuǎn) 60 度,但門只打開了 15 度,大型語言模型(LLM)規(guī)劃器會選擇 「停止并重新規(guī)劃」。這種互動(dòng)跟蹤模型確保 LLM 在互動(dòng)過程中能夠具體問題具體分析,在微波爐啟動(dòng)失敗的挫折中也能重新「站起來」。

圖片

圖 10:通過交互反饋和重新規(guī)劃,機(jī)器人意識到按鈕打開的方法并成功。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)首先搭建了一個(gè)大規(guī)模語言指導(dǎo)的鉸接物體交互的測試基準(zhǔn)。

圖片

圖 11:SAPIEN 模擬實(shí)驗(yàn)。

他們使用了 SAPIEN 環(huán)境 [4] 進(jìn)行了模擬實(shí)驗(yàn),并設(shè)計(jì)了 12 項(xiàng)語言引導(dǎo)的鉸接物體操作任務(wù)。對于微波爐、儲物家具和櫥柜的每個(gè)類別,各設(shè)計(jì)了 3 個(gè)任務(wù),包括在不同初始狀態(tài)下的開啟狀態(tài)和關(guān)閉狀態(tài)。其他任務(wù)為「打開鍋蓋」、「按下遙控器的按鈕」和「啟動(dòng)攪拌器」。實(shí)驗(yàn)結(jié)果顯示,在幾乎所有任務(wù)中 SAGE 都表現(xiàn)卓越。

圖 12:真機(jī)演示。

研究團(tuán)隊(duì)同時(shí)也進(jìn)行了大規(guī)模真實(shí)世界實(shí)驗(yàn),他們使用 UFACTORY xArm 6 和多種不同的鉸接物體進(jìn)行操作。上圖的左上部分展示了一個(gè)啟動(dòng)攪拌器的案例。攪拌器的頂部被感知為一個(gè)用于裝果汁的容器,但其實(shí)際功能需要按下一個(gè)按鈕來開啟。SAGE 的框架有效地連接了其語義和動(dòng)作理解,并成功執(zhí)行了任務(wù)。

上圖右上部分展示了機(jī)器人,需要按下(下壓)緊急停止按鈕來停止操作,旋轉(zhuǎn)(向上)來重啟。借助用戶手冊的輔助輸入,在 SAGE 指導(dǎo)下的機(jī)械臂完成了這兩個(gè)任務(wù)。上圖底部的圖片展示了開啟微波爐任務(wù)中的更多細(xì)節(jié)。

圖片

圖 13:更多真機(jī)演示和指令解讀示例。

總結(jié)

SAGE是首個(gè)能夠生成通用的家具家電等復(fù)雜鉸接物體操控指令的三維視覺語言模型框架。它通過在零件級別上連接物體語義和可操作性理解,將語言指令的動(dòng)作轉(zhuǎn)化為可執(zhí)行的操控。

此外,文章還研究了將通用的大型視覺 / 語言模型與領(lǐng)域?qū)<夷P拖嘟Y(jié)合的方法,以增強(qiáng)網(wǎng)絡(luò)預(yù)測的全面性和正確性,更好地處理這些任務(wù)并實(shí)現(xiàn)最先進(jìn)的性能。實(shí)驗(yàn)結(jié)果表明,該框架具有強(qiáng)大的泛化能力,可以在不同物體類別和任務(wù)上展示出優(yōu)越的性能。此外,文章還為語言指導(dǎo)的鉸接物體操作提供了一個(gè)新的基準(zhǔn)測試。

團(tuán)隊(duì)介紹

SAGE 這一研究成果來自斯坦福大學(xué) Leonidas Guibas 教授實(shí)驗(yàn)室、北京大學(xué)王鶴教授具身感知和交互(EPIC Lab)以及智源人工智能研究院。論文的作者為北京大學(xué)學(xué)生、斯坦福大學(xué)訪問學(xué)者耿浩然(共同一作)、北京大學(xué)博士生魏松林(共同一作)、斯坦福大學(xué)博士生鄧叢悅,沈博魁,指導(dǎo)老師為 Leonidas Guibas 教授和王鶴教授。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-06-04 09:25:51

2024-07-22 15:34:21

2025-03-31 09:10:00

開源模型智能體

2024-09-27 09:48:28

2024-09-05 13:11:49

2025-04-25 02:30:00

機(jī)械臂大模型多模態(tài)

2009-11-10 12:48:17

VB.NET三維模型

2009-11-10 12:55:26

VB.NET三維模型

2023-08-01 14:14:14

2011-05-25 19:16:35

2022-09-09 15:40:57

Blender開源三維圖形

2025-01-09 12:39:27

2025-01-10 09:30:00

2023-12-23 23:16:36

機(jī)器人模型

2024-06-17 12:33:34

2024-08-02 10:00:00

2010-10-25 10:11:29

系統(tǒng)運(yùn)維管理虛擬化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號