自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

李飛飛團(tuán)隊(duì)提出ReKep,讓機(jī)器人具備空間智能,還能整合GPT-4o

人工智能 新聞
近日,李飛飛團(tuán)隊(duì)在這一研究方向取得了一個(gè)突破,提出了關(guān)系關(guān)鍵點(diǎn)約束(ReKep/Relational Keypoint Constraints)。

當(dāng)兩只機(jī)器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時(shí),加上最近老上頭條的 1X 人形機(jī)器人 NEO,你可能會(huì)產(chǎn)生一種感覺(jué):我們似乎開(kāi)始進(jìn)入機(jī)器人時(shí)代了。

事實(shí)上,這些絲滑動(dòng)作正是先進(jìn)機(jī)器人技術(shù) + 精妙框架設(shè)計(jì) + 多模態(tài)大模型的產(chǎn)物。

我們知道,有用的機(jī)器人往往需要與環(huán)境進(jìn)行復(fù)雜精妙的交互,而環(huán)境則可被表示成空間域和時(shí)間域上的約束。

舉個(gè)例子,如果要讓機(jī)器人倒茶,那么機(jī)器人首先需要抓住茶壺手柄并使之保持直立,不潑灑出茶水,然后平穩(wěn)移動(dòng),一直到讓壺口與杯口對(duì)齊,之后以一定角度傾斜茶壺。這里,約束條件不僅包含中間目標(biāo)(如對(duì)齊壺口與杯口),還包括過(guò)渡狀態(tài)(如保持茶壺直立);它們共同決定了機(jī)器人相對(duì)于環(huán)境的動(dòng)作的空間、時(shí)間和其它組合要求。

然而,現(xiàn)實(shí)世界紛繁復(fù)雜,如何構(gòu)建這些約束是一個(gè)極具挑戰(zhàn)性的問(wèn)題。

近日,李飛飛團(tuán)隊(duì)在這一研究方向取得了一個(gè)突破,提出了關(guān)系關(guān)鍵點(diǎn)約束(ReKep/Relational Keypoint Constraints)。簡(jiǎn)單來(lái)說(shuō),該方法就是將任務(wù)表示成一個(gè)關(guān)系關(guān)鍵點(diǎn)序列。并且,這套框架還能很好地與 GPT-4o 等多模態(tài)大模型很好地整合。從演示視頻來(lái)看,這種方法的表現(xiàn)相當(dāng)不錯(cuò)。該團(tuán)隊(duì)也已發(fā)布相關(guān)代碼。本文一作為 Wenlong Huang。

圖片


  • 論文標(biāo)題:ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation
  • 論文地址:https://rekep-robot.github.io/rekep.pdf
  • 項(xiàng)目網(wǎng)站:https://rekep-robot.github.io
  • 代碼地址:https://github.com/huangwl18/ReKep

李飛飛表示,該工作展示了視覺(jué)與機(jī)器人學(xué)習(xí)的更深層次融合!雖然論文中沒(méi)有提及李飛飛在今年 5 年初創(chuàng)立的專注空間智能的 AI 公司 World Labs,但 ReKep 顯然在空間智能方面大有潛力。

圖片

方法

圖片

關(guān)系關(guān)鍵點(diǎn)約束(ReKep)

首先,我們先看一個(gè) ReKep 實(shí)例。這里先假設(shè)已經(jīng)指定了一組 K 個(gè)關(guān)鍵點(diǎn)。具體來(lái)說(shuō),每個(gè)關(guān)鍵點(diǎn) k_i ∈ ?^3 都是在具有笛卡爾坐標(biāo)的場(chǎng)景表面上的一個(gè) 3D 點(diǎn)。

一個(gè) ReKep 實(shí)例便是一個(gè)這樣的函數(shù):??: ?^{K×3}→?;其可將一組關(guān)鍵點(diǎn)(記為 ??)映射成一個(gè)無(wú)界成本(unbounded cost),當(dāng) ??(??) ≤ 0 時(shí)即表示滿足約束。至于具體實(shí)現(xiàn),該團(tuán)隊(duì)將函數(shù) ?? 實(shí)現(xiàn)為了一個(gè)無(wú)狀態(tài) Python 函數(shù),其中包含對(duì)關(guān)鍵點(diǎn)的 NumPy 操作,這些操作可能是非線性的和非凸的。本質(zhì)上講,一個(gè) ReKep 實(shí)例編碼了關(guān)鍵點(diǎn)之間的一個(gè)所需空間關(guān)系。

但是,一個(gè)操作任務(wù)通常涉及多個(gè)空間關(guān)系,并且可能具有多個(gè)與時(shí)間有關(guān)的階段,其中每個(gè)階段都需要不同的空間關(guān)系。為此,該團(tuán)隊(duì)的做法是將一個(gè)任務(wù)分解成 N 個(gè)階段并使用 ReKep 為每個(gè)階段 i ∈ {1, ..., N } 指定兩類約束:

圖片

  • 一組子目標(biāo)約束 

圖片

  • 一組路徑約束

其中 圖片編碼了階段 i 結(jié)束時(shí)要實(shí)現(xiàn)的一個(gè)關(guān)鍵點(diǎn)關(guān)系,而 圖片編碼了階段 i 內(nèi)每個(gè)狀態(tài)要滿足的一個(gè)關(guān)鍵點(diǎn)關(guān)系。以圖 2 的倒茶任務(wù)為例,其包含三個(gè)階段:抓拿、對(duì)齊、倒茶。

階段 1 子目標(biāo)約束是將末端執(zhí)行器伸向茶壺把手。階段 2 子目標(biāo)約束是讓茶壺口位于杯口上方。此外,階段 2 路徑約束是保持茶壺直立,避免茶水灑出。最后的階段 3 子目標(biāo)約束是到達(dá)指定的倒茶角度。

使用 ReKep 將操作任務(wù)定義成一個(gè)約束優(yōu)化問(wèn)題

使用 ReKep,可將機(jī)器人操作任務(wù)轉(zhuǎn)換成一個(gè)涉及子目標(biāo)和路徑的約束優(yōu)化問(wèn)題。這里將末端執(zhí)行器姿勢(shì)記為 ?? ∈ SE (3)。為了執(zhí)行操作任務(wù),這里的目標(biāo)是獲取整體的離散時(shí)間軌跡 ??_{1:T}:

圖片

也就是說(shuō),對(duì)于每個(gè)階段 i,該優(yōu)化問(wèn)題的目標(biāo)是:基于給定的 ReKep 約束集和輔助成本,找到一個(gè)末端執(zhí)行器姿勢(shì)作為下一個(gè)子目標(biāo)(及其相關(guān)時(shí)間),以及實(shí)現(xiàn)該子目標(biāo)的姿勢(shì)序列。該公式可被視為軌跡優(yōu)化中的 direct shooting。

分解和算法實(shí)例化

為了能實(shí)時(shí)地求解上述公式 1,該團(tuán)隊(duì)選擇對(duì)整體問(wèn)題進(jìn)行分解,僅針對(duì)下一個(gè)子目標(biāo)和達(dá)成該子目標(biāo)的相應(yīng)路徑進(jìn)行優(yōu)化。算法 1 給出了該過(guò)程的偽代碼。

圖片

其中子目標(biāo)問(wèn)題的求解公式為:

圖片

路徑問(wèn)題的求解公式為:

圖片

回溯

現(xiàn)實(shí)環(huán)境復(fù)雜多變,有時(shí)候在任務(wù)進(jìn)行過(guò)程中,上一階段的子目標(biāo)約束可能不再成立(比如倒茶時(shí)茶杯被拿走了),這時(shí)候需要重新規(guī)劃。該團(tuán)隊(duì)的做法是檢查路徑是否出現(xiàn)問(wèn)題。如果發(fā)現(xiàn)問(wèn)題,就迭代式地回溯到前一階段。

圖片

關(guān)鍵點(diǎn)的前向模型

為了求解 2 和 3 式,該團(tuán)隊(duì)使用了一個(gè)前向模型 h,其可在優(yōu)化過(guò)程中根據(jù) ??? 估計(jì) ???。具體來(lái)說(shuō),給定末端執(zhí)行器姿勢(shì) ??? 的變化,通過(guò)應(yīng)用相同的相對(duì)剛性變換 ??′[grasped] = T_{???}???[grasped] 來(lái)計(jì)算關(guān)鍵點(diǎn)位置的變化,同時(shí)假設(shè)其它關(guān)鍵點(diǎn)保持靜止。

關(guān)鍵點(diǎn)提議和 ReKep 生成

為了讓該系統(tǒng)能在實(shí)際情況下自由地執(zhí)行各種任務(wù),該團(tuán)隊(duì)還用上了大模型!具體來(lái)說(shuō),他們使用大型視覺(jué)模型和視覺(jué) - 語(yǔ)言模型設(shè)計(jì)了一套管道流程來(lái)實(shí)現(xiàn)關(guān)鍵點(diǎn)提議和 ReKep 生成。

關(guān)鍵點(diǎn)提議

給定一張 RGB 圖像,首先用 DINOv2 提取圖塊層面的特征 F_patch。然后執(zhí)行雙線性插值以將特征上采樣到原始圖像大小,F(xiàn)_interp。為了確保提議涵蓋場(chǎng)景中的所有相關(guān)物體,他們使用了 Segment Anything(SAM)來(lái)提取場(chǎng)景中的所有掩碼 M = {m_1, m_2, ... , m_n}。

對(duì)于每個(gè)掩碼 j,使用 k 均值(k = 5)和余弦相似度度量對(duì)掩碼特征 F_interp [m_j] 進(jìn)行聚類。聚類的質(zhì)心用作候選關(guān)鍵點(diǎn),再使用經(jīng)過(guò)校準(zhǔn)的 RGB-D 相機(jī)將其投影到世界坐標(biāo) ?^3。距離候選關(guān)鍵點(diǎn) 8cm 以內(nèi)的其它候選將被過(guò)濾掉??傮w而言,該團(tuán)隊(duì)發(fā)現(xiàn)此過(guò)程可以識(shí)別大量細(xì)粒度且語(yǔ)義上有意義的對(duì)象區(qū)域。

ReKep 生成

獲得候選關(guān)鍵點(diǎn)后,再將它們疊加在原始 RGB 圖像上,并標(biāo)注數(shù)字。結(jié)合具體任務(wù)的語(yǔ)言指令,再查詢 GPT-4o 以生成所需階段的數(shù)量以及每個(gè)階段 i 對(duì)應(yīng)的子目標(biāo)約束和路徑約束。

實(shí)驗(yàn)

該團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)對(duì)這套約束設(shè)計(jì)進(jìn)行了驗(yàn)證,并嘗試解答了以下三個(gè)問(wèn)題:

1. 該框架自動(dòng)構(gòu)建和合成操作行為的表現(xiàn)如何?

2. 該系統(tǒng)泛化到新物體和操作策略的效果如何?

3. 各個(gè)組件可能如何導(dǎo)致系統(tǒng)故障?

使用 ReKep 操作兩臺(tái)機(jī)器臂

他們通過(guò)一系列任務(wù)檢查了該系統(tǒng)的多階段(m)、野外 / 實(shí)用場(chǎng)景(w)、雙手(b)和反應(yīng)(r)行為。這些任務(wù)包括倒茶 (m, w, r)、擺放書(shū)本 (w)、回收罐子 (w)、給盒子貼膠帶 (w, r)、疊衣服 (b)、裝鞋子 (b) 和協(xié)作折疊 (b, r)。

結(jié)果見(jiàn)表 1,這里報(bào)告的是成功率數(shù)據(jù)。

圖片

整體而言,就算沒(méi)有提供特定于任務(wù)的數(shù)據(jù)或環(huán)境模型,新提出的系統(tǒng)也能夠構(gòu)建出正確的約束并在非結(jié)構(gòu)化環(huán)境中執(zhí)行它們。值得注意的是,ReKep 可以有效地處理每個(gè)任務(wù)的核心難題。

下面是一些實(shí)際執(zhí)行過(guò)程的動(dòng)畫(huà):

圖片

操作策略的泛化

該團(tuán)隊(duì)基于疊衣服任務(wù)探索了新策略的泛化性能。簡(jiǎn)而言之,就是看這套系統(tǒng)能不能疊不一樣的衣服 —— 這需要幾何和常識(shí)推理。

這里使用了 GPT-4o,提詞僅包含通用指令,沒(méi)有上下文示例?!覆呗猿晒Α故侵干傻?ReKep 可行,「執(zhí)行成功」則衡量的是每種衣服的給定可行策略的系統(tǒng)成功率。

結(jié)果很有趣。可以看到該系統(tǒng)為不同衣服采用了不同的策略,其中一些疊衣服方法與人類常用的方法一樣。

圖片

圖片

分析系統(tǒng)錯(cuò)誤

該框架的設(shè)計(jì)是模塊化的,因此很方便分析系統(tǒng)錯(cuò)誤。該團(tuán)隊(duì)以人工方式檢查了表 1 實(shí)驗(yàn)中遇到的故障案例,然后基于此計(jì)算了模塊導(dǎo)致錯(cuò)誤的可能性,同時(shí)考慮了它們?cè)诠艿懒鞒讨械臅r(shí)間依賴關(guān)系。結(jié)果見(jiàn)圖 5。

圖片

可以看到,在不同模塊中,關(guān)鍵點(diǎn)跟蹤器產(chǎn)生的錯(cuò)誤最多,因?yàn)轭l繁和間或出現(xiàn)的遮擋讓系統(tǒng)很難進(jìn)行準(zhǔn)確跟蹤。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-11-10 12:58:00

模型數(shù)據(jù)

2024-06-28 18:13:05

2024-11-11 08:30:00

2024-08-07 13:00:00

2025-03-12 08:54:46

2024-07-04 15:26:56

2024-12-13 14:20:00

AI模型訓(xùn)練

2024-05-17 09:35:55

GPT-4o模型OpenAI

2023-11-08 13:20:00

模型數(shù)據(jù)

2024-05-21 12:23:17

2024-06-05 08:29:35

2024-10-14 14:30:00

2023-07-11 10:07:10

機(jī)器人智能

2024-11-22 14:10:00

AI智能體

2017-03-28 17:18:20

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2024-05-24 14:04:04

2024-09-06 13:00:29

2025-04-08 02:26:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)