自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<s id="91jnh"><li id="91jnh"></li></s>

^{<big id="91jnh"></big>}

<cite id="91jnh"><track id="91jnh"></track></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

李飛飛團(tuán)隊(duì)提出ReKep，讓機(jī)器人具備空間智能，還能整合GPT-4o

作者：機(jī)器之心 2024-09-03 14:30:00

人工智能新聞

近日，李飛飛團(tuán)隊(duì)在這一研究方向取得了一個(gè)突破，提出了關(guān)系關(guān)鍵點(diǎn)約束（ReKep/Relational Keypoint Constraints）。

當(dāng)兩只機(jī)器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時(shí)，加上最近老上頭條的 1X 人形機(jī)器人 NEO，你可能會(huì)產(chǎn)生一種感覺(jué)：我們似乎開(kāi)始進(jìn)入機(jī)器人時(shí)代了。

事實(shí)上，這些絲滑動(dòng)作正是先進(jìn)機(jī)器人技術(shù) + 精妙框架設(shè)計(jì) + 多模態(tài)大模型的產(chǎn)物。

我們知道，有用的機(jī)器人往往需要與環(huán)境進(jìn)行復(fù)雜精妙的交互，而環(huán)境則可被表示成空間域和時(shí)間域上的約束。

舉個(gè)例子，如果要讓機(jī)器人倒茶，那么機(jī)器人首先需要抓住茶壺手柄并使之保持直立，不潑灑出茶水，然后平穩(wěn)移動(dòng)，一直到讓壺口與杯口對(duì)齊，之后以一定角度傾斜茶壺。這里，約束條件不僅包含中間目標(biāo)（如對(duì)齊壺口與杯口），還包括過(guò)渡狀態(tài)（如保持茶壺直立）；它們共同決定了機(jī)器人相對(duì)于環(huán)境的動(dòng)作的空間、時(shí)間和其它組合要求。

然而，現(xiàn)實(shí)世界紛繁復(fù)雜，如何構(gòu)建這些約束是一個(gè)極具挑戰(zhàn)性的問(wèn)題。

近日，李飛飛團(tuán)隊(duì)在這一研究方向取得了一個(gè)突破，提出了關(guān)系關(guān)鍵點(diǎn)約束（ReKep/Relational Keypoint Constraints）。簡(jiǎn)單來(lái)說(shuō)，該方法就是將任務(wù)表示成一個(gè)關(guān)系關(guān)鍵點(diǎn)序列。并且，這套框架還能很好地與 GPT-4o 等多模態(tài)大模型很好地整合。從演示視頻來(lái)看，這種方法的表現(xiàn)相當(dāng)不錯(cuò)。該團(tuán)隊(duì)也已發(fā)布相關(guān)代碼。本文一作為 Wenlong Huang。

論文標(biāo)題：ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation
論文地址：https://rekep-robot.github.io/rekep.pdf
項(xiàng)目網(wǎng)站：https://rekep-robot.github.io
代碼地址：https://github.com/huangwl18/ReKep

李飛飛表示，該工作展示了視覺(jué)與機(jī)器人學(xué)習(xí)的更深層次融合！雖然論文中沒(méi)有提及李飛飛在今年 5 年初創(chuàng)立的專注空間智能的 AI 公司 World Labs，但 ReKep 顯然在空間智能方面大有潛力。

方法

關(guān)系關(guān)鍵點(diǎn)約束（ReKep）

首先，我們先看一個(gè) ReKep 實(shí)例。這里先假設(shè)已經(jīng)指定了一組 K 個(gè)關(guān)鍵點(diǎn)。具體來(lái)說(shuō)，每個(gè)關(guān)鍵點(diǎn) k_i ∈ ?^3 都是在具有笛卡爾坐標(biāo)的場(chǎng)景表面上的一個(gè) 3D 點(diǎn)。

一個(gè) ReKep 實(shí)例便是一個(gè)這樣的函數(shù)：??: ?^{K×3}→?；其可將一組關(guān)鍵點(diǎn)（記為 ??）映射成一個(gè)無(wú)界成本（unbounded cost），當(dāng) ??(??) ≤ 0 時(shí)即表示滿足約束。至于具體實(shí)現(xiàn)，該團(tuán)隊(duì)將函數(shù) ?? 實(shí)現(xiàn)為了一個(gè)無(wú)狀態(tài) Python 函數(shù)，其中包含對(duì)關(guān)鍵點(diǎn)的 NumPy 操作，這些操作可能是非線性的和非凸的。本質(zhì)上講，一個(gè) ReKep 實(shí)例編碼了關(guān)鍵點(diǎn)之間的一個(gè)所需空間關(guān)系。

但是，一個(gè)操作任務(wù)通常涉及多個(gè)空間關(guān)系，并且可能具有多個(gè)與時(shí)間有關(guān)的階段，其中每個(gè)階段都需要不同的空間關(guān)系。為此，該團(tuán)隊(duì)的做法是將一個(gè)任務(wù)分解成 N 個(gè)階段并使用 ReKep 為每個(gè)階段 i ∈ {1, ..., N } 指定兩類約束：

一組子目標(biāo)約束

一組路徑約束

其中編碼了階段 i 結(jié)束時(shí)要實(shí)現(xiàn)的一個(gè)關(guān)鍵點(diǎn)關(guān)系，而編碼了階段 i 內(nèi)每個(gè)狀態(tài)要滿足的一個(gè)關(guān)鍵點(diǎn)關(guān)系。以圖 2 的倒茶任務(wù)為例，其包含三個(gè)階段：抓拿、對(duì)齊、倒茶。

階段 1 子目標(biāo)約束是將末端執(zhí)行器伸向茶壺把手。階段 2 子目標(biāo)約束是讓茶壺口位于杯口上方。此外，階段 2 路徑約束是保持茶壺直立，避免茶水灑出。最后的階段 3 子目標(biāo)約束是到達(dá)指定的倒茶角度。

使用 ReKep 將操作任務(wù)定義成一個(gè)約束優(yōu)化問(wèn)題

使用 ReKep，可將機(jī)器人操作任務(wù)轉(zhuǎn)換成一個(gè)涉及子目標(biāo)和路徑的約束優(yōu)化問(wèn)題。這里將末端執(zhí)行器姿勢(shì)記為 ?? ∈ SE (3)。為了執(zhí)行操作任務(wù)，這里的目標(biāo)是獲取整體的離散時(shí)間軌跡 ??_{1:T}：

也就是說(shuō)，對(duì)于每個(gè)階段 i，該優(yōu)化問(wèn)題的目標(biāo)是：基于給定的 ReKep 約束集和輔助成本，找到一個(gè)末端執(zhí)行器姿勢(shì)作為下一個(gè)子目標(biāo)（及其相關(guān)時(shí)間），以及實(shí)現(xiàn)該子目標(biāo)的姿勢(shì)序列。該公式可被視為軌跡優(yōu)化中的 direct shooting。

分解和算法實(shí)例化

為了能實(shí)時(shí)地求解上述公式 1，該團(tuán)隊(duì)選擇對(duì)整體問(wèn)題進(jìn)行分解，僅針對(duì)下一個(gè)子目標(biāo)和達(dá)成該子目標(biāo)的相應(yīng)路徑進(jìn)行優(yōu)化。算法 1 給出了該過(guò)程的偽代碼。

其中子目標(biāo)問(wèn)題的求解公式為：

路徑問(wèn)題的求解公式為：

回溯

現(xiàn)實(shí)環(huán)境復(fù)雜多變，有時(shí)候在任務(wù)進(jìn)行過(guò)程中，上一階段的子目標(biāo)約束可能不再成立（比如倒茶時(shí)茶杯被拿走了），這時(shí)候需要重新規(guī)劃。該團(tuán)隊(duì)的做法是檢查路徑是否出現(xiàn)問(wèn)題。如果發(fā)現(xiàn)問(wèn)題，就迭代式地回溯到前一階段。

關(guān)鍵點(diǎn)的前向模型

為了求解 2 和 3 式，該團(tuán)隊(duì)使用了一個(gè)前向模型 h，其可在優(yōu)化過(guò)程中根據(jù) ??? 估計(jì) ???。具體來(lái)說(shuō)，給定末端執(zhí)行器姿勢(shì) ??? 的變化，通過(guò)應(yīng)用相同的相對(duì)剛性變換 ??′[grasped] = T_{???}???[grasped] 來(lái)計(jì)算關(guān)鍵點(diǎn)位置的變化，同時(shí)假設(shè)其它關(guān)鍵點(diǎn)保持靜止。

關(guān)鍵點(diǎn)提議和 ReKep 生成

為了讓該系統(tǒng)能在實(shí)際情況下自由地執(zhí)行各種任務(wù)，該團(tuán)隊(duì)還用上了大模型！具體來(lái)說(shuō)，他們使用大型視覺(jué)模型和視覺(jué) - 語(yǔ)言模型設(shè)計(jì)了一套管道流程來(lái)實(shí)現(xiàn)關(guān)鍵點(diǎn)提議和 ReKep 生成。

關(guān)鍵點(diǎn)提議

給定一張 RGB 圖像，首先用 DINOv2 提取圖塊層面的特征 F_patch。然后執(zhí)行雙線性插值以將特征上采樣到原始圖像大小，F(xiàn)_interp。為了確保提議涵蓋場(chǎng)景中的所有相關(guān)物體，他們使用了 Segment Anything（SAM）來(lái)提取場(chǎng)景中的所有掩碼 M = {m_1, m_2, ... , m_n}。

對(duì)于每個(gè)掩碼 j，使用 k 均值（k = 5）和余弦相似度度量對(duì)掩碼特征 F_interp [m_j] 進(jìn)行聚類。聚類的質(zhì)心用作候選關(guān)鍵點(diǎn)，再使用經(jīng)過(guò)校準(zhǔn)的 RGB-D 相機(jī)將其投影到世界坐標(biāo) ?^3。距離候選關(guān)鍵點(diǎn) 8cm 以內(nèi)的其它候選將被過(guò)濾掉?？傮w而言，該團(tuán)隊(duì)發(fā)現(xiàn)此過(guò)程可以識(shí)別大量細(xì)粒度且語(yǔ)義上有意義的對(duì)象區(qū)域。

ReKep 生成

獲得候選關(guān)鍵點(diǎn)后，再將它們疊加在原始 RGB 圖像上，并標(biāo)注數(shù)字。結(jié)合具體任務(wù)的語(yǔ)言指令，再查詢 GPT-4o 以生成所需階段的數(shù)量以及每個(gè)階段 i 對(duì)應(yīng)的子目標(biāo)約束和路徑約束。

實(shí)驗(yàn)

該團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)對(duì)這套約束設(shè)計(jì)進(jìn)行了驗(yàn)證，并嘗試解答了以下三個(gè)問(wèn)題：

1. 該框架自動(dòng)構(gòu)建和合成操作行為的表現(xiàn)如何？

2. 該系統(tǒng)泛化到新物體和操作策略的效果如何？

3. 各個(gè)組件可能如何導(dǎo)致系統(tǒng)故障？

使用 ReKep 操作兩臺(tái)機(jī)器臂

他們通過(guò)一系列任務(wù)檢查了該系統(tǒng)的多階段（m）、野外 / 實(shí)用場(chǎng)景（w）、雙手（b）和反應(yīng)（r）行為。這些任務(wù)包括倒茶 (m, w, r)、擺放書(shū)本 (w)、回收罐子 (w)、給盒子貼膠帶 (w, r)、疊衣服 (b)、裝鞋子 (b) 和協(xié)作折疊 (b, r)。

結(jié)果見(jiàn)表 1，這里報(bào)告的是成功率數(shù)據(jù)。

整體而言，就算沒(méi)有提供特定于任務(wù)的數(shù)據(jù)或環(huán)境模型，新提出的系統(tǒng)也能夠構(gòu)建出正確的約束并在非結(jié)構(gòu)化環(huán)境中執(zhí)行它們。值得注意的是，ReKep 可以有效地處理每個(gè)任務(wù)的核心難題。

下面是一些實(shí)際執(zhí)行過(guò)程的動(dòng)畫(huà)：

操作策略的泛化

該團(tuán)隊(duì)基于疊衣服任務(wù)探索了新策略的泛化性能。簡(jiǎn)而言之，就是看這套系統(tǒng)能不能疊不一樣的衣服 —— 這需要幾何和常識(shí)推理。

這里使用了 GPT-4o，提詞僅包含通用指令，沒(méi)有上下文示例?！覆呗猿晒Α故侵干傻?ReKep 可行，「執(zhí)行成功」則衡量的是每種衣服的給定可行策略的系統(tǒng)成功率。

結(jié)果很有趣。可以看到該系統(tǒng)為不同衣服采用了不同的策略，其中一些疊衣服方法與人類常用的方法一樣。

分析系統(tǒng)錯(cuò)誤

該框架的設(shè)計(jì)是模塊化的，因此很方便分析系統(tǒng)錯(cuò)誤。該團(tuán)隊(duì)以人工方式檢查了表 1 實(shí)驗(yàn)中遇到的故障案例，然后基于此計(jì)算了模塊導(dǎo)致錯(cuò)誤的可能性，同時(shí)考慮了它們?cè)诠艿懒鞒讨械臅r(shí)間依賴關(guān)系。結(jié)果見(jiàn)圖 5。

可以看到，在不同模塊中，關(guān)鍵點(diǎn)跟蹤器產(chǎn)生的錯(cuò)誤最多，因?yàn)轭l繁和間或出現(xiàn)的遮擋讓系統(tǒng)很難進(jìn)行準(zhǔn)確跟蹤。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

機(jī)器人模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<abbr id="zx4ta"></abbr>

^{<thead id="zx4ta"></thead>}