自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

具身智能再發(fā)力!GraspSplats:高效抓取,準確性和效率都提升

人工智能 新聞
我們提出了GraspSplats。通過使用深度監(jiān)督和一種新穎的參考特征計算方法,GraspSplats在不到60秒的時間內生成高質量的場景表示。

本文經自動駕駛之心公眾號授權轉載,轉載請聯(lián)系出處。

寫在前面

機器人對物體部分進行高效且零樣本抓取的能力對于實際應用至關重要,并且隨著視覺語言模型(VLMs)的最新進展而變得越來越普遍。為了彌補支持這種能力的表示中的二維到三維差距,現(xiàn)有方法依賴于通過可微渲染或基于點的投影方法的神經場(NeRFs)。然而,我們證明NeRFs由于其隱式性而不適用于場景變化,而基于點的方法在沒有基于渲染的優(yōu)化的情況下,對于部件定位不準確。為了解決這些問題,我們提出了GraspSplats。通過使用深度監(jiān)督和一種新穎的參考特征計算方法,GraspSplats在不到60秒的時間內生成高質量的場景表示。我們進一步通過展示GraspSplats中明確且優(yōu)化的幾何形狀足以自然支持(1)實時抓取采樣和(2)使用點跟蹤器的動態(tài)和關節(jié)物體操作,來驗證基于高斯表示的優(yōu)勢。我們在Franka機器人上進行了大量實驗,證明GraspSplats在各種任務設置下顯著優(yōu)于現(xiàn)有方法。特別是,GraspSplats優(yōu)于基于NeRF的方法(如F3RM和LERF-TOGO)以及二維檢測方法。

原文鏈接:https://arxiv.org/pdf/2409.02084

領域背景介紹

基于部件級理解的零樣本高效操作對于下游機器人應用至關重要。設想一個被部署到新家庭的廚房機器人:在給定包含語言指令的食譜后,機器人通過把手拉開抽屜,通過手柄抓住工具,然后推回抽屜。為了執(zhí)行這些任務,機器人必須動態(tài)理解部件級的抓取功能,以便與物體進行有效交互。最近的研究工作,通過將大規(guī)模預訓練視覺模型(如CLIP)的參考特征嵌入到神經輻射場(Neural Radiance Fields, NeRFs)中來探索這種理解。然而,這些方法僅提供目標級別的場景靜態(tài)理解,并且需要數分鐘的時間來訓練場景,這導致在場景發(fā)生任何變化后都需要進行昂貴的重新訓練。這一局限性極大地阻礙了涉及物體位移或需要部件級理解的實際應用。另一方面,基于點的方法,通過對二維特征進行反投影,在特征構建方面效率很高,但在處理視覺遮擋時遇到困難,并且往往無法在沒有進一步優(yōu)化的情況下推斷出細粒度的空間關系。

除了動態(tài)和部件級的場景理解外,實現(xiàn)精細操作還要求機器人對場景的幾何和語義都有深入的理解。為了從粗略的二維視覺特征中獲得這種能力,需要進一步的優(yōu)化來彌合二維到三維的差距?;贜eRF的方法通過可微渲染促進了這種理解。然而,NeRFs從根本上來說是隱式表示,這使得它們難以編輯以適應場景變化,從而導致靜態(tài)假設。為了解決動態(tài)問題,一些工作通常使用三維密集對應關系來預測抓取姿態(tài),其中基于參考狀態(tài)中的關鍵點識別出可靠的抓取點,然后將其應用于不同的視角或物體位置。然而,這些方法在跟蹤物體狀態(tài)隨時間的變化和處理相同物體方面面臨挑戰(zhàn)。

為此,本文提出了GraspSplats。給定來自校準相機的帶姿態(tài)的RGBD幀,GraspSplats通過3DGS(3D Gaussian Splatting,3DGS)構建了一個高保真表示,該表示作為顯式高斯橢球體的集合。GraspSplats在不到30秒的時間內重建場景,并支持靜態(tài)和剛性變換的高效部件級抓取,從而實現(xiàn)了如跟蹤部件物體等現(xiàn)有方法無法實現(xiàn)的操作。GraspSplats從深度幀的粗略幾何形狀初始化高斯分布;同時,使用MobileSAM和MaskCLIP實時計算每個輸入視圖的參考特征。這些高斯分布通過可微光柵化進一步優(yōu)化幾何、紋理和語義。用戶可以提供一個目標名稱查詢(例如,“杯子”)和部件查詢(例如,“手柄”),以便GraspSplats能夠高效地預測部件級可抓取性并生成抓取建議。GraspSplats直接使用顯式高斯原語在毫秒級內生成抓取建議,為此擴展了現(xiàn)有的抓取生成器。此外,還進一步利用顯式表示來在物體位移下保持高質量表示。使用點跟蹤器,GraspSplats粗略地編輯場景以捕捉剛性變換,并通過部分場景重建進一步優(yōu)化它。

本文在一臺臺式計算機上實現(xiàn)了GraspSplats,并搭配真實的Franka Research (FR3)機器人來評估其在桌面操作中的有效性。GraspSplats中的每個組件都非常高效,并且在經驗上比現(xiàn)有工作快一個數量級(10倍)——包括計算二維參考特征、優(yōu)化三維表示和生成二指抓取建議。這使得在手臂掃描的同時并行生成GraspSplats表示成為可能。在實驗中,GraspSplats的性能優(yōu)于基于NeRF的方法(如F3RM和LERF-TOGO)以及其他基于點的方法。

本文貢獻主要有三個方面:

  • 提出了一個使用三維高斯濺射(3DGS)進行抓取表示的框架。GraspSplats高效地重建了具有幾何、紋理和語義監(jiān)督的場景,在準確性和效率方面都優(yōu)于基線方法,實現(xiàn)了零樣本部件級抓取。
  • 開發(fā)了一種可編輯的高保真表示技術,該技術超越了靜態(tài)場景中的零樣本操作,進入了動態(tài)和關節(jié)物體操作領域。
  • 進行了廣泛的真實機器人實驗,驗證了GraspSplats在靜態(tài)和動態(tài)場景中零樣本抓取的有效性,展示了方法相對于基于NeRF或基于點的方法的優(yōu)越性。

相關工作一覽

語言引導的操作。為了支持零樣本操作,機器人必須利用從互聯(lián)網規(guī)模數據中學習到的先驗知識。最近有一些工作使用二維基礎視覺模型(如CLIP、SAM或GroundingDINO)來構建開放詞匯量的三維表示。然而,這些方法大多依賴于簡單的二維反投影。沒有進一步的基于渲染的優(yōu)化,它們通常無法提供精確的部件級信息。最近,基于DFF和LERF的研究工作,研究人員發(fā)現(xiàn)將特征蒸餾與神經渲染相結合,可以為機器人操作提供有前景的表示,因為它同時提供了高質量的語義和幾何信息。值得注意的是,LERF-TOGO提出了條件CLIP查詢和DINO正則化,以實現(xiàn)基于部件的零樣本操作。F3RM從少量演示中學習抓取。Evo-NeRF專注于針對堆疊透明物體的NeRF,這在概念上與我們的方法正交。然而,這些方法都是基于NeRF的,而NeRF本質上是隱式的。盡管某些NeRF表示可以適應于動態(tài)運動的建模,如基于網格的方法,但顯式方法更適合于動態(tài)場景的建模。

抓取姿態(tài)檢測。在機器人操作中,抓取姿態(tài)檢測一直是一個長期的研究課題?,F(xiàn)有方法大致可分為兩類:端到端方法和基于采樣的方法。端到端方法為抓取姿態(tài)提供了簡化的流程,并融入了學習的語義先驗(例如,通過手柄抓取的杯子)。然而,這些方法通常要求測試數據模式(如視角、目標類別和變換)與訓練分布完全匹配。例如,LERF-TOGO通過為輸入生成數百個使用不同變換的點云來解決GraspNet的視角變化問題,這需要大量的計算時間。另一方面,基于采樣的方法不學習語義先驗,但當存在顯式表示時,它們能提供可靠且快速的結果。在本研究中,發(fā)現(xiàn)顯式的高斯基元自然地與基于采樣的方法相結合,而GraspSplats中嵌入的特征則通過語言指導來補充語義先驗。這種直觀的組合使得在動態(tài)和雜亂環(huán)境中高效地、準確地采樣抓取姿態(tài)成為可能。

并行工作。同時,多種方法開始將3DGS與二維特征相結合。這些工作中的大多數僅關注外觀編輯。我們基于特征濺射構建了GraspSplats,因為其在工程上進行了優(yōu)化,并進一步將整體重建時間縮短到十分之一。在準備本工作過程中,出現(xiàn)了一項并行工作。與我們的工作類似,Zheng等人[40]也將高斯濺射與特征蒸餾相結合用于抓取。然而沒有處理面向任務的操作中的部件級查詢,并且仍然主要關注靜態(tài)場景。盡管他們簡要展示了高斯基元在處理移動物體方面的潛力,但他們仍然做出了一個強烈的假設——只有當物體被機械臂移動時,物體表示才會發(fā)生位移。這樣的假設在涉及外部力量(例如,被其他機器或人類移動)的更一般場景中是不充分的。此外,他們仍然需要昂貴的參考特征生成。最新的并行工作[41]使用高斯濺射進行機器人操作,但它僅融合了來自幾個固定camera的數據,因此沒有解決部件級操作問題。GraspSplats擴展了高斯濺射,作為解決這些問題的一個有前途的替代方案。

使用3D特征濺射進行高效操作

問題定義。我們假設有一個帶有平行夾爪的機器人、一個經過校準的手腕內置RGBD相機以及一個經過校準的第三人稱視角相機。給定一個包含一組物體的場景,目標是讓機器人通過語言查詢(例如,“廚房刀”)來抓取并提起物體??蛇x地,還可以進一步提供部分查詢以指定要抓取的部分(例如,“手柄”),以實現(xiàn)面向任務的操控。值得注意的是,與以往的工作不同,我們不假設場景是靜態(tài)的。相反,我們的目標是設計一種更通用的算法,即使物體在移動,也可以連續(xù)進行部分級別的抓取可負擔性和采樣。

圖片

概述。為了支持開放式抓取,GraspSplats提出了三個關鍵組件。概述如圖2和圖3所示。首先,一種使用新穎參考特征和幾何正則化來有效構建場景表示的方法。其次,一種使用3D條件語言查詢和擴展的對極抓取proposal直接在3D高斯上生成抓取建議的方法。最后,一種在目標位移下編輯高斯的方法,該方法可實現(xiàn)動態(tài)和關節(jié)式目標操作。

圖片

1.構建特征增強的3D高斯體

使用可微分的柵格化將2D特征提升到3D表示。盡管現(xiàn)有的特征增強的GS(Gaussian Splatting)工作提供了部分級別的理解,但一個常被忽視的弱點是場景優(yōu)化開始之前的高昂開銷。這個開銷可以進一步分解為(1)昂貴的參考特征計算或(2)源自SfM(Structure from Motion,運動恢復結構)預處理的稀疏高斯體的密集化。

高效的層次化參考特征計算?,F(xiàn)有方法在將粗糙的CLIP特征正則化方面花費了大部分計算資源——無論是通過數千個多尺度查詢,還是通過基于掩碼的正則化和昂貴的網格采樣。

通過深度進行幾何正則化?,F(xiàn)有的特征增強的GS方法沒有對幾何進行監(jiān)督。在GraspSplats中,將來自深度圖像的點投影為初始高斯體的中心。此外,在訓練過程中使用深度作為監(jiān)督。經驗上,這種額外的幾何正則化顯著減少了訓練時間,并獲得了更好的表面幾何形狀。

2.靜態(tài)場景:部件級目標定位和抓取采樣

為了支持高效的零樣本部件級抓取,GraspSplats執(zhí)行目標級查詢、條件部件級查詢和抓取采樣。與基于NeRF的方法不同,后者需要從隱式MLP中提取與語言對齊的特征和幾何形狀,這需要昂貴的渲染過程,而GraspSplats則直接在高斯原語上操作,以實現(xiàn)高效的定位和抓取查詢。開放詞匯目標查詢。我們首先執(zhí)行目標級開放詞匯查詢(例如,“杯子”),其中我們使用語言查詢來選擇要抓取的目標,并可選擇使用否定查詢來過濾掉其他目標。我們通過直接識別那些各向同性CLIP特征與正查詢比負查詢更緊密對齊的3D高斯體來實現(xiàn)這一點。特征-文本比較過程遵循標準的CLIP實踐。

開放詞匯條件部件級查詢。正如Rashid等人所討論的,CLIP表現(xiàn)出類似詞袋的行為(例如,“杯子手柄”的激活往往同時包含杯子和手柄)。因此,有必要執(zhí)行條件查詢。雖然LERF-TOGO需要兩步(渲染-體素化)過程,但GraspSplats原生支持基于高斯原語的CLIP條件查詢。特別是,在給定從上一操作分割出的目標后,我們只需用新的部件級查詢重復該過程,并將高斯體集合限制在分割出的目標上。圖3給出了這種部件級條件的定性示例。

3.動態(tài)場景:實時跟蹤與優(yōu)化

使用針對語義和幾何優(yōu)化的表示,將GraspSplats擴展到跟蹤目標位移并實時編輯高斯Primitives是很自然的。值得注意的是,這種操作對于現(xiàn)有的基于NeRF的方法來說是一個挑戰(zhàn)。多視圖目標跟蹤與關鍵點。假設有一個或多個已校準的攝像頭,且沒有以ego為中心的運動。給定一個目標語言查詢,我們分割其3D高斯Primitives并將2D掩碼渲染到攝像頭上。然后,我們將渲染的掩碼離散化為一系列點,作為點跟蹤器的輸入,該跟蹤器連續(xù)跟蹤給定點的2D坐標。使用深度將這些2D對應關系轉換為3D,為了過濾掉噪聲對應關系,使用簡單的DBSCAN聚類算法來過濾掉3D離群點。最后,對于剩余的對應點,使用Kabsch算法求解SE(3)變換,并將其應用于分割后的3D高斯Primitives。對于多個攝像頭,將所有攝像頭估計的3D對應關系附加到Kabsch算法的方程組中。請注意,位移可以由機械臂或其他外力產生。部分微調,編輯后的場景可能在初始重建過程中未觀察到的區(qū)域(例如,位移物體下方的表面)出現(xiàn)不希望的偽影??蛇x地,GraspSplats支持使用位移前后渲染的目標掩碼進行部分場景再訓練,這比完全重建要高效得多。

實驗對比

圖片圖片圖片圖片

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2015-04-28 10:31:35

SQL格式化查詢

2024-08-06 08:43:17

2017-08-13 22:19:37

人工智能

2009-08-12 09:27:31

Google搜索

2024-12-09 13:20:50

2024-12-11 08:12:24

2021-07-22 10:12:00

神經網絡數據圖形

2024-12-09 09:20:00

MySQLNULL 值

2022-08-19 09:53:20

人工智能大數據風險

2024-06-04 09:25:51

2025-04-01 04:25:00

RAG數據檢索

2024-08-02 10:00:00

2023-08-02 10:17:04

物聯(lián)網庫存管理

2024-11-27 13:36:10

2025-03-07 10:24:43

2021-07-12 16:36:14

物聯(lián)網智能工作場所IOT

2020-09-24 18:07:04

華為云食道癌方案

2024-12-19 14:44:22

2014-08-25 13:39:29

光纜故障
點贊
收藏

51CTO技術棧公眾號