突破空間限制!從2D到3D:北大等開(kāi)源Lift3D,助力精準(zhǔn)具身智能操作!
文章鏈接:https://arxiv.org/pdf/2411.18623
項(xiàng)目鏈接:https://lift3d-web.github.io/
亮點(diǎn)直擊
- 提出了Lift3D,通過(guò)系統(tǒng)地提升隱式和顯式的3D機(jī)器人表示,提升2D基礎(chǔ)模型,構(gòu)建一個(gè)3D操作策略。
- 對(duì)于隱式3D機(jī)器人表示,設(shè)計(jì)了一個(gè)任務(wù)感知的MAE(Masked Autoencoder),它掩蓋了任務(wù)相關(guān)的可操作性區(qū)域,并重建了深度幾何信息,從而增強(qiáng)了2D基礎(chǔ)模型的3D空間感知能力。
- 對(duì)于顯式3D機(jī)器人表示,提出了一種2D模型提升策略,利用2D基礎(chǔ)模型的預(yù)訓(xùn)練位置嵌入(PEs)來(lái)編碼3D點(diǎn)云數(shù)據(jù),用于操作模仿學(xué)習(xí)。
總結(jié)速覽
亟需解決的問(wèn)題:
- 缺乏大規(guī)模的機(jī)器人3D數(shù)據(jù):現(xiàn)有的3D數(shù)據(jù)資源不足,限制了機(jī)器人在復(fù)雜空間任務(wù)中的應(yīng)用。
- 空間幾何信息的丟失:在處理和提取3D特征時(shí),可能會(huì)丟失一些重要的空間幾何信息,影響機(jī)器人對(duì)環(huán)境的感知與操作。
提出的方案:
- Lift3D框架:該框架通過(guò)逐步增強(qiáng)2D基礎(chǔ)模型,結(jié)合隱式和顯式的3D機(jī)器人表示,來(lái)構(gòu)建一個(gè)魯棒的3D操作策略。
- 任務(wù)感知mask自動(dòng)編碼器:首先設(shè)計(jì)了一個(gè)mask自動(dòng)編碼器,通過(guò)掩蓋任務(wù)相關(guān)的可操作性區(qū)域,重建深度信息,從而增強(qiáng)2D基礎(chǔ)模型的隱式3D機(jī)器人表示。
- 2D模型提升策略:通過(guò)建立輸入3D點(diǎn)與2D模型位置嵌入之間的映射關(guān)系,使Lift3D能夠?qū)?D點(diǎn)云數(shù)據(jù)直接編碼到2D基礎(chǔ)模型中,從而構(gòu)建顯式的3D機(jī)器人表示。
應(yīng)用的技術(shù):
- 任務(wù)感知mask自動(dòng)編碼器:用于掩蓋和重建任務(wù)相關(guān)的3D特征,增強(qiáng)模型對(duì)空間關(guān)系的理解。
- 自監(jiān)督微調(diào):通過(guò)自監(jiān)督學(xué)習(xí)的方式對(duì)2D模型進(jìn)行微調(diào),以增強(qiáng)其對(duì)3D空間的感知。
- 2D模型提升策略:建立2D與3D的映射關(guān)系,將2D基礎(chǔ)模型與3D點(diǎn)云數(shù)據(jù)結(jié)合,提取3D機(jī)器人表示。
達(dá)到的效果:
- 提高3D操作策略的魯棒性:Lift3D能夠更好地處理和理解3D空間中的復(fù)雜配置,構(gòu)建更加穩(wěn)定的機(jī)器人操作策略。
- 提升性能:在多個(gè)仿真基準(zhǔn)和實(shí)際場(chǎng)景中,Lift3D的表現(xiàn) consistently 優(yōu)于現(xiàn)有的最先進(jìn)方法,展示了在3D機(jī)器人操作中的優(yōu)勢(shì)。
這個(gè)框架通過(guò)增強(qiáng)2D模型的3D能力,減少了空間信息的損失,在實(shí)際應(yīng)用中展現(xiàn)了顯著的提升。
Lift3D Method
本節(jié)介紹了提出的Lift3D框架的問(wèn)題陳述。接著詳細(xì)介紹了任務(wù)感知的MAE和2D模型提升策略,這兩者分別增強(qiáng)了隱式和顯式的3D機(jī)器人表示。
問(wèn)題陳述
任務(wù)感知masked自動(dòng)編碼器 (Task-aware Masked Autoencoder)
一些研究表明,2D基礎(chǔ)模型在各種下游機(jī)器人任務(wù)中展示了強(qiáng)大的表示能力和泛化能力。在此基礎(chǔ)上,Lift3D首先增強(qiáng)了2D基礎(chǔ)模型中的隱式3D機(jī)器人表示?,F(xiàn)有的機(jī)器人MAE重建方法采用了激進(jìn)的mask策略,其中大量的輸入圖像補(bǔ)丁被隨機(jī)mask。然而,這些mask的區(qū)域大多包含與任務(wù)無(wú)關(guān)的背景信息,阻礙了前景物體表示的有效學(xué)習(xí)。與之前的方法不同,Lift3D旨在掩蓋任務(wù)相關(guān)的可操作性區(qū)域,并重建深度幾何信息,從而增強(qiáng)2D基礎(chǔ)模型的3D空間感知能力。
具體而言,利用來(lái)自機(jī)器人操作的大規(guī)模數(shù)據(jù)集來(lái)構(gòu)建MAE訓(xùn)練數(shù)據(jù)集,該數(shù)據(jù)集包括從視頻中隨機(jī)抽取的100萬(wàn)個(gè)訓(xùn)練樣本,包含配對(duì)的圖像和深度數(shù)據(jù)。如下圖2 a)所示,一旦獲得數(shù)據(jù),使用多模態(tài)模型(例如,CLIP)基于任務(wù)特定的文本描述生成圖像關(guān)注圖。例如,圖2中提取關(guān)注圖的文本提示是:“機(jī)器人臂將紅色碗放入灰色碗中”。然后,這些關(guān)注圖會(huì)被雙線性縮放并反投影到輸入圖像上,用于引導(dǎo)MAE的mask策略。
2D模型提升策略 (2D Model-lifting Strategy)
在賦予2D基礎(chǔ)模型隱式的3D機(jī)器人感知能力之后,提出了一種提升策略,使2D模型能夠顯式地理解點(diǎn)云數(shù)據(jù)。最近的研究,無(wú)論是將3D點(diǎn)云投影到多視圖圖像中,還是將2D特征提升到3D空間中,都面臨著由于模態(tài)轉(zhuǎn)換而丟失空間信息的問(wèn)題。因此,高效地編碼3D數(shù)據(jù)一直是3D機(jī)器人領(lǐng)域的關(guān)鍵研究方向。
對(duì)于基于Transformer的2D模型,位置嵌入(PEs)起著重要作用,因?yàn)樗鼈優(yōu)樽⒁饬C(jī)制中的輸入token提供了位置信息。然而,直接創(chuàng)建新的3D位置嵌入來(lái)編碼3D token可能會(huì)引入語(yǔ)義差異,這些差異源于預(yù)訓(xùn)練的2D基礎(chǔ)模型與新添加的3D位置嵌入之間的不同,從而可能導(dǎo)致大規(guī)模預(yù)訓(xùn)練知識(shí)的喪失。
因此,受[23, 24, 71]啟發(fā),將3D token投影到多個(gè)虛擬平面上。與之前的工作不同,投影過(guò)程并不是為了構(gòu)造模型的輸入。相反,它建立了輸入3D點(diǎn)與每個(gè)虛擬平面上的預(yù)訓(xùn)練2D位置嵌入之間的位置對(duì)應(yīng)關(guān)系。然后,這些2D位置嵌入被用來(lái)直接編碼3D token。
最后,監(jiān)督損失的公式為:
其中,T、R和G分別表示7自由度末端執(zhí)行器姿態(tài)中的平移、旋轉(zhuǎn)和夾持器狀態(tài)。如圖2 b)所示,在第二階段的模仿學(xué)習(xí)中,凍結(jié)2D基礎(chǔ)模型的參數(shù),僅更新3D分詞器、注入適配器和策略頭。Lift3D也可以在不注入適配器的情況下操作,這會(huì)導(dǎo)致操作性能略微下降。
實(shí)驗(yàn)
通過(guò)展示模擬任務(wù)和真實(shí)任務(wù)中的實(shí)驗(yàn)設(shè)置和結(jié)果,評(píng)估了Lift3D的操作能力。每個(gè)組件的有效性通過(guò)消融研究得到了驗(yàn)證。通過(guò)在不同的操作實(shí)例、背景場(chǎng)景和光照條件下測(cè)試模型,檢驗(yàn)了Lift3D的泛化能力。最后通過(guò)逐步增加2D基礎(chǔ)模型的參數(shù)來(lái)探索模型的可擴(kuò)展性。
模擬實(shí)驗(yàn)
基準(zhǔn)測(cè)試:從三個(gè)廣泛使用的操作模擬基準(zhǔn)中選擇了30多個(gè)任務(wù):MetaWorld 和 Adroit 在MuJoCo模擬器中的任務(wù),以及 RLBench 在CoppeliaSim模擬器中的任務(wù)。點(diǎn)云數(shù)據(jù)通過(guò)使用相機(jī)外參和內(nèi)參從單視圖RGBD數(shù)據(jù)中獲得。對(duì)于MetaWorld,選擇了一個(gè)包含Sawyer臂和雙指夾持器的桌面環(huán)境,并從不同難度級(jí)別中選擇了15個(gè)任務(wù)。這些任務(wù)從兩個(gè)角落攝像頭視角捕捉,任務(wù)分類(lèi)如下:
- 簡(jiǎn)單任務(wù):按鈕按壓、抽屜打開(kāi)、到達(dá)、拉手柄、插頭拔出、拉桿和旋鈕轉(zhuǎn)動(dòng)。
- 中等任務(wù):錘子、清掃、垃圾桶取物、推墻和箱子關(guān)閉。
- 難度較高任務(wù):組裝、手伸入和架子放置。
對(duì)于Adroit任務(wù),重點(diǎn)是使用與[52]中相同攝像頭視角的靈巧手操作,包括了三個(gè)任務(wù):錘子、門(mén)和鋼筆。對(duì)于RLBench,它使用Franka Panda機(jī)器人和前視攝像頭。由于篇幅限制,RLBench的結(jié)果和詳細(xì)信息已在附錄B.1中提供。
數(shù)據(jù)收集:MetaWorld中使用了腳本化策略,收集了25個(gè)演示,每個(gè)演示包含200個(gè)步驟。對(duì)于Adroit任務(wù),軌跡是通過(guò)強(qiáng)化學(xué)習(xí)算法訓(xùn)練的智能體獲得的。具體來(lái)說(shuō),DAPG應(yīng)用于門(mén)和錘子任務(wù),而VRL3用于鋼筆任務(wù)。研究者們收集了100個(gè)演示,每個(gè)演示包含100個(gè)步驟。RLBench中的演示是通過(guò)預(yù)定義的路徑點(diǎn)和Open Motion Planning Library收集的,共收集了100集,每集包含若干個(gè)關(guān)鍵幀。
基線Lift3D的創(chuàng)新之處在于系統(tǒng)性地增強(qiáng)了隱式和顯式的3D機(jī)器人表示。為了評(píng)估其有效性,將Lift3D與來(lái)自三個(gè)類(lèi)別的9種方法進(jìn)行了比較:
- 2D 機(jī)器人表示方法:選擇了CLIP(ViT-base),它是一個(gè)2D基礎(chǔ)模型。此外,還包括了R3M和VC1,這兩者都是2D機(jī)器人預(yù)訓(xùn)練方法。
- 3D 機(jī)器人表示方法:借鑒了[95],采用了基礎(chǔ)的3D模型,包括PointNet、PointNet++和PointNext。此外,還檢驗(yàn)了SPA ,這是之前的SOTA 3D機(jī)器人預(yù)訓(xùn)練方法。與[52]相同,所有機(jī)器人表示方法均使用與Lift3D相同的三層策略頭和訓(xùn)練損失。
- 3D 策略方法:Lift3D與之前的SOTA 3D擴(kuò)散策略(DP3)在MetaWorld和Adroit上進(jìn)行了比較,并在RLBench上與RVT-2進(jìn)行了比較。
訓(xùn)練和評(píng)估細(xì)節(jié)
定量結(jié)果在下表1中,Lift3D(CLIP)在MetaWorld基準(zhǔn)測(cè)試中達(dá)到了平均成功率83.9,其中中等任務(wù)的準(zhǔn)確率為78.8,難度較大的任務(wù)準(zhǔn)確率為82.0。與其他機(jī)器人表示方法相比,Lift3D在最頂尖的2D方法和3D方法基礎(chǔ)上分別提高了8.8和14.4的平均成功率。此外,與之前的SOTA 3D策略(DP3)相比,Lift3D實(shí)現(xiàn)了18.6的準(zhǔn)確率提升。這些結(jié)果表明,Lift3D有效地增強(qiáng)了2D基礎(chǔ)模型的操作能力,通過(guò)利用大規(guī)模預(yù)訓(xùn)練知識(shí),使其對(duì)機(jī)器人3D場(chǎng)景有更深入的理解。
此外,Lift3D在靈巧手任務(wù)上也表現(xiàn)出優(yōu)越的性能,超過(guò)了以前的機(jī)器人表示和策略方法。需要注意的是,靈巧手的自由度在任務(wù)間有所不同,其中錘子、門(mén)和鋼筆任務(wù)的自由度分別為26、28和24。結(jié)果證明,本文的方法對(duì)于更復(fù)雜的靈巧手操作任務(wù)也很有效,這得益于強(qiáng)大的3D機(jī)器人表示能力。
Lift3D(DINOV2)也顯示出了良好的結(jié)果,證明了該方法對(duì)其他2D基礎(chǔ)模型的實(shí)用性。
真實(shí)世界實(shí)驗(yàn)
數(shù)據(jù)集收集在真實(shí)世界實(shí)驗(yàn)中,使用Franka Research 3臂進(jìn)行實(shí)驗(yàn),并通過(guò)Intel RealSense L515 RGBD攝像頭從靜態(tài)前視角捕捉圖像。執(zhí)行了十個(gè)任務(wù):
- 將瓶子放置到架子上
- 倒水
- 拔掉充電器
- 堆積積木
- 拾取并放置物品
- 滑動(dòng)積木
- 給植物澆水
- 擦拭桌面
- 打開(kāi)抽屜
- 關(guān)上抽屜
這些任務(wù)涉及不同類(lèi)型的交互對(duì)象和操作行為。對(duì)于每個(gè)任務(wù),在不同空間位置收集了40個(gè)演示,軌跡以30fps的速度記錄。選擇了30個(gè)回合,并提取關(guān)鍵幀來(lái)構(gòu)建每個(gè)任務(wù)的訓(xùn)練集。輸入的點(diǎn)云數(shù)據(jù)和圖像示例如圖4所示。
訓(xùn)練與評(píng)估細(xì)節(jié)
實(shí)現(xiàn)細(xì)節(jié)與模擬實(shí)驗(yàn)中的相同。對(duì)每個(gè)任務(wù)從頭開(kāi)始訓(xùn)練每種方法。在訓(xùn)練過(guò)程中,使用世界坐標(biāo)系下的點(diǎn)云數(shù)據(jù)和操作姿態(tài)作為輸入和監(jiān)督信號(hào)。評(píng)估時(shí),使用最終epoch的模型,并在不同空間位置上進(jìn)行20次評(píng)估。
定量結(jié)果
如下圖3所示,將Lift3D(CLIP)與DP3、VC-1和PointNet進(jìn)行了比較。結(jié)果表明,Lift3D在多個(gè)任務(wù)中表現(xiàn)出色。特別是在“將瓶子放置到架子上”任務(wù)中,該任務(wù)需要準(zhǔn)確的3D位置和旋轉(zhuǎn)預(yù)測(cè),Lift3D達(dá)到了90%的成功率。結(jié)果表明,Lift3D能夠有效理解3D空間場(chǎng)景,并在真實(shí)世界中做出準(zhǔn)確的姿態(tài)預(yù)測(cè)。對(duì)于更復(fù)雜的任務(wù)(如擦拭桌面),由于需要操作可變形的物體,所有方法的精度都面臨一定的局限性。盡管如此,Lift3D仍然達(dá)到了40%的成功率。
定性結(jié)果如下圖4所示,展示了六個(gè)真實(shí)世界任務(wù)的操作過(guò)程。本文的方法準(zhǔn)確預(yù)測(cè)了連續(xù)的7自由度末端執(zhí)行器姿態(tài),使得任務(wù)得以沿著軌跡順利完成。例如,在“給植物澆水”任務(wù)中,Lift3D首先準(zhǔn)確抓住了澆水壺的手柄。接著,它平穩(wěn)地抬起壺并將其定位到植物上方。最后,夾持器逐漸旋轉(zhuǎn)以控制“水流”。
消融實(shí)驗(yàn)
在下表2中,針對(duì)MetaWorld仿真任務(wù)(包括裝配和關(guān)箱任務(wù))進(jìn)行了一系列消融實(shí)驗(yàn),并計(jì)算了平均操作準(zhǔn)確率。
Task-aware MAE在Ex2到Ex4中,觀察到深度重建和RGB+深度重建相較于Ex1(僅RGB重建)分別提高了6%和5%的成功率,而僅使用RGB重建并未顯示出顯著改善。這突出了在操作任務(wù)中重建幾何信息的重要性,因此選擇將深度圖像作為重建目標(biāo)。通過(guò)比較Ex2和Ex5,發(fā)現(xiàn)基于任務(wù)的引導(dǎo)掩膜策略相比隨機(jī)掩膜策略提高了4%的成功率,證明了專注于與任務(wù)相關(guān)的可操作區(qū)域來(lái)學(xué)習(xí)幾何信息更加高效。
視覺(jué)token蒸餾
與Ex5相比,通過(guò)視覺(jué)token蒸餾進(jìn)行預(yù)訓(xùn)練(Ex6)使成功率提高了8%,這表明防止災(zāi)難性遺忘已經(jīng)預(yù)訓(xùn)練的知識(shí)對(duì)于將2D基礎(chǔ)模型賦予隱式3D機(jī)器人意識(shí)至關(guān)重要。
2D模型提升策略
對(duì)于2D模型提升策略,與僅輸入圖像的Ex1相比,Ex7引入了顯式點(diǎn)云編碼的提升策略,顯著提高了操作性能。這表明3D空間信息對(duì)于實(shí)現(xiàn)穩(wěn)健的操作至關(guān)重要。Ex8相較于Ex7也展示了明顯的提升,驗(yàn)證了隱式3D表示學(xué)習(xí)能夠促進(jìn)后續(xù)顯式3D模仿學(xué)習(xí)。
位置編碼(PE)影響
最后,與Ex8相比,Ex9采用了沒(méi)有預(yù)訓(xùn)練的新增PE(位置編碼),結(jié)果性能下降了6%,驗(yàn)證了提升策略最有效地利用了大規(guī)模的2D預(yù)訓(xùn)練知識(shí)。
泛化能力探索
通過(guò)利用2D基礎(chǔ)模型的大規(guī)模預(yù)訓(xùn)練知識(shí)和全面的3D機(jī)器人表示,Lift3D展現(xiàn)了強(qiáng)大的現(xiàn)實(shí)世界泛化能力。正如下表3所示,設(shè)計(jì)了三種不同于訓(xùn)練場(chǎng)景的實(shí)際測(cè)試場(chǎng)景來(lái)驗(yàn)證其泛化能力。
- 不同的操作實(shí)例Lift3D在多種操作物體中展現(xiàn)了強(qiáng)大的魯棒性,且表現(xiàn)出最小的準(zhǔn)確率損失。這一成功主要?dú)w功于預(yù)訓(xùn)練的2D基礎(chǔ)模型的語(yǔ)義理解能力。
- 復(fù)雜的背景場(chǎng)景背景干擾顯著降低了所有方法的準(zhǔn)確性,但Lift3D顯示出最小的下降,操作成功率仍然保持在50%以上。這可以歸因于在3D空間中有效利用了大規(guī)模預(yù)訓(xùn)練知識(shí)。此外,基于任務(wù)的引導(dǎo)掩膜策略通過(guò)重建增強(qiáng)了模型對(duì)前景區(qū)域空間幾何的理解,同時(shí)減少了背景干擾的影響。
- 不同的光照條件光照變化影響2D圖像的數(shù)據(jù)分布,同時(shí)也會(huì)影響深度捕捉,從而影響點(diǎn)云數(shù)據(jù)。在光照變化的影響下,Lift3D僅顯示出平均20%的準(zhǔn)確率下降,證明了其強(qiáng)大的3D機(jī)器人表示能力。
模型可擴(kuò)展性探索
在計(jì)算機(jī)視覺(jué)中,隨著2D基礎(chǔ)模型參數(shù)的增大,通常會(huì)提高下游任務(wù)的性能 [56, 61]?;谶@一點(diǎn),探討了Lift3D政策是否也表現(xiàn)出可擴(kuò)展性。在非常困難的MetaWorld仿真任務(wù)——“置物架任務(wù)”上進(jìn)行了實(shí)驗(yàn)。
對(duì)于這一復(fù)雜任務(wù),Lift3D (DINOV2-ViTbase) 僅達(dá)到28%的準(zhǔn)確率。ViT-base的參數(shù)數(shù)量為86M,而ViT-large和ViT-giant分別有304M和1B的參數(shù)。通過(guò)將2D基礎(chǔ)模型替換為DINOV2-ViT-large和DINOV2-ViT-giant,Lift3D在“置物架任務(wù)”中分別達(dá)到了48%和58%的準(zhǔn)確率,并且展現(xiàn)了更快的收斂速度,如下圖5所示。這些改進(jìn)證明了Lift3D政策模型的可擴(kuò)展性,并且Lift3D框架能夠通過(guò)更大的2D基礎(chǔ)模型生成更強(qiáng)健的操作策略。
結(jié)論與局限性
本文提出了Lift3D,一種將大規(guī)模預(yù)訓(xùn)練的2D基礎(chǔ)模型與強(qiáng)大的3D操作能力相結(jié)合的創(chuàng)新框架。首先,設(shè)計(jì)了一種任務(wù)感知的MAE(Masked Autoencoder),它通過(guò)掩蓋與任務(wù)相關(guān)的有用區(qū)域并重建深度幾何信息,增強(qiáng)了隱式的3D機(jī)器人表示。其次,提出了一種2D模型提升策略,通過(guò)利用預(yù)訓(xùn)練的2D基礎(chǔ)模型顯式地編碼3D點(diǎn)云數(shù)據(jù),用于操作模仿學(xué)習(xí)。Lift3D在仿真和實(shí)際實(shí)驗(yàn)中持續(xù)超越現(xiàn)有方法,并在多種實(shí)際場(chǎng)景中展現(xiàn)了強(qiáng)大的泛化能力。
局限性
然而,Lift3D框架專注于將2D視覺(jué)模型提升至3D操作任務(wù),這意味著它無(wú)法理解語(yǔ)言條件。然而,本文的方法可以適應(yīng)像CLIP這樣的多模態(tài)模型,能夠?qū)ift3D編碼器與語(yǔ)言模型結(jié)合,為未來(lái)的3D視覺(jué)-語(yǔ)言-行動(dòng)模型的實(shí)現(xiàn)鋪平道路。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)
