自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

3D具身基礎(chǔ)模型!北大提出Lift3D賦予2D大模型魯棒的3D操縱能力

人工智能 新聞
Lift3D 在多個(gè)仿真環(huán)境和真實(shí)場景中實(shí)現(xiàn)了 SOTA 的操縱效果,并驗(yàn)證了該方法的泛化性和可擴(kuò)展性。

為了構(gòu)建魯棒的 3D 機(jī)器人操縱大模型,Lift3D 系統(tǒng)性地增強(qiáng) 2D 大規(guī)模預(yù)訓(xùn)練模型的隱式和顯式 3D 機(jī)器人表示,并對點(diǎn)云數(shù)據(jù)直接編碼進(jìn)行 3D 模仿學(xué)習(xí)。Lift3D 在多個(gè)仿真環(huán)境和真實(shí)場景中實(shí)現(xiàn)了 SOTA 的操縱效果,并驗(yàn)證了該方法的泛化性和可擴(kuò)展性。

該項(xiàng)目由北京大學(xué)和北京智源研究院的仉尚航團(tuán)隊(duì)研究,作者包括北京大學(xué)博士生劉家銘、賈越如、陳思翔、顧晨陽、王之略、羅瓏贊等。HMI 實(shí)驗(yàn)室長期致力于具身智能和多模態(tài)學(xué)習(xí)領(lǐng)域的研究。

圖片


圖片

  • 論文鏈接: https://arxiv.org/pdf/2411.18623
  • 論文標(biāo)題:Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation
  • 項(xiàng)目主頁: https://lift3d-web.github.io/
  • 代碼鏈接: https://github.com/PKU-HMI-Lab/LIFT3D

1. 摘要

3D 幾何信息對于機(jī)器人操縱任務(wù)至關(guān)重要,因?yàn)闄C(jī)器人需要感知三維環(huán)境,推理空間關(guān)系,并與復(fù)雜的幾何物體進(jìn)行交互。近年來,研究逐漸聚焦于顯式提取 3D 特征,但仍面臨諸如:缺乏大規(guī)模機(jī)器人 3D 數(shù)據(jù)和潛在的空間幾何信息丟失等挑戰(zhàn)。為了解決這些問題,我們提出了 Lift3D 框架,通過隱式和顯式的 3D 機(jī)器人表示逐步增強(qiáng) 2D 大規(guī)模預(yù)訓(xùn)練模型的 3D 空間感知能力,從而構(gòu)建一個(gè)魯棒的 3D 操縱策略。具體來說,我們首先設(shè)計(jì)了一個(gè)任務(wù)感知的掩碼自編碼器,該自編碼器通過 Mask 與任務(wù)相關(guān)的 Affordance token 并重建深度幾何信息,增強(qiáng)了 2D 基礎(chǔ)模型的隱式 3D 機(jī)器人表達(dá)能力。在自監(jiān)督微調(diào)之后,我們引入了一種 2D 基礎(chǔ)模型 Lifting 策略,該策略在輸入 3D 點(diǎn)和 2D 模型的位置編碼之間建立了位置映射關(guān)系?;谠撚成洌琇ift3D 利用 2D 基礎(chǔ)模型直接顯式的編碼點(diǎn)云數(shù)據(jù),借助大規(guī)模預(yù)訓(xùn)練知識(shí)提升 3D 模仿學(xué)習(xí)效率,同時(shí)最小化空間信息丟失。

圖片

圖 1: 為了賦予大規(guī)模 2D 預(yù)訓(xùn)練模型 3D 操控能力, Lift3D 首先通過 mask 任務(wù)相關(guān)的 affordance 區(qū)域和深度重建,以提升隱式 3D 機(jī)器人表示;隨后通過利用預(yù)訓(xùn)練的 2D 位置嵌入來直接編碼 3D 點(diǎn)云數(shù)據(jù),進(jìn)行顯式 3D 操縱模仿學(xué)習(xí)。Lift3D 在各種仿真(i.e., 機(jī)械臂,靈巧手)和現(xiàn)實(shí)世界任務(wù)中展現(xiàn)出強(qiáng)大的魯棒性和令人驚訝的效果

為了全面評估我們提出的 Lift3D,我們在三個(gè)模擬器和多個(gè)真實(shí)場景中進(jìn)行了廣泛的實(shí)驗(yàn),包括 30 多種不同的機(jī)械臂 gripper 和靈巧手操控任務(wù),如圖 1 所示。Lift3D 在各種任務(wù)上均表現(xiàn)出色,即使僅使用最簡單的 MLP 策略頭和單視角點(diǎn)云,也能夠展示魯棒的操縱能力和對機(jī)器人 3D 空間感知的理解。同時(shí),我們通過逐步增加模型的參數(shù)量至 1B,驗(yàn)證了我們方法在多個(gè)復(fù)雜任務(wù)上的可擴(kuò)展性。在真實(shí)世界實(shí)驗(yàn)中,Lift3D 在每個(gè)任務(wù)上只需 30 個(gè) demonstration 的數(shù)據(jù)即可學(xué)習(xí)新的操控技能。為了評估 Lift3D 的泛化能力,我們在真實(shí)世界測試過程中融入了不同的操縱物體、背景場景和光照條件。Lift3D 展現(xiàn)出強(qiáng)大的泛化能力,能夠有效利用 2D 大規(guī)模預(yù)訓(xùn)練知識(shí)和全面的 3D 機(jī)器人表示。

2. 研究背景

基于視覺的操縱策略的核心目標(biāo)之一是理解場景并預(yù)測相應(yīng)的 3D 位姿。一些現(xiàn)有的方法利用 2D 圖像作為輸入,通過強(qiáng)化學(xué)習(xí)或模仿學(xué)習(xí)直接預(yù)測 3D 末端執(zhí)行器的位姿。盡管這些方法能夠有效地處理一系列操縱任務(wù),但它們未能完全理解物理世界中的空間關(guān)系和 3D 結(jié)構(gòu)。在機(jī)器人操縱中,3D 幾何信息對于應(yīng)對復(fù)雜任務(wù)至關(guān)重要,因?yàn)闄C(jī)器人必須感知 3D 環(huán)境、推理幾何關(guān)系并與復(fù)雜的空間物體進(jìn)行交互。

近年來,研究越來越多地集中在機(jī)器人操縱任務(wù)中顯式提取 3D 特征表示,這些方法可分為兩類:1)一些方法直接編碼點(diǎn)云數(shù)據(jù),通過從頭開始訓(xùn)練 3D 策略模型或微調(diào)預(yù)訓(xùn)練的點(diǎn)云編碼器(例如 PointNet++ 和 PointNext)。然而,由于缺乏大規(guī)模機(jī)器人 3D 數(shù)據(jù)和基礎(chǔ)模型,限制了它們的泛化能力。此外,處理 3D 或體素特征需要大量計(jì)算資源,這限制了其可擴(kuò)展性和在現(xiàn)實(shí)世界應(yīng)用中的可行性。2)另一方面,一些方法涉及模態(tài)轉(zhuǎn)換,例如將預(yù)訓(xùn)練的 2D 特征提升到 3D 空間,或?qū)?3D 點(diǎn)云投影到多視角圖像中,以供 2D 預(yù)訓(xùn)練模型輸入。盡管在一些后續(xù)的操縱任務(wù)中表現(xiàn)出色,但這些模態(tài)轉(zhuǎn)換不可避免地導(dǎo)致空間信息的丟失,并不能完全激發(fā)模型對 3D 空間關(guān)系的理解。

基于上述 3D 策略中的挑戰(zhàn),我們提出了一個(gè)問題:“我們能否開發(fā)一個(gè)即有大規(guī)模預(yù)訓(xùn)練知識(shí),又融合完整 3D 空間數(shù)據(jù)輸入的 3D 策略基礎(chǔ)模型?”

3. Lift3D 方法

3.1 貢獻(xiàn)概述

  • 我們提出了 Lift3D,通過系統(tǒng)地改進(jìn)隱式和顯式的 3D 機(jī)器人表示,將 2D 大規(guī)模預(yù)訓(xùn)練模型提升為魯棒的 3D 操縱策略模型。
  • 對于隱式 3D 機(jī)器人表示,我們設(shè)計(jì)了一種任務(wù)感知 MAE(Mask Autoencoder)自監(jiān)督方法,它對任務(wù)相關(guān)的可操作區(qū)域進(jìn)行掩蔽,并重建深度幾何信息,從而增強(qiáng) 2D 基礎(chǔ)模型的 3D 空間認(rèn)知。
  • 對于顯式 3D 機(jī)器人表示,我們提出了一種 2D 基礎(chǔ)模型 lifting 策略,利用 2D 基礎(chǔ)模型的預(yù)訓(xùn)練位置編碼(PE)來編碼 3D 點(diǎn)云數(shù)據(jù),用于 3D 操縱模仿學(xué)習(xí)。

3.2 Task-aware Masked Autoencoder (隱式 3D 機(jī)器人表示)

圖片

圖 2: Lift3D 的整體流程。a) 對于隱式 3D 機(jī)器人表示,我們利用 CLIP 離線提取基于任務(wù)描述的圖像注意力圖,并將其反向投影到 2D 輸入圖像上,以指導(dǎo) MAE 的掩碼。然后,我們將可見的 tokens 輸入 2D 基礎(chǔ)模型進(jìn)行特征提取。掩碼 tokens 和編碼后的可見 tokens 經(jīng)過 MAE 解碼器進(jìn)行深度重建,從而增強(qiáng) 3D 空間感知。同時(shí),編碼后的可見 tokens 還會(huì)通過與原模型的特征進(jìn)行蒸餾,以減輕災(zāi)難性遺忘問題。b) 對于顯式 3D 機(jī)器人表示,我們首先將點(diǎn)云數(shù)據(jù)投影到多個(gè)虛擬平面上,建立 3D 輸入點(diǎn)與每個(gè)虛擬平面上的 2D 位置嵌入(PEs)之間的位置映射。映射完成后,我們將每個(gè) 3D 補(bǔ)丁對應(yīng)的 2D PEs 進(jìn)行平均,形成統(tǒng)一的 3D 位置嵌入(3D PEs),然后將其與 3D tokens 結(jié)合。這些 3D tokens 是通過將點(diǎn)云輸入輕量級(jí) 3D 分詞器生成的。最后,來自 2D 基礎(chǔ)模型的輸出特征通過策略頭進(jìn)行處理,以預(yù)測模仿學(xué)習(xí)的位姿。

一些研究表明,2D 基礎(chǔ)模型在各種下游機(jī)器人任務(wù)中展示了強(qiáng)大的操縱和泛化能力。在此基礎(chǔ)上,Lift3D 首先增強(qiáng)了 2D 基礎(chǔ)模型中的隱式 3D 機(jī)器人表示?,F(xiàn)有的機(jī)器人 MAE 重建方法大多采用隨機(jī)掩碼。然而掩碼部分可能主要包含無關(guān)的背景信息,這會(huì)阻礙對于前景物體表示的有效學(xué)習(xí)。不同于之前的方法,Lift3D 的目標(biāo)是掩碼與任務(wù)相關(guān)的 Affordance token,并重建深度幾何信息,從而增強(qiáng) 2D 基礎(chǔ)模型的 3D 空間感知能力。

具體而言,利用來自機(jī)器人操作的大規(guī)模數(shù)據(jù)集來構(gòu)建 MAE 訓(xùn)練數(shù)據(jù)集,該數(shù)據(jù)集包括從視頻中隨機(jī)抽取的 100 萬個(gè)訓(xùn)練樣本,包含配對的圖像和深度數(shù)據(jù)。如下圖 2 a) 所示,具體的操作步驟如下:

1. 一旦獲得數(shù)據(jù),使用多模態(tài)模型(例如,CLIP)基于任務(wù)特定的文本描述生成圖像 attention map。例如,圖 2 中提取 attention map 的文本提示是:“機(jī)械臂將紅色碗放入灰色碗中”。然后,這些 attention map 會(huì)被雙線性插值并反投影到輸入圖像上,用于引導(dǎo) MAE 的 mask 策略。為了區(qū)分與任務(wù)相關(guān)的可操作性標(biāo)記和背景標(biāo)記,我們對所有標(biāo)記的注意力值應(yīng)用一個(gè)閾值進(jìn)行過濾。與之前的方法一致 [28],我們也隨機(jī)遮掩背景標(biāo)記,以達(dá)到所需的比例(即 r=0.75)。

2. 重建目標(biāo)在遮掩圖像建模中起著至關(guān)重要的作用,直接影響特征表示的學(xué)習(xí)。先前的機(jī)器人 MAE 方法通常使用低級(jí)的 RGB 信息作為重建目標(biāo) [52, 60, 62]。為了增強(qiáng) 2D 基礎(chǔ)模型的 3D 空間感知能力,我們重建任務(wù)相關(guān)的可操作性圖像塊和隨機(jī)選擇的背景圖像塊的深度信息。

3. 為了保持基礎(chǔ)模型的固有能力,引入蒸餾損失,約束可見標(biāo)記輸出和原本 2D 預(yù)訓(xùn)練模型中對應(yīng)特征之間的距離。在第一階段的訓(xùn)練過程中,我們通過重建和蒸餾損失來微調(diào)注入的適配器和解碼器,損失函數(shù)公式為:

圖片

3.2 2D Model-lifting Strategy (顯式 3D 機(jī)器人模仿學(xué)習(xí))

在賦予 2D 基礎(chǔ)模型隱式的 3D 機(jī)器人感知能力后,我們引入了一種 Lifting 策略,使 2D 模型能夠顯式地理解點(diǎn)云數(shù)據(jù)。近期的工作,無論是將 3D 點(diǎn)云投影到多視圖圖像中,還是將 2D 特征提升到 3D 空間中,都面臨由于模態(tài)轉(zhuǎn)換而丟失空間信息的挑戰(zhàn)。因此,高效地編碼 3D 數(shù)據(jù)一直是 3D 機(jī)器人領(lǐng)域的一個(gè)關(guān)鍵研究方向。

對于基于 Transformer 的 2D 模型,位置嵌入(PEs)起著重要作用,因?yàn)樗鼈優(yōu)樽⒁饬C(jī)制中的輸入 token 提供了位置信息。然而,直接創(chuàng)建新的 3D 位置嵌入來編碼 3D token 可能會(huì)引入語義差異,這些差異源于預(yù)訓(xùn)練的 2D 基礎(chǔ)模型與新添加的 3D 位置嵌入之間的不同,從而可能導(dǎo)致大規(guī)模預(yù)訓(xùn)練知識(shí)的喪失。因此,受 [23, 24, 71] 啟發(fā),將 3D token 投影到多個(gè)虛擬平面上。與之前的工作不同,我們的投影過程并不是為了構(gòu)建模型的輸入,而是為了在輸入的 3D 點(diǎn)和每個(gè)虛擬平面的預(yù)訓(xùn)練 2D 位置嵌入之間建立位置對應(yīng)關(guān)系。然后,這些 2D 位置嵌入被用于直接編碼 3D 標(biāo)記。

如圖 2 b) 所示,我們將原始的點(diǎn)云數(shù)據(jù)轉(zhuǎn)化為高維空間 (B x 128 x 768),通過輕量級(jí)的 3D 標(biāo)記器獲得 k 個(gè)(k = 128)3D token。3D tokenizer 由最遠(yuǎn)點(diǎn)采樣、k - 最近鄰聚合算法和可學(xué)習(xí)的線性層構(gòu)成,用于特征編碼。隨后,每個(gè) 3D 坐標(biāo)投影到 n 個(gè)虛擬平面上,得到相應(yīng)的 3D 到 2D 的坐標(biāo)對應(yīng)。投影機(jī)制無可學(xué)習(xí)參數(shù)且高效,我們采用帶有 6 個(gè)面的立方體投影方法,有效捕獲空間信息。這 n 個(gè)虛擬平面對應(yīng)于 n 個(gè)原始的 2D 位置嵌入。

使用 3D 到 2D 坐標(biāo)對應(yīng),將每個(gè) 3D token 分配到 n 個(gè)原始 2D 位置嵌入。在將每個(gè) 3D 標(biāo)記與 n 個(gè) 2D 位置嵌入對齊后,我們通過平均值的方式創(chuàng)建一個(gè)統(tǒng)一的 3D 位置信號(hào),表示為:

圖片

將 3D 位置嵌入與 3D tokens 結(jié)合,輸入到 2D 基礎(chǔ)模型中。通過這種方式,我們利用 n 個(gè)結(jié)合的原始 2D PEs 來編碼 3D tokens,從而有效地提供了 2D 空間內(nèi)的多樣位置關(guān)系,并減輕了 3D 集合信息的丟失。來自 2D 基礎(chǔ)模型的輸出特征將通過一個(gè)簡單的 policy head 進(jìn)行處理,以預(yù)測用于模仿學(xué)習(xí)的位姿。我們使用三層多層感知機(jī)(MLP)來構(gòu)建策略頭。需要注意的是,我們的 Lift3D 編碼器可以輕松適配不同的解碼器或策略頭,例如 Diffusion Transformer, Large Language Model;這里使用 MLP 頭部是為了簡單驗(yàn)證。最后,模仿學(xué)習(xí)的損失函數(shù)如下所示,其中 T、R 和 G 分別代表末端執(zhí)行器位姿中的平移、旋轉(zhuǎn)和夾持器狀態(tài)。

圖片

4. 模擬器實(shí)驗(yàn)

4.1 基準(zhǔn)測試

從三個(gè)廣泛使用的操縱模擬器 benchmark 中選擇了 30 多個(gè)任務(wù):MetaWorld 和 Adroit 在 MuJoCo 模擬器中的任務(wù),以及 RLBench 在 CoppeliaSim 模擬器中的任務(wù)。點(diǎn)云數(shù)據(jù)通過使用相機(jī)外參和內(nèi)參從單視圖 RGBD 數(shù)據(jù)中獲得。對于 MetaWorld,選擇了一個(gè)包含 Sawyer 臂和雙指夾持器的桌面環(huán)境,并從不同難度級(jí)別中選擇了 15 個(gè)任務(wù)。這些任務(wù)從兩個(gè)角落攝像頭視角捕捉,任務(wù)分類如下:簡單任務(wù):按鈕按壓、抽屜打開、到達(dá)、拉手柄、插頭拔出、拉桿和旋鈕轉(zhuǎn)動(dòng)。中等任務(wù):錘子、清掃、垃圾桶取物、推墻和箱子關(guān)閉。難度較高任務(wù):組裝、手伸入和架子放置。對于 Adroit 任務(wù),重點(diǎn)是使用與 [52] 中相同攝像頭視角的靈巧手操作,包括了三個(gè)任務(wù):錘子、門和鋼筆。對于 RLBench,它使用 Franka Panda 機(jī)器人和前視攝像頭。具體任務(wù)選擇見論文 Appendix。

4.2 基線對比

Lift3D 的創(chuàng)新之處在于系統(tǒng)性地增強(qiáng)了隱式和顯式的 3D 機(jī)器人表示。為了評估其有效性,將 Lift3D 與來自三個(gè)類別的 9 種方法進(jìn)行了比較:

1)2D 機(jī)器人表示方法:選擇了 CLIP(ViT-base),它是一個(gè) 2D 基礎(chǔ)模型。此外,還包括了 R3M 和 VC1,這兩者都是 2D 機(jī)器人預(yù)訓(xùn)練方法。

2)3D 機(jī)器人表示方法:借鑒了 [95],采用了基礎(chǔ)的 3D 模型,包括 PointNet、PointNet++ 和 PointNext。此外,還檢驗(yàn)了 SPA ,這是之前的 SOTA 3D 機(jī)器人預(yù)訓(xùn)練方法。與 [52] 相同,所有機(jī)器人表示方法均使用與 Lift3D 相同的三層策略頭和訓(xùn)練損失。

3)3D 策略方法:Lift3D 與之前的 SOTA 3D 擴(kuò)散策略(DP3)在 MetaWorld 和 Adroit 上進(jìn)行了比較,并在 RLBench 上與 RVT-2 進(jìn)行了比較。

4.3 定量實(shí)驗(yàn)

如下表所示,Lift3D (CLIP) 在 MetaWorld 基準(zhǔn)測試中達(dá)到了 83.9 的平均成功率,其中中等任務(wù)的準(zhǔn)確率為 78.8,困難任務(wù)的準(zhǔn)確率為 82.0。Lift3D 比 SOTA 2D 方法提高了 8.8 的平均成功率,比 SOTA 3D 方法上提高了 14.4。此外,Lift3D 在靈巧手操作任務(wù)上也優(yōu)于以前的機(jī)器人表示和策略方法。需要注意的是,靈巧手在不同任務(wù)中有不同的自由度,其中 hammer, door, pen 任務(wù)分別具有 26、28 和 24 個(gè)自由度。這些結(jié)果表明,我們的方法在更復(fù)雜的靈巧手操作任務(wù)中同樣有效,得益于強(qiáng)大的 3D 機(jī)器人表示能力。Lift3D (DINOV2) 也展示了良好的結(jié)果,證明了該方法在其他 2D 基礎(chǔ)模型中的可行性。

圖片

5. 真機(jī)實(shí)驗(yàn)

5.1 數(shù)據(jù)收集

在真機(jī)實(shí)驗(yàn)設(shè)置中,我們使用 Franka Research 3 機(jī)械臂,并通過 Intel RealSense L515 RGBD 相機(jī)捕捉靜態(tài)前視圖。實(shí)驗(yàn)包括 10 種任務(wù):1)將瓶子放到架子上,2) 倒水,3) 拔掉充電器,4) 堆積積木,5) 撿起并放置物體,6) 滑動(dòng)積木,7) 澆水,8) 擦桌子,9) 打開抽屜,10) 關(guān)上抽屜。對于每個(gè)任務(wù),我們在不同的空間位置收集了 40 次演示,軌跡以 30 fps 進(jìn)行記錄。我們選擇了 30 次實(shí)驗(yàn)并提取了關(guān)鍵幀,用以構(gòu)建每個(gè)任務(wù)的訓(xùn)練集。

圖片

5.2 定量實(shí)驗(yàn)

如下圖和下表所示,我們將 Lift3D (CLIP) 與 DP3、VC-1 和 PointNet 進(jìn)行比較。結(jié)果表明,Lift3D 在多個(gè)任務(wù)中表現(xiàn)一致且良好。特別是在 “將瓶子放到架子上” 任務(wù)中,該任務(wù)要求精確的 3D 位置和旋轉(zhuǎn)預(yù)測,Lift3D 達(dá)到了 90 的成功率。結(jié)果表明,Lift3D 能夠有效理解 3D 空間場景,并在現(xiàn)實(shí)世界中做出準(zhǔn)確的位姿預(yù)測。對于復(fù)雜任務(wù) “擦桌子”,由于需要操縱可變形的物體,所有方法在精度上都面臨限制。盡管如此,Lift3D 仍然達(dá)到了 40 的成功率。

圖片

圖片

5.3 定性實(shí)驗(yàn)

如下圖所示,展示了六個(gè)真實(shí)世界任務(wù)的操作過程。本文的方法準(zhǔn)確預(yù)測了連續(xù)的 7 自由度末端執(zhí)行器姿態(tài),使得任務(wù)得以沿著軌跡順利完成。例如,在 “給植物澆水” 任務(wù)中,Lift3D 首先準(zhǔn)確抓住了澆水壺的手柄。接著,它平穩(wěn)地抬起壺并將其定位到植物上方。最后,夾持器逐漸旋轉(zhuǎn)以控制 “水流”。

圖片

6. 泛化性實(shí)驗(yàn)

借助于 2D 基礎(chǔ)模型的大規(guī)模預(yù)訓(xùn)練知識(shí)和全面的 3D 機(jī)器人表示,Lift3D 展現(xiàn)出現(xiàn)實(shí)世界泛化能力。如下表所示,我們設(shè)計(jì)了三種與訓(xùn)練場景不同的現(xiàn)實(shí)世界測試場景,以驗(yàn)證其泛化性能。

6.1 不同的操縱實(shí)例

Lift3D 在多種不同的操縱物體上表現(xiàn)出色,準(zhǔn)確度損失最小。這一成功主要得益于預(yù)訓(xùn)練的 2D 基礎(chǔ)模型在語義理解方面的強(qiáng)大能力。

6.2 復(fù)雜的背景場景

背景干擾顯著降低了所有方法的準(zhǔn)確度,但 Lift3D 的準(zhǔn)確度下降最小,操縱成功率保持在 50% 以上。這得益于在 3D 空間中有效利用大規(guī)模預(yù)訓(xùn)練知識(shí)。此外,基于可操作性的掩膜策略通過重建強(qiáng)化了模型對前景區(qū)域空間幾何的理解,最大限度地減少了背景干擾的影響。

6.3 不同的光照條件

光照變化不僅會(huì)影響 2D 圖像的數(shù)據(jù)分布,還會(huì)影響深度捕捉,從而影響點(diǎn)云數(shù)據(jù)。在光照變化的影響下,Lift3D 僅表現(xiàn)出約 20% 的準(zhǔn)確度下降,充分展示了其強(qiáng)大的 3D 機(jī)器人表示能力。

圖片

7. 可擴(kuò)展性(Scalability)探究

在計(jì)算機(jī)視覺中,2D 基礎(chǔ)模型通常隨著參數(shù)規(guī)模的增加,能夠提升下游任務(wù)的表現(xiàn)?;诖耍覀冄芯苛宋覀兲岢龅?Lift3D 策略是否也具有可擴(kuò)展性。我們在非常困難的 MetaWorld 仿真任務(wù) “shelf-place” 上進(jìn)行了實(shí)驗(yàn)。在這個(gè)復(fù)雜任務(wù)中,Lift3D(DINOV2-ViT-base)僅達(dá)到 28 的準(zhǔn)確率。ViT-base 的參數(shù)量只有 86M,而 ViT-large 和 ViT-giant 的參數(shù)量分別為 304M 和 1B。通過將 2D 基礎(chǔ)模型替換為 DINOV2-ViT-large 和 DINOV2-ViT-giant,Lift3D 在 “shelf-place” 任務(wù)上的準(zhǔn)確率分別提高到 60 和 68,并且收斂速度更快。這些改進(jìn)表明,Lift3D 策略模型具有良好的可擴(kuò)展性,且隨著更大規(guī)模的 2D 基礎(chǔ)模型,Lift3D 框架能夠生成更魯棒的操作策略。

圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2020-08-26 10:37:21

阿里3D

2025-03-27 09:26:30

2011-09-22 10:07:52

奧圖碼投影儀

2023-05-03 09:01:41

CanvasWebGL

2024-10-15 13:07:38

2011-05-03 11:07:46

2D3D麗訊

2024-03-25 08:00:00

3DAI

2013-01-30 16:15:40

adobeHTML5css3

2025-04-11 09:44:23

2024-06-17 12:33:34

2022-05-23 10:26:10

人工智能機(jī)器學(xué)習(xí)機(jī)器視覺

2011-10-06 13:30:45

宏碁投影儀

2012-11-26 12:51:44

木材3D打

2025-02-13 08:26:26

2022-07-13 10:20:14

自動(dòng)駕駛3D算法

2023-09-27 10:13:09

3D模型

2023-10-09 09:42:18

自動(dòng)駕駛模型

2023-08-18 08:00:00

游戲開發(fā)3D模型

2021-09-14 10:11:46

谷歌3D舞蹈生成模型FACT
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)