自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR 2024滿分論文,英偉達(dá)開源BOP排行榜6D物體姿態(tài)第一名方法

人工智能 新聞
來自英偉達(dá)的研究團(tuán)隊(duì)提出了一個(gè)統(tǒng)一的框架,稱為 FoundationPose,它在基于模型和無模型設(shè)置下,使用 RGBD 圖像對(duì)新穎物體進(jìn)行姿態(tài)估計(jì)和跟蹤。

想了解更多AIGC的內(nèi)容,

請(qǐng)?jiān)L問: 51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

物體姿態(tài)估計(jì)對(duì)于各種應(yīng)用至關(guān)重要,例如機(jī)器人操縱和混合現(xiàn)實(shí)。實(shí)例級(jí)方法通常需要紋理 CAD 模型來生成訓(xùn)練數(shù)據(jù),并且不能應(yīng)用于測(cè)試時(shí)未見過的新物體;而類別級(jí)方法消除了這些假設(shè)(實(shí)例訓(xùn)練和 CAD 模型),但獲取類別級(jí)訓(xùn)練數(shù)據(jù)需要應(yīng)用額外的姿態(tài)標(biāo)準(zhǔn)化和檢查步驟。

為了解決這些問題,來自英偉達(dá)的研究團(tuán)隊(duì)提出了一個(gè)統(tǒng)一的框架,稱為 FoundationPose,它在基于模型和無模型設(shè)置下,使用 RGBD 圖像對(duì)新穎物體進(jìn)行姿態(tài)估計(jì)和跟蹤。如下圖所示,F(xiàn)oundationPose 優(yōu)于現(xiàn)有專門針對(duì)這四項(xiàng)任務(wù)中每一項(xiàng)的 SOTA 方法。FoundationPose 通過大規(guī)模合成訓(xùn)練實(shí)現(xiàn)了強(qiáng)大的泛化能力,輔以大型語言模型(LLM)、以及一種新穎的基于 Transformer 的架構(gòu)和對(duì)比學(xué)習(xí)。該研究利用神經(jīng)隱式表示填補(bǔ)了基于模型和無模型設(shè)置之間的差距,使得 FoundationPose 可以使用少量(約 16 張)參考圖像進(jìn)行有效的新穎視圖合成,實(shí)現(xiàn)了比之前的渲染與比較方法 [32, 36, 67] 更快的渲染速度。研究論文被評(píng)為 CVPR 2024 滿分論文,代碼已開源。

圖片


  • 論文:FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects
  • 論文地址:https://arxiv.org/abs/2312.08344
  • 項(xiàng)目主頁:https://nvlabs.github.io/FoundationPose/ 
  • 項(xiàng)目代碼:https://github.com/NVlabs/FoundationPose

圖片


圖片

總的來說,該研究的主要貢獻(xiàn)包括:

  • 提出了一個(gè)統(tǒng)一的框架,用于新穎物體的姿態(tài)估計(jì)和跟蹤,支持基于模型和無模型設(shè)置。一種以物體為中心的神經(jīng)隱式表示用于有效的新穎視圖合成,彌合了這兩種設(shè)置之間的差距。
  • 提出了一種 LLM 輔助的合成數(shù)據(jù)生成流程,通過多樣的紋理增強(qiáng)擴(kuò)展了 3D 訓(xùn)練資源的種類。
  • 提出新穎的基于 Transformer 的網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)和對(duì)比學(xué)習(xí)公式在僅使用合成數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)實(shí)現(xiàn)了強(qiáng)大的泛化能力。
  • FoundationPose 方法在多個(gè)公共數(shù)據(jù)集上大幅優(yōu)于針對(duì)每個(gè)任務(wù)專門化的現(xiàn)有方法。即使減少了假設(shè),它甚至實(shí)現(xiàn)了與實(shí)例級(jí)方法可比的結(jié)果。

方法介紹

FoundationPose 是一個(gè)用于 6D 物體姿態(tài)估計(jì)和跟蹤的統(tǒng)一大模型,支持基于模型和無模型設(shè)置。該方法可以立即應(yīng)用于新穎的物體上,無需微調(diào),只要給出其 CAD 模型,或者拍攝少量參考圖像即可。FoundationPose 通過神經(jīng)隱式表示來彌合這兩種設(shè)置之間的差距,這種表示允許有效的新視圖合成,并在同一統(tǒng)一框架下保持下游姿態(tài)估計(jì)模塊的不變性。

通過大規(guī)模合成訓(xùn)練、大型語言模型(LLM)、一種新穎的基于 Transformer 的架構(gòu)和對(duì)比學(xué)習(xí)公式的輔助,F(xiàn)oundationPose 實(shí)現(xiàn)了強(qiáng)大的泛化能力。在涉及挑戰(zhàn)性場(chǎng)景和物體的多個(gè)公共數(shù)據(jù)集上進(jìn)行了廣泛評(píng)估,結(jié)果表明 FoundationPose 在性能上大幅優(yōu)于現(xiàn)有的針對(duì)每個(gè)任務(wù)專門化的方法。此外,盡管減少了假設(shè),但 FoundationPose 達(dá)到了與實(shí)例級(jí)方法相當(dāng)?shù)慕Y(jié)果。

FoundationPose的框架概述如下圖所示,為了減少大規(guī)模訓(xùn)練的手動(dòng)工作,該研究利用最近出現(xiàn)的技術(shù)和資源,包括 3D 模型數(shù)據(jù)庫、大型語言模型和擴(kuò)散模型,開發(fā)了一種新穎的合成數(shù)據(jù)生成流程。為了彌合無模型和基于模型的設(shè)置之間的差距,該研究利用一個(gè)以物體為中心的神經(jīng)場(chǎng)進(jìn)行新穎視圖的 RGBD 渲染,以便后續(xù)進(jìn)行渲染與比較。對(duì)于姿態(tài)估計(jì),該研究首先在物體周圍均勻初始化全局姿態(tài),然后通過精細(xì)化網(wǎng)絡(luò)對(duì)其進(jìn)行改進(jìn),最后將改進(jìn)后的姿態(tài)傳遞給姿態(tài)選擇模塊,該模塊預(yù)測(cè)它們的得分。具有最佳得分的姿態(tài)被選為輸出。

3.1 大語言模型輔助的大規(guī)模數(shù)據(jù)生成

為了實(shí)現(xiàn)強(qiáng)大的泛化能力,需要大量不同的物體和場(chǎng)景用于訓(xùn)練。在現(xiàn)實(shí)世界中獲取這樣的數(shù)據(jù),并標(biāo)注準(zhǔn)確的地面真值 6D 姿態(tài)是耗時(shí)且成本高昂的。另一方面,合成數(shù)據(jù)通常缺乏 3D 模型的規(guī)模和多樣性。該研究開發(fā)了一個(gè)新穎的合成數(shù)據(jù)生成流程用于訓(xùn)練,借助了最近出現(xiàn)的資源和技術(shù):大規(guī)模 3D 模型數(shù)據(jù)庫 [6, 10],大型語言模型(LLM)和擴(kuò)散模型 [4, 24, 53]。與之前的工作 [22, 26, 32] 相比,這種方法顯著提高了數(shù)據(jù)量和多樣性。

頂部:FS6D [22] 中提出的隨機(jī)紋理混合。底部:LLM 輔助的紋理增強(qiáng)使外觀更加逼真。最左邊是原始的 3D 模型。其中文本提示由 ChatGPT 自動(dòng)生成。

3.2 神經(jīng)輻射場(chǎng)物體建模

對(duì)于無模型設(shè)置,當(dāng) 3D CAD 模型不可用時(shí),一個(gè)關(guān)鍵挑戰(zhàn)是有效地表示物體,以便為下游模塊生成具有足夠質(zhì)量的圖像。神經(jīng)隱式表示對(duì)于新穎視圖合成和在 GPU 上可并行化均非常有效,因此在為下游姿態(tài)估計(jì)模塊渲染多個(gè)姿態(tài)假設(shè)時(shí)提供了高計(jì)算效率,如圖 2 所示。為此,該研究引入了一個(gè)以物體為中心的神經(jīng)場(chǎng)表示來進(jìn)行物體建模,靈感來自先前的工作 [45, 65, 71, 74]。一旦訓(xùn)練完成,神經(jīng)場(chǎng)可以被用作傳統(tǒng)圖形管線的替代品,以執(zhí)行對(duì)物體的高效渲染,用于后續(xù)的渲染和比較迭代。除了原始 NeRF [44] 中的顏色渲染之外,還需要深度渲染來進(jìn)行基于 RGBD 的姿態(tài)估計(jì)和跟蹤。

為此,該研究執(zhí)行 Marching Cubes [41] 來從 SDF 的零級(jí)集中提取一個(gè)帶有紋理的網(wǎng)格,并與顏色投影結(jié)合。這只需要為每個(gè)物體執(zhí)行一次。在推斷時(shí),給定任意物體姿態(tài)假設(shè),然后按照光柵化過程來渲染 RGBD 圖像。另外,也可以直接使用神經(jīng)場(chǎng)做 online 和球追蹤 [14] 來渲染深度圖像;然而,研究團(tuán)隊(duì)發(fā)現(xiàn)這樣做效率較低,特別是在需要并行渲染大量姿態(tài)假設(shè)時(shí)。

3.3 姿態(tài)假設(shè)生成

給定 RGBD 圖像,可以使用類似于 Mask RCNN [18] 或 CNOS [47] 這樣的現(xiàn)成方法來檢測(cè)物體。該研究使用在檢測(cè)到的 2D 邊界框內(nèi)位于中位深度處的 3D 點(diǎn)來初始化平移。為了初始化旋轉(zhuǎn),該研究從以物體為中心的球體上均勻采樣 Ns 個(gè)視點(diǎn),相機(jī)朝向球心。這些相機(jī)姿態(tài)還通過 Ni 個(gè)離散化的平面旋轉(zhuǎn)進(jìn)行增強(qiáng),從而產(chǎn)生 Ns?Ni 個(gè)全局姿態(tài)初始化,這些姿態(tài)被發(fā)送到姿態(tài)精化器作為輸入。姿態(tài)精化網(wǎng)絡(luò)架構(gòu)如總覽圖所示。

該研究首先使用單個(gè)共享的 CNN 編碼器從兩個(gè) RGBD 輸入分支中提取特征圖。特征圖被級(jí)聯(lián)起來,通過帶有殘差連接的 CNN 塊進(jìn)行處理,并通過位置嵌入進(jìn)行分塊化。最后,網(wǎng)絡(luò)預(yù)測(cè)平移更新?t ∈ R^3 和旋轉(zhuǎn)更新?R ∈ SO (3),每個(gè)都由一個(gè) Transformer 編碼器 [62] 單獨(dú)處理,并線性投影到輸出維度。更具體地說,?t 代表了物體在相機(jī)坐標(biāo)系中的平移移動(dòng),?R 代表了物體在相機(jī)坐標(biāo)系中表示的方向更新。在實(shí)踐中,旋轉(zhuǎn)是用軸 - 角度表示進(jìn)行參數(shù)化的。該研究還嘗試了 6D 表示 [78],它達(dá)到了類似的結(jié)果。然后該研究更新了輸入的粗略姿態(tài) [R | t] ∈ SE (3)。

圖片

其中 ? 表示在 SO (3) 上的更新。與使用單一的齊次姿態(tài)更新不同,這種分離表示在應(yīng)用平移更新時(shí)消除了對(duì)更新后方向的依賴性。這統(tǒng)一了相機(jī)坐標(biāo)系中的更新和輸入觀察,從而簡化了學(xué)習(xí)過程。網(wǎng)絡(luò)訓(xùn)練由 L2 損失監(jiān)督:

圖片

其中 ˉt 和 Rˉ 是地面真實(shí)值;w1 和 w2 是平衡損失的權(quán)重,根據(jù)經(jīng)驗(yàn)設(shè)置為 1。

3.4 最終輸出姿態(tài)選取

給定一系列經(jīng)過精化的姿態(tài)假設(shè),該研究使用一個(gè)分層姿態(tài)排名網(wǎng)絡(luò)來計(jì)算它們的得分。得分最高的姿態(tài)被選為最終估計(jì)值。下圖顯示姿態(tài)排序可視化。該研究提出的分層比較利用了所有姿態(tài)假設(shè)之間的全局上下文,以更好地預(yù)測(cè)整體趨勢(shì),使形狀和紋理都能對(duì)齊。真正的最佳姿態(tài)用紅色圓圈標(biāo)注。

實(shí)驗(yàn)和結(jié)果

該研究采用 5 個(gè)數(shù)據(jù)集對(duì) FoundationPose 方法進(jìn)行了實(shí)驗(yàn)評(píng)估:LINEMOD [23],OccludedLINEMOD [1],YCB-Video [73],T-LESS [25] 和 YCBInEOAT [67]。這些數(shù)據(jù)集涉及各種具有挑戰(zhàn)性的場(chǎng)景(密集雜亂、多實(shí)例、靜態(tài)或動(dòng)態(tài)場(chǎng)景、桌面或機(jī)器人操作),以及具有不同屬性的物體(無紋理、閃亮、對(duì)稱、尺寸變化)。

由于 FoundationPose 是一個(gè)統(tǒng)一的框架,該研究考慮了兩種設(shè)置(無模型和基于模型)以及兩個(gè)姿態(tài)預(yù)測(cè)任務(wù)(6D 姿態(tài)估計(jì)和跟蹤)之間的組合,總共有 4 個(gè)任務(wù)。對(duì)于無模型設(shè)置,從數(shù)據(jù)集的訓(xùn)練集中選擇了一些捕獲新穎物體的參考圖像,并配備了物體姿態(tài)的地面真值注釋,按照 [22] 的方法。對(duì)于基于模型的設(shè)置,為新穎物體提供了 CAD 模型。

圖片

圖片

圖片

除了消融實(shí)驗(yàn)外,在所有評(píng)估中,F(xiàn)oundationPose 始終使用相同的訓(xùn)練模型和配置進(jìn)行推斷,而無需任何微調(diào)。此外該研究還提交了結(jié)果至 BOP 排行榜并取得了第一名的成績。

圖片

圖片

圖片

團(tuán)隊(duì)介紹

該論文來自于英偉達(dá)研究院。其中論文一作華人溫伯文博士,任研究員。他的研究方向?yàn)闄C(jī)器人感知和 3D 視覺,此前曾在谷歌 X、Facebook Reality Labs、亞馬遜和商湯實(shí)習(xí),獲得過 RSS 最佳論文獎(jiǎng)提名。

圖片

個(gè)人主頁:https://wenbowen123.github.io/

想了解更多AIGC的內(nèi)容,

請(qǐng)?jiān)L問: 51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-02-21 11:28:16

編程語言PythonJava

2023-04-03 11:52:51

6D英偉達(dá)

2021-07-06 09:21:06

編程語言TIOBEPython

2025-04-07 09:45:00

2023-04-06 07:27:27

GTX1060Steam硬件

2022-02-12 11:30:35

數(shù)據(jù)庫Oracle

2020-05-14 09:36:53

編程語言C語言Java

2021-06-15 10:45:27

PythonC 語言編程語言

2016-11-17 09:40:06

NVIDIA

2015-03-09 10:07:50

NEC

2024-02-23 08:56:04

2023-06-09 15:39:40

編程語言Python

2024-03-25 08:35:00

6DAI

2019-09-09 14:53:29

編程語言PythonJava

2009-02-19 10:51:32

SaaS阿里軟件易觀國際

2021-09-18 15:03:17

華為計(jì)算

2021-08-27 10:50:30

編程語言開發(fā)Python

2015-07-07 10:52:46

RedMonk編程語言

2013-07-30 10:00:36

RedMonk編程語言排行榜
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)