自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

零樣本6D物體姿態(tài)估計(jì)框架SAM-6D,向具身智能更進(jìn)一步

人工智能 新聞
零樣本 6D 姿態(tài)估計(jì)是一種更具泛化性的任務(wù)設(shè)置,給定任意物體的 CAD 模型,旨在場(chǎng)景中檢測(cè)出該目標(biāo)物體,并估計(jì)其 6D 姿態(tài)。

物體姿態(tài)估計(jì)在許多現(xiàn)實(shí)世界應(yīng)用中起到至關(guān)重要的作用,例如具身智能、機(jī)器人靈巧操作和增強(qiáng)現(xiàn)實(shí)等。

在這一領(lǐng)域中,最先受到關(guān)注的任務(wù)是實(shí)例級(jí)別 6D 姿態(tài)估計(jì),其需要關(guān)于目標(biāo)物體的帶標(biāo)注數(shù)據(jù)進(jìn)行模型訓(xùn)練,使深度模型具有物體特定性,無(wú)法遷移應(yīng)用到新物體上。后來(lái)研究熱點(diǎn)逐步轉(zhuǎn)向類別級(jí)別 6D 姿態(tài)估計(jì),用于處理未見(jiàn)過(guò)的物體,但要求該物體屬于已知的感興趣類別。

零樣本 6D 姿態(tài)估計(jì)是一種更具泛化性的任務(wù)設(shè)置,給定任意物體的 CAD 模型,旨在場(chǎng)景中檢測(cè)出該目標(biāo)物體,并估計(jì)其 6D 姿態(tài)。盡管其具有重要意義,這種零樣本的任務(wù)設(shè)置在物體檢測(cè)和姿態(tài)估計(jì)方面都面臨著巨大的挑戰(zhàn)。

圖片

圖 1. 零樣本 6D 物體姿態(tài)估計(jì)任務(wù)示意

最近,分割一切模型 SAM [1] 備受關(guān)注,其出色的零樣本分割能力令人矚目。SAM 通過(guò)各種提示,如像素點(diǎn)、包圍框、文本和掩膜等,實(shí)現(xiàn)高精度的分割,這也為零樣本 6D 物體姿態(tài)估計(jì)任務(wù)提供了可靠的支撐, 展現(xiàn)了其前景的潛力。

因此,來(lái)自跨維智能、香港中文大學(xué)(深圳)、華南理工大學(xué)的研究人員提出了一個(gè)新穎的零樣本 6D 物體姿態(tài)估計(jì)框架 SAM-6D。該論文目前已被 CVPR 2024 接受。

圖片


  • 論文鏈接: https://arxiv.org/pdf/2311.15707.pdf
  • 代碼鏈接: https://github.com/JiehongLin/SAM-6D

SAM-6D 通過(guò)兩個(gè)步驟來(lái)實(shí)現(xiàn)零樣本 6D 物體姿態(tài)估計(jì),包括實(shí)例分割和姿態(tài)估計(jì)。相應(yīng)地,給定任意目標(biāo)物體,SAM-6D 利用兩個(gè)專用子網(wǎng)絡(luò),即實(shí)例分割模型(ISM)和姿態(tài)估計(jì)模型(PEM),來(lái)從 RGB-D 場(chǎng)景圖像中實(shí)現(xiàn)目標(biāo);其中,ISM 將 SAM 作為一個(gè)優(yōu)秀的起點(diǎn),結(jié)合精心設(shè)計(jì)的物體匹配分?jǐn)?shù)來(lái)實(shí)現(xiàn)對(duì)任意物體的實(shí)例分割,PEM 通過(guò)局部到局部的兩階段點(diǎn)集匹配過(guò)程來(lái)解決物體姿態(tài)問(wèn)題。SAM-6D 的總覽如圖 2 所示。

圖片

圖 2. SAM-6D 總覽圖

總體來(lái)說(shuō),SAM-6D 的技術(shù)貢獻(xiàn)可概括如下:

  • SAM-6D 是一個(gè)創(chuàng)新的零樣本 6D 姿態(tài)估計(jì)框架,通過(guò)給定任意物體的 CAD 模型,實(shí)現(xiàn)了從 RGB-D 圖像中對(duì)目標(biāo)物體進(jìn)行實(shí)例分割和姿態(tài)估計(jì),并在 BOP [2] 的七個(gè)核心數(shù)據(jù)集上表現(xiàn)優(yōu)異。
  • SAM-6D 利用分割一切模型的零樣本分割能力,生成了所有可能的候選對(duì)象,并設(shè)計(jì)了一個(gè)新穎的物體匹配分?jǐn)?shù),以識(shí)別與目標(biāo)物體對(duì)應(yīng)的候選對(duì)象。
  • SAM-6D 將姿態(tài)估計(jì)視為一個(gè)局部到局部的點(diǎn)集匹配問(wèn)題,采用了一個(gè)簡(jiǎn)單但有效的 Background Token 設(shè)計(jì),并提出了一個(gè)針對(duì)任意物體的兩階段點(diǎn)集匹配模型;第一階段實(shí)現(xiàn)粗糙的點(diǎn)集匹配以獲得初始物體姿態(tài),第二階段使用一個(gè)新穎的稀疏到稠密點(diǎn)集變換器以進(jìn)行精細(xì)點(diǎn)集匹配,從而對(duì)姿態(tài)進(jìn)一步優(yōu)化。

實(shí)例分割模型 (ISM)

SAM-6D 使用實(shí)例分割模型(ISM)來(lái)檢測(cè)和分割出任意物體的掩膜。

給定一個(gè)由 RGB 圖像表征的雜亂場(chǎng)景,ISM 利用分割一切模型(SAM)的零樣本遷移能力生成所有可能的候選對(duì)象。對(duì)于每個(gè)候選對(duì)象,ISM 為其計(jì)算一個(gè)物體匹配分?jǐn)?shù),以估計(jì)其與目標(biāo)物體之間在語(yǔ)義、外觀和幾何方面的匹配程度。最后通過(guò)簡(jiǎn)單設(shè)置一個(gè)匹配閾值,即可識(shí)別出與目標(biāo)物體所匹配的實(shí)例。

物體匹配分?jǐn)?shù)的計(jì)算通過(guò)三個(gè)匹配項(xiàng)的加權(quán)求和得到:

語(yǔ)義匹配項(xiàng) —— 針對(duì)目標(biāo)物體,ISM 渲染了多個(gè)視角下的物體模板,并利用 DINOv2 [3] 預(yù)訓(xùn)練的 ViT 模型提取候選對(duì)象和物體模板的語(yǔ)義特征,計(jì)算它們之間的相關(guān)性分?jǐn)?shù)。對(duì)前 K 個(gè)最高的分?jǐn)?shù)進(jìn)行平均即可得到語(yǔ)義匹配項(xiàng)分?jǐn)?shù),而最高相關(guān)性分?jǐn)?shù)對(duì)應(yīng)的物體模板視為最匹配模板。

外觀匹配項(xiàng) —— 對(duì)于最匹配模板,利用 ViT 模型提取圖像塊特征,并計(jì)算其與候選對(duì)象的塊特征之間的相關(guān)性,從而獲得外觀匹配項(xiàng)分?jǐn)?shù),用于區(qū)分語(yǔ)義相似但外觀不同的物體。

幾何匹配項(xiàng) —— 鑒于不同物體的形狀和大小差異等因素,ISM 還設(shè)計(jì)了幾何匹配項(xiàng)分?jǐn)?shù)。最匹配模板對(duì)應(yīng)的旋轉(zhuǎn)與候選對(duì)象點(diǎn)云的平均值可以給出粗略的物體姿態(tài),利用該姿態(tài)對(duì)物體 CAD 模型進(jìn)行剛性變換并投影可以得到邊界框。計(jì)算該邊界框與候選邊界框的交并比(IoU)則可得幾何匹配項(xiàng)分?jǐn)?shù)。

姿態(tài)估計(jì)模型 (PEM)

對(duì)于每個(gè)與目標(biāo)物體匹配的候選對(duì)象,SAM-6D 利用姿態(tài)估計(jì)模型(PEM)來(lái)預(yù)測(cè)其相對(duì)于物體 CAD 模型的 6D 姿態(tài)。 

將分割的候選對(duì)象和物體 CAD 模型的采樣點(diǎn)集分別表示為圖片 圖片,其中 N_m 和 N_o 表示它們點(diǎn)的數(shù)量;同時(shí),將這兩個(gè)點(diǎn)集的特征表示為圖片圖片,C 表示特征的通道數(shù)。PEM 的目標(biāo)是得到一個(gè)分配矩陣,用于表示從 P_m 到 P_o 之間的局部到局部對(duì)應(yīng)關(guān)系;由于遮擋的原因,P_o 只部分與匹配 P_m,而由于分割不準(zhǔn)確性和傳感器噪聲,P_m 也只部分與匹配 P_o。

為了解決兩個(gè)點(diǎn)集非重疊點(diǎn)的分配問(wèn)題,ISM 為它們分別配備了 Background Token,記為 圖片 和 圖片,則可以基于特征相似性有效地建立局部到局部對(duì)應(yīng)關(guān)系。具體來(lái)說(shuō),首先可以計(jì)算注意力矩陣如下:

圖片

接著可得分配矩陣

圖片

圖片 和 圖片 分別表示沿著行和列的 softmax 操作,圖片 表示一個(gè)常數(shù)。圖片 中的每一行的值(除了首行),表示點(diǎn)集 P_m 中每個(gè)點(diǎn) P_m 與背景及 P_o 中點(diǎn)的匹配概率,通過(guò)定位最大分?jǐn)?shù)的索引,則可以找到與 P_m 匹配的點(diǎn)(包括背景)。

一旦計(jì)算獲得 圖片 ,則可以聚集所有匹配點(diǎn)對(duì) {(P_m,P_o)} 以及它們的匹配分?jǐn)?shù),最終利用加權(quán) SVD 計(jì)算物體姿態(tài)。

圖片

圖 3. SAM-6D 中姿態(tài)估計(jì)模型 (PEM) 的示意圖

利用上述基于 Background Token 的策略,PEM 中設(shè)計(jì)了兩個(gè)點(diǎn)集匹配階段,其模型結(jié)構(gòu)如圖 3 所示,包含了特征提取、粗略點(diǎn)集匹配和精細(xì)點(diǎn)集匹配三個(gè)模塊。

粗糙點(diǎn)集匹配模塊實(shí)現(xiàn)稀疏對(duì)應(yīng)關(guān)系,以計(jì)算初始物體姿態(tài),隨后利用該姿態(tài)來(lái)對(duì)候選對(duì)象的點(diǎn)集進(jìn)行變換,從而實(shí)現(xiàn)位置編碼的學(xué)習(xí)。

精細(xì)點(diǎn)集匹配模塊結(jié)合候選對(duì)象和目標(biāo)物體的采樣點(diǎn)集的位置編碼,從而注入第一階段的粗糙對(duì)應(yīng)關(guān)系,并進(jìn)一步建立密集對(duì)應(yīng)關(guān)系以得到更精確的物體姿態(tài)。為了在這一階段有效地學(xué)習(xí)密集交互,PEM 引入了一個(gè)新穎的稀疏到稠密點(diǎn)集變換器,它實(shí)現(xiàn)在密集特征的稀疏版本上的交互,并利用 Linear Transformer [5] 將增強(qiáng)后的稀疏特征擴(kuò)散回密集特征。

實(shí)驗(yàn)結(jié)果

對(duì)于 SAM-6D 的兩個(gè)子模型,實(shí)例分割模型(ISM)是基于 SAM 構(gòu)建而成的,無(wú)需進(jìn)行網(wǎng)絡(luò)的重新訓(xùn)練和 finetune,而姿態(tài)估計(jì)模型(PEM)則利用 MegaPose [4] 提供的大規(guī)模 ShapeNet-Objects 和 Google-Scanned-Objects 合成數(shù)據(jù)集進(jìn)行訓(xùn)練。

為驗(yàn)證其零樣本能力,SAM-6D 在 BOP [2] 的七個(gè)核心數(shù)據(jù)集上進(jìn)行了測(cè)試,包括了 LM-O,T-LESS,TUD-L,IC-BIN,ITODD,HB 和 YCB-V。表 1 和表 2 分別展示了不同方法在這七個(gè)數(shù)據(jù)集上的實(shí)例分割和姿態(tài)估計(jì)結(jié)果的比較。相較于其他方法,SAM-6D 在兩個(gè)方法上的表現(xiàn)均十分優(yōu)異,充分展現(xiàn)其強(qiáng)大的泛化能力。

圖片

表 1. 不同方法在 BOP 七個(gè)核心數(shù)據(jù)集上的實(shí)例分割結(jié)果比較

圖片

表 2. 不同方法在 BOP 七個(gè)核心數(shù)據(jù)集上的姿態(tài)估計(jì)結(jié)果比較

圖 4 展示了 SAM-6D 在 BOP 七個(gè)數(shù)據(jù)集上的檢測(cè)分割以及 6D 姿態(tài)估計(jì)的可視化結(jié)果,其中 (a) 和 (b) 分別為測(cè)試的 RGB 圖像和深度圖,(c) 為給定的目標(biāo)物體,而 (d) 和 (e) 則分別為檢測(cè)分割和 6D 姿態(tài)的可視化結(jié)果。

圖片

圖 4. SAM-6D 在 BOP 的七個(gè)核心數(shù)據(jù)集上的可視化結(jié)果。

關(guān)于 SAM-6D 的更多實(shí)現(xiàn)細(xì)節(jié), 歡迎閱讀原論文.

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2010-03-15 09:40:19

Windows 8研發(fā)

2009-03-31 11:12:59

萬(wàn)兆以太網(wǎng)

2020-09-22 10:49:12

大數(shù)據(jù)旅游技術(shù)

2014-11-28 13:37:30

DCN無(wú)線

2021-04-27 11:20:20

機(jī)器學(xué)習(xí)骨科醫(yī)療

2023-12-18 13:06:25

腦機(jī)接口AI

2023-04-12 16:12:09

2014-11-13 15:54:23

Imperva亞馬遜

2010-07-01 08:45:54

RHEL 6 Beta

2021-01-29 17:57:32

存儲(chǔ)

2020-09-10 09:44:35

JavaScript

2016-09-07 15:38:13

綠色數(shù)據(jù)中心能源消耗

2017-03-16 09:26:27

谷歌神經(jīng)網(wǎng)絡(luò)智能化

2015-05-27 14:38:14

戴爾云計(jì)算

2022-07-27 22:15:20

HarmonyOS鴻蒙鴻蒙系統(tǒng)

2011-09-16 11:38:34

AVGQQ電腦管家

2017-12-27 10:40:13

UnixLinux習(xí)慣

2020-07-05 07:56:58

Python語(yǔ)言開(kāi)發(fā)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)