自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

僅需10%參數(shù)量即超越SOTA!浙大、字節(jié)、港中文聯(lián)合提出「類別級位姿估計」任務(wù)新框架

人工智能 新聞
新位姿估計模型:位姿和形狀解耦估計,用最少的參數(shù)量訓(xùn)練,獲得最優(yōu)的效果。

賦予機器人對日常物體的 3D 理解是機器人應(yīng)用中的一項重大挑戰(zhàn)。

在未知環(huán)境中進(jìn)行探索時,由于物體形狀的多樣性,現(xiàn)有的物體位姿估計方法仍然不能令人滿意。

圖片

最近浙江大學(xué)、字節(jié)跳動人工智能實驗室和香港中文大學(xué)的研究者聯(lián)合提出了一個新的框架,用于從單個 RGB-D 圖像進(jìn)行類別級物體形狀和位姿估計。

圖片

論文地址:?https://arxiv.org/abs/2210.01112?

項目鏈接:?https://zju3dv.github.io/gCasp?

為了處理類別內(nèi)物體的形狀變化,研究人員采用語義原始表示,將不同的形狀編碼到一個統(tǒng)一的隱空間中,這種表示是在觀察到的點云和估計的形狀之間建立可靠對應(yīng)關(guān)系的關(guān)鍵。

然后通過設(shè)計的對剛體相似變換不變的形狀描述子,解耦了物體的形狀和位姿估計,從而支持任意位姿中目標(biāo)物體的隱式形狀優(yōu)化。實驗表明所提出的方法在公開數(shù)據(jù)集中實現(xiàn)了領(lǐng)先的位姿估計性能。

研究背景

在機器人的感知與操作領(lǐng)域,估計日常物體的形狀和位姿是一項基本功能,并且具有多種應(yīng)用,其中包括 3D 場景理解、機器人操作和自主倉儲。

該任務(wù)的早期工作大多集中在實例級位姿估計上,這些工作主要通過將觀察到的物體與給定的 CAD 模型對齊來獲得物體位姿。

然而,這樣的設(shè)置在現(xiàn)實世界的場景中是有限的,因為很難預(yù)先獲得一個任意給定物體的確切模型。

為了推廣到那些沒見過但是在語義上熟悉的物體,類別級別物體位姿估計正在引起越來越多的研究關(guān)注,因為它可以潛在地處理真實場景中同一類別的各種實例。

圖片

現(xiàn)有的類別級位姿估計方法通常嘗試預(yù)測一個類中實例的像素級歸一化坐標(biāo),或者采用形變之后的參考先驗?zāi)P蛠砉烙嬑矬w位姿。

盡管這些工作已經(jīng)取得了很大的進(jìn)步,但是當(dāng)同一類別中存在較大的形狀差異時,這些一次性預(yù)測方法仍然面臨困難。

為了處理同一類內(nèi)物體的多樣性,一些工作利用神經(jīng)隱式表示,通過迭代優(yōu)化隱式空間中的位姿和形狀來適應(yīng)目標(biāo)物體的形狀,并獲得了更好的性能。

在類別級物體位姿估計中有兩個主要挑戰(zhàn),一是巨大的類內(nèi)形狀差異,二是現(xiàn)有的方法將形狀和位姿的耦合在一起進(jìn)行優(yōu)化,這樣容易導(dǎo)致優(yōu)化問題更加復(fù)雜。

在這篇論文中,研究人員通過設(shè)計的對剛體相似變換不變的形狀描述子,解耦了物體的形狀和位姿估計,從而支持任意位姿中目標(biāo)物體的隱式形狀優(yōu)化。最后再根據(jù)估計形狀與觀測之間的語義關(guān)聯(lián),求解出物體的尺度與位姿。

算法介紹

算法由三個模塊組成,語義原語提取、生成式形狀估計物體位姿估計

圖片

算法的輸入是單張 RGB-D 圖像,算法使用預(yù)先訓(xùn)練好的 Mask R-CNN 獲得 RGB 圖像的語義分割結(jié)果,然后根據(jù)相機內(nèi)參反投影得到每個物體的點云。該方法主要對點云進(jìn)行處理,最終求得每個物體的尺度與6DoF位姿。

語義原語提取

DualSDF[1] 中提出了一種針對同類物體的語義原語的表示方法。如下圖左所示,在同一類物體中,每個實例都被分成了一定數(shù)量的語義原語,每個原語的標(biāo)簽對應(yīng)著某類物體的特定部位。

為了從觀測點云中提取物體的語義原語,作者利用了一個點云分割網(wǎng)絡(luò),將觀測點云分割成了帶有標(biāo)簽的語義原語。

圖片

生成式的形狀估計

3D的生成模型(如DeepSDF)大多是在歸一化的坐標(biāo)系下運行的。

然而在真實世界觀測中的物體與歸一化坐標(biāo)系之間會存在一個相似位姿變換(旋轉(zhuǎn)、平移以及尺度)。

為了在位姿未知時來求解當(dāng)前觀測對應(yīng)的歸一化形狀,作者基于語義原語表示,提出了一種對相似變換不變的形狀描述子。

這種描述子如下圖所示,它描述了不同原語構(gòu)成的向量之間的夾角:

圖片

作者通過這個描述子來衡量當(dāng)前觀測與估計形狀之間的誤差,并通過梯度下降來使得估計形狀與觀測之間更加一致,過程如下圖所示。 

圖片

作者另外展示了更多的形狀優(yōu)化示例。

圖片

位姿估計

最后,通過觀測點云與求解形狀之間的語義原語對應(yīng)關(guān)系,作者使用 Umeyama 算法求解了觀測形狀的位姿。

圖片

實驗結(jié)果

作者在 NOCS 提供的 REAL275(真實數(shù)據(jù)集) 和 CAMERA25(合成數(shù)據(jù)集) 數(shù)據(jù)集上進(jìn)行了對比實驗,與其他方法在位姿估計精度上進(jìn)行了對比,所提出的方法在多項指標(biāo)上遠(yuǎn)超其他方法。

同時,作者也對比了需要在 NOCS 提供的訓(xùn)練集上訓(xùn)練的參數(shù)量,作者需要最少的2.3M的參數(shù)量便達(dá)到了最先進(jìn)水平。

圖片

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-04-03 09:27:44

2024-10-11 09:32:48

2024-07-10 12:38:22

2021-12-01 10:05:12

模型人工智能計算

2024-03-07 12:51:08

模型訓(xùn)練

2023-09-25 14:53:55

3D檢測

2021-09-03 16:41:26

模型人工智能深度學(xué)習(xí)

2022-09-30 15:15:41

模型框架

2025-04-11 09:35:34

2024-02-21 09:25:50

3D自動駕駛

2022-07-17 13:07:26

模型開源

2024-07-01 12:19:33

2024-01-22 09:54:09

模型數(shù)據(jù)

2024-01-12 13:10:06

AI數(shù)據(jù)

2024-01-18 12:37:31

SOTA3D方法

2024-06-11 07:02:00

大模型3D內(nèi)容生成技術(shù)

2025-01-13 12:33:42

2010-09-07 10:00:21

惠普甲骨文

2025-01-27 12:12:25

2022-12-12 11:31:39

數(shù)據(jù)學(xué)習(xí)
點贊
收藏

51CTO技術(shù)棧公眾號