僅需10%參數(shù)量即超越SOTA!浙大、字節(jié)、港中文聯(lián)合提出「類別級位姿估計」任務(wù)新框架
賦予機器人對日常物體的 3D 理解是機器人應(yīng)用中的一項重大挑戰(zhàn)。
在未知環(huán)境中進(jìn)行探索時,由于物體形狀的多樣性,現(xiàn)有的物體位姿估計方法仍然不能令人滿意。
最近浙江大學(xué)、字節(jié)跳動人工智能實驗室和香港中文大學(xué)的研究者聯(lián)合提出了一個新的框架,用于從單個 RGB-D 圖像進(jìn)行類別級物體形狀和位姿估計。
論文地址:?https://arxiv.org/abs/2210.01112?
項目鏈接:?https://zju3dv.github.io/gCasp?
為了處理類別內(nèi)物體的形狀變化,研究人員采用語義原始表示,將不同的形狀編碼到一個統(tǒng)一的隱空間中,這種表示是在觀察到的點云和估計的形狀之間建立可靠對應(yīng)關(guān)系的關(guān)鍵。
然后通過設(shè)計的對剛體相似變換不變的形狀描述子,解耦了物體的形狀和位姿估計,從而支持任意位姿中目標(biāo)物體的隱式形狀優(yōu)化。實驗表明所提出的方法在公開數(shù)據(jù)集中實現(xiàn)了領(lǐng)先的位姿估計性能。
研究背景
在機器人的感知與操作領(lǐng)域,估計日常物體的形狀和位姿是一項基本功能,并且具有多種應(yīng)用,其中包括 3D 場景理解、機器人操作和自主倉儲。
該任務(wù)的早期工作大多集中在實例級位姿估計上,這些工作主要通過將觀察到的物體與給定的 CAD 模型對齊來獲得物體位姿。
然而,這樣的設(shè)置在現(xiàn)實世界的場景中是有限的,因為很難預(yù)先獲得一個任意給定物體的確切模型。
為了推廣到那些沒見過但是在語義上熟悉的物體,類別級別物體位姿估計正在引起越來越多的研究關(guān)注,因為它可以潛在地處理真實場景中同一類別的各種實例。
現(xiàn)有的類別級位姿估計方法通常嘗試預(yù)測一個類中實例的像素級歸一化坐標(biāo),或者采用形變之后的參考先驗?zāi)P蛠砉烙嬑矬w位姿。
盡管這些工作已經(jīng)取得了很大的進(jìn)步,但是當(dāng)同一類別中存在較大的形狀差異時,這些一次性預(yù)測方法仍然面臨困難。
為了處理同一類內(nèi)物體的多樣性,一些工作利用神經(jīng)隱式表示,通過迭代優(yōu)化隱式空間中的位姿和形狀來適應(yīng)目標(biāo)物體的形狀,并獲得了更好的性能。
在類別級物體位姿估計中有兩個主要挑戰(zhàn),一是巨大的類內(nèi)形狀差異,二是現(xiàn)有的方法將形狀和位姿的耦合在一起進(jìn)行優(yōu)化,這樣容易導(dǎo)致優(yōu)化問題更加復(fù)雜。
在這篇論文中,研究人員通過設(shè)計的對剛體相似變換不變的形狀描述子,解耦了物體的形狀和位姿估計,從而支持任意位姿中目標(biāo)物體的隱式形狀優(yōu)化。最后再根據(jù)估計形狀與觀測之間的語義關(guān)聯(lián),求解出物體的尺度與位姿。
算法介紹
算法由三個模塊組成,語義原語提取、生成式形狀估計和物體位姿估計。
算法的輸入是單張 RGB-D 圖像,算法使用預(yù)先訓(xùn)練好的 Mask R-CNN 獲得 RGB 圖像的語義分割結(jié)果,然后根據(jù)相機內(nèi)參反投影得到每個物體的點云。該方法主要對點云進(jìn)行處理,最終求得每個物體的尺度與6DoF位姿。
語義原語提取
DualSDF[1] 中提出了一種針對同類物體的語義原語的表示方法。如下圖左所示,在同一類物體中,每個實例都被分成了一定數(shù)量的語義原語,每個原語的標(biāo)簽對應(yīng)著某類物體的特定部位。
為了從觀測點云中提取物體的語義原語,作者利用了一個點云分割網(wǎng)絡(luò),將觀測點云分割成了帶有標(biāo)簽的語義原語。
生成式的形狀估計
3D的生成模型(如DeepSDF)大多是在歸一化的坐標(biāo)系下運行的。
然而在真實世界觀測中的物體與歸一化坐標(biāo)系之間會存在一個相似位姿變換(旋轉(zhuǎn)、平移以及尺度)。
為了在位姿未知時來求解當(dāng)前觀測對應(yīng)的歸一化形狀,作者基于語義原語表示,提出了一種對相似變換不變的形狀描述子。
這種描述子如下圖所示,它描述了不同原語構(gòu)成的向量之間的夾角:
作者通過這個描述子來衡量當(dāng)前觀測與估計形狀之間的誤差,并通過梯度下降來使得估計形狀與觀測之間更加一致,過程如下圖所示。
作者另外展示了更多的形狀優(yōu)化示例。
位姿估計
最后,通過觀測點云與求解形狀之間的語義原語對應(yīng)關(guān)系,作者使用 Umeyama 算法求解了觀測形狀的位姿。
實驗結(jié)果
作者在 NOCS 提供的 REAL275(真實數(shù)據(jù)集) 和 CAMERA25(合成數(shù)據(jù)集) 數(shù)據(jù)集上進(jìn)行了對比實驗,與其他方法在位姿估計精度上進(jìn)行了對比,所提出的方法在多項指標(biāo)上遠(yuǎn)超其他方法。
同時,作者也對比了需要在 NOCS 提供的訓(xùn)練集上訓(xùn)練的參數(shù)量,作者需要最少的2.3M的參數(shù)量便達(dá)到了最先進(jìn)水平。