五秒手機貓片也能重建貓咪3D模型,Meta提出新算法為變形物體建模
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
眾所周知,貓是一種液體。
這也給CVer帶來了極大的煩惱:如何從2D視頻中準(zhǔn)確地對一只貓進行3D重建?
在很多情況下,3D重建模型得到的真是一灘液體。
而最近Meta團隊提出的BANMo(Builder of Animatable 3D Neural Models),實現(xiàn)了對貓精確的3D重建。
這種方法既不需要專門的傳感器,也不需要預(yù)定義的模板形狀,甚至只用你平時給貓咪拍攝的休閑小視頻,就可以做3D重建。
這篇關(guān)于BANMo的論文最近被CVPR 2022接收,作者已經(jīng)將相關(guān)代碼開源。
原理
從單目視頻中重建自由移動的非剛性物體(例如貓),是一項高度約束不足的任務(wù),會面臨三大挑戰(zhàn):
如何在規(guī)范空間中表示目標(biāo)模型的3D外觀和變形;
如何找到規(guī)范空間與每幀之間的映射關(guān)系;
如何找到圖像中視角、光線變化、目標(biāo)變形之間的2D對應(yīng)關(guān)系。
之前像NRSfM、NeRF等方法,要么是無法精確重建表面,要么對拍攝視角與物體的剛性有要求。
針對這些問題,BANMo使用神經(jīng)混合皮膚,提供了一種限制目標(biāo)物體變形空間的方法。
BANMo可以實現(xiàn)高保真3D幾何重建。與動態(tài)NeRF方法相比,BANMo中使用神經(jīng)混合皮膚可以更好地處理相機參數(shù)未知情況下的姿勢變化和變形。
總的來說,BANMo的關(guān)鍵在于合并了三種技術(shù):
(1)利用鉸接骨架和混合皮膚的經(jīng)典可變形形狀模型;
(2)適合基于梯度優(yōu)化的神經(jīng)輻射場NeRF;
(3)在像素和鉸接模型之間產(chǎn)生對應(yīng)關(guān)系的規(guī)范嵌入。
大致方法如下圖所示:
根據(jù)可微分的卷渲染框架(3.1)優(yōu)化一組形狀和變形參數(shù),用像素顏色、輪廓、光流和高階特征描述詞來描述視頻觀測結(jié)果。
使用神經(jīng)混合皮膚模型(3.2)在相機空間和規(guī)范空間之間轉(zhuǎn)換3D點。
聯(lián)合優(yōu)化隱式規(guī)范嵌入(3.3),在視頻中注冊像素。
從整體架構(gòu)上來看,BANMo分為三塊:
1、形狀和外觀模型
這部分用多層感知器(MLP)網(wǎng)絡(luò)預(yù)測顏色、密度等屬性,并學(xué)習(xí)相機視角變換和處理大變形。
2、神經(jīng)混合皮膚變形模型
這是基于近似關(guān)節(jié)身體運動的神經(jīng)混合皮膚模型,將物體的扭曲作為剛體變換的組合,每個變換都是可微和可逆的。
3、規(guī)范嵌入像素注冊
嵌入對規(guī)范空間中3D點的語義信息進行編碼,在這里作者優(yōu)化了一個隱式函數(shù),從與2D DensePose CSE嵌入相匹配的3D規(guī)范點生成規(guī)范嵌入。
在真實和合成數(shù)據(jù)集上,BANMo在重建穿衣服的人類和動物方面表現(xiàn)出強大的性能。
作者簡介
這篇第一作者是楊庚山,畢業(yè)于西安交通大學(xué),現(xiàn)在在CMU攻讀博士學(xué)位,研究動態(tài)結(jié)構(gòu)的3D重建算法。
BANMo這篇論文是他在Meta實習(xí)期間完成。
從2019年至今,他共有4篇一作論文被NeurIPS接收、4篇一作論文被CVPR接收。