Meta元宇宙出狠活!一個(gè)攝像頭就能捏出個(gè)會(huì)動(dòng)的虛擬化身
運(yùn)動(dòng)中的人類新視圖合成是一個(gè)極具挑戰(zhàn)性的計(jì)算機(jī)視覺(jué)問(wèn)題。
以往的2D圖片轉(zhuǎn)三維模型都是在靜態(tài)的情況下,但如果輸入的是一段人類運(yùn)動(dòng)的視頻,該如何生成自由視角的視頻?
如果這個(gè)問(wèn)題解決了,那就可以在AR/VR應(yīng)用中的自動(dòng)化實(shí)現(xiàn)虛擬化身建模。
現(xiàn)有的一些研究工作通常需要復(fù)雜的任務(wù)設(shè)置,包括多個(gè)輸入視頻、三維監(jiān)督或預(yù)訓(xùn)練模型,這些苛刻的要求都限制了模型的泛化性,無(wú)法很好地推廣到新用戶的輸入上。
為了解決這些局限性,Meta提出了一個(gè)新視圖合成框架HVS-Net,可以從任意人類的未見(jiàn)視圖中生成逼真的渲染。視圖的捕獲過(guò)程只需要一個(gè)具有稀疏RGB-D的單視圖傳感器,類似于一個(gè)低成本的深度相機(jī)。
論文鏈接:?https://www.phongnhhn.info/HVS_Net/img/HVSNet.pdf?
論文中提出了一個(gè)架構(gòu)來(lái)學(xué)習(xí)基于球體(sphere-based)的神經(jīng)渲染所獲得的新視圖中的稠密特征,并使用全局上下文繪畫(huà)模型來(lái)創(chuàng)建完整的渲染圖。
此外還包括一個(gè)增強(qiáng)網(wǎng)絡(luò)(enhancer network)利用整體保真度,甚至在原始視圖的遮擋區(qū)域,產(chǎn)生具有精細(xì)細(xì)節(jié)的清晰渲染。
實(shí)驗(yàn)結(jié)果顯示,該方法在單一稀疏的RGB-D輸入的情況下仍然可以生成高質(zhì)量的合成和真實(shí)人類的新視圖,并且能夠泛化到未見(jiàn)過(guò)的新人物、新的姿勢(shì)并忠實(shí)地重建面部表情。
該方法不僅優(yōu)于先前的人類視圖合成方法,而且對(duì)不同稀疏度的輸入都具有魯棒性。
一鍵生成虛擬化身
剛性物體(rigid objects)或動(dòng)態(tài)場(chǎng)景的新視圖合成是最近非?;钴S的研究課題,在各種任務(wù)中都取得了極大的性能提升。
但對(duì)運(yùn)動(dòng)中的人類的新視圖進(jìn)行合成需要處理具有各種變形的動(dòng)態(tài)場(chǎng)景的方法,特別是在那些具有精細(xì)細(xì)節(jié)的區(qū)域,如面部或衣服。
除此之外,常見(jiàn)的動(dòng)態(tài)合成模型通常依賴于多視圖輸入,需要多個(gè)相機(jī)拍照,更多的相機(jī)參數(shù),推理時(shí)間也很長(zhǎng)(每幀可能需要幾分鐘)。
Meta提出的人類新視圖合成網(wǎng)絡(luò)HVS-Net僅使用一個(gè)消費(fèi)級(jí)RGB-D傳感器就能生成高保真的衣著人類的渲染圖像。
網(wǎng)絡(luò)有如下5個(gè)設(shè)計(jì)目標(biāo):
1、在測(cè)試時(shí)能夠?qū)?span style="color: #ff6827;">新的人物進(jìn)行泛化,無(wú)需重新訓(xùn)練;
2、能夠處理訓(xùn)練集中不包含的新姿勢(shì);
3、無(wú)論是來(lái)自物體還是人物自身的遮擋,模型都應(yīng)該能夠處理;
4、能夠捕捉面部表情;
5、給定一個(gè)單流、稀疏的RGB-D輸入,能夠?qū)崟r(shí)生成高保真的圖像。
HVS-Net將人的上半身的單一稀疏RGB-D圖像和目標(biāo)攝像機(jī)姿勢(shì)作為輸入,并從目標(biāo)視角生成高分辨率的渲染。
與以前的方法相比,第一個(gè)關(guān)鍵區(qū)別是HVS-Net利用深度作為一個(gè)額外的輸入流。
雖然輸入的深度是稀疏的和有噪聲的,但它仍然使模型能夠利用輸入視圖中的信息,從而簡(jiǎn)化了新視圖的合成。
為了說(shuō)明輸入的稀疏性,研究人員選擇了一個(gè)基于球體的神經(jīng)渲染器,與簡(jiǎn)單地從一個(gè)視圖到另一個(gè)視圖進(jìn)行幾何扭曲相比,該渲染器使用一個(gè)能夠?qū)W習(xí)的半徑來(lái)創(chuàng)建一個(gè)更密集的、扭曲的圖像。
即使是被原始傳感器正確觀察到的像素也是稀疏的,從一個(gè)視角看兩個(gè)相鄰的像素,無(wú)論它們之間相差多少,只能得到它們各自深度的信號(hào)。
這也意味著,如果是從側(cè)面來(lái)看,兩個(gè)像素的深度差距會(huì)更大,但這些「間距」不是無(wú)限大的,所以可以通過(guò)基于球形的渲染器來(lái)解決這個(gè)問(wèn)題。
考慮到從原始視點(diǎn)出發(fā)的每個(gè)像素的深度以及相機(jī)參數(shù),這些點(diǎn)自然可以被投影到一個(gè)新的視圖,這也使得使用基于深度的扭曲或可微分的點(diǎn)或球體的渲染器是開(kāi)發(fā)視圖合成的第一步的最佳選擇。投影的過(guò)程能夠自動(dòng)糾錯(cuò)(除了傳感器的噪聲),且不受訓(xùn)練誤差的影響。
視圖合成模型生成目標(biāo)視圖的稠密特征,并使用全局上下文繪畫(huà)網(wǎng)絡(luò)渲染來(lái)自目標(biāo)攝像機(jī)視圖的結(jié)果RGB圖像。
當(dāng)與編碼器-解碼器架構(gòu)結(jié)合并進(jìn)行端對(duì)端訓(xùn)練時(shí),該方法能夠合成未見(jiàn)過(guò)的個(gè)體的新視圖,并對(duì)主要輸入視圖中不可見(jiàn)的區(qū)域進(jìn)行繪制。
雖然這種方法在最小的遮擋情況下效果很好,但在有嚴(yán)重遮擋的情況下,無(wú)論是人的手在身體前面移動(dòng)或者拿著某個(gè)物體,都很難產(chǎn)生高質(zhì)量的渲染。
因此,研究人員建議用戶額外輸入一個(gè)無(wú)遮擋圖像,并通過(guò)在兩個(gè)輸入之間建立精確的稠密對(duì)應(yīng)關(guān)系,將其扭曲成目標(biāo)的新視圖。
通過(guò)訓(xùn)練一個(gè)緊湊的Enhancer網(wǎng)絡(luò)來(lái)完善最初估計(jì)的新視圖,預(yù)測(cè)新視圖和無(wú)遮擋圖像之間的對(duì)應(yīng)關(guān)系,使用一個(gè)新的HD-IUV模塊對(duì)渲染圖進(jìn)行精煉處理,可以呈現(xiàn)出更清晰的結(jié)果。
然后利用生成的圖像和ground-truth數(shù)據(jù)對(duì)之間的光度(photometric)損失來(lái)端到端地訓(xùn)練整個(gè)pipeline
此外,模型還使用立體渲染來(lái)鼓勵(lì)近距離的視點(diǎn)之間的視圖一致的結(jié)果。
為了更好地訓(xùn)練HVS-Net,還需要依靠高質(zhì)量合成的人類掃描結(jié)果,從不同的角度進(jìn)行捕捉動(dòng)畫(huà)和渲染。
這項(xiàng)工作的一個(gè)關(guān)鍵貢獻(xiàn)是,模型可以很好地推廣到由3DMD掃描系統(tǒng)捕獲的真實(shí)數(shù)據(jù),其面部或衣服的細(xì)節(jié)還原水平之高是前所未有的。
在實(shí)驗(yàn)部分,研究人員僅使用合成數(shù)據(jù)集RenderPeople對(duì)該方法進(jìn)行訓(xùn)練,數(shù)據(jù)集中的人物穿著各種服裝,在某些情況下拿著杯子、袋子或手機(jī)等物體,雖然涵蓋了各式各樣的外觀和物體互動(dòng)情況,但所有這些數(shù)據(jù)都是靜態(tài)的,所以姿勢(shì)空間的覆蓋率是不足的。
研究人員通過(guò)引入額外的姿勢(shì)變化來(lái)增強(qiáng)數(shù)據(jù)集,即對(duì)所有的網(wǎng)格進(jìn)行非剛性配準(zhǔn)(non-rigid registration)后使用一組預(yù)定義的動(dòng)作將之制作成動(dòng)畫(huà)。
最后使用Blender為每幀25個(gè)視圖合并一套高質(zhì)量的標(biāo)準(zhǔn)RGB-D渲染圖以及對(duì)應(yīng)的IUV圖。
除了合成測(cè)試集,研究人員還收集了一個(gè)真實(shí)世界的測(cè)試數(shù)據(jù)集,其中包括運(yùn)動(dòng)中的人物的3dMD 4D掃描圖。3dMD 4D掃描儀是一個(gè)全身掃描儀,可以在60Hz的頻率下捕獲未配準(zhǔn)的體積點(diǎn)云。
真實(shí)數(shù)據(jù)集僅用作測(cè)試,以了解該方法在處理合成數(shù)據(jù)和真實(shí)數(shù)據(jù)之間的領(lǐng)域差距上的能力。
3dMD的數(shù)據(jù)不包括物體的相互作用,但一般來(lái)說(shuō)噪聲比較多,而且有復(fù)雜的面部表情。
實(shí)驗(yàn)結(jié)果證實(shí)了HVS-Net中球體半徑預(yù)測(cè)器的有效性,使得模型在輸入點(diǎn)云密度方面更加穩(wěn)健。
作為對(duì)比,盡管使用密集的深度圖作為L(zhǎng)ookingGood的輸入,但如果目標(biāo)姿勢(shì)與輸入視點(diǎn)有很大偏差,該方法仍難以產(chǎn)生真實(shí)的結(jié)果,而SynSin不僅在遮擋區(qū)域表現(xiàn)不佳,而且在人的脖子周?chē)伯a(chǎn)生了偽影。
相比之下,HVS-Net方法不僅能夠呈現(xiàn)可信的、真實(shí)的新視圖,而且還能創(chuàng)造出忠實(shí)于輸入視圖的視圖,重點(diǎn)是,HVS-Net在輸入信息更少的情況下對(duì)兩個(gè)主體的頭發(fā)進(jìn)行相當(dāng)準(zhǔn)確的預(yù)測(cè)。