一種新型的NeRF技術(shù)可以將視頻轉(zhuǎn)換成易于控制的3D模型
譯文譯者 | 布加迪
審校 | 重樓
由于人體運(yùn)動(dòng)的復(fù)雜性和外觀在不同環(huán)境下的細(xì)微差異,由視頻片段創(chuàng)建逼真的動(dòng)畫3D模型一直是計(jì)算機(jī)圖形學(xué)領(lǐng)域面臨的長(zhǎng)期挑戰(zhàn)。在過去,這個(gè)過程依賴成本高昂的勞動(dòng)密集型技術(shù),比如多攝像頭裝置和詳細(xì)的手動(dòng)建模,因而無(wú)法用于普通或低預(yù)算的應(yīng)用系統(tǒng)。
為了解決這個(gè)問題,來(lái)自弗勞恩霍夫海因里希赫茲研究所的團(tuán)隊(duì)采用了一種新技術(shù),通過使用神經(jīng)輻射場(chǎng)(NeRF)來(lái)制作3D人體模型的動(dòng)畫。他們的方法可以直接由標(biāo)準(zhǔn)的RGB視頻片段重建這些模型,因而不需要昂貴設(shè)備和大量人力。
這項(xiàng)技術(shù)向簡(jiǎn)化動(dòng)畫3D模型的創(chuàng)建邁出了一步,可能使其更唾手可得、對(duì)資源的需求更低。我們接下來(lái)將深入研究這種方法的細(xì)節(jié),分析所生成動(dòng)畫的效果,并討論這一進(jìn)步對(duì)從業(yè)者和愛好者來(lái)說可能意味著什么。
追求逼真的數(shù)字人
創(chuàng)造逼真的數(shù)字人對(duì)于電影、視頻游戲和虛擬會(huì)議非常有用。但是讓這些數(shù)字人看起來(lái)逼真很困難。它們必須從每個(gè)角度、每個(gè)光線、每個(gè)姿勢(shì)來(lái)看都沒異樣,否則看起來(lái)就會(huì)很假。
目前,制作這些數(shù)字替身需要大量的工作,需要用特殊的攝像頭和設(shè)備掃描真實(shí)的人,這對(duì)大多數(shù)人來(lái)說太貴了,不切實(shí)際。
還有另一種方法,就是使用普通視頻。然而視頻是扁平的,我們失去了使事物看起來(lái)三維所需的深度。我們需要智能工具,可以計(jì)算出視頻中的物體有多深或多遠(yuǎn),使平面圖像看起來(lái)就像真實(shí)的3D人。
最近我們?cè)谶@方面做得更好了,新技術(shù)可以從單單一個(gè)攝像頭角度猜測(cè)人的形狀。但仍有很多地方有待改進(jìn)。這些數(shù)字人常常看起來(lái)不太對(duì)勁——它們可能有點(diǎn)扭曲,或者行動(dòng)不自然。真正的目標(biāo)是讓它們不僅看起來(lái)逼真,還以原始視頻中沒有的新方式來(lái)移動(dòng)。
面向新視圖合成的NeRF
神經(jīng)輻射場(chǎng)(NeRF)是一項(xiàng)最新的技術(shù),用于從不同的視角創(chuàng)建逼真的3D圖像。它們的工作原理是使用算法來(lái)預(yù)測(cè)光線與場(chǎng)景的相互作用,從而使新圖像看起來(lái)逼真,即使是從我們從未見過的角度。
NeRF已經(jīng)成功地使靜態(tài)圖像看起來(lái)像現(xiàn)實(shí)生活中的場(chǎng)景。然而,用它們來(lái)創(chuàng)建人們移動(dòng)和改變姿勢(shì)的圖像是比較棘手的問題。這是由于人及其移動(dòng)很復(fù)雜,NeRF需要了解這種復(fù)雜性,才能創(chuàng)建清晰的畫面。
針對(duì)移動(dòng)對(duì)象訓(xùn)練NeRF的傳統(tǒng)方法可能導(dǎo)致圖像模糊。為了解決這個(gè)問題,研究人員提出了一種新方法。他們使用計(jì)算機(jī)生成的人體模型來(lái)幫助指導(dǎo)NeRF。這使得NeRF能夠通過理解人體運(yùn)動(dòng)時(shí)的形狀和形式來(lái)創(chuàng)建不同姿勢(shì)的人的清晰精確的圖像。這種方法是重要的一步,使NeRF能夠很好地處理動(dòng)態(tài)的實(shí)際內(nèi)容(如人的運(yùn)動(dòng))。
技術(shù)方法:表面對(duì)齊的NeRF
這項(xiàng)研究提出了一種名為表面對(duì)齊神經(jīng)輻射場(chǎng)(UVH-NeRF)的技術(shù),它概述了由視頻片段生成詳細(xì)的3D人體圖像的過程。下面詳細(xì)介紹了該方法:
圖2. 網(wǎng)絡(luò)架構(gòu)圖
1. 針對(duì)視頻調(diào)整3D人體模型:第一步需要將3D人體模型與視頻中的主題對(duì)齊。這為后續(xù)步驟建立了一個(gè)基礎(chǔ),提供的3D結(jié)構(gòu)反映了整個(gè)視頻序列中人的形狀和運(yùn)動(dòng)。
2. 使NeRF適應(yīng)人體幾何圖形:該方法通過以下方式修改了傳統(tǒng)的NeRF空間:
- 將點(diǎn)投射到模型的表面上:它定位3D模型表面上與視頻中位置相對(duì)應(yīng)的點(diǎn)。這些點(diǎn)用于將2D圖像的紋理映射到模型上。
- 計(jì)算到模型表面的距離:對(duì)于空間中的每個(gè)點(diǎn),該技術(shù)計(jì)算其到模型表面的距離,這有助于確定該點(diǎn)相對(duì)于模型的位置(在模型內(nèi)部、在模型表面上或在模型外部)。
- 結(jié)合關(guān)節(jié)運(yùn)動(dòng):它使用骨骼關(guān)節(jié)數(shù)據(jù)來(lái)繪制模型動(dòng)畫,這有助于渲染不同姿勢(shì)的人。
3. 用神經(jīng)網(wǎng)絡(luò)改進(jìn)空間理解:神經(jīng)網(wǎng)絡(luò)被教會(huì)了微調(diào)這種空間轉(zhuǎn)換,確保NeRF對(duì)空間的表示是準(zhǔn)確的,并與人類模型保持一致。
進(jìn)一步的詳情包括如下:
- 保持一致的結(jié)構(gòu):該技術(shù)使用SMPL模型保持統(tǒng)一的結(jié)構(gòu),以準(zhǔn)確地反映人在不同幀中的姿勢(shì)。
- 轉(zhuǎn)變NeRF的視角:這種方法改變了NeRF對(duì)空間的感知,以模仿人體的形式。不管人的動(dòng)作如何,它都保持穩(wěn)定。
- 創(chuàng)建姿勢(shì)準(zhǔn)確的渲染圖:通過將骨骼數(shù)據(jù)集成到NeRF中,系統(tǒng)可以生成任何某個(gè)姿勢(shì)的解剖學(xué)正確的圖像。
- 糾正差異:神經(jīng)映射模塊針對(duì)模型或轉(zhuǎn)換中的任何微小錯(cuò)誤進(jìn)行調(diào)整,確保對(duì)齊和一致性。
這些步驟最終允許NeRF以各種姿勢(shì)和視角學(xué)習(xí)人體模型和制作動(dòng)畫,從而創(chuàng)建一個(gè)人的多功能動(dòng)態(tài)的3D表示。這一進(jìn)步為數(shù)字媒體、虛擬現(xiàn)實(shí)和其他需要高保真人類化身的領(lǐng)域的應(yīng)用帶來(lái)了巨大的希望。
結(jié)果
當(dāng)你看圖像時(shí),左邊是AI的猜測(cè),右邊是真實(shí)情況,你會(huì)發(fā)現(xiàn)它們非常接近。AI生成的人物擺出了正確的姿勢(shì),甚至衣服似乎也如同該有的那樣折疊和起皺。好像AI有一雙慧眼,能看到人們做事時(shí)衣服的運(yùn)動(dòng)方式。
但說實(shí)話,這并不完美。如果你瞇眼睛,會(huì)看到那些失真的細(xì)節(jié)。AI在精細(xì)操作方面有些棘手——手指可能變得模糊,面部特征可能不準(zhǔn)確。這與蠟像看起來(lái)怪怪的同一個(gè)道理,但對(duì)于一臺(tái)僅用幾幀就能生成這些圖像的電腦來(lái)說,這仍然相當(dāng)出彩。
這項(xiàng)技術(shù)大有前途。想想虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí),你想讓人們看起來(lái)盡可能真實(shí),而不必穿那些帶著乒乓球的滑稽服裝。
當(dāng)然,在達(dá)到一流水平之前,它還有更多的工作要做,但即使這樣,它也朝著讓數(shù)字人暢游各種虛擬空間邁出了堅(jiān)實(shí)的一步。
結(jié)論
本文研究的關(guān)鍵創(chuàng)新是成功地將神經(jīng)輻射場(chǎng)應(yīng)用于僅使用標(biāo)準(zhǔn)RGB視頻片段的3D人體模型動(dòng)畫。這種方法大大簡(jiǎn)化了創(chuàng)造數(shù)字人這個(gè)傳統(tǒng)的資源密集型過程——這通常需要復(fù)雜的攝像頭裝置和人力。通過證明NeRF可以針對(duì)動(dòng)態(tài)內(nèi)容(比如來(lái)自比較易于獲取的視頻的人體運(yùn)動(dòng))加以調(diào)整,本文介紹了一種實(shí)用的方法,可以更廣泛地應(yīng)用于各個(gè)領(lǐng)域。
這一進(jìn)步表明,該領(lǐng)域的未來(lái)發(fā)展可能便于更經(jīng)濟(jì)、更高效地生成數(shù)字人體模型,這可能會(huì)造福游戲、虛擬現(xiàn)實(shí)和電影等行業(yè)。雖然目前的方法有其局限性,特別是對(duì)于復(fù)雜的移動(dòng)和較長(zhǎng)的序列而言,但它為進(jìn)一步的研究和改進(jìn)奠定了基礎(chǔ)。
從本質(zhì)上講,這項(xiàng)工作是朝著使人體模型數(shù)字化更唾手可得邁出的一步,為其應(yīng)用范圍由專業(yè)工作室擴(kuò)大到個(gè)人創(chuàng)作者和小型制作團(tuán)隊(duì)提供了可能性。
原文標(biāo)題:They found a new NeRF technique to turn videos into controllable 3D models,作者:Mike Young