三張圖片生成一個(gè)手辦3D模型!南加州大學(xué)華人博士提出新模型NeROIC,更真實(shí)!
隨著深度學(xué)習(xí)的加入,計(jì)算機(jī)圖形學(xué)又產(chǎn)生了很多新興領(lǐng)域。 神經(jīng)渲染(Neural Rendering)技術(shù)就是利用各種深度神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像合成,通過自動(dòng)化的流程,能夠節(jié)省大量從業(yè)人員的時(shí)間和精力。 例如給定幾張不同角度拍攝的二維圖像,神經(jīng)渲染模型能夠生成一個(gè)三維模型,而無需任何人工的介入。
在現(xiàn)實(shí)場(chǎng)景中,可能你會(huì)有一堆手辦的照片,如果按照傳統(tǒng)的方式都建成3D模型,那需要耗費(fèi)的工作量,想想都頭禿。
神經(jīng)渲染技術(shù)可以很容易地把這些模型輸入到計(jì)算機(jī)中,并讓機(jī)器理解這些照片中的物體在三維空間中的實(shí)際形狀和物理狀態(tài)。 對(duì)于人來說,這項(xiàng)任務(wù)可以說是十分容易了,因?yàn)槿搜哿私猬F(xiàn)實(shí)世界,也知道圖像的深度,但對(duì)于只能看到像素的計(jì)算機(jī)來說,神經(jīng)渲染模型的設(shè)計(jì)還是很有挑戰(zhàn)的。
除了拍手辦以外,游戲從業(yè)者還可以利用神經(jīng)渲染技術(shù),簡單地拍攝一些物體的照片,合成3D模型,然后就可以制作出一個(gè)完美的游戲場(chǎng)景。 但模型如果只是看起來準(zhǔn)確,形狀更貼合照片,還遠(yuǎn)遠(yuǎn)不夠,因?yàn)橐坏┌押铣珊蟮奈矬w放入到新場(chǎng)景中,因?yàn)楣庥暗牟煌?,合成模型在新環(huán)境中顯得格格不入,所以一下子就會(huì)「露餡」。 針對(duì)這個(gè)問題,來自SnapChat和南加州大學(xué)的研究人員提出了一個(gè)新模型NeROIC,能夠解決從圖像中創(chuàng)建虛擬物體所帶來的照明和真實(shí)性的問題。
論文地址:https://arxiv.org/pdf/2201.02533.pdf 新模型建立在神經(jīng)輻射場(chǎng)(neural radiance field)的基礎(chǔ)上,神經(jīng)輻射場(chǎng)廣泛用于重構(gòu)中,例如NeRF等模型。但神經(jīng)輻射場(chǎng)需要在相同的理想條件下才能夠完美建模,但這并不符合真實(shí)場(chǎng)景的需求。 研究人員從NeRF模型出發(fā)來改進(jìn)。NeRF神經(jīng)網(wǎng)絡(luò)的訓(xùn)練輸入為一張圖片,用來推測(cè)每個(gè)像素的顏色、不透明度和輻射度,并猜測(cè)物體中沒有出現(xiàn)在二維圖像中的小部分的缺失像素。但這種方法對(duì)大面積的缺失部分或不同的照明條件下沒有作用,因?yàn)樗荒軓妮斎氲膱D像中進(jìn)行插值。所以新的模型需要更多的信息來推斷,并對(duì)某個(gè)地方應(yīng)該出現(xiàn)的東西或這些像素在這種光照下應(yīng)該是怎樣的做出假設(shè)等。
許多方法都是在NeRF的基礎(chǔ)上解決這個(gè)問題,但新模型總是需要用戶提供更多的輸入條件,這也并不符合實(shí)際場(chǎng)景的需求,并且在很多情況下用戶也并不清除這些數(shù)據(jù),特別是當(dāng)其他人想建立一個(gè)好的數(shù)據(jù)集來訓(xùn)練模型時(shí),就更加困難了。 總的來說, 之前的NeRF類模型并沒有真正理解物體,也沒有理解物體所處的環(huán)境。 所以真正要解決的事又回到照明問題上了。
研究人員的目標(biāo)是在網(wǎng)絡(luò)圖像(online images)中也能使用這種新模型架構(gòu),也就是說,具有不同燈光、相機(jī)、環(huán)境和姿勢(shì)的圖像,新模型都應(yīng)該有能力來處理,這也是NeRF難以做到的真實(shí)性。 除了需要物體本身的圖像之外,他們唯一需要的東西是一個(gè)粗略的前景分割器和對(duì)攝像機(jī)參數(shù)的估計(jì),這兩個(gè)信息都可以通過其他可用的模型獲得。前景分割基本上只是一個(gè)遮罩(mask),可以告訴模型用戶感興趣的物體在圖像上的位置。
新模型所做的不同之處在于,他們將物體的渲染與輸入圖像中的環(huán)境照明分開,將這兩個(gè)任務(wù)獨(dú)立出來,在兩個(gè)階段內(nèi)完成。
首先,(a)網(wǎng)絡(luò)獲取的是物體的幾何形狀,這是與NeRF最相似的部分,文中稱為幾何網(wǎng)絡(luò)(Geometry Network)。它將輸入圖像、分割遮罩和相機(jī)參數(shù)估計(jì)結(jié)合起來建立一個(gè)輻射場(chǎng),并找到每個(gè)像素的密度和顏色的猜測(cè)結(jié)果,整體流程和NeRF基本相同,但新模型需要適應(yīng)輸入圖像中不同的照明條件。 這種差異來源于模型中的兩個(gè)分支,使得模型能夠?qū)㈧o態(tài)內(nèi)容與攝像機(jī)或陰影等變化的參數(shù)分開,從而能夠訓(xùn)練模型如何正確地將靜態(tài)內(nèi)容與其他不需要的參數(shù)(如照明)隔離開來,但只有這些還無法完美還原模型的空間結(jié)構(gòu)。 在(b)中,研究人員將從這個(gè)學(xué)到的密度場(chǎng)(density field)中估計(jì)表面法線(surface normals)作為物體的形狀紋理。換句話說,在(a)中產(chǎn)生的結(jié)果能夠幫助找到物體對(duì)光線的反應(yīng)。 在這個(gè)階段可以找到物體的無偏材料屬性(unbiased material properties),或者是使用一個(gè)帶有Sobel kernel的三維卷積得到對(duì)屬性的估計(jì)值。整個(gè)過程基本上就是一個(gè)filter,可以在三維空間中使用它來找到所有的物體邊緣和確定邊緣的銳利程度,可以提供關(guān)于物體的不同質(zhì)地和形狀的基本信息。
階段(c)是調(diào)整模型學(xué)到的幾何體,并優(yōu)化剛剛使用這個(gè)渲染網(wǎng)絡(luò)產(chǎn)生的法線。 同樣包含兩個(gè)分支,一個(gè)是材料(material),另一個(gè)是照明(lighting)。他們將使用球面諧波(spherical harmonics)來表示照明模型,并在訓(xùn)練中優(yōu)化其系數(shù)。 研究人員在論文中解釋稱,球面諧波在這里可以被用來代表一組定義在球面上的基礎(chǔ)函數(shù),定義在球體表面的每個(gè)函數(shù)都可以寫成這些球面諧波的總和。這種技術(shù)經(jīng)常被用于計(jì)算3D模型的照明。 這種方法能產(chǎn)生高度逼真的陰影和陰影,而且開銷相對(duì)較小。簡而言之,它將簡單地減少需要估計(jì)的參數(shù)數(shù)量,但保持相同的信息量。 因此,與其從頭開始學(xué)習(xí)如何為整個(gè)物體渲染適當(dāng)?shù)墓庹?,文中提出的新模型將轉(zhuǎn)而學(xué)習(xí)正確的系數(shù)以用于估計(jì)每個(gè)像素表面的光照,將問題簡化為幾個(gè)參數(shù)。 另一個(gè)分支被訓(xùn)練來改善物體的表面法線,遵循同樣的技巧,使用標(biāo)準(zhǔn)的Phong BRDF將基于幾個(gè)參數(shù)找到物體的材料屬性模型。 最后渲染和照明兩個(gè)分支被合并,以預(yù)測(cè)每個(gè)像素的最終顏色。 文章中的實(shí)驗(yàn)部分和NeRF模型進(jìn)行對(duì)比,評(píng)價(jià)指標(biāo)為峰值信噪比(PSNR)和結(jié)構(gòu)相似性指數(shù)測(cè)量(SSIM)平均分。
考慮到測(cè)試圖像的照明條件是未知的,研究人員從同一場(chǎng)景下的另一張訓(xùn)練圖像中挑選照明參數(shù)(嵌入式矢量或SH系數(shù)),并凍結(jié)網(wǎng)絡(luò),用隨機(jī)梯度下降優(yōu)化器對(duì)照明參數(shù)進(jìn)行1000步優(yōu)化。 實(shí)驗(yàn)結(jié)果中可以看到,新模型以相當(dāng)大的優(yōu)勢(shì)勝過了NeRF,并且在實(shí)際效果上,也比NeRF產(chǎn)生的結(jié)果更加一致和平滑。
文章的第一作者是匡正非,南加州理工的博士生,主要研究領(lǐng)域包括神經(jīng)渲染、3D重構(gòu)、人類數(shù)字化和動(dòng)畫、基于物理的模擬等,2019年本科畢業(yè)于清華大學(xué)。
? ?