買(mǎi)不起手辦就用AI渲染一個(gè)!用網(wǎng)上隨便搜的圖就能合成
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
渲染一個(gè)精細(xì)到頭發(fā)和皮膚褶皺的龍珠3D手辦,有多復(fù)雜?
對(duì)于經(jīng)典模型NeRF來(lái)說(shuō),至少需要同一個(gè)相機(jī)從特定距離拍攝的100張手辦照片。
但現(xiàn)在,一個(gè)新AI模型只需要40張來(lái)源不限的網(wǎng)絡(luò)圖片,就能把整個(gè)手辦渲染出來(lái)!
這些照片的拍攝角度、遠(yuǎn)近和亮暗都沒(méi)有要求,還原出來(lái)的圖片卻能做到清晰無(wú)偽影:
甚至還能預(yù)估材質(zhì),并從任意角度重新打光:
這個(gè)AI模型名叫NeROIC,是南加州大學(xué)和Snap團(tuán)隊(duì)玩出來(lái)的新花樣。
有網(wǎng)友見(jiàn)狀狂喜:
不同角度的照片就能渲染3D模型,快進(jìn)到只用照片來(lái)拍電影……
還有網(wǎng)友借機(jī)炒了波NFT(手動(dòng)狗頭)
所以,NeROIC究竟是如何僅憑任意2D輸入,就獲取到物體的3D形狀和性質(zhì)的呢?
基于NeRF改進(jìn),可預(yù)測(cè)材料光照
介紹這個(gè)模型之前,需要先簡(jiǎn)單回顧一下NeRF。
NeRF提出了一種名叫神經(jīng)輻射場(chǎng)(neural radiance field)的方法,利用5D向量函數(shù)來(lái)表示連續(xù)場(chǎng)景,其中5個(gè)參數(shù)分別用來(lái)表示空間點(diǎn)的坐標(biāo)位置(x,y,z)和視角方向(θ,φ)。
然而,NeRF卻存在一些問(wèn)題:
- 對(duì)輸入圖片的要求較高,必須是同一場(chǎng)景下拍攝的物體照片;
- 無(wú)法預(yù)測(cè)物體的材料屬性,因此無(wú)法改變渲染的光照條件。
這次的NeROIC,就針對(duì)這兩方面進(jìn)行了優(yōu)化:
- 輸入圖片的場(chǎng)景不限,可以是物體的任意背景照片,甚至是網(wǎng)絡(luò)圖片;
- 可以預(yù)測(cè)材料屬性,在渲染時(shí)可以改變物體表面光照效果(可以打光)。
它主要由2個(gè)網(wǎng)絡(luò)構(gòu)成,包括深度提取網(wǎng)絡(luò)(a)和渲染網(wǎng)絡(luò)(c)。
首先是深度提取網(wǎng)絡(luò),用于提取物體的各種參數(shù)。
為了做到輸入場(chǎng)景不限,需要先讓AI學(xué)會(huì)從不同背景中摳圖,但由于AI對(duì)相機(jī)的位置估計(jì)得不準(zhǔn)確,摳出來(lái)的圖片總是存在下面這樣的偽影(圖左):
因此,深度提取網(wǎng)絡(luò)引入了相機(jī)參數(shù),讓AI學(xué)習(xí)如何估計(jì)相機(jī)的位置,也就是估算圖片中的網(wǎng)友是從哪個(gè)角度拍攝、距離有多遠(yuǎn),摳出來(lái)的圖片接近真實(shí)效果(GT):
同時(shí),設(shè)計(jì)了一種估計(jì)物體表面法線的新算法,在保留關(guān)鍵細(xì)節(jié)的同時(shí),也消除了幾何噪聲的影響(法線即模型表面的紋路,隨光線條件變化發(fā)生變化,從而影響光照渲染效果):
最后是渲染網(wǎng)絡(luò),用提取的參數(shù)來(lái)渲染出3D物體的效果。
具體來(lái)說(shuō),論文提出了一種將顏色預(yù)測(cè)、神經(jīng)網(wǎng)絡(luò)與參數(shù)模型結(jié)合的方法,用于計(jì)算顏色、預(yù)測(cè)最終法線等。
其中,NeROIC的實(shí)現(xiàn)框架用PyTorch搭建,訓(xùn)練時(shí)用了4張英偉達(dá)的Tesla V100顯卡。
訓(xùn)練時(shí),深度提取網(wǎng)絡(luò)需要跑6~13小時(shí),渲染網(wǎng)絡(luò)則跑2~4小時(shí)。
用網(wǎng)絡(luò)圖片就能渲染3D模型
至于訓(xùn)練NeROIC采用的數(shù)據(jù)集,則主要有三部分:
來(lái)源于互聯(lián)網(wǎng)(部分商品來(lái)源于網(wǎng)購(gòu)平臺(tái),即亞馬遜和淘寶)、NeRD、以及作者自己拍攝的(牛奶、電視、模型)圖像,平均每個(gè)物體收集40張照片。
那么,這樣的模型效果究竟如何呢?
論文先是將NeROIC與NeRF進(jìn)行了對(duì)比。
從直觀效果來(lái)看,無(wú)論是物體渲染細(xì)節(jié)還是清晰度,NeROIC都要比NeRF更好。
具體到峰值信噪比(PSNR)和結(jié)構(gòu)相似性(SSIM)來(lái)看,深度提取網(wǎng)絡(luò)的“摳圖”技術(shù)都挺不錯(cuò),相較NeRF做得更好:
同時(shí),論文也在更多場(chǎng)景中測(cè)試了渲染模型的效果,事實(shí)證明不會(huì)出現(xiàn)偽影等情況:
還能產(chǎn)生新角度,而且重新打光的效果也不錯(cuò),例如這是在室外場(chǎng)景:
室內(nèi)場(chǎng)景的打光又是另一種效果:
作者們還嘗試將照片數(shù)量減少到20張甚至10張,對(duì)NeRF和NeROIC進(jìn)行訓(xùn)練。
結(jié)果顯示,即使是數(shù)據(jù)集不足的情況下,NeROIC的效果依舊比NeRF更好。
不過(guò)也有網(wǎng)友表示,作者沒(méi)給出玻璃或是半透明材質(zhì)的渲染效果:
對(duì)AI來(lái)說(shuō),重建透明或半透明物體確實(shí)也確實(shí)是比較復(fù)雜的任務(wù),可以等代碼出來(lái)后嘗試一下效果。
據(jù)作者表示,代碼目前還在準(zhǔn)備中。網(wǎng)友調(diào)侃:“可能中頂會(huì)、或者在演講之后就會(huì)放出”。
一作清華校友
論文一作匡正非,目前在南加州大學(xué)(University of Southern California)讀博,導(dǎo)師是計(jì)算機(jī)圖形學(xué)領(lǐng)域知名華人教授黎顥。
他本科畢業(yè)于清華計(jì)算機(jī)系,曾經(jīng)在胡事民教授的計(jì)圖團(tuán)隊(duì)中擔(dān)任助理研究員。
這篇文章是他在Snap公司實(shí)習(xí)期間做出來(lái)的,其余作者全部來(lái)自Snap團(tuán)隊(duì)。
以后或許只需要幾張網(wǎng)友“賣(mài)家秀”,就真能在家搞VR云試用了。
論文地址:
https://arxiv.org/abs/2201.02533
項(xiàng)目地址:
https://formyfamily.github.io/NeROIC/