純小白入門(mén),開(kāi)山之作NeRF學(xué)習(xí)筆記!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
神經(jīng)輻射場(chǎng)究竟是什么
輻射場(chǎng):由光源發(fā)出的光線(xiàn)在場(chǎng)景中的傳播和反射過(guò)程中所形成的能量分布。通俗來(lái)說(shuō)就是一個(gè)函數(shù),記錄了空間某個(gè)位置處向某個(gè)方向的輻射信息,輻射信息(或者說(shuō)能量分布)其實(shí)就是顏色、亮度、陰影等信息。這里的方向需要額外留意,它是NeRF實(shí)現(xiàn)真實(shí)重建的重要因素之一!
由此引出神經(jīng)輻射場(chǎng)的概念。
神經(jīng)輻射場(chǎng):用神經(jīng)網(wǎng)絡(luò)儲(chǔ)存空間位置向任意方向的輻射。原文中的描述如下:
更加規(guī)范的公式表達(dá)如下:
輸入3D位置(x,y,z)和2D的視角方向(),輸出是顏色和體密度
NeRF具體的網(wǎng)絡(luò)結(jié)果參考原文如下:
- 3D坐標(biāo)x輸入第一個(gè)網(wǎng)絡(luò)fσ,包含8層全連接層,每層256個(gè)神經(jīng)元,ReLU激活;
- 網(wǎng)絡(luò)fσ輸出體密度σ和一個(gè)256維向量,該向量與視角方向d送入fc(一層,128通道,ReLU激活)預(yù)測(cè)RGB;
由上面可知,NeRF是隱式建模,因?yàn)槟P褪莾?chǔ)存在MLP里面的,模型就是MLP的參數(shù),這和以往點(diǎn)云和mesh建模不同(點(diǎn)云/mesh是可以直接看到模型的)。NeRF必須查詢(xún)一個(gè)個(gè)的三維點(diǎn),然后渲染成一章圖像。這種查看方式或者說(shuō)渲染方式就叫體渲染。
在看體渲染之前。我們先看一下網(wǎng)絡(luò)的效果如何:
可以看出,不同視角下顏色是不同的!這是NeRF相對(duì)于傳統(tǒng)重建非常重要的優(yōu)勢(shì)之一~
NeRF的核心:體渲染
下面進(jìn)入NeRF的第二個(gè)核心要點(diǎn)——體渲染。體渲染就是用來(lái)將顏色和密度渲染成2D圖像的方法!
示意圖如下:圖a展示了從相機(jī)光心位置發(fā)出射線(xiàn),射線(xiàn)上有采樣點(diǎn),將采樣點(diǎn)和方向送入MLP獲得顏色和體密度。圖c展示的的就是沿射線(xiàn)的體密度分布曲線(xiàn),是通過(guò)采樣獲得的,對(duì)曲線(xiàn)進(jìn)行積分就能獲得像素的顏色。這個(gè)過(guò)程就是體渲染
總結(jié)一下體渲染步驟:
- 從相機(jī)光心發(fā)出穿透每個(gè)像素的射線(xiàn),射線(xiàn)上取三維采樣點(diǎn);
- 將采樣點(diǎn)坐標(biāo)和視角方向送入MLP計(jì)算顏色和體密度;
- 按體密度積分(堆疊)顏色信息,形成2D圖像
體渲染的公式如下:
當(dāng)然實(shí)際使用的是離散版本公式:
隱式重建流程
在講完神經(jīng)輻射場(chǎng)和體渲染后,現(xiàn)在開(kāi)始完整的重建流程~
在形成一個(gè)完成的pipeline之前,還有以下兩個(gè)問(wèn)題需要解決:
為了解決上述兩個(gè)問(wèn)題,NeRF提出了位置編碼和分層采樣過(guò)程
位置編碼:
論文直觀(guān)展示了位置編碼的效果對(duì)比:
可以看出,去掉位置編碼,模型無(wú)法表達(dá)高頻的幾何和紋理信息~
多層采用:
訓(xùn)練流程如下:
實(shí)驗(yàn)和總結(jié)
評(píng)價(jià)指標(biāo):
實(shí)驗(yàn)設(shè)置:
實(shí)驗(yàn)結(jié)果可以看出,各種材質(zhì)的小球上面的散光也可以很好的表現(xiàn)出來(lái)~
消融實(shí)驗(yàn):
總結(jié)
文提出的神經(jīng)輻射場(chǎng),從相機(jī)光心發(fā)出穿過(guò)像素的采樣射線(xiàn),在射線(xiàn)上取點(diǎn),將其三維位置和視角方向用一個(gè)MLP映射到體密度和顏色,然后用體渲染堆疊采樣射線(xiàn)上的體密度和顏色,獲得像素值。像素值與GT圖像求誤差后反向傳播,優(yōu)化MLP參數(shù)。本文用這樣的隱式重建方法實(shí)現(xiàn)了照片級(jí)的具有真實(shí)感的模型重建和渲染。
缺陷:
- 渲染、訓(xùn)練速度慢;
- 對(duì)視角數(shù)量和分布有較高要求;
- 難以拓展到有背景的或者較大的場(chǎng)景。
原文鏈接:https://mp.weixin.qq.com/s/ctDBTaLWuHTM9MONrAor4g