生成高精細(xì)節(jié),新方法AligNeRF解決NeRF對(duì)齊問題
雖然 NeRF 能夠用不同視角的視圖中渲染復(fù)雜的 3D 場(chǎng)景,但很少有人致力于探索其在高分辨率設(shè)置中的局限性。具體來說,現(xiàn)有的基于 NeRF 的方法在重建高分辨率的真實(shí)場(chǎng)景時(shí)面臨著一些限制,包括大量的參數(shù)、未對(duì)齊的輸入數(shù)據(jù)和過于平滑的細(xì)節(jié)。
在 UC Austin、谷歌、香港中文大學(xué)等機(jī)構(gòu)提出的一項(xiàng)新研究中,作者找到了相應(yīng)的解決方案:1) 將多層感知器(MLP)與卷積層相結(jié)合,可以編碼更多的鄰域信息,同時(shí)減少參數(shù)總數(shù);2) 一種新的訓(xùn)練策略來解決由移動(dòng)物體或攝像機(jī)空間坐標(biāo)校準(zhǔn)誤差引起的偏移;3) 高頻感知損失。作者的方法幾乎沒有引入明顯的訓(xùn)練和測(cè)試成本,而在不同數(shù)據(jù)集上的實(shí)驗(yàn)表明,與基本的 NeRF 模型相比,該工作可以恢復(fù)更多的高頻細(xì)節(jié)。
- 論文地址:https://arxiv.org/abs/2211.09682
- 項(xiàng)目地址:https://yifanjiang19.github.io/alignerf
簡(jiǎn)介
神經(jīng)輻射場(chǎng)(NeRF)及其變體,最近在從圖像中學(xué)習(xí)幾何三維表示方面表現(xiàn)出了令人印象深刻的性能。由此產(chǎn)生的高質(zhì)量的場(chǎng)景表示創(chuàng)造了沉浸式的新視圖合成體驗(yàn),與復(fù)雜的幾何形狀和視圖依賴的外觀。自 NeRF 誕生以來,人們已經(jīng)做了大量的工作來提高其質(zhì)量和效率,使其能夠從「野外」捕獲的數(shù)據(jù)或有限數(shù)量的輸入和跨多個(gè)場(chǎng)景的泛化中進(jìn)行重建。
在本文中,作者以高分辨率的圖像數(shù)據(jù)作為輸入,在高保真設(shè)置下進(jìn)行訓(xùn)練神經(jīng)輻射場(chǎng)的初步研究。這就帶來了幾個(gè)主要的挑戰(zhàn):首先,使用高分辨率訓(xùn)練圖像的主要挑戰(zhàn)在于編碼所有高頻細(xì)節(jié)需要更多的參數(shù),這會(huì)導(dǎo)致更長(zhǎng)的訓(xùn)練時(shí)間和更高的內(nèi)存成本。
在新模型中,作者在訓(xùn)練期間渲染圖像補(bǔ)丁塊。這使作者能夠進(jìn)一步解決渲染的補(bǔ)丁和 groud truth 之間的失調(diào),這通常是由微小的相機(jī)姿態(tài)錯(cuò)誤或被拍攝物體的輕微移動(dòng)造成的。首先,作者分析了錯(cuò)位如何通過利用訓(xùn)練后渲染出的圖像幀和相應(yīng)的 groud truth 之間的估計(jì)光流來影響推理圖像質(zhì)量。作者分析并討論了以前的錯(cuò)位感知損失的局限性,并為根據(jù)作者的任務(wù)目標(biāo)提出了一種新的對(duì)齊策略。作者設(shè)計(jì)了一種新的頻率感知損失,它進(jìn)一步提高了訓(xùn)練集測(cè)試集的渲染質(zhì)量,并且沒有額外的開銷。因此,AligNeRF 在高分辨率 3D 重建任務(wù)中的性能大大優(yōu)于目前最好的方法。
綜上所述,作者的貢獻(xiàn)如下:
- 分析并顯示了高分辨率訓(xùn)練數(shù)據(jù)的錯(cuò)位導(dǎo)致的性能下降。
- 一種新的卷積網(wǎng)絡(luò)輔助架構(gòu),可以以少量的額外成本提高渲染圖像的質(zhì)量。
- 一種新的補(bǔ)丁對(duì)齊損失,使 NeRF 對(duì)相機(jī)姿態(tài)誤差和微妙的物體運(yùn)動(dòng)更魯棒,結(jié)合基于補(bǔ)丁的損失,以提高高頻細(xì)節(jié)。
方法
AligNeRF 是一個(gè)易于插入的組件,適用于任何類似 NeRF 的模型,包括點(diǎn)采樣方法和基于截錐體的方法。AligNeRF 使用分階段訓(xùn)練:從初始的「正?!诡A(yù)訓(xùn)練階段開始,然后是對(duì)齊感知微調(diào)階段。作者選擇 mip-NeRF 360 作為工作的基線,因?yàn)樗怯糜趶?fù)雜無界現(xiàn)實(shí)世界場(chǎng)景的最先進(jìn)的 NeRF 方法。接下來,先介紹作者的卷積增強(qiáng)架構(gòu),隨后是錯(cuò)位感知訓(xùn)練過程和高頻損失。
作者先是探索如何有效地編碼局部歸納先驗(yàn)知識(shí)以用于基于坐標(biāo)的 NeRF 表示 。類似 NeRF 的模型通常會(huì)構(gòu)建一個(gè)坐標(biāo)到值的映射函數(shù),隨機(jī)采樣一批光線以優(yōu)化其參數(shù),并且中間沒有任何優(yōu)化操作。為此作者把從隨機(jī)采樣切換到基于補(bǔ)丁的采樣(作者在實(shí)驗(yàn)中使用 32 × 32 補(bǔ)?。?,這種基于補(bǔ)丁塊的采樣策略允許作者在每次迭代期間收集一個(gè)小的局部圖像區(qū)域,從而在渲染每個(gè)像素時(shí)利用 2D 局部鄰域信息。
首先將 MLP 中最后一層的輸出通道數(shù)從 3 更改為更大的 N, 這有助于在每個(gè)采樣光線中收集更豐富的表示。接下來在體積渲染后,添加一個(gè)簡(jiǎn)單的 3 層卷積網(wǎng)絡(luò),具有 ReLU 激活和 3 × 3 個(gè)內(nèi)核。在該網(wǎng)絡(luò)的末端,作者使用前饋感知器層將表示從特征空間轉(zhuǎn)換為 RGB 空間。因此,每個(gè)像素的渲染過程不僅依賴于沿該方向的單個(gè)射線或圓錐射線區(qū)域,還依賴于其相鄰區(qū)域,這有助于產(chǎn)生更好的紋理細(xì)節(jié)。
NeRF 通過渲染函數(shù)映射 3D 點(diǎn)到場(chǎng)景屬性的關(guān)系來建模。在此框架下,訓(xùn)練樣本相機(jī)位姿的準(zhǔn)確性對(duì)于 NeRF 訓(xùn)練至關(guān)重要,否則從不同視點(diǎn)觀察同一 3D 點(diǎn)的光線可能不會(huì)匯聚到空間中的同一位置 NeRF 通過在非常短的時(shí)間跨度內(nèi)捕獲圖像(以防止場(chǎng)景運(yùn)動(dòng)和光照變化)并采用 COLMAP 來計(jì)算相機(jī)參數(shù)來解決這個(gè)問題。1) 地面實(shí)況相機(jī)姿勢(shì)與來自 COLMAP 的相機(jī)姿勢(shì)之間存在差距,該數(shù)據(jù)準(zhǔn)備的工作流程大部分是可靠的,正如之前的工作所指出的那樣:2)在不受控制的室外場(chǎng)景中,通常很難避免帶有搖曳植物和其他非剛性靜止物體的圖像,這進(jìn)一步損害了 COLMAP 的性能。
在高分辨率重建設(shè)置中,由相機(jī)姿勢(shì)和移動(dòng)物體引起的錯(cuò)位問題可能會(huì)進(jìn)一步放大,因?yàn)橄袼乜臻g錯(cuò)位與分辨率呈線性關(guān)系。為了解決這個(gè)問題,作者提出了一種對(duì)齊感知訓(xùn)練策略,可以用來改進(jìn)渲染圖像的質(zhì)量。
盡管紋理扭曲,作者觀察到 NeRF 仍然從未對(duì)齊的圖像中學(xué)習(xí)粗糙結(jié)構(gòu)。利用這一點(diǎn),作者提出了對(duì)齊的 groud truth 和渲染塊之間的 Loss。設(shè)置了一個(gè)基于歐氏距離的正則化項(xiàng)作為對(duì)該搜索空間的懲罰,最終的損失函數(shù)為:
均方誤差 (MSE) 損失通常用于監(jiān)督 NeRF 訓(xùn)練,但 MSE 經(jīng)常導(dǎo)致輸出圖像模糊。鑒于作者的補(bǔ)丁采樣策略,作者可以采用感知損失,更好地保留高頻細(xì)節(jié)。作者首先嘗試使用預(yù)訓(xùn)練 VGG 特征的 L2 損失。然而,與其他圖像恢復(fù)任務(wù)類似,作者發(fā)現(xiàn)感知損失會(huì)產(chǎn)生更多的高頻細(xì)節(jié),但有時(shí)會(huì)扭曲物體的實(shí)際紋理。因此,作者修改了 Johnson 等人提出的原始感知損失,僅使用最大池化之前第一個(gè)塊的輸出:
AligNeRF 與之前工作的主要區(qū)別是從每像素 MSE 損失切換到基于塊的 MSE 損失(考慮未對(duì)齊)和淺層 VGG 特征空間損失的組合,以改善高頻細(xì)節(jié):
實(shí)驗(yàn)效果
定量分析
為了進(jìn)行公平的比較,作者將所提出的 AligNeRF 是基于 mip-NeRF 360 的方法上,并注意不通過作者的分階段性的訓(xùn)練(訓(xùn)練前的 + 微調(diào))來增加訓(xùn)練時(shí)間。由于這個(gè)實(shí)驗(yàn)使用了更高分辨率的圖像,也可以看到作者增加訓(xùn)練時(shí)間的 4 倍以保持相同的訓(xùn)練期數(shù)量的結(jié)果。如下表所示,NeRF 和 mip-NeRF 的性能較差,因?yàn)樗鼈儾皇菫?360 度無界場(chǎng)景設(shè)計(jì)的。增加 mip-NeRF 的參數(shù)會(huì)有很小的改善,但會(huì)使訓(xùn)練時(shí)間更長(zhǎng)。
作者提出的方法在兩組中都優(yōu)于 baseline 方法,而且并沒有引入顯著的訓(xùn)練開銷。下表是與一些較為流行的方法的比較,在這些方法中,作者的方法在三個(gè)指標(biāo)中展示了最好的性能,而且在低分辨率圖像上的錯(cuò)位問題要比其他的方法要輕得多。
定性分析
首先,作者訓(xùn)練一個(gè)具有默認(rèn)參數(shù)(1024 個(gè)通道)的 mip-NeRF 360 模型。但是僅僅是簡(jiǎn)單的 baseline 模型產(chǎn)生了模糊的圖像,并且估計(jì)的光流包含了扭曲區(qū)域(第一列)中的偽影。接下來,作者將 mip-NeRF 360 網(wǎng)絡(luò)參數(shù)增加 4 倍,但是這僅僅會(huì)略微提高結(jié)果的視覺質(zhì)量,作者也應(yīng)用迭代對(duì)齊策略來改進(jìn)這個(gè)獲得了更好的模型的結(jié)果。與在錯(cuò)位數(shù)據(jù)(前兩列)上訓(xùn)練的模型相比,使用再生數(shù)據(jù)訓(xùn)練的模型恢復(fù)了更清晰的細(xì)節(jié)。這一觀察結(jié)果表明,目前基于 NeRF 模型受到不對(duì)準(zhǔn)相機(jī)位姿的訓(xùn)練樣本的強(qiáng)烈影響。
總結(jié)及未來展望
在這項(xiàng)工作中,作者對(duì)高分辨率數(shù)據(jù)上的訓(xùn)練神經(jīng)輻射場(chǎng)進(jìn)行了初步研究。他們提出了一種有效的對(duì)齊感知訓(xùn)練策 AligNeRF 可以提高 NeRF 的性能。作者還定量和定性地分析了錯(cuò)位數(shù)據(jù)和通過使用光流估計(jì)重新生成對(duì)齊數(shù)據(jù)帶來的性能下降。這一分析進(jìn)一步幫助我們理解目前將 NeRF 擴(kuò)展到更高分辨率的瓶頸問題。我們可以觀察到,可以通過大幅增加參數(shù)的數(shù)量和進(jìn)一步增加訓(xùn)練時(shí)間來進(jìn)一步改進(jìn) NeRF,如何縮小這一差距是未來的研究方向。