CVPR 2024 Highlight | 基于單曝光壓縮成像,不依賴生成模型也能從單張圖像中重建三維場景 精華
- 原文鏈接:https://arxiv.org/abs/2403.20018
- 項目鏈接:https://github.com/WU-CVGL/SCINeRF
- 論文標題:SCINeRF: Neural Radiance Fields from a Snapshot Compressive Image?
一、引言
傳統(tǒng)的 3D 重建算法需要不同視角拍攝的多張圖片作為輸入從而重建出 3D 場景。近年來,有相當多的工作嘗試從單張圖片構(gòu)建 3D 場景。然而,絕大多數(shù)此類工作都依賴生成式模型(如 Stable Diffusion),換句話說,此類工作仍然需要通過預(yù)訓(xùn)練的生成式模型推理場景中的 3D 信息。
因此,不依賴任何生成式模型并從單張圖片重建整個 3D 場景仍然存在巨大挑戰(zhàn)。
本文提出了一種基于單曝光壓縮成像(Snapshot Compressive Imaging, SCI)系統(tǒng)和神經(jīng)輻射場(NeRF)的三維場景拍攝與重建方法,首先將多視角圖像信息記錄到一張壓縮圖像之中,而后在重建階段通過一個基于 NeRF 的 3D 重建算法將場景還原。
一個典型的 SCI 系統(tǒng)使用 2D 傳感器,可以在單次測量中將高維數(shù)據(jù)(如視頻、多幀圖像、高光譜圖像等)壓縮成一張 2D 圖片。在進行測量后,需要通過重建算法將 2D 測量數(shù)據(jù)還原為原始的高維數(shù)據(jù),該過程涉及求解逆問題。近年來,深度學(xué)習(xí)的發(fā)展促進了 SCI 重建算法的快速發(fā)展。然而,當前的重建算法并沒有考慮被拍攝場景的 3D 結(jié)構(gòu),只能單純地逐幀還原 2D 圖像。且當前的重建算法依然存在準確性低、穩(wěn)定性差、泛化性不足等問題。
和已有的單張圖像生成 3D 方法相比,本文中的方法不需要依賴任何預(yù)訓(xùn)練的模型即可從單張圖片中重建 3D 場景。和傳統(tǒng) SCI 重建方法相比,該工作借助 NeRF 強大的 3D 場景估計能力和圖像渲染能力,實現(xiàn)了高質(zhì)量的 3D 場景重建,并可以渲染高幀率的場景圖像。
同時,由于 NeRF 實行測試時間優(yōu)化 (Test-time Optimization, TTO),該方法具有極佳的泛化性。在各種合成數(shù)據(jù)集和真實數(shù)據(jù)上,對結(jié)果的定性和定量評估都證明了該方法優(yōu)異的性能表現(xiàn)。
作為輸入的單張壓縮圖像和從重建的 3D 場景渲染出的新視角圖像
本文的主要貢獻如下:
- 提出了一種全新的基于 SCI 成像與 NeRF 的 3D 場景重建算法,實現(xiàn)了從單張壓縮圖像端到端重建 3D 場景。
- 進行了廣泛的實驗,評估了本文中的方法在 3D 場景重建和 SCI 圖像 / 視頻重建任務(wù)上的性能表現(xiàn)。在合成數(shù)據(jù)集和真實數(shù)據(jù)集上,該方法均顯著優(yōu)于已有方法。
- 該方法在場景加密與解密、圖像壓縮、高速攝像等領(lǐng)域具有極大的應(yīng)用前景。
二、方法介紹
硬件設(shè)計
?
受益于新穎的光學(xué)硬件和成像算法的設(shè)計,單曝光壓縮成像系統(tǒng)可以在一次壓縮測量中,將高維數(shù)據(jù)(例如視頻、高光譜圖像)進行采樣和壓縮,從而實現(xiàn)了通過 2D 傳感器(如 CCD/CMOS 相機)高效獲取視覺信號。本文通過單次測量時間內(nèi)拍攝快速移動的場景,將多視角圖像信息壓縮到單張圖像中。
單曝光壓縮成像 (SCI) 系統(tǒng)使用 2D 傳感器在測量中捕獲高維數(shù)據(jù)
模型架構(gòu)
為從 SCI 圖像中端到端重建 3D 場景,本文提出了一種基于 NeRF 的重建方法。由于傳統(tǒng)的 NeRF 方法需要多視角圖像及其對應(yīng)的相機姿態(tài)作為輸入,因此本文對 NeRF 的訓(xùn)練機制進行了大幅度改進。
首先,在訓(xùn)練 NeRF 時,將相機位姿作為優(yōu)化參數(shù),與 NeRF 的神經(jīng)網(wǎng)絡(luò)一同優(yōu)化。由于在拍攝場景時測量時間很短,SCI 系統(tǒng)相對場景運動的幅度較小,因此該工作假設(shè)拍攝時系統(tǒng)作勻速直線運動,大幅降低了訓(xùn)練復(fù)雜度。對于比較復(fù)雜的運動軌跡,可以使用更復(fù)雜的運動模型來優(yōu)化運行軌跡。
其次,通過模擬 SCI 系統(tǒng)的成像原理,將各個視角下渲染出的圖像進行采樣并壓縮,得到一張合成的 SCI 圖像來與真實測得的 SCI 圖像計算誤差并進行反向傳導(dǎo),從而實現(xiàn)使用單張圖片進行端到端訓(xùn)練。通過以上訓(xùn)練機制,可以從 SCI 圖像中直接獲得重建好的 3D 場景(具體推導(dǎo)過程請見論文)。
最后,當場景重建好后,利用 NeRF 強大的圖像渲染能力,可以獲得恢復(fù)的圖像。
本論文中的模型訓(xùn)練機制。通過共同優(yōu)化相機位姿和 NeRF 神經(jīng)網(wǎng)絡(luò),并模擬 SCI 成像機理,合成一張 SCI 圖像與實際測量得到的 SCI 圖像計算誤差并反向傳導(dǎo),從而實現(xiàn)基于單張 SCI 圖像的端到端 3D 場景重建
三、實驗
定量實驗
實驗部分,本文基于 3D 重建領(lǐng)域常見的幾個數(shù)據(jù)集合成了 SCI 數(shù)據(jù)集,并在該數(shù)據(jù)集上對本文提出的模型和幾種已有的 SCI 圖像重建算法進行了對比實驗。首先通過實驗,比較了幾種方法在 SCI 圖像 / 視頻還原任務(wù)上的性能。
在 SCI 圖像 / 視頻還原任務(wù)上與已有方法的對比
同時,本文還比較了幾種方法在 3D 場景重建任務(wù)上的性能表現(xiàn)。由于已有方法只能逐幀還原 2D 圖像,因此在進行 3D 場景重建任務(wù)比較時,將已有方法輸出的圖片使用 NeRF 重建對應(yīng)場景并比較性能。
在 3D 場景重建任務(wù)上與已有方法的對比
實驗結(jié)果表明本文提出的方法性能顯著優(yōu)于已有方法。
定性實驗
除此之外,本文還通過搭建 SCI 成像系統(tǒng)獲取了真實數(shù)據(jù)集,并進行了定性實驗。實驗結(jié)果表明在真實數(shù)據(jù)集上本文提出的方法仍顯著優(yōu)于已有方法。
利用搭建的 SCI 成像系統(tǒng),本文在真實數(shù)據(jù)集上與已有工作進行了定性對比實驗。實驗結(jié)果表明該工作在真實數(shù)據(jù)集上仍顯著優(yōu)于已有工作
四、結(jié)論
本文提出了一種基于單曝光成像和 NeRF 的 3D 場景重建方法,實現(xiàn)了不依賴任何預(yù)訓(xùn)練生成模型的端到端單張圖像重建 3D 場景。本文通過大幅度改進 NeRF 訓(xùn)練機制,利用 SCI 圖像中隱含的 3D 信息,成功將其中的 3D 場景進行還原,并利用 NeRF 強大的圖像渲染能力從場景中渲染高質(zhì)量、高幀率圖像。
實驗結(jié)果表明,該方法不僅可以重建高質(zhì)量 3D 場景,還在傳統(tǒng)的 SCI 圖像 / 視頻還原任務(wù)上顯著優(yōu)于已有方法。這為未來在高速 3D 攝像、3D 場景加密與解密、圖像與視頻信息壓縮等領(lǐng)域的應(yīng)用開辟了新的可能性。
本文轉(zhuǎn)自 機器之心,作者:機器之心
