自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR 2024 Highlight | 基于單曝光壓縮成像,不依賴生成模型也能從單張圖像中重建三維場景 精華

發(fā)布于 2024-5-6 09:08
瀏覽
0收藏

CVPR 2024 Highlight | 基于單曝光壓縮成像,不依賴生成模型也能從單張圖像中重建三維場景-AI.x社區(qū)


  • 原文鏈接:https://arxiv.org/abs/2403.20018
  • 項目鏈接:https://github.com/WU-CVGL/SCINeRF
  • 論文標題:SCINeRF: Neural Radiance Fields from a Snapshot Compressive Image?

一、引言

傳統(tǒng)的 3D 重建算法需要不同視角拍攝的多張圖片作為輸入從而重建出 3D 場景。近年來,有相當多的工作嘗試從單張圖片構(gòu)建 3D 場景。然而,絕大多數(shù)此類工作都依賴生成式模型(如 Stable Diffusion),換句話說,此類工作仍然需要通過預(yù)訓(xùn)練的生成式模型推理場景中的 3D 信息。


因此,不依賴任何生成式模型并從單張圖片重建整個 3D 場景仍然存在巨大挑戰(zhàn)。


本文提出了一種基于單曝光壓縮成像(Snapshot Compressive Imaging, SCI)系統(tǒng)和神經(jīng)輻射場(NeRF)的三維場景拍攝與重建方法,首先將多視角圖像信息記錄到一張壓縮圖像之中,而后在重建階段通過一個基于 NeRF 的 3D 重建算法將場景還原。


一個典型的 SCI 系統(tǒng)使用 2D 傳感器,可以在單次測量中將高維數(shù)據(jù)(如視頻、多幀圖像、高光譜圖像等)壓縮成一張 2D 圖片。在進行測量后,需要通過重建算法將 2D 測量數(shù)據(jù)還原為原始的高維數(shù)據(jù),該過程涉及求解逆問題。近年來,深度學(xué)習(xí)的發(fā)展促進了 SCI 重建算法的快速發(fā)展。然而,當前的重建算法并沒有考慮被拍攝場景的 3D 結(jié)構(gòu),只能單純地逐幀還原 2D 圖像。且當前的重建算法依然存在準確性低、穩(wěn)定性差、泛化性不足等問題。


和已有的單張圖像生成 3D 方法相比,本文中的方法不需要依賴任何預(yù)訓(xùn)練的模型即可從單張圖片中重建 3D 場景。和傳統(tǒng) SCI 重建方法相比,該工作借助 NeRF 強大的 3D 場景估計能力和圖像渲染能力,實現(xiàn)了高質(zhì)量的 3D 場景重建,并可以渲染高幀率的場景圖像。


同時,由于 NeRF 實行測試時間優(yōu)化 (Test-time Optimization, TTO),該方法具有極佳的泛化性。在各種合成數(shù)據(jù)集和真實數(shù)據(jù)上,對結(jié)果的定性和定量評估都證明了該方法優(yōu)異的性能表現(xiàn)。


CVPR 2024 Highlight | 基于單曝光壓縮成像,不依賴生成模型也能從單張圖像中重建三維場景-AI.x社區(qū)

作為輸入的單張壓縮圖像和從重建的 3D 場景渲染出的新視角圖像


本文的主要貢獻如下:


  1. 提出了一種全新的基于 SCI 成像與 NeRF 的 3D 場景重建算法,實現(xiàn)了從單張壓縮圖像端到端重建 3D 場景。
  2. 進行了廣泛的實驗,評估了本文中的方法在 3D 場景重建和 SCI 圖像 / 視頻重建任務(wù)上的性能表現(xiàn)。在合成數(shù)據(jù)集和真實數(shù)據(jù)集上,該方法均顯著優(yōu)于已有方法。
  3. 該方法在場景加密與解密、圖像壓縮、高速攝像等領(lǐng)域具有極大的應(yīng)用前景。


二、方法介紹

硬件設(shè)計

?

受益于新穎的光學(xué)硬件和成像算法的設(shè)計,單曝光壓縮成像系統(tǒng)可以在一次壓縮測量中,將高維數(shù)據(jù)(例如視頻、高光譜圖像)進行采樣和壓縮,從而實現(xiàn)了通過 2D 傳感器(如 CCD/CMOS 相機)高效獲取視覺信號。本文通過單次測量時間內(nèi)拍攝快速移動的場景,將多視角圖像信息壓縮到單張圖像中。


CVPR 2024 Highlight | 基于單曝光壓縮成像,不依賴生成模型也能從單張圖像中重建三維場景-AI.x社區(qū)

單曝光壓縮成像 (SCI) 系統(tǒng)使用 2D 傳感器在測量中捕獲高維數(shù)據(jù)


模型架構(gòu)


為從 SCI 圖像中端到端重建 3D 場景,本文提出了一種基于 NeRF 的重建方法。由于傳統(tǒng)的 NeRF 方法需要多視角圖像及其對應(yīng)的相機姿態(tài)作為輸入,因此本文對 NeRF 的訓(xùn)練機制進行了大幅度改進。


首先,在訓(xùn)練 NeRF 時,將相機位姿作為優(yōu)化參數(shù),與 NeRF 的神經(jīng)網(wǎng)絡(luò)一同優(yōu)化。由于在拍攝場景時測量時間很短,SCI 系統(tǒng)相對場景運動的幅度較小,因此該工作假設(shè)拍攝時系統(tǒng)作勻速直線運動,大幅降低了訓(xùn)練復(fù)雜度。對于比較復(fù)雜的運動軌跡,可以使用更復(fù)雜的運動模型來優(yōu)化運行軌跡。


其次,通過模擬 SCI 系統(tǒng)的成像原理,將各個視角下渲染出的圖像進行采樣并壓縮,得到一張合成的 SCI 圖像來與真實測得的 SCI 圖像計算誤差并進行反向傳導(dǎo),從而實現(xiàn)使用單張圖片進行端到端訓(xùn)練。通過以上訓(xùn)練機制,可以從 SCI 圖像中直接獲得重建好的 3D 場景(具體推導(dǎo)過程請見論文)。


最后,當場景重建好后,利用 NeRF 強大的圖像渲染能力,可以獲得恢復(fù)的圖像。


CVPR 2024 Highlight | 基于單曝光壓縮成像,不依賴生成模型也能從單張圖像中重建三維場景-AI.x社區(qū)

本論文中的模型訓(xùn)練機制。通過共同優(yōu)化相機位姿和 NeRF 神經(jīng)網(wǎng)絡(luò),并模擬 SCI 成像機理,合成一張 SCI 圖像與實際測量得到的 SCI 圖像計算誤差并反向傳導(dǎo),從而實現(xiàn)基于單張 SCI 圖像的端到端 3D 場景重建

三、實驗

定量實驗


實驗部分,本文基于 3D 重建領(lǐng)域常見的幾個數(shù)據(jù)集合成了 SCI 數(shù)據(jù)集,并在該數(shù)據(jù)集上對本文提出的模型和幾種已有的 SCI 圖像重建算法進行了對比實驗。首先通過實驗,比較了幾種方法在 SCI 圖像 / 視頻還原任務(wù)上的性能。

CVPR 2024 Highlight | 基于單曝光壓縮成像,不依賴生成模型也能從單張圖像中重建三維場景-AI.x社區(qū)


在 SCI 圖像 / 視頻還原任務(wù)上與已有方法的對比


同時,本文還比較了幾種方法在 3D 場景重建任務(wù)上的性能表現(xiàn)。由于已有方法只能逐幀還原 2D 圖像,因此在進行 3D 場景重建任務(wù)比較時,將已有方法輸出的圖片使用 NeRF 重建對應(yīng)場景并比較性能。

CVPR 2024 Highlight | 基于單曝光壓縮成像,不依賴生成模型也能從單張圖像中重建三維場景-AI.x社區(qū)

在 3D 場景重建任務(wù)上與已有方法的對比


實驗結(jié)果表明本文提出的方法性能顯著優(yōu)于已有方法。


定性實驗


除此之外,本文還通過搭建 SCI 成像系統(tǒng)獲取了真實數(shù)據(jù)集,并進行了定性實驗。實驗結(jié)果表明在真實數(shù)據(jù)集上本文提出的方法仍顯著優(yōu)于已有方法。


CVPR 2024 Highlight | 基于單曝光壓縮成像,不依賴生成模型也能從單張圖像中重建三維場景-AI.x社區(qū)

利用搭建的 SCI 成像系統(tǒng),本文在真實數(shù)據(jù)集上與已有工作進行了定性對比實驗。實驗結(jié)果表明該工作在真實數(shù)據(jù)集上仍顯著優(yōu)于已有工作

四、結(jié)論

本文提出了一種基于單曝光成像和 NeRF 的 3D 場景重建方法,實現(xiàn)了不依賴任何預(yù)訓(xùn)練生成模型的端到端單張圖像重建 3D 場景。本文通過大幅度改進 NeRF 訓(xùn)練機制,利用 SCI 圖像中隱含的 3D 信息,成功將其中的 3D 場景進行還原,并利用 NeRF 強大的圖像渲染能力從場景中渲染高質(zhì)量、高幀率圖像。


實驗結(jié)果表明,該方法不僅可以重建高質(zhì)量 3D 場景,還在傳統(tǒng)的 SCI 圖像 / 視頻還原任務(wù)上顯著優(yōu)于已有方法。這為未來在高速 3D 攝像、3D 場景加密與解密、圖像與視頻信息壓縮等領(lǐng)域的應(yīng)用開辟了新的可能性。


本文轉(zhuǎn)自 機器之心,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/8F6Wij7kOkEEFzAHo00j8g??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦