3DGStream:快速訓(xùn)練,200 FPS實(shí)時(shí)渲染逼真場景!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
從多視角視頻構(gòu)建動(dòng)態(tài)場景的照片逼真的自由視角視頻(FVV)仍然是一項(xiàng)具有挑戰(zhàn)性的工作。盡管當(dāng)前的神經(jīng)渲染技術(shù)取得了顯著的進(jìn)步,但這些方法通常需要完整的視頻序列來進(jìn)行離線訓(xùn)練,并且無法實(shí)時(shí)渲染。為了解決這些限制,本文引入了3DGStream,這是一種專為真實(shí)世界動(dòng)態(tài)場景的高效FVV流式傳輸而設(shè)計(jì)的方法。提出的方法在12秒內(nèi)實(shí)現(xiàn)了快速的動(dòng)態(tài)全幀重建,并以200 FPS的速度實(shí)現(xiàn)了實(shí)時(shí)渲染。具體來說,我們使用3D高斯(3DG)來表示場景。與直接優(yōu)化每幀3DG的簡單方法不同,我們使用了一個(gè)緊湊的神經(jīng)變換緩存(NTC)來對3DG的平移和旋轉(zhuǎn)進(jìn)行建模,顯著減少了每個(gè)FVV幀所需的訓(xùn)練時(shí)間和存儲(chǔ)。此外,還提出了一種自適應(yīng)的3DG添加策略來處理動(dòng)態(tài)場景中的新興目標(biāo)。實(shí)驗(yàn)表明,與現(xiàn)有技術(shù)相比,3DGStream在渲染速度、圖像質(zhì)量、訓(xùn)練時(shí)間和模型存儲(chǔ)方面具有競爭力。
論文鏈接:https://arxiv.org/pdf/2403.01444.pdf
論文名稱:3DGStream: On-the-fly Training of 3D Gaussians for Efficient Streaming of Photo-Realistic Free-Viewpoint Videos
代碼鏈接:https://sjojok.github.io/3dgstream/
3DGStream能夠以百萬像素的分辨率實(shí)時(shí)渲染照片逼真的FVV,具有異??焖俚拿繋?xùn)練速度和有限的模型存儲(chǔ)要求。如圖1和圖2所示,與每幀從頭開始訓(xùn)練的靜態(tài)重建方法和需要在完整視頻序列上進(jìn)行離線訓(xùn)練的動(dòng)態(tài)重建方法相比,我們的方法在訓(xùn)練速度和渲染速度方面都很出色,在圖像質(zhì)量和模型存儲(chǔ)方面保持了競爭優(yōu)勢。此外,我們的方法在所有相關(guān)方面都優(yōu)于StreamRF,這是一種處理完全相同任務(wù)的最先進(jìn)技術(shù)。
3DGStream方法一覽
如下所示,給定一組多視角視頻流,3DGStream旨在構(gòu)建動(dòng)態(tài)場景的高質(zhì)量FVV流。最初,優(yōu)化一組3DG來表示時(shí)間步長為0的場景。對于隨后的每個(gè)時(shí)間步長i,使用時(shí)間步長i?1中的3DG作為初始化,然后進(jìn)行兩階段的訓(xùn)練過程:第1階段:訓(xùn)練神經(jīng)變換緩存(NTC)來對3DG的平移和旋轉(zhuǎn)進(jìn)行建模。訓(xùn)練結(jié)束后,NTC轉(zhuǎn)換3DG,為下一個(gè)時(shí)間步長和當(dāng)前時(shí)間步長的下一階段做好準(zhǔn)備。第二階段:在潛在位置生成特定于幀的附加3DG,并通過周期性拆分和修剪對其進(jìn)行優(yōu)化。在兩階段過程結(jié)束后,變換后的3DG和附加的3DG都被用于在當(dāng)前時(shí)間步長i進(jìn)行渲染,只有變換后的3D被帶入下一個(gè)時(shí)間步長。
實(shí)驗(yàn)結(jié)果對比
論文在兩個(gè)真實(shí)世界的動(dòng)態(tài)場景數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn):N3DV數(shù)據(jù)集和Meet Room數(shù)據(jù)集。N3DV數(shù)據(jù)集上的定量比較。訓(xùn)練時(shí)間、所需存儲(chǔ)和PSNR在每個(gè)場景的整個(gè)300幀上取平均值。
Meet Room dataset性能對比:
3DG-S在初始幀上的質(zhì)量對于3DGStream至關(guān)重要。因此,我們繼承了3DGS的局限性,例如對初始點(diǎn)云的高度依賴性。如圖7所示,由于COLMAP無法重建遠(yuǎn)處的景觀,在窗口之外存在明顯的偽影。因此,我們的方法將直接受益于未來對3DG-S的增強(qiáng)。此外,為了高效的訓(xùn)練,我們限制了訓(xùn)練迭代次數(shù)。
主要結(jié)論
3DGStream是一種高效的自由視點(diǎn)視頻流的新方法。基于3DG-S,利用有效的神經(jīng)變換緩存來捕捉目標(biāo)的運(yùn)動(dòng)。此外,還提出了一種自適應(yīng)3DG添加策略,以準(zhǔn)確地對動(dòng)態(tài)場景中的新興目標(biāo)進(jìn)行建模。3DGStream的兩級(jí)pipeline實(shí)現(xiàn)了視頻流中動(dòng)態(tài)場景的實(shí)時(shí)重建。在確保照片逼真的圖像質(zhì)量的同時(shí),3DGStream以百萬像素的分辨率和適度的存儲(chǔ)空間實(shí)現(xiàn)了實(shí)時(shí)訓(xùn)練(每幀約10秒)和實(shí)時(shí)渲染(約200FPS)。大量實(shí)驗(yàn)證明了3DGStream的效率和有效性!