自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成

發(fā)布于 2024-7-4 10:07
瀏覽
0收藏

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2310.11448
git鏈接:https://zju3dv.github.io/4k4d/


本文旨在實現(xiàn)動態(tài)3D場景在4K分辨率下的高保真和實時視圖合成。最近,一些動態(tài)視圖合成方法在渲染質(zhì)量方面表現(xiàn)出色。然而,在渲染高分辨率圖像時,它們的速度仍然有限。為解決這個問題,本文提出了4K4D,一種支持硬件光柵化的4D點云表示,能夠?qū)崿F(xiàn)前所未有的渲染速度。本文的表示基于4D特征網(wǎng)格構建,因此點云被自然地正則化并可以進行穩(wěn)健優(yōu)化。此外,設計了一種新穎的混合外觀模型,顯著提升了渲染質(zhì)量,同時保持了效率。此外,開發(fā)了一種可微分的深度剝離算法,以有效地從RGB視頻中學習所提出的模型。實驗表明,在使用RTX 4090 GPU的情況下,本文的表示在1080p分辨率下可以在DNA-Rendering數(shù)據(jù)集上以超過400 FPS的速度進行渲染,在4K分辨率下可以在ENeRF-Outdoor數(shù)據(jù)集上以80 FPS的速度進行渲染,比以往方法快30倍,并實現(xiàn)了最先進的渲染質(zhì)量。

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

方法

給定捕捉動態(tài)3D場景的多視角視頻,目標是重建目標場景并實時執(zhí)行新視角合成。為此,研究者們使用空間雕刻算法提取場景的粗點云,并建立基于點云的神經(jīng)場景表示,該表示可以從輸入視頻中穩(wěn)健地學習,并支持硬件加速渲染。


下圖2展示了所提模型的概述。首先描述如何基于點云和神經(jīng)網(wǎng)絡表示動態(tài)場景的幾何和外觀。然后,開發(fā)了一種可微分深度剝離算法,用于渲染表示,該算法由硬件光柵化器支持,從而顯著提高了渲染速度。最后,討論如何在輸入RGB視頻上優(yōu)化所提模型。

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

使用點云建模動態(tài)場景

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)


討論。本文的外觀模型是實現(xiàn)動態(tài)場景的低存儲、高保真和實時視圖合成的關鍵。有三種替代方法來表示動態(tài)外觀,但它們的表現(xiàn)無法與本文的模型相提并論。


  • 在每個點上定義顯式 SH 系數(shù),如在 3D 高斯分裂 中。當 SH 系數(shù)的維度較高且動態(tài)場景的點數(shù)量較大時,該模型的大小可能太大,無法在消費級 GPU 上訓練。
  • 基于 MLP 的 SH 模型。使用 MLP 來預測每個點的 SH 系數(shù)可以有效地減少模型大小。然而,本文的實驗發(fā)現(xiàn)基于 MLP 的 SH 模型難以渲染高質(zhì)量圖像。
  • 連續(xù)視角依賴的圖像混合模型,如 ENeRF。使用圖像混合模型表示外觀比僅使用基于 MLP 的 SH 模型具有更好的渲染質(zhì)量。然而,ENeRF 中的網(wǎng)絡將視角方向作為輸入,因此無法輕松預計算,從而限制了推理期間的渲染速度。


CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

可微分深度剝離

研究者們提出的動態(tài)場景表示可以使用深度剝離算法渲染成圖像。得益于點云表示,能夠利用硬件光柵化器顯著加速深度剝離過程。此外,使這一渲染過程可微分也很容易,從而能夠從輸入的 RGB 視頻中學習本文的模型。


CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

訓練

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)


為了規(guī)范,本文提出的表示優(yōu)化過程,還額外應用mask監(jiān)督到目標場景的動態(tài)區(qū)域。僅渲染動態(tài)區(qū)域的點云以獲得它們的mask,其中像素值由以下公式得到:

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

mask損失定義如下:

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)


最終的損失函數(shù)定義如下:

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

其中, 和  是控制對應損失權重的超參數(shù)。

推理

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

實現(xiàn)細節(jié)

優(yōu)化

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

點云初始化

利用現(xiàn)有的多視角重建方法來初始化點云。對于動態(tài)區(qū)域,使用分割方法 在輸入圖像中獲取它們的mask,并利用空間雕刻算法提取它們的粗略幾何信息。對于靜態(tài)背景區(qū)域,利用前景mask沿所有幀計算背景像素的mask加權平均,生成不包含前景內(nèi)容的背景圖像。然后,在這些圖像上訓練一個 Instant-NGP模型,從中獲取初始點云。初始化后,動態(tài)區(qū)域每幀通常包含約 250k 個點,靜態(tài)背景區(qū)域通常包含約 300k 個點。

實驗

數(shù)據(jù)集和評估指標

在多個廣泛使用的多視角數(shù)據(jù)集上訓練和評估本文的方法 4K4D,包括 DNA-Rendering、ENeRF-Outdoor、NHR和 Neural3DV。


  • DNA-Rendering: 這個數(shù)據(jù)集使用 4K 和 2K 相機記錄了動態(tài)人類和物體的 10 秒視頻片段,幀率為 15 FPS,采集了 60 個視角。由于錄制了復雜的服裝和快速移動的人物,這個數(shù)據(jù)集非常具有挑戰(zhàn)性。在 DNA-Rendering 的 4 個序列上進行實驗,其中將 90% 的視角作為訓練集,其余作為評估集。
  • ENeRF-Outdoor: 這個數(shù)據(jù)集在室外環(huán)境中使用 1080p 相機以 30FPS 記錄了多個動態(tài)人物和物體。選擇了三個包含 6 個不同演員(每個序列選擇了 2 個演員)的 100 幀序列來評估本文的方法 4K4D。這個數(shù)據(jù)集對于動態(tài)視角合成具有挑戰(zhàn)性,因為同一個片段中不僅有多個移動的人物和物體,而且由于人物的陰影,背景也是動態(tài)的。


遵循 Im4D 和 NeuralBody 的做法,在 DNA-Rendering 和 NHR 數(shù)據(jù)集上評估動態(tài)區(qū)域的指標,可以通過預定義人物的 3D 邊界框并將其投影到圖像上來獲得。對于 ENeRF-Outdoor,聯(lián)合訓練前景的動態(tài)幾何和外觀以及背景的動態(tài)外觀,以獲得整體圖像的渲染結果。所有圖像在評估時都會按比例調(diào)整大小,如果原始分辨率超過 2K,則縮放比例為 0.375。在實驗中,DNA-Rendering 的渲染圖像大小為 1024×1224(和 1125×1536),ENeRF-Outdoor 的分辨率為 960×540。Neural3DV 視頻和 NHR 的分辨率分別為 1352×1224 和 512×612(和 384×512)。

對比實驗

對比結果在 DNA-Rendering數(shù)據(jù)集上的定性和定量比較如下圖5和表1所示。

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

從表 1 可以明顯看出,本文的方法 4K4D 的渲染速度比當前最先進的實時動態(tài)視角合成方法ENeRF快30倍,并且在渲染質(zhì)量上表現(xiàn)更優(yōu)秀。即使與并行工作相比,本文的方法 4K4D 仍然實現(xiàn)了 13 倍的加速,并且能夠產(chǎn)生一致性更高質(zhì)量的圖像。如圖 5 所示,KPlanes無法恢復高度詳細的 4D 動態(tài)場景的外觀和幾何特征。其他基于圖像的方法 能夠產(chǎn)生高質(zhì)量的外觀效果。然而,它們往往在遮擋和邊緣處產(chǎn)生模糊的結果,導致視覺質(zhì)量的降低,最多能保持交互式幀率。相反,本文的方法 4K4D 可以以超過 200 FPS 的速度生成更高保真度的渲染結果。圖 3 和表 2 提供了在 ENeRF-Outdoor數(shù)據(jù)集上的定性和定量結果。即使在具有多個演員和動態(tài)背景的挑戰(zhàn)性 ENeRF-Outdoor 數(shù)據(jù)集上,本文的方法 4K4D 仍然能夠取得顯著更好的結果,同時以超過 140 FPS 的速度進行渲染。ENeRF在這個具有挑戰(zhàn)性的數(shù)據(jù)集上產(chǎn)生模糊的結果,而 IBRNet的渲染結果在圖像邊緣處含有黑色偽影,如圖 3 所示。K-Planse在重建動態(tài)人物和變化背景區(qū)域上失敗。

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

消融研究

在 DNA-Rendering數(shù)據(jù)集的 150 幀序列 0013 01 上進行了消融研究。定性和定量結果如下圖6和表4至表7所示。

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)


存儲分析對于 150 幀序列 0013 01 場景,本文的方法 4K4D 的存儲分析列在表 5 中。由于其顯式表示,點位置 p 占據(jù)了模型尺寸的大部分。本文方法的最終存儲成本每幀少于 2 MB,包括源視頻。DNA-Rendering的輸入圖像以 JPEG 格式提供。使用 FFmpeg 的 HEVC 編碼器將所有輸入圖像的幀編碼為視頻,編碼質(zhì)量因子設置為 25。編碼后,觀察到 LPIPS 沒有變化(0.040),SSIM 沒有損失(0.982),PSNR 只降低了 0.42%(31.990 對比 31.855),表明方法 4K4D 對于輸入圖像的視頻編碼具有魯棒性。對于以視頻形式編碼的輸入圖像,基于圖像的渲染的存儲開銷每幀僅為 0.419 MB,渲染質(zhì)量幾乎沒有變化。


作者預計算了點云上的物理屬性以實現(xiàn)實時渲染,每幀大約需要 2 秒。盡管預計算的緩存尺寸較大(0013 01 的一幀為 200 MB),但這些預計算的緩存僅駐留在主存儲器中,并沒有顯式存儲在磁盤上,這對現(xiàn)代個人電腦來說是可行的。這使得表示形式成為一種壓縮形式,磁盤文件大小較?。繋?2 MB),但所包含的信息非常豐富(每幀 200 MB)。

渲染速度分析

本文引入了多種優(yōu)化技術來加速方法 4K4D 的渲染速度,這些技術僅由研究者們提出的混合幾何和外觀表示方法實現(xiàn)。在上面表6中,分析了這些提議技術在 DNA-Rendering 數(shù)據(jù)集的 150 幀序列 0013 01 上的有效性和質(zhì)量影響。


計算的有效性

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)


可微深度剝離本文還與傳統(tǒng)的基于 CUDA 的可微分點云渲染技術(PyTorch3D 提供的)進行比較,以驗證提出的可微分深度剝離算法的有效性。本文提出的可微分深度剝離算法和 PyTorch3D的實現(xiàn)都使用了與 Eq. (4) 相同的體積渲染方程。如表 6 所示,本文的方法比基于 CUDA 的方法快了超過 7 倍。


其他加速技術

  • “w/o fp16” 變體使用原始的 32 位浮點數(shù)進行計算。
  • “w/o K = 12” 變體在深度剝離算法中使用了 15 個渲染通道,與訓練時相同。使用 16 位浮點數(shù)和 12 個渲染通道都可以實現(xiàn) 20FPS 的加速。

不同GPU和分辨率上的渲染速度本文還報告了在不同硬件(RTX 3060、3090 和 4090)以及不同分辨率(720p、1080p 和 4K(2160p))上的渲染速度(見表 7)。這里報告的渲染速度包含了交互式 GUI 的開銷(“w/ GUI”),因此略低于報告的速度。4K4D 即使在使用普通硬件渲染 4K(2160p)圖像時也能實現(xiàn)實時渲染,如表中所示。

結論與討論

本文提出了一種基于神經(jīng)點云的表示方法,稱為4K4D,用于實時渲染4K分辨率的動態(tài)3D場景。在4D特征網(wǎng)格上構建了4K4D,以自然地規(guī)范化點,并開發(fā)了一種新穎的混合外觀模型,用于高質(zhì)量渲染。此外,本文開發(fā)了一種可微分深度剝離算法,利用硬件光柵化流水線有效優(yōu)化和高效渲染所提出的模型。在實驗中,展示了4K4D不僅實現(xiàn)了最先進的渲染質(zhì)量,而且在渲染速度上表現(xiàn)出了超過30倍的提升(在RTX 3090上,1080p分辨率超過200FPS)。


然而,本文的方法仍然存在一些局限性。4K4D無法生成跨幀的點對應關系,這對于某些下游任務至關重要。此外,4K4D的存儲成本隨視頻幀數(shù)線性增加,因此在建模長體積視頻時會面臨困難。如何建模點對應關系和減少長視頻的存儲成本,可能是未來研究中的兩個有趣問題。


本文轉自 AI生成未來 ,作者:Zhen Xu等


原文鏈接:??https://mp.weixin.qq.com/s/kIXF_o61seriih7En1-ZGQ??

標簽
收藏
回復
舉報
回復
相關推薦