自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<code id="4szw4"><tr id="4szw4"><dfn id="4szw4"></dfn></tr></code>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成

發(fā)布于 2024-7-4 10:07

瀏覽

0收藏

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2310.11448
git鏈接：https://zju3dv.github.io/4k4d/

本文旨在實現(xiàn)動態(tài)3D場景在4K分辨率下的高保真和實時視圖合成。最近，一些動態(tài)視圖合成方法在渲染質(zhì)量方面表現(xiàn)出色。然而，在渲染高分辨率圖像時，它們的速度仍然有限。為解決這個問題，本文提出了4K4D，一種支持硬件光柵化的4D點云表示，能夠?qū)崿F(xiàn)前所未有的渲染速度。本文的表示基于4D特征網(wǎng)格構建，因此點云被自然地正則化并可以進行穩(wěn)健優(yōu)化。此外，設計了一種新穎的混合外觀模型，顯著提升了渲染質(zhì)量，同時保持了效率。此外，開發(fā)了一種可微分的深度剝離算法，以有效地從RGB視頻中學習所提出的模型。實驗表明，在使用RTX 4090 GPU的情況下，本文的表示在1080p分辨率下可以在DNA-Rendering數(shù)據(jù)集上以超過400 FPS的速度進行渲染，在4K分辨率下可以在ENeRF-Outdoor數(shù)據(jù)集上以80 FPS的速度進行渲染，比以往方法快30倍，并實現(xiàn)了最先進的渲染質(zhì)量。

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

方法

給定捕捉動態(tài)3D場景的多視角視頻，目標是重建目標場景并實時執(zhí)行新視角合成。為此，研究者們使用空間雕刻算法提取場景的粗點云，并建立基于點云的神經(jīng)場景表示，該表示可以從輸入視頻中穩(wěn)健地學習，并支持硬件加速渲染。

下圖2展示了所提模型的概述。首先描述如何基于點云和神經(jīng)網(wǎng)絡表示動態(tài)場景的幾何和外觀。然后，開發(fā)了一種可微分深度剝離算法，用于渲染表示，該算法由硬件光柵化器支持，從而顯著提高了渲染速度。最后，討論如何在輸入RGB視頻上優(yōu)化所提模型。

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

使用點云建模動態(tài)場景

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

討論。本文的外觀模型是實現(xiàn)動態(tài)場景的低存儲、高保真和實時視圖合成的關鍵。有三種替代方法來表示動態(tài)外觀，但它們的表現(xiàn)無法與本文的模型相提并論。

在每個點上定義顯式 SH 系數(shù)，如在 3D 高斯分裂中。當 SH 系數(shù)的維度較高且動態(tài)場景的點數(shù)量較大時，該模型的大小可能太大，無法在消費級 GPU 上訓練。
基于 MLP 的 SH 模型。使用 MLP 來預測每個點的 SH 系數(shù)可以有效地減少模型大小。然而，本文的實驗發(fā)現(xiàn)基于 MLP 的 SH 模型難以渲染高質(zhì)量圖像。
連續(xù)視角依賴的圖像混合模型，如 ENeRF。使用圖像混合模型表示外觀比僅使用基于 MLP 的 SH 模型具有更好的渲染質(zhì)量。然而，ENeRF 中的網(wǎng)絡將視角方向作為輸入，因此無法輕松預計算，從而限制了推理期間的渲染速度。

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

可微分深度剝離

研究者們提出的動態(tài)場景表示可以使用深度剝離算法渲染成圖像。得益于點云表示，能夠利用硬件光柵化器顯著加速深度剝離過程。此外，使這一渲染過程可微分也很容易，從而能夠從輸入的 RGB 視頻中學習本文的模型。

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

訓練

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

為了規(guī)范，本文提出的表示優(yōu)化過程，還額外應用mask監(jiān)督到目標場景的動態(tài)區(qū)域。僅渲染動態(tài)區(qū)域的點云以獲得它們的mask，其中像素值由以下公式得到：

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

mask損失定義如下：

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

最終的損失函數(shù)定義如下：

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

其中，和是控制對應損失權重的超參數(shù)。

推理

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

實現(xiàn)細節(jié)

優(yōu)化

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

點云初始化

利用現(xiàn)有的多視角重建方法來初始化點云。對于動態(tài)區(qū)域，使用分割方法在輸入圖像中獲取它們的mask，并利用空間雕刻算法提取它們的粗略幾何信息。對于靜態(tài)背景區(qū)域，利用前景mask沿所有幀計算背景像素的mask加權平均，生成不包含前景內(nèi)容的背景圖像。然后，在這些圖像上訓練一個 Instant-NGP模型，從中獲取初始點云。初始化后，動態(tài)區(qū)域每幀通常包含約 250k 個點，靜態(tài)背景區(qū)域通常包含約 300k 個點。

實驗

數(shù)據(jù)集和評估指標

在多個廣泛使用的多視角數(shù)據(jù)集上訓練和評估本文的方法 4K4D，包括 DNA-Rendering、ENeRF-Outdoor、NHR和 Neural3DV。

DNA-Rendering: 這個數(shù)據(jù)集使用 4K 和 2K 相機記錄了動態(tài)人類和物體的 10 秒視頻片段，幀率為 15 FPS，采集了 60 個視角。由于錄制了復雜的服裝和快速移動的人物，這個數(shù)據(jù)集非常具有挑戰(zhàn)性。在 DNA-Rendering 的 4 個序列上進行實驗，其中將 90% 的視角作為訓練集，其余作為評估集。
ENeRF-Outdoor: 這個數(shù)據(jù)集在室外環(huán)境中使用 1080p 相機以 30FPS 記錄了多個動態(tài)人物和物體。選擇了三個包含 6 個不同演員（每個序列選擇了 2 個演員）的 100 幀序列來評估本文的方法 4K4D。這個數(shù)據(jù)集對于動態(tài)視角合成具有挑戰(zhàn)性，因為同一個片段中不僅有多個移動的人物和物體，而且由于人物的陰影，背景也是動態(tài)的。

遵循 Im4D 和 NeuralBody 的做法，在 DNA-Rendering 和 NHR 數(shù)據(jù)集上評估動態(tài)區(qū)域的指標，可以通過預定義人物的 3D 邊界框并將其投影到圖像上來獲得。對于 ENeRF-Outdoor，聯(lián)合訓練前景的動態(tài)幾何和外觀以及背景的動態(tài)外觀，以獲得整體圖像的渲染結果。所有圖像在評估時都會按比例調(diào)整大小，如果原始分辨率超過 2K，則縮放比例為 0.375。在實驗中，DNA-Rendering 的渲染圖像大小為 1024×1224（和 1125×1536），ENeRF-Outdoor 的分辨率為 960×540。Neural3DV 視頻和 NHR 的分辨率分別為 1352×1224 和 512×612（和 384×512）。

對比實驗

對比結果在 DNA-Rendering數(shù)據(jù)集上的定性和定量比較如下圖5和表1所示。

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

從表 1 可以明顯看出，本文的方法 4K4D 的渲染速度比當前最先進的實時動態(tài)視角合成方法ENeRF快30倍，并且在渲染質(zhì)量上表現(xiàn)更優(yōu)秀。即使與并行工作相比，本文的方法 4K4D 仍然實現(xiàn)了 13 倍的加速，并且能夠產(chǎn)生一致性更高質(zhì)量的圖像。如圖 5 所示，KPlanes無法恢復高度詳細的 4D 動態(tài)場景的外觀和幾何特征。其他基于圖像的方法能夠產(chǎn)生高質(zhì)量的外觀效果。然而，它們往往在遮擋和邊緣處產(chǎn)生模糊的結果，導致視覺質(zhì)量的降低，最多能保持交互式幀率。相反，本文的方法 4K4D 可以以超過 200 FPS 的速度生成更高保真度的渲染結果。圖 3 和表 2 提供了在 ENeRF-Outdoor數(shù)據(jù)集上的定性和定量結果。即使在具有多個演員和動態(tài)背景的挑戰(zhàn)性 ENeRF-Outdoor 數(shù)據(jù)集上，本文的方法 4K4D 仍然能夠取得顯著更好的結果，同時以超過 140 FPS 的速度進行渲染。ENeRF在這個具有挑戰(zhàn)性的數(shù)據(jù)集上產(chǎn)生模糊的結果，而 IBRNet的渲染結果在圖像邊緣處含有黑色偽影，如圖 3 所示。K-Planse在重建動態(tài)人物和變化背景區(qū)域上失敗。

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

消融研究

在 DNA-Rendering數(shù)據(jù)集的 150 幀序列 0013 01 上進行了消融研究。定性和定量結果如下圖6和表4至表7所示。

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

存儲分析對于 150 幀序列 0013 01 場景，本文的方法 4K4D 的存儲分析列在表 5 中。由于其顯式表示，點位置 p 占據(jù)了模型尺寸的大部分。本文方法的最終存儲成本每幀少于 2 MB，包括源視頻。DNA-Rendering的輸入圖像以 JPEG 格式提供。使用 FFmpeg 的 HEVC 編碼器將所有輸入圖像的幀編碼為視頻，編碼質(zhì)量因子設置為 25。編碼后，觀察到 LPIPS 沒有變化（0.040），SSIM 沒有損失（0.982），PSNR 只降低了 0.42%（31.990 對比 31.855），表明方法 4K4D 對于輸入圖像的視頻編碼具有魯棒性。對于以視頻形式編碼的輸入圖像，基于圖像的渲染的存儲開銷每幀僅為 0.419 MB，渲染質(zhì)量幾乎沒有變化。

作者預計算了點云上的物理屬性以實現(xiàn)實時渲染，每幀大約需要 2 秒。盡管預計算的緩存尺寸較大（0013 01 的一幀為 200 MB），但這些預計算的緩存僅駐留在主存儲器中，并沒有顯式存儲在磁盤上，這對現(xiàn)代個人電腦來說是可行的。這使得表示形式成為一種壓縮形式，磁盤文件大小較?。繋?2 MB），但所包含的信息非常豐富（每幀 200 MB）。

渲染速度分析

本文引入了多種優(yōu)化技術來加速方法 4K4D 的渲染速度，這些技術僅由研究者們提出的混合幾何和外觀表示方法實現(xiàn)。在上面表6中，分析了這些提議技術在 DNA-Rendering 數(shù)據(jù)集的 150 幀序列 0013 01 上的有效性和質(zhì)量影響。

計算的有效性

CVPR`24 | 又快又好！渲染速度比ENeRF快30倍！4K4D:實時4K分辨率4D視圖合成-AI.x社區(qū)

可微深度剝離本文還與傳統(tǒng)的基于 CUDA 的可微分點云渲染技術（PyTorch3D 提供的）進行比較，以驗證提出的可微分深度剝離算法的有效性。本文提出的可微分深度剝離算法和 PyTorch3D的實現(xiàn)都使用了與 Eq. (4) 相同的體積渲染方程。如表 6 所示，本文的方法比基于 CUDA 的方法快了超過 7 倍。

其他加速技術

“w/o fp16” 變體使用原始的 32 位浮點數(shù)進行計算。
“w/o K = 12” 變體在深度剝離算法中使用了 15 個渲染通道，與訓練時相同。使用 16 位浮點數(shù)和 12 個渲染通道都可以實現(xiàn) 20FPS 的加速。

不同GPU和分辨率上的渲染速度本文還報告了在不同硬件（RTX 3060、3090 和 4090）以及不同分辨率（720p、1080p 和 4K（2160p））上的渲染速度（見表 7）。這里報告的渲染速度包含了交互式 GUI 的開銷（“w/ GUI”），因此略低于報告的速度。4K4D 即使在使用普通硬件渲染 4K（2160p）圖像時也能實現(xiàn)實時渲染，如表中所示。

結論與討論

本文提出了一種基于神經(jīng)點云的表示方法，稱為4K4D，用于實時渲染4K分辨率的動態(tài)3D場景。在4D特征網(wǎng)格上構建了4K4D，以自然地規(guī)范化點，并開發(fā)了一種新穎的混合外觀模型，用于高質(zhì)量渲染。此外，本文開發(fā)了一種可微分深度剝離算法，利用硬件光柵化流水線有效優(yōu)化和高效渲染所提出的模型。在實驗中，展示了4K4D不僅實現(xiàn)了最先進的渲染質(zhì)量，而且在渲染速度上表現(xiàn)出了超過30倍的提升（在RTX 3090上，1080p分辨率超過200FPS）。

然而，本文的方法仍然存在一些局限性。4K4D無法生成跨幀的點對應關系，這對于某些下游任務至關重要。此外，4K4D的存儲成本隨視頻幀數(shù)線性增加，因此在建模長體積視頻時會面臨困難。如何建模點對應關系和減少長視頻的存儲成本，可能是未來研究中的兩個有趣問題。

本文轉自 AI生成未來，作者：Zhen Xu等

原文鏈接:??https://mp.weixin.qq.com/s/kIXF_o61seriih7En1-ZGQ??

標簽

贊

收藏

回復

舉報

回復

相關推薦

LiDAR仿真新思路 | LidarDM：助力4D世界生成，仿真殺器~

qbhua ? 2296瀏覽 ? 0回復
輕松拿捏4K高清圖像理解！這個多模態(tài)大模型自動分析網(wǎng)頁海報內(nèi)容，打工人簡直不要太方便

Crystalcxt ? 4079瀏覽 ? 0回復
SealTool：Agent微調(diào)與評測的開源項目（14k樣本，4k工具），比ToolBench等更全面！

PaperAgent ? 4075瀏覽 ? 0回復
CVPR`24 | 4D編輯哪家強？浙大首次提出通用指導4D編輯框架：Instruct 4D-to-4D

angel ? 2750瀏覽 ? 0回復
靠Scaling Laws煉出4D版視頻生成模型，多倫多大學北交大等攜手開源81K高質(zhì)量數(shù)據(jù)集

Crystalcxt ? 2088瀏覽 ? 0回復
開源視頻模型SV4D，一鍵創(chuàng)建8角度動態(tài)3D視頻

Aceryt ? 2745瀏覽 ? 0回復
ECCV`24 | 比現(xiàn)有方法快50倍！新加坡國立開源FlashSplat：簡單&全局最優(yōu)3D-GS分割求解器

angel ? 3229瀏覽 ? 0回復
ACM MM24 | Hi3D: 3D生成領域再突破！新視角生成和高分辨率生成雙SOTA(復旦&智象等)

angel ? 2357瀏覽 ? 0回復
MDM：多任務高分辨率生成又快又好！

angel ? 1932瀏覽 ? 0回復
生成任意3D和4D場景！GenXD：通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟

angel ? 1983瀏覽 ? 0回復
斯坦福&UC伯克利開源突破性視覺場景生成與編輯技術，精準描繪3D/4D世界!

angel ? 1941瀏覽 ? 0回復
實現(xiàn)任意3D/4D場景生成！港科大&清華&生數(shù)發(fā)布DimensionX

angel ? 3907瀏覽 ? 0回復
首次實現(xiàn)8K圖像生成！FreeScale讓擴散模型解鎖更高分辨率！

angel ? 2038瀏覽 ? 0回復
Hugging Face 發(fā)布 Picotron：解決 LLM 訓練 4D 并行化的微型框架

Halo咯咯 ? 1797瀏覽 ? 0回復
從低清到4K的魔法：FlashVideo突破高分辨率視頻生成計算瓶頸(港大&港中文&字節(jié))

angel ? 1660瀏覽 ? 0回復
高分辨率3D人生成超簡單!Pippo:Meta最新工作首次完成1K分辨率一致多視角人物圖像生成

angel ? 1955瀏覽 ? 0回復
首篇2D/視頻/3D/4D統(tǒng)一生成框架全景綜述(港科大&中山等)

angel ? 1499瀏覽 ? 0回復
一份4D生成領域超全景圖譜?。▽ο蠼?、場景生成、數(shù)字人、4D編輯和自動駕駛）

angel ? 1160瀏覽 ? 0回復
比DeepSeek快8倍！智譜AI開源6款模型，推理速度200 tokens/秒碾壓競品，價格僅1/30！

AI博物院 ? 1615瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

熱門推薦

Seedream 3.0技術細節(jié)重磅發(fā)布！中文圖文生成再進化,2K高清+爆改文字渲染,遠超Canva！ 0回復

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構設計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

上一篇：海報生成如此簡單！OPPO聯(lián)合港中文發(fā)布基于LLM的端到端方案GlyphDraw2

下一篇：大語言模型的前世今生：萬字長文完整梳理所有里程碑式大語言模型（LLMs）

社區(qū)精華內(nèi)容

目錄

^{<blockquote id="uycv7"></blockquote>}

<sub id="uycv7"><p id="uycv7"></p></sub>