自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

高保真+通用!視頻擴(kuò)散模型加持,稀疏視圖重建任意場(chǎng)景!清華&港科大發(fā)布ReconX

發(fā)布于 2024-9-3 10:27
瀏覽
0收藏

高保真+通用!視頻擴(kuò)散模型加持,稀疏視圖重建任意場(chǎng)景!清華&港科大發(fā)布ReconX-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2408.16767
git鏈接:https://liuff19.github.io/ReconX

高保真+通用!視頻擴(kuò)散模型加持,稀疏視圖重建任意場(chǎng)景!清華&港科大發(fā)布ReconX-AI.x社區(qū)

亮點(diǎn)直擊

  • ReconX,一種新穎的稀疏視角3D場(chǎng)景重建框架,該框架將模糊的重建挑戰(zhàn)重新定義為時(shí)間生成任務(wù)。
  • 將3D結(jié)構(gòu)指導(dǎo)融入視頻擴(kuò)散模型的條件空間中,以生成3D一致的幀,并提出了一種基于置信度的3D優(yōu)化方案(3DGS),以便在生成的視頻基礎(chǔ)上重建場(chǎng)景。
  • 大量實(shí)驗(yàn)表明,ReconX在各種真實(shí)世界數(shù)據(jù)集上在高保真度和通用性方面優(yōu)于現(xiàn)有方法。


3D場(chǎng)景重建的進(jìn)展使得我們能夠?qū)?lái)自現(xiàn)實(shí)世界的2D圖像轉(zhuǎn)換為3D模型,通過(guò)數(shù)百?gòu)堓斎胝掌杀普娴?D結(jié)果。盡管在密集視角重建場(chǎng)景中取得了巨大成功,但從不足的捕捉視角中渲染詳細(xì)場(chǎng)景仍然是一個(gè)難以解決的優(yōu)化問(wèn)題,常常導(dǎo)致未見(jiàn)區(qū)域出現(xiàn)偽影和失真。

高保真+通用!視頻擴(kuò)散模型加持,稀疏視圖重建任意場(chǎng)景!清華&港科大發(fā)布ReconX-AI.x社區(qū)

本文提出了ReconX,一種新穎的3D場(chǎng)景重建范式,該范式將模糊的重建挑戰(zhàn)重新定義為時(shí)間生成任務(wù)。關(guān)鍵的洞察在于釋放大型預(yù)訓(xùn)練視頻擴(kuò)散模型在稀疏視角重建中的強(qiáng)生成先驗(yàn)。然而,直接從預(yù)訓(xùn)練模型生成的視頻幀難以準(zhǔn)確保持3D視角一致性。為了解決這個(gè)問(wèn)題,ReconX首先根據(jù)有限的輸入視角構(gòu)建全局點(diǎn)云,并將其編碼到上下文空間中作為3D結(jié)構(gòu)條件。以此條件為指導(dǎo),視頻擴(kuò)散模型生成的幀不僅能保留細(xì)節(jié),而且展示高程度的3D一致性,從而確保從不同視角觀看場(chǎng)景的一致性。最后,通過(guò)一種基于置信度的3D Gaussian Splatting優(yōu)化方案從生成的視頻中恢復(fù)3D場(chǎng)景。在各種真實(shí)世界數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,ReconX在質(zhì)量和通用性方面優(yōu)于現(xiàn)有的最先進(jìn)方法。

研究ReconX的動(dòng)機(jī)

本文關(guān)注的是從非常稀疏的視角(例如,僅兩個(gè)視角)圖像中進(jìn)行3D場(chǎng)景重建和新視角合成(NVS)的基本問(wèn)題。大多數(shù)現(xiàn)有的研究(利用3D先驗(yàn)和幾何約束(如深度、法線、代價(jià)體積)來(lái)填補(bǔ)稀疏視角3D重建中觀測(cè)到的區(qū)域與新區(qū)域之間的差距。盡管這些方法能夠從給定的視角生成高度逼真的圖像,但由于視角不足以及由此產(chǎn)生的重建過(guò)程不穩(wěn)定性,它們往往難以在輸入視角不可見(jiàn)的區(qū)域生成高質(zhì)量圖像。為了解決這個(gè)問(wèn)題,一個(gè)自然的想法是增加更多觀測(cè),從而將欠定的3D創(chuàng)建問(wèn)題轉(zhuǎn)化為一個(gè)完全約束的3D重建問(wèn)題。

高保真+通用!視頻擴(kuò)散模型加持,稀疏視圖重建任意場(chǎng)景!清華&港科大發(fā)布ReconX-AI.x社區(qū)

為此,通過(guò)將3D原生結(jié)構(gòu)指導(dǎo)融入擴(kuò)散過(guò)程中,將固有模糊的重建問(wèn)題重新定義為生成問(wèn)題。

方法

ReconX 概述

高保真+通用!視頻擴(kuò)散模型加持,稀疏視圖重建任意場(chǎng)景!清華&港科大發(fā)布ReconX-AI.x社區(qū)

高保真+通用!視頻擴(kuò)散模型加持,稀疏視圖重建任意場(chǎng)景!清華&港科大發(fā)布ReconX-AI.x社區(qū)

構(gòu)建3D結(jié)構(gòu)指導(dǎo)

高保真+通用!視頻擴(kuò)散模型加持,稀疏視圖重建任意場(chǎng)景!清華&港科大發(fā)布ReconX-AI.x社區(qū)

生成3D一致的視頻幀

高保真+通用!視頻擴(kuò)散模型加持,稀疏視圖重建任意場(chǎng)景!清華&港科大發(fā)布ReconX-AI.x社區(qū)

基于置信度的3D Gaussian Splatting優(yōu)化

高保真+通用!視頻擴(kuò)散模型加持,稀疏視圖重建任意場(chǎng)景!清華&港科大發(fā)布ReconX-AI.x社區(qū)

實(shí)驗(yàn)

研究者們進(jìn)行了廣泛的實(shí)驗(yàn)來(lái)評(píng)估稀疏視角重建框架 ReconX。

實(shí)驗(yàn)設(shè)置

高保真+通用!視頻擴(kuò)散模型加持,稀疏視圖重建任意場(chǎng)景!清華&港科大發(fā)布ReconX-AI.x社區(qū)

數(shù)據(jù)集

ReconX 的視頻擴(kuò)散模型在三個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練:RealEstate-10K、ACID和 DL3DV-10K。RealEstate-10K 是一個(gè)從 YouTube 下載的數(shù)據(jù)集,分為 67,477 個(gè)訓(xùn)練場(chǎng)景和 7,289 個(gè)測(cè)試場(chǎng)景。ACID 數(shù)據(jù)集包含自然風(fēng)景場(chǎng)景,包含 11,075 個(gè)訓(xùn)練場(chǎng)景和 1,972 個(gè)測(cè)試場(chǎng)景。DL3DV-10K 是一個(gè)大規(guī)模的戶外數(shù)據(jù)集,包含 10,510 個(gè)視頻,具有一致的拍攝標(biāo)準(zhǔn)。對(duì)于每個(gè)場(chǎng)景視頻,我們隨機(jī)抽取 32 幀連續(xù)的幀,并將第一幀和最后一幀作為我們視頻擴(kuò)散模型的輸入。為了進(jìn)一步驗(yàn)證跨數(shù)據(jù)集的泛化能力,我們還直接在兩個(gè)流行的多視角數(shù)據(jù)集上評(píng)估我們的方法:DTU數(shù)據(jù)集和 NeRF-LLFF數(shù)據(jù)集,這兩個(gè)數(shù)據(jù)集在 NVS 任務(wù)中非常流行。

基準(zhǔn)和指標(biāo)

研究者們將 ReconX 與原始 3DGS以及幾種代表性的稀疏視角 3D 重建基準(zhǔn)方法進(jìn)行比較,包括:基于 NeRF 的 pixelNeRF和 MuRF;基于光場(chǎng)的 GPNR和 AttnRend;以及最近的最先進(jìn)的 3DGS 基于 pixel-Splat和 MVSplat。對(duì)于定量結(jié)果,報(bào)告 NVS 中的標(biāo)準(zhǔn)指標(biāo),包括 PSNR、SSIM、LPIPS。為了公平比較,在 256 × 256 分辨率下進(jìn)行實(shí)驗(yàn),以符合現(xiàn)有方法的標(biāo)準(zhǔn)。

與基準(zhǔn)方法的比較

小角度變化下的比較。 為了公平地與基準(zhǔn)方法如 MuNeRF、pixelSplat和 MVSplat進(jìn)行比較,首先在小角度變化的稀疏視角下比較了 ReconX 與這些基準(zhǔn)方法(見(jiàn)下表1和圖3)。我們觀察到,ReconX 在所有視覺(jué)質(zhì)量和定性感知指標(biāo)上超越了所有先前的最先進(jìn)模型。

高保真+通用!視頻擴(kuò)散模型加持,稀疏視圖重建任意場(chǎng)景!清華&港科大發(fā)布ReconX-AI.x社區(qū)

高保真+通用!視頻擴(kuò)散模型加持,稀疏視圖重建任意場(chǎng)景!清華&港科大發(fā)布ReconX-AI.x社區(qū)

大角度變化下的比較。 由于 MVSplat 和 pixelSplat 相較于以前的基準(zhǔn)方法有顯著提升,我們?cè)诟щy的設(shè)置下(即,給定具有大角度變化的稀疏視角)進(jìn)行了深入比較。我們提出的 ReconX 在這些更具挑戰(zhàn)性的設(shè)置下表現(xiàn)出比基準(zhǔn)方法更顯著的改進(jìn),特別是在未見(jiàn)過(guò)的和廣義視角下(見(jiàn)下表2和圖4)。這清楚地表明,ReconX 在利用視頻擴(kuò)散生成更一致的觀察結(jié)果方面的有效性,從而緩解了固有的稀疏視角重建問(wèn)題。

高保真+通用!視頻擴(kuò)散模型加持,稀疏視圖重建任意場(chǎng)景!清華&港科大發(fā)布ReconX-AI.x社區(qū)

高保真+通用!視頻擴(kuò)散模型加持,稀疏視圖重建任意場(chǎng)景!清華&港科大發(fā)布ReconX-AI.x社區(qū)

跨數(shù)據(jù)集泛化

通過(guò) 3D 結(jié)構(gòu)指導(dǎo)釋放視頻擴(kuò)散模型的強(qiáng)大生成能力,我們的 ReconX 在泛化到分布外的新場(chǎng)景方面具有本質(zhì)上的優(yōu)勢(shì)。為了展示我們的強(qiáng)泛化能力,我們進(jìn)行了兩項(xiàng)跨數(shù)據(jù)集評(píng)估。為公平比較,僅在 RealEstate-10K 上訓(xùn)練模型,并直接在兩個(gè)流行的 NVS 數(shù)據(jù)集(即 NeRF-LLFF和 DTU)上進(jìn)行測(cè)試。如下表 3 和圖 5 所示,競(jìng)爭(zhēng)基準(zhǔn)方法 MVSplat和 pixelSplat無(wú)法渲染這些包含不同相機(jī)分布和圖像外觀的 OOD 數(shù)據(jù)集,導(dǎo)致性能顯著下降。相比之下,我們的 ReconX 展現(xiàn)了令人印象深刻的泛化能力,當(dāng)訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)之間的領(lǐng)域差距增大時(shí),性能提升更為顯著。

高保真+通用!視頻擴(kuò)散模型加持,稀疏視圖重建任意場(chǎng)景!清華&港科大發(fā)布ReconX-AI.x社區(qū)

高保真+通用!視頻擴(kuò)散模型加持,稀疏視圖重建任意場(chǎng)景!清華&港科大發(fā)布ReconX-AI.x社區(qū)

視圖數(shù)量評(píng)估

ReconX 對(duì)輸入視圖數(shù)量是無(wú)關(guān)的。具體來(lái)說(shuō),給定 N 個(gè)視圖作為輸入,我們采樣一個(gè)合理的相機(jī)軌跡來(lái)使用我們的 video diffusion 模型渲染圖像對(duì),并最終從所有生成的幀中優(yōu)化 3D 場(chǎng)景。為了公平比較,我們?cè)?DTU 上使用三個(gè)上下文視圖進(jìn)行測(cè)試,驗(yàn)證這一點(diǎn)。ReconX的結(jié)果是:PSNR: 22.83,SSIM: 0.512,LPIPS: 0.317;MVSplat 的結(jié)果是:PSNR: 14.30,SSIM: 0.508,LPIPS: 0.371;pixelSplat 的結(jié)果是:PSNR: 12.52,SSIM: 0.367,LPIPS: 0.585。與雙視圖結(jié)果(上表 3)相比,當(dāng)給定更多輸入視圖時(shí),ReconX 和 MVSplat 均能取得更好的性能,但ReconX遠(yuǎn)優(yōu)于 MVSplat。然而,pixelSplat 在使用更多視圖時(shí)表現(xiàn)更差,這一點(diǎn)也在 Chen et al.(2024a)的研究中得到了體現(xiàn)。更多關(guān)于我們結(jié)果的可視化可以在我們的項(xiàng)目頁(yè)面找到。

消融研究與分析

在 RealEstate-10K 上進(jìn)行了一系列消融研究,以分析 ReconX 框架的設(shè)計(jì),如表 4 和圖 6 所示。將預(yù)訓(xùn)練視頻擴(kuò)散模型與 Gaussian Splatting 進(jìn)行的簡(jiǎn)單組合被視為“基線”。具體來(lái)說(shuō),在以下方面對(duì)ReconX進(jìn)行了消融實(shí)驗(yàn):3D 結(jié)構(gòu)指導(dǎo)、基于置信度的優(yōu)化和 LPIPS 損失。結(jié)果表明,省略這些元素中的任何一個(gè)都會(huì)導(dǎo)致質(zhì)量和一致性上的下降。特別是,原始視頻擴(kuò)散模型與 3DGS 的基本組合導(dǎo)致場(chǎng)景顯著扭曲。缺乏 3D 結(jié)構(gòu)指導(dǎo)會(huì)導(dǎo)致生成的幀在遠(yuǎn)處輸入視圖中不一致,從而出現(xiàn)模糊和偽影問(wèn)題。缺少基于置信度的優(yōu)化會(huì)導(dǎo)致某些局部細(xì)節(jié)區(qū)域的結(jié)果不佳。將 LPIPS 損失加入到基于置信度的 3DGS 優(yōu)化中,可以提供更清晰的渲染視圖。這說(shuō)明了我們整體框架的有效性(見(jiàn)前面圖 2),它在僅給定稀疏視圖作為輸入的情況下,驅(qū)動(dòng)了可泛化和高保真度的 3D 重建。

結(jié)論

本文介紹了 ReconX,一種新穎的稀疏視角三維重建框架,該框架將復(fù)雜且模糊的重建問(wèn)題重新定義為生成任務(wù)。方法核心在于利用視頻擴(kuò)散模型強(qiáng)大的生成能力,以生成更為可信的觀測(cè)幀,用于稀疏視角的三維重建。通過(guò)將三維結(jié)構(gòu)指導(dǎo)融入視頻擴(kuò)散過(guò)程中,提升了三維一致性視頻幀的生成質(zhì)量。此外,提出的三維置信度感知方案有效地解決了生成幀的不確定性問(wèn)題,從而改進(jìn)了最終的三維場(chǎng)景重建。

廣泛實(shí)驗(yàn)表明,ReconX 在高質(zhì)量和泛化能力方面超越了現(xiàn)有的最先進(jìn)方法,尤其是在未見(jiàn)數(shù)據(jù)上表現(xiàn)突出。

限制與未來(lái)工作

盡管 ReconX 在重建效果上表現(xiàn)出色,但仍存在一些限制。目前的重建質(zhì)量在一定程度上受到所使用的擴(kuò)散模型的限制,特別是基于 U-Net 的 DynamiCrafter。未來(lái)可以通過(guò)整合更大規(guī)模的開(kāi)源視頻擴(kuò)散模型(如基于 DiT 框架的模型)來(lái)提升性能。

此外,未來(lái)工作可以探討將三維結(jié)構(gòu)指導(dǎo)優(yōu)化直接集成到視頻生成模型中,從而實(shí)現(xiàn)更高效的端到端三維場(chǎng)景重建過(guò)程。另一個(gè)值得關(guān)注的方向是探索一致的四維場(chǎng)景重建,這將進(jìn)一步推進(jìn)三維場(chǎng)景建模的能力。

總體而言,ReconX 為從視頻擴(kuò)散模型中創(chuàng)建復(fù)雜三維環(huán)境提供了一種有前景的方法,并有望激發(fā)該領(lǐng)域更多的研究。


本文轉(zhuǎn)自 AI生成未來(lái) ,作者:Fangfu Liu等


原文鏈接:??https://mp.weixin.qq.com/s/hpXCmVgtLscrJltQ__zMaA??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦