自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟

發(fā)布于 2024-11-14 12:47
瀏覽
0收藏

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟-AI.x社區(qū)

文章鏈接: https://arxiv.org/pdf/2411.02319
項目鏈接:https://gen-x-d.github.io/

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟-AI.x社區(qū)

亮點直擊

  • 設計了一個數(shù)據整理流程,從視頻中獲取包含可移動物體的高質量4D數(shù)據,并為30,000個視頻標注了相機姿態(tài)。這個大規(guī)模數(shù)據集稱為CamVid-30K,將公開供公眾使用。
  • 提出了一個3D-4D聯(lián)合框架GenXD,支持各種設置下的圖像條件3D和4D生成(見下表1)。在GenXD中,引入了多視角時序層,以解耦和融合多視角和時序信息。
  • 通過使用提出的CamVid-30K和其他現(xiàn)有的3D和4D數(shù)據集,GenXD在單視角3D對象生成、少視角3D場景重建、單視角4D生成以及單/多視角4D生成方面達到了與之前最先進的方法和基線方法相當或更優(yōu)的性能。

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟-AI.x社區(qū)

總結速覽

解決的問題

現(xiàn)有的2D視覺生成已取得顯著進展,但3D和4D生成在實際應用中仍然面臨挑戰(zhàn),主要由于缺乏大規(guī)模4D數(shù)據和有效的模型設計。

提出的方案

  • 提出了一種數(shù)據整理流程,從視頻中提取相機姿態(tài)和物體運動強度。
  • 基于該流程,創(chuàng)建了一個大規(guī)模的4D場景數(shù)據集:CamVid-30K。
  • 開發(fā)了生成框架GenXD,通過相機和物體運動解耦模塊(多視角時序模塊),在3D和4D數(shù)據中進行無縫學習。
  • 采用masked隱空間條件,支持多種視角條件生成。

應用的技術

  • 數(shù)據整理流程用于生成4D場景數(shù)據。
  • 多視角時序模塊用于解耦相機和物體運動。
  • mask隱空間條件用于支持不同視角的條件生成。

達到的效果

GenXD能夠生成符合相機軌跡的視頻,同時提供一致的3D視圖,并支持生成3D表示形式。通過多種真實和合成數(shù)據集上的評估,驗證了GenXD在3D和4D生成中的有效性和多功能性。

CAMVID-30K

大規(guī)模4D場景數(shù)據的缺乏限制了動態(tài)3D任務的發(fā)展,包括但不限于4D生成、動態(tài)相機姿態(tài)估計和可控視頻生成。為了解決這一問題,本文引入了一個高質量的4D數(shù)據集。首先,使用運動恢復結構(SfM)的方法來估計相機姿態(tài),然后通過提出的運動強度過濾掉不含物體運動的數(shù)據。數(shù)據流程如下圖2所示:

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟-AI.x社區(qū)

相機姿態(tài)估計

相機姿態(tài)估計基于SfM,它通過一系列圖像中的投影重建3D結構。SfM包含三個主要步驟:

  • 特征檢測和提取
  • 特征匹配和幾何驗證
  • 3D重建和相機姿態(tài)估計

在第二步中,匹配的特征必須位于場景的靜態(tài)部分,否則物體運動會在特征匹配時被誤認為是相機運動,影響相機姿態(tài)估計的準確性。


為了解決這一問題,Particle-SfM使用運動分割模塊將移動物體與靜態(tài)背景分開,然后在靜態(tài)部分執(zhí)行SfM以估計相機姿態(tài)。然而,當相機本身在運動時,精確檢測運動像素極其困難,通過實驗觀察到Zhao等人的運動分割模塊缺乏足夠的泛化性,導致假陰性和不準確的相機姿態(tài)。為了獲得準確的相機姿態(tài),分割出所有移動像素是必不可少的。在這種情況下,假陽性錯誤比假陰性更為可接受。為此,本文使用實例分割模型貪婪地分割出所有可能移動的像素。實例分割模型在訓練類別上比Zhao等人的運動分割模塊具有更強的泛化能力。在分割出潛在移動像素后,使用Particle-SfM來估計相機姿態(tài),從而獲得相機信息和稀疏點云(上圖2(a))。

物體運動估計

分解相機和物體運動。 雖然實例分割可以準確地將物體與背景分離,但它無法判斷物體本身是否在運動,而靜態(tài)物體會對運動學習產生負面影響。因此,引入了運動強度來識別真實的物體運動,并過濾掉僅包含靜態(tài)物體的視頻。

由于視頻中同時存在相機運動和物體運動,基于2D的運動估計方法(如光流)無法準確表示真實的物體運動。有兩種方法可以捕捉真實的物體運動:一是測量3D空間中的運動,二是將視頻中的運動投影到相同的相機視角上。兩種方法都需要與相機姿態(tài)尺度對齊的深度圖。稀疏深度圖可以通過將3D點云  投影到相機視角上獲得:

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟-AI.x社區(qū)

其中  表示點云  在相機空間中的坐標。 和  分別表示從世界空間到相機空間的旋轉和平移, 是相機內參。通過投影公式,可以在圖像像素  處獲得深度值 ,即 。


如前面圖2(a)所示,由于在3D重建過程中只匹配了靜態(tài)部分的特征,因此只能獲得靜態(tài)區(qū)域的稀疏點云。然而,動態(tài)部分的深度信息對運動估計至關重要。為了解決這一問題,利用一個預訓練的相對單目深度估計模型來預測每幀的相對深度 。然后,應用比例因子  和偏移量  使其與SfM的稀疏深度對齊。

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟-AI.x社區(qū)

其中  表示中值, 為與SfM深度尺度對齊的密集深度圖。

物體運動場。通過對齊的深度 ,可以將幀中的動態(tài)物體投影到3D空間中,從而提供一種直接測量物體運動的方法。如圖2(b)所示,如果物體(例如穿綠襯衫的男子)在移動,則投影的3D點云會產生位移。然而,由于SfM僅能操作到一定的尺度,直接在3D空間中測量運動可能會導致量級問題。因此,將動態(tài)物體投影到相鄰視圖中并估計物體運動場。

具體而言,首先需要在2D視頻中找到匹配點。不同于使用光流等密集表示,為每個物體實例采樣關鍵點,并在2D視頻中使用視頻物體分割和關鍵點跟蹤來建立匹配關系。然后將每個關鍵點投影到相鄰幀中。第幀中的關鍵點  首先被反投影到世界空間,以獲得3D關鍵點 。

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟-AI.x社區(qū)

其中  是對齊的密集深度圖中的深度值。然后,使用投影方程(公式1)將3D關鍵點投影到第幀,得到2D投影關鍵點 。類似于光流,將每個2D關鍵點在第二個相機視圖上的位移表示為物體運動場。

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟-AI.x社區(qū)

其中  和  分別表示圖像的高度和寬度。

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟-AI.x社區(qū)

通過對每個物體的運動場進行處理,可以通過計算運動場的絕對大小的平均值來估計物體的全局運動。對于每個視頻,運動強度由所有物體中的最大運動值表示。如下圖3所示,當相機移動而物體保持靜止(第二個例子)時,運動強度相比于物體有運動的視頻要小得多。通過使用運動強度,進一步過濾掉缺乏明顯物體運動的數(shù)據。運動強度值也作為物體運動尺度的良好指示器,用于時間層以實現(xiàn)更好的運動控制。

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟-AI.x社區(qū)

GenXD

生成模型

由于大多數(shù)場景級的3D和4D數(shù)據是通過視頻捕獲的,這些數(shù)據缺乏明確的表示(如網格)。因此,本文采用了一種方法,通過與空間相機姿態(tài)和時間步對齊的圖像生成這些數(shù)據。將隱空間擴散模型(Latent Diffusion Model,LDM)融入到本文的框架中,加入了額外的多視角時間層,包括多視角時間ResBlocks和多視角時間變換器,以解耦和融合3D和時間信息。

Mask隱空間條件擴散模型

在GenXD中,隱空間擴散模型(LDM)用于生成不同相機視角和時間的圖像/視頻。LDM首先通過變分自編碼器(VAE)將圖像/視頻編碼為隱代碼 ,并通過高斯噪聲  擴散該隱代碼以獲得 。然后,使用去噪模型  來估計噪聲,并通過條件反向擴散過程。

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟-AI.x社區(qū)

其中  是用于可控生成的條件,通常是文本或圖像。GenXD生成具有相機姿態(tài)和參考圖像的多視角圖像和視頻,因此它需要同時使用相機條件和圖像條件。相機條件對于每張圖像都是獨立的,可以是條件化的或目標化的。因此,可以將相機條件輕松地附加到每個潛在空間。這里選擇了普呂克射線作為相機條件。

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟-AI.x社區(qū)

其中  和  分別表示相機中心和從相機中心到每個圖像像素的射線方向。因此,普呂克射線是一種密集嵌入編碼,不僅包括像素信息,還包括相機姿態(tài)和內參信息,比全局相機表示更為精確。

參考圖像條件更為復雜。GenXD旨在進行單視圖和多視圖的3D和4D生成。單視圖生成要求較低,而多視圖生成則能提供更一致的結果。因此,結合單視圖和多視圖生成將更適合實際應用。然而,之前的工作通過將條件隱變量與目標隱變量連接,并通過跨注意力引入CLIP圖像嵌入來對圖像進行條件化。連接方式需要改變模型的通道,無法處理任意輸入視角。CLIP嵌入支持多條件輸入,但這兩種方法都無法建模多個條件的位置信息,也無法在輸入視圖之間建模信息。鑒于這些限制,采用了masked隱變量條件化來處理圖像條件。正如下圖4所示,在通過VAE編碼器編碼后,前向擴散過程應用于目標幀(第二和第三幀),并像往常一樣將條件隱變量(第一幀)保持不變。然后,去噪模型估計兩幀上的噪聲并通過反向過程去除。

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟-AI.x社區(qū)

Masked隱變量條件化有三個主要優(yōu)點。首先,模型可以支持任何輸入視圖,而無需修改參數(shù)。其次,對于序列生成(多視圖圖像或視頻),無需約束條件幀的位置,因為條件幀在序列中保持其位置。與此相反,許多工作要求條件圖像位于序列中的固定位置(通常是第一幀)。第三,由于沒有來自其他模型的條件嵌入,用于集成條件嵌入的跨注意力層可以移除,從而大大減少了模型參數(shù)數(shù)量。為此,在GenXD中采用了masked隱變量條件化方法。

多視圖時間模塊
由于GenXD旨在在單一模型中生成3D和4D樣本,因此需要將多視圖信息與時間信息進行解耦。在兩個獨立的層中建模這兩種信息:多視圖層和時間層。對于3D生成,不考慮時間信息,而4D生成則需要同時考慮多視圖和時間信息。因此,如上圖4所示,本文提出了一種α融合策略用于4D生成。具體來說,為4D生成引入了一個可學習的融合權重α,當進行3D生成時,α設置為0。通過這種α融合策略,GenXD可以在多視圖層中保留3D數(shù)據的多視圖信息,同時從4D數(shù)據中學習時間信息。


α融合可以有效地解耦多視圖和時間信息。然而,沒有任何提示的情況下,運動較難控制。視頻生成模型使用FPS或運動ID來控制運動的幅度,但未考慮相機運動。得益于CamVid-30K中的運動強度,能夠有效地表示物體運動。由于運動強度是一個常量,將其與擴散時間步長結合,并將其添加到時間ResBlock層,如圖4中的多視圖時間ResBlock所示。通過多視圖時間模塊,GenXD可以有效地進行3D和4D生成。

使用3D表示的生成

GenXD可以使用一個或多個條件圖像生成具有不同視角和時間步長的圖像。然而,為了呈現(xiàn)任意3D一致的視圖,需要將生成的樣本提升到3D表示。先前的工作通常通過從生成模型中提取知識來優(yōu)化3D表示。由于GenXD能夠生成高質量且一致的結果,直接使用生成的圖像來優(yōu)化3D表示。使用3D高斯點云(3D-GS)和Zip-NeRF進行3D生成,使用4D高斯點云進行4D生成。

實驗

實驗設置

數(shù)據集
GenXD是在3D和4D數(shù)據集的結合下進行訓練的。對于3D數(shù)據集,使用了五個帶有相機姿態(tài)注釋的數(shù)據集:Objaverse 、MVImageNet、Co3D、Re10K 和 ACID。Objaverse是一個合成數(shù)據集,包含網格數(shù)據,從12個視角渲染了80K子集,并按照的方法進行渲染。MVImageNet和Co3D是視頻數(shù)據,分別記錄了239個和50個類別的物體。Re10K和ACID是記錄現(xiàn)實世界室內和室外場景的視頻數(shù)據。對于4D數(shù)據集,使用了合成數(shù)據集Objaverse-XL-Animation和CamVid-30K數(shù)據集。對于Objaverse-XL-Animation,使用了Liang et al.(2024)篩選的子集,并通過向軌跡攝像機軌跡中添加噪聲重新渲染了深度圖和圖像。利用地面真值深度,根據前面的方法估計物體運動強度,然后過濾掉沒有明顯物體運動的數(shù)據。最后,從Objaverse-XL-Animation中獲得了44K合成數(shù)據,從CamVid-30K中獲得了30K現(xiàn)實世界數(shù)據。

實現(xiàn)細節(jié)
GenXD部分初始化自Stable Video Diffusion (SVD)的預訓練模型以實現(xiàn)快速收斂。具體來說,GenXD的多視圖層(多視圖卷積和多視圖自注意力)和時間層(時間卷積和時間自注意力)都來自SVD中的時間層,而SVD中的跨注意力層被去除。GenXD的訓練分為三個階段。首先,只使用3D數(shù)據訓練UNet模型500K次迭代;然后,在單視圖模式下,使用3D和4D數(shù)據進行500K次迭代的微調;最后,GenXD在所有數(shù)據上使用單視圖和多視圖模式進行500K次迭代的訓練。模型在32個A100 GPU上訓練,批量大小為128,分辨率為256×256。采用AdamW優(yōu)化器,學習率為。在第一階段,數(shù)據被中心裁剪為方形。在最終階段,通過中心裁剪或填充將圖像處理為方形,使得GenXD可以很好地處理不同的圖像比例。

4D 生成

4D 場景生成
在此設置中,評估需要包含物體和相機運動的視頻。因此,引入了Cam-DAVIS基準來進行4D評估。使用提出的注釋流程來獲取DAVIS數(shù)據集(Per-dataset)中視頻的相機姿態(tài)。然后,過濾數(shù)據,得到20個具有準確相機姿態(tài)和明顯物體運動的視頻。Cam-DAVIS的數(shù)據相機軌跡與訓練數(shù)據存在分布外差異,因此它們是評估相機運動魯棒性的良好標準。


將GenXD與開源的相機條件視頻生成方法——MotionCtrl和 CameraCtrl 進行了比較,使用FID 和 FVD 評估指標。將Stable Video Diffusion作為這兩種方法的基礎模型,生成帶有相機軌跡和第一幀條件的視頻。如下表2所示,使用第一視圖作為條件,GenXD在兩個指標上顯著優(yōu)于CameraCtrl和MotionCtrl。此外,使用3個視圖作為條件(第一、中央和最后一幀),GenXD相較于之前的工作有了大幅度的提升。這些結果展示了GenXD在4D生成中的強大泛化能力。在下圖5中,比較了三種方法的定性結果。在這個例子中,MotionCtrl無法生成明顯的物體運動,而CameraCtrl生成的視頻既不具有3D特性,也沒有時間一致性。相反,單視圖條件模型可以生成平滑且一致的4D視頻。使用3個條件視圖時,GenXD能夠生成相當逼真的結果。

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟-AI.x社區(qū)

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟-AI.x社區(qū)

4D 物體生成
根據Zhao et al.(2023)的方法評估了4D物體生成的性能。由于GenXD僅使用圖像條件,而不是像Animate124那樣使用圖像-文本條件,下表3中對比了優(yōu)化時間和CLIP圖像相似性。與使用分數(shù)蒸餾采樣(SDS)優(yōu)化動態(tài)NeRF不同,GenXD直接生成軌道相機軌跡的4D視頻,并使用這些視頻來優(yōu)化4D-GS。這使得本文的方法比Animate124快了100倍。此外,Zhao et al.(2023)中提到的語義漂移問題在GenXD中得到了很好的解決,因為使用了圖像條件進行4D生成。4D場景和物體生成的結果展示了GenXD在生成具有3D和時間一致性的4D視頻方面的優(yōu)越性。

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟-AI.x社區(qū)

3D 生成

少視圖3D生成
在少視圖3D重建設置中,在Re10K(分布內數(shù)據集)和LLFF (分布外數(shù)據集)上評估了GenXD。從Re10K中選擇了10個場景,從LLFF中選擇了所有8個場景,每個場景使用3個視圖進行訓練。性能通過PSNR、SSIM和LPIPS指標在渲染的測試視圖上進行評估。作為一個生成模型,GenXD可以從稀疏輸入視圖中生成額外視圖,并改善任何重建方法的性能。在這個實驗中,使用了兩個基線方法:Zip-NeRF和 3D-GS。這兩個基線方法是面向多視圖重建的方法,因此調整了超參數(shù)以便更好地進行少視圖重建(更多細節(jié)請見附錄D)。如下表4所示,Zip-NeRF和3D-GS都可以通過GenXD生成的圖像得到改善,而且在Zip-NeRF基線上的改善更加顯著。具體來說,Re10K(分布內)和LLFF(分布外)的PSNR分別提高了4.82和5.13。定性比較如下圖6所示。通過生成的視圖,重建場景中的浮動和模糊得到了減少。

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟-AI.x社區(qū)

消融研究

本節(jié)進行多視圖-時間模塊的消融研究。消融研究評估了在少視圖3D和單視圖4D生成設置下生成的擴散樣本的質量(見下表5)。

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟-AI.x社區(qū)

運動解纏(α融合)
在4D數(shù)據中,相機運動和物體運動是糾纏在一起的。為了在3D和4D中都能實現(xiàn)高質量生成,GenXD引入了多視圖-時間模塊,將多視圖和時間信息分別學習,然后通過α融合將它們結合起來。對于3D生成,α設置為0,以繞過時間模塊,而在4D生成中,α在訓練過程中學習。移除α融合將導致所有3D和4D數(shù)據都通過時間模塊,從而使得模型無法將物體運動從相機運動中解纏開來。解纏失敗會對3D和4D生成產生不利影響。

運動強度的有效性
運動強度可以有效地控制物體運動的幅度。如下圖7倒數(shù)第二行所示,增加運動強度可以提高汽車的速度。根據這些觀察,可以得出結論,學習物體運動是很重要的,并且在數(shù)據策劃流程中的物體運動場和運動強度能夠準確地表示真實的物體運動。

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟-AI.x社區(qū)

更多結果

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟-AI.x社區(qū)

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟-AI.x社區(qū)

生成任意3D和4D場景!GenXD:通用3D-4D聯(lián)合生成框架 | 新加坡國立&微軟-AI.x社區(qū)

結論

本文研究了使用擴散模型進行通用3D和4D生成。為了增強4D生成的學習,首先提出了一種數(shù)據策劃流程,用于注釋視頻中的相機和物體運動。在此流程的支持下,本文引入了最大的現(xiàn)實世界4D場景數(shù)據集——CamVid-30K。此外,借助大規(guī)模數(shù)據集,提出了GenXD來處理通用3D和4D生成。GenXD利用多視圖-時間模塊來解纏相機和物體運動,并能夠通過masked隱空間條件支持任意數(shù)量的輸入條件視圖。GenXD能夠處理多種應用,并且在所有設置中,單一模型可以實現(xiàn)可比或更好的性能。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/fXPJO_bk1s7NzWyQA_6qlQ??

收藏
回復
舉報
回復
相關推薦