CVPR 2025 | 英偉達(dá)重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!
論文鏈接:https://arxiv.org/pdf/2503.03751
git鏈接:https://research.nvidia.com/labs/toronto-ai/GEN3C/
亮點直擊
- 提出了GEN3C,一種具有精確相機(jī)控制的世界一致性視頻生成模型。
- 通過對輸入圖像或先前生成的視頻幀的深度估計進(jìn)行反投影,構(gòu)建了一個以點云表示的3D緩存。借助用戶提供的相機(jī)軌跡,渲染3D緩存,并將渲染出的視頻用作視頻模型的條件輸入。
- 對模型在不同輸入條件下的視頻生成任務(wù)進(jìn)行了廣泛評估,從單一圖像到稀疏和密集的多視圖輸入。該模型很好地泛化到動態(tài)場景,展示了精確控制視點、生成3D一致的高保真視頻以及填補(bǔ)3D緩存中被遮擋或缺失區(qū)域的能力。
- 探索了顯式3D緩存所支持的應(yīng)用,如對象移除和場景編輯,證明本方法是將視頻生成模型應(yīng)用于生產(chǎn)和仿真環(huán)境的一個臺階。
總結(jié)速覽
解決的問題
傳統(tǒng)的視頻生成模型在生成逼真視頻時往往忽略3D信息,導(dǎo)致出現(xiàn)不一致現(xiàn)象,如物體突然出現(xiàn)或消失。此外,相機(jī)控制不夠精確,因為相機(jī)參數(shù)只是作為輸入,網(wǎng)絡(luò)需要推斷視頻如何依賴于相機(jī)姿態(tài)。
提出的方案
GEN3C通過3D緩存進(jìn)行引導(dǎo),利用從種子圖像或先前生成幀的深度估計獲得的點云。在生成下一幀時,GEN3C基于3D緩存的2D渲染和用戶提供的新相機(jī)軌跡進(jìn)行條件生成。這樣,模型不必記住之前生成的內(nèi)容或從相機(jī)姿態(tài)推斷圖像結(jié)構(gòu)。
應(yīng)用的技術(shù)
- 通過反投影輸入圖像或先前生成的視頻幀的深度估計,構(gòu)建點云表示的3D緩存。
- 利用用戶提供的相機(jī)軌跡渲染3D緩存,將其作為視頻模型的條件輸入。
- 視頻模型經(jīng)過微調(diào),以將不完美的渲染視頻轉(zhuǎn)換為高質(zhì)量視頻,糾正偽影并填補(bǔ)缺失信息。
- 在多視圖輸入情況下,為每個視圖維護(hù)獨(dú)立的3D緩存,并使用視頻模型處理視圖之間的錯位和聚合。
達(dá)到的效果
- 實現(xiàn)了更精確的相機(jī)控制和時間上的一致性。
- 在稀疏視圖的新視角合成中取得了最先進(jìn)的成果,尤其是在具有挑戰(zhàn)性的環(huán)境中,如駕駛場景和單目動態(tài)視頻。
- 展示了在動態(tài)場景中精確控制視點、生成3D一致高保真視頻的能力,并能填補(bǔ)3D緩存中的遮擋或缺失區(qū)域。
- 支持顯式3D緩存的應(yīng)用,如對象移除和場景編輯,驗證了其在生產(chǎn)和仿真環(huán)境中的應(yīng)用潛力。
方法:基于3D信息的視頻生成
核心思路是利用3D指導(dǎo)信息來進(jìn)行視頻生成,從而實現(xiàn)精確的相機(jī)控制并提高視頻幀間的一致性。為此,首先從輸入圖像或預(yù)生成的視頻幀構(gòu)建一個3D緩存。然后,利用用戶提供的相機(jī)姿態(tài)將3D緩存渲染到相機(jī)平面上。盡管這些渲染并不完美,但為視頻生成模型提供了關(guān)于需要生成的視覺內(nèi)容的強(qiáng)條件。本文的視頻生成模型會相應(yīng)地進(jìn)行微調(diào),以生成與期望相機(jī)姿態(tài)精確對齊的3D一致性視頻。下圖3提供了方法的概覽。
構(gòu)建時空3D緩存
選擇一個適用于不同應(yīng)用且能推廣到不同場景的合適3D緩存是我們設(shè)計中的主要考慮因素。最近,深度估計在各種領(lǐng)域(如室內(nèi)、室外或自動駕駛場景)取得了顯著進(jìn)展。因此,選擇從RGB圖像的深度估計中反投影的彩色點云作為我們3D緩存的基本元素。
渲染3D緩存
融合和注入3D緩存
討論。 上述策略是一種通用機(jī)制,用于聚合來自多個視圖的信息并將其注入到視頻擴(kuò)散模型中。我們將其與表現(xiàn)出不同特性的替代方案進(jìn)行比較,如下圖4所示。
在同時進(jìn)行的研究工作中提出的顯式融合方法 [30, 70],直接在3D空間中融合點云。雖然這種方法簡單,但它嚴(yán)重依賴于深度對齊,當(dāng)多個視點之間存在不一致時會引入偽影。此外,將視圖相關(guān)的光照信息注入這樣的融合緩存中也并非易事。基于這些原因,我們更傾向于讓模型自行處理視圖信息的聚合。
另一種方法,稱之為“concat”,是將渲染緩存的所有隱空間變量在通道維度上進(jìn)行連接。盡管這種方法在經(jīng)驗上效果良好,但它需要通過一個常數(shù)限制模型所能支持的視點數(shù)量,并對視點施加順序限制。相反,我們更喜歡一種置換不變的融合操作,從而形成本文的基于池化的策略。
另一個關(guān)鍵設(shè)計選擇是將 mask 信息納入模型。最初嘗試將 mask 通道與隱空間變量連接。然而,連接操作引入了額外的模型參數(shù),這些參數(shù)現(xiàn)在需要進(jìn)行訓(xùn)練,因此在 mask 通道未在任何大規(guī)模訓(xùn)練數(shù)據(jù)中表示時可能無法很好地泛化。相反,通過元素級乘法直接將 mask 值應(yīng)用于隱空間變量,從而保持模型架構(gòu)不變。
模型訓(xùn)練
模型推理
自回歸推理和3D緩存更新. 許多應(yīng)用需要生成長視頻,但視頻越長,現(xiàn)有模型就越容易出現(xiàn)不一致。為了生成長而一致的視頻,我們提出逐步更新本文的3D緩存。我們首先將長視頻分成長度為L的重疊片段,兩個連續(xù)片段之間有一幀重疊。然后,自回歸地渲染3D緩存并生成每個片段的幀。為了使預(yù)測在時間上保持一致,使用先前生成的片段更新3D緩存:對于每個生成的片段中的幀,使用深度估計器估計其像素級深度。由于幀的相機(jī)姿態(tài)是已知的(用戶提供),可以通過最小化重投影誤差將深度估計與現(xiàn)有的3D緩存對齊。
實驗和應(yīng)用
在本節(jié)中,介紹訓(xùn)練GEN3C的實驗設(shè)置,并通過幾個下游任務(wù)展示其多功能性,包括單圖像到視頻生成、雙視圖新視角合成(NVS)、用于駕駛模擬的新視角合成和單目動態(tài)新視角合成,并提供了消融研究。
訓(xùn)練細(xì)節(jié)
訓(xùn)練GEN3C的一個關(guān)鍵挑戰(zhàn)是缺乏多視圖、動態(tài)、真實世界的視頻數(shù)據(jù),這些數(shù)據(jù)提供了新相機(jī)軌跡的3D緩存和真實視頻的配對。我們利用靜態(tài)的真實世界視頻幫助模型推理空間一致性,并使用合成的多視圖動態(tài)視頻幫助實現(xiàn)時間一致性。
數(shù)據(jù)集。 我們選擇了三個真實世界視頻數(shù)據(jù)集:RE10K、DL3DV、Waymo開放數(shù)據(jù)集(WOD),以及一個合成數(shù)據(jù)集Kubric4D 。RE10K包含74,766個視頻片段,捕捉了室內(nèi)和室外的真實房地產(chǎn)場景。使用DROID-SLAM估計相機(jī)參數(shù),并使用DAV2預(yù)測每幀深度。深度預(yù)測與DROID-SLAM的場景比例對齊。DL3DV包含10,000個真實世界場景的視頻。我們按照與RE10K相同的協(xié)議對這些片段進(jìn)行標(biāo)注。WOD是一個包含1000個場景的真實世界駕駛數(shù)據(jù)集,每個場景有200幀。使用DAV2預(yù)測深度,并將其與LiDAR點云的比例剛性對齊。對于Kubric4D,使用GCD生成的3000個包含多物體動態(tài)的場景。該數(shù)據(jù)集以點云序列的格式存在,我們?yōu)槠谕南鄼C(jī)軌跡渲染RGB-D視頻。
單視圖到視頻生成
GEN3C 可以輕松應(yīng)用于從單個圖像生成視頻/場景。首先預(yù)測給定圖像的深度,然后創(chuàng)建3D緩存,并將其渲染為2D視頻,輸入到訓(xùn)練好的視頻擴(kuò)散模型中,以生成精確遵循給定相機(jī)軌跡的視頻。
評估和基準(zhǔn)。 將 GEN3C 與四個基準(zhǔn)進(jìn)行比較,包括 GenWarp、MotionCtrl、CameraCtrl和 NVS-Solver 。為了與 GenWarp和 NVS-Solver進(jìn)行公平比較,使用相同的深度估計器獲取像素級深度,并通過全局平移和縮放使用場景比例進(jìn)行剛性對齊。
CameraCtrl是最相關(guān)的工作,通過使用相同的數(shù)據(jù)集、訓(xùn)練協(xié)議和視頻擴(kuò)散模型來重現(xiàn)它,并用相機(jī)軌跡的 Plücker 嵌入替換我們3D緩存中的渲染視頻。在兩個數(shù)據(jù)集上評估所有方法:RE10K,用于域內(nèi)測試;Tanks and Temples (T-&-T),用于域外測試以評估泛化能力。為了確保全面評估,為 RE10K 和 T-&-T 各采樣100個測試序列。遵循之前的工作 [8, 42, 70],報告像素對齊指標(biāo),即 PSNR 和 SSIM,以及感知指標(biāo),即 LPIPS。進(jìn)一步報告 TSED 分?jǐn)?shù) 以評估預(yù)測的3D一致性。
結(jié)果。 定量結(jié)果見下表1。本文的方法在域外和域內(nèi)測試中均優(yōu)于所有基準(zhǔn),展示了從單個圖像生成逼真視頻的強(qiáng)大能力。值得注意的是,基于 Plücker 嵌入的方法,例如 CameraCtrl,在泛化到域外數(shù)據(jù)時表現(xiàn)不佳,因為這些數(shù)據(jù)具有不同的場景布局和相機(jī)軌跡。由于本文的3D緩存中對3D內(nèi)容的顯式建模,本文的模型僅遭受了小幅度的性能下降。在下圖5中提供了與兩個最強(qiáng)基準(zhǔn)的定性比較。本文的方法的預(yù)測精確地遵循了真實的相機(jī)軌跡,并捕捉到了細(xì)粒度的細(xì)節(jié),例如椅子腿或字母單詞。特別是,CameraCtrl [16] 無法精確跟隨相機(jī)運(yùn)動,因為僅從 Plücker 嵌入推理場景布局是困難的。
雙視角新視圖合成
進(jìn)一步將 GEN3C 應(yīng)用于一個具有挑戰(zhàn)性的稀疏視角新視圖合成設(shè)置中,其中僅提供兩個視角,并從這兩個視角生成新視圖。與前文類似,我們首先為每個視角預(yù)測深度,創(chuàng)建 3D 緩存,并使用相機(jī)軌跡將其渲染成兩個視頻,這些視頻被輸入并由 GEN3C 融合以生成輸出視頻。請注意,在推理過程中,本文的模型不僅限于兩個視角,可以應(yīng)用于任意數(shù)量的視角。我們在補(bǔ)充材料中提供了定性結(jié)果。
評估和基準(zhǔn)。 將本文的方法與兩個稀疏視圖重建的代表性工作進(jìn)行比較:PixelSplat和 MVSplat。在此任務(wù)中,評估模型的插值和外推能力。具體來說,隨機(jī)從視頻中選擇兩個輸入幀。對于插值,我們選擇輸入幀之間的目標(biāo)視圖;對于外推,選擇超出兩個輸入幀范圍的目標(biāo)視圖。從 RE10K和 T-&-T中各抽取 40 個測試序列,并報告 PSNR、SSIM 和 LPIPS。
結(jié)果。 在下表 2 中提供了定量結(jié)果,并在下圖 6 中展示了定性結(jié)果。本文的方法優(yōu)于所有基準(zhǔn),尤其是在從提供的兩個視圖進(jìn)行外推時,即使兩個視圖之間的重疊很小,也能生成逼真的新視圖,這得益于預(yù)訓(xùn)練視頻生成模型的強(qiáng)大先驗。
駕駛模擬中的新視圖合成
沿著與捕獲視頻不同的新軌跡模擬真實世界的駕駛場景是訓(xùn)練自動駕駛車輛的基石。GEN3C 可以應(yīng)用于此任務(wù)。
評估和基準(zhǔn)。 將 GEN3C 與兩個代表性的場景重建方法進(jìn)行比較:Nerfacto和 3DGS。為了公平比較,從驗證集中篩選出 18 個靜態(tài)場景。為了進(jìn)行評估,我們通過從前置攝像機(jī)的原始軌跡水平偏移并改變偏移量來創(chuàng)建新軌跡。由于沒有新軌跡的真實數(shù)據(jù),報告 FID作為評估指標(biāo)。
結(jié)果。 如下表 3 所示,本文的方法在駕駛場景中獲得了顯著更好的 FID 分?jǐn)?shù)。這是因為重建方法難以從駕駛場景中稀疏觀察到的視圖中恢復(fù)場景結(jié)構(gòu)。因此,當(dāng)渲染攝像機(jī)偏離原始軌跡時,渲染質(zhì)量顯著下降,如下圖 7 所示。
3D 編輯。 本文的顯式 3D 緩存天然適合 3D 編輯。如下圖 8 所示,我們可以移除 3D 汽車,修改汽車的軌跡,并使用 GEN3C 生成合理的駕駛場景重新模擬視頻。
單目動態(tài)新視圖合成
在給定動態(tài)場景的單目視頻的情況下,GEN3C 能夠沿著新的相機(jī)軌跡“重新渲染”該視頻。
評估和基準(zhǔn)。 在 GCD發(fā)布的 Kubric 數(shù)據(jù)集的 20 個保留測試場景上進(jìn)行評估,并與 GCD 進(jìn)行比較。使用在 Kubric 數(shù)據(jù)集上訓(xùn)練的公開發(fā)布的檢查點。由于 GCD 僅在 256x384 分辨率下訓(xùn)練,我們將其預(yù)測結(jié)果上采樣到與我們方法相同的分辨率以進(jìn)行公平比較。
結(jié)果。 在下表 4 中提供了定量結(jié)果,補(bǔ)充材料中提供了定性結(jié)果。本文的方法在保持輸入視頻中的物體細(xì)節(jié)和動態(tài)方面表現(xiàn)出色,并且能夠通過 3D 緩存精確地與用戶指定的新相機(jī)運(yùn)動對齊。
領(lǐng)域外結(jié)果。 進(jìn)一步在由 Sora和 MovieGen生成的動態(tài)視頻上對 GEN3C 進(jìn)行了定性評估,并在下圖 9 中提供了結(jié)果。GEN3C 生成了保留 3D 內(nèi)容并與新相機(jī)運(yùn)動對齊的逼真視頻。完整結(jié)果請參見補(bǔ)充視頻。
消融研究
從兩個方面對本文的方法進(jìn)行了消融研究:首先是不同的點云融合策略,其次是對深度估計噪聲的魯棒性。實驗設(shè)置遵循前文中的描述。
不同的融合策略。 選擇兩個輸入視圖并預(yù)測這兩個視圖之間的插值。本文的融合策略與從兩個視圖顯式融合點云的方法進(jìn)行比較,這類似于并行研究 ReconX和 ViewCrafter中提出的方法。下圖 10 中提供了定性示例,并在下表 6 中進(jìn)行了定量比較。即使深度估計未對齊且光照不同,本文的方法也能在兩個不相連的視圖之間平滑過渡,而顯式點云融合在未對齊區(qū)域會出現(xiàn)嚴(yán)重的偽影。
擴(kuò)展至高級視頻擴(kuò)散模型
進(jìn)一步將 Stable Video Diffusion 模型替換為更先進(jìn)的視頻擴(kuò)散模型 Cosmos,該模型在視頻生成中表現(xiàn)出色。我們遵循與之前相同的微調(diào)協(xié)議。具體而言,我們選擇 Cosmos1.0 Diffusion7B Video2World1 作為基礎(chǔ)模型,并將噪聲隱空間變量與由 Cosmos 分詞器編碼的渲染幀的嵌入進(jìn)行拼接。該模型在 RE10K和 DL3DV數(shù)據(jù)集上進(jìn)行了 10,000 步的微調(diào),批大小為 64。
在下圖 11 中提供了定性比較,并在本文的網(wǎng)站上展示了更多結(jié)果。極端新視圖合成的結(jié)果如下圖 12 所示。
當(dāng)利用更強(qiáng)大的視頻擴(kuò)散模型時,GEN3C 能夠在極端相機(jī)視角變化的情況下生成質(zhì)量更高的視頻。這突出了我們方法的一個關(guān)鍵優(yōu)勢:能夠利用不斷發(fā)展的預(yù)訓(xùn)練視頻模型,以最少的數(shù)據(jù)需求實現(xiàn)廣泛的泛化能力。
結(jié)論
GEN3C,這是一種具有精確相機(jī)控制的連續(xù)視頻生成模型。通過從種子圖像或先前生成的視頻構(gòu)建 3D 緩存來實現(xiàn)這一目標(biāo)。然后,根據(jù)用戶提供的相機(jī)軌跡將緩存渲染成 2D 視頻,以強(qiáng)烈地條件化本文的視頻生成,從而實現(xiàn)比以往方法更精確的相機(jī)控制。本文的結(jié)果在稀疏視角的新視圖合成方面也達(dá)到了SOTA水平,即使在駕駛場景和單目動態(tài)新視圖合成等具有挑戰(zhàn)性的環(huán)境中也是如此。
限制。 生成具有動態(tài)內(nèi)容的視頻時,GEN3C 依賴于預(yù)生成的視頻來提供對象的運(yùn)動。生成這樣的視頻本身就是一個挑戰(zhàn)。一個有前景的擴(kuò)展是將文本條件化納入視頻生成模型的訓(xùn)練中,以提示運(yùn)動。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
原文鏈接:??https://mp.weixin.qq.com/s/GuW_9X88JImEjyweoedX1Q??
