一張圖生成高質(zhì)量廣視野3D場景,還可控制攝像軌跡
只需一張圖,就能生成高質(zhì)量、廣范圍的3D場景!
泰迪熊、花園、山谷都從平面圖片變成了仿佛觸手可及的立體物品。
這就是來自多倫多大學(xué)、Snap和UCLA的研究團(tuán)隊推出的全新模型——Wonderland。
他們首次證明,三維重建模型可以有效地建立在擴(kuò)散模型的潛在空間上,進(jìn)而實現(xiàn)高效的三維場景生成,是單視圖3D場景生成領(lǐng)域的一次突破性進(jìn)展。
具體來說,團(tuán)隊引入了一種大規(guī)模重建模型,該模型使用視頻擴(kuò)散模型中的潛在信息,以前饋方式預(yù)測場景的3D表示(3DGS)。
視頻擴(kuò)散模型可以精確地按照指定的相機(jī)軌跡創(chuàng)建視頻,生成包含多視角信息的潛在特征,同時保持三維一致性。
三維重建模型則通過漸進(jìn)式訓(xùn)練策略在視頻潛在空間進(jìn)行訓(xùn)練,高效地生成高質(zhì)量、大范圍和通用的三維場景。
這樣一來,機(jī)器就可以高效地模擬人類從單張圖像中感知并想象三維世界的能力了。
技術(shù)突破:從單張圖像到三維世界的關(guān)鍵創(chuàng)新
傳統(tǒng)的3D重建技術(shù)往往依賴于多視角數(shù)據(jù)或逐個場景(per-scene)的優(yōu)化,且在處理背景和不可見區(qū)域時容易失真。
為解決這些問題,Wonderland創(chuàng)新性地結(jié)合視頻生成模型和大規(guī)模3D重建模型,實現(xiàn)了高效高質(zhì)量的大規(guī)模3D場景生成:
- 向視頻擴(kuò)散模型中嵌入3D意識
通過向視頻擴(kuò)散模型中引入相機(jī)位姿控制,Wonderland在視頻latent空間中嵌入了場景的多視角信息,并能保證3D一致性。視頻生成模型在相機(jī)運動軌跡的精準(zhǔn)控制下,將單張圖像擴(kuò)展為包含豐富空間關(guān)系的多視角視頻。
- 雙分支相機(jī)控制機(jī)制
利用ControlNet和LoRA模塊,Wonderland實現(xiàn)了在視頻生成過程中對于豐富的相機(jī)視角變化的精確控制,顯著提升了多視角生成的視頻質(zhì)量、幾何一致性和靜態(tài)特征。
- 大規(guī)模latent-based 3D重建模型(LaLRM)
Wonderland創(chuàng)新地引入了3D重建模型LaLRM,利用視頻生成模型生成的latent直接重構(gòu)3D場景(feed-forward reconstruction)。重建模型的訓(xùn)練采用了高效的逐步訓(xùn)練策略,將視頻latent空間中的信息轉(zhuǎn)化為3D高斯點分布(3D Gaussian Splatting, 3DGS),顯著降低了內(nèi)存需求和重建時間成本。憑借這種設(shè)計,LaLRM能夠有效地將生成和重建任務(wù)對齊,同時在圖像空間與三維空間之間建立了橋梁,實現(xiàn)了更加高效且一致的廣闊3D場景構(gòu)建。
效果展示:視頻生成
基于單張圖和camera condition,實現(xiàn)視頻生成的精準(zhǔn)視角控制:
Input Image and Camera Trajectory
Input Image and Camera Trajectory
Camera-guided視頻生成模型可以精確地遵循軌跡的條件,生成3D-geometry一致的高質(zhì)量視頻,并具有很強(qiáng)的泛化性,可以遵循各種復(fù)雜的軌跡,并適用于各種風(fēng)格的輸入圖片。
一起來看看更多的例子:
不同的輸入圖片,同樣的三條相機(jī)軌跡,生成的視頻:
給定輸入圖片和多條相機(jī)軌跡,生成視頻可以深度地探索場景:
效果展示:3D場景生成
基于單張圖,利用LaLRM, Wonderland 可以生成高質(zhì)量的、廣闊的3D場景:
基于單張圖和多條相機(jī)軌跡,Wonderland 可以深度探索和生成高質(zhì)量的、廣闊的3D場景:
卓越性能:在視覺質(zhì)量和生成效率等多個維度上表現(xiàn)卓越
Wonderland的主要特點在于其精確的視角控制、卓越的場景生成質(zhì)量、生成的高效性和廣泛的適用性。
實驗結(jié)果顯示,該模型在多個數(shù)據(jù)集上的表現(xiàn)超越現(xiàn)有方法,包括視頻生成的視角控制、視頻生成的視覺質(zhì)量、3D重建的幾何一致性和渲染的圖像質(zhì)量、以及端到端的生成速度均取得了優(yōu)異的表現(xiàn):
- 雙分支相機(jī)條件策略:通過引入雙分支相機(jī)條件控制策略,視頻擴(kuò)散模型能夠生成3D-geometry一致的多視圖場景捕捉,且相較于現(xiàn)有方法達(dá)到了更精確的姿態(tài)控制。
- Zero-shot 3D 場景生成:在單圖像輸入的前提下,Wonderland可進(jìn)行高效的3D場景前向重建,在多個基準(zhǔn)數(shù)據(jù)集(例如RealEstate10K、DL3DV 和Tanks-and-Temples)上的3D場景重建質(zhì)量均優(yōu)于現(xiàn)有方法。
- 廣覆蓋場景生成能力: 與過去的3D 前向重建通常受限于小視角范圍或者物體級別的重建不同,Wonderland能夠高效生成廣范圍的復(fù)雜場景。其生成的3D場景不僅具備高度的幾何一致性,還具有很強(qiáng)的泛化性,能處理out-of-domain的場景。
- 超高效率: 在單張圖像輸入的問題設(shè)定下,利用單張A100,Wonderland僅需約5分鐘即可生成完整的3D場景。這一速度相比需要16分鐘的Cat3D提升了3.2倍,相較需要3小時的ZeroNVS更是提升了36倍。
應(yīng)用場景:視頻和3D場景內(nèi)容創(chuàng)作的新工具
Wonderland的出現(xiàn)為視頻和3D場景的創(chuàng)作提供了一種嶄新的解決方案。
在建筑設(shè)計、虛擬現(xiàn)實、影視特效以及游戲開發(fā)等領(lǐng)域,該技術(shù)展現(xiàn)了廣闊的應(yīng)用潛力。
通過其精準(zhǔn)的視頻位姿控制和具備廣視角、高清晰度的3D場景生成能力,Wonderland能夠滿足復(fù)雜場景中對高質(zhì)量內(nèi)容的需求,為創(chuàng)作者帶來更多可能性。
盡管模型表現(xiàn)優(yōu)異,Wonderland研發(fā)團(tuán)隊深知仍有許多值得提升和探索的方向。
例如,進(jìn)一步優(yōu)化對動態(tài)場景的適配能力、提升對真實場景細(xì)節(jié)的還原度等,都是未來努力的重點。
希望通過不斷改進(jìn)和完善,讓這一研發(fā)思路不僅推動單視圖3D場景生成技術(shù)的進(jìn)步,也能為視頻生成與3D技術(shù)在實際應(yīng)用中的廣泛普及貢獻(xiàn)力量。
論文: https://arxiv.org/abs/2412.12091項目主頁:https://snap-research.github.io/wonderland/。