自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

生成越長越跑偏?浙大商湯新作StarGen讓場景視頻生成告別「短片魔咒」

人工智能 新聞
針對復(fù)雜場景的長距離場景生成的時空一致性問題,該研究團(tuán)隊(duì)創(chuàng)新提出了一種解決方案 StarGen,其核心創(chuàng)新在于通過引入空間與時間雙重條件機(jī)制,將稀疏視圖的 3D 幾何信息與視頻擴(kuò)散模型有機(jī)結(jié)合,緩解誤差累積。

本文介紹了一篇由浙江大學(xué)章國鋒教授和商湯科技研究團(tuán)隊(duì)聯(lián)合撰寫的論文《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》。

針對復(fù)雜場景的長距離場景生成的時空一致性問題,該研究團(tuán)隊(duì)創(chuàng)新提出了一種解決方案 StarGen,其核心創(chuàng)新在于通過引入空間與時間雙重條件機(jī)制,將稀疏視圖的 3D 幾何信息與視頻擴(kuò)散模型有機(jī)結(jié)合,緩解誤差累積。

StarGen 實(shí)現(xiàn)了多視一致的長視頻生成,并且能夠支持稀疏視圖插值、圖生視頻以及布局驅(qū)動場景生成等多樣化任務(wù)。實(shí)驗(yàn)結(jié)果表明,StarGen 在生成質(zhì)量、一致性保持和場景擴(kuò)展能力等方面均顯著優(yōu)于現(xiàn)有方法。

圖片

  • 論文標(biāo)題:StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation
  • 論文地址:https://arxiv.org/pdf/2501.05763
  • 項(xiàng)目主頁:https://zju3dv.github.io/StarGen/

背景

近年來,隨著大規(guī)模模型的快速發(fā)展,3D 重建與生成技術(shù)取得了顯著進(jìn)展,并逐漸呈現(xiàn)出互補(bǔ)融合的趨勢。在重建領(lǐng)域,基于大規(guī)模重建模型的方法顯著降低了對密集多視角數(shù)據(jù)采集的依賴,同時生成模型被有效應(yīng)用于稀疏輸入視角下不可見區(qū)域的補(bǔ)全任務(wù)。

在生成領(lǐng)域,3D 重建技術(shù)為 2D 生成模型向 3D 生成任務(wù)的遷移提供了重要支撐,具體表現(xiàn)為兩種技術(shù)路徑:其一是通過將 2D 概率分布蒸餾為 3D 表示,其二是基于 2D 生成圖像重建 3D 表示。

然而,這些大規(guī)模重建與生成模型面臨一個關(guān)鍵性挑戰(zhàn):在有限計(jì)算資源約束下,單次推理過程僅能處理有限數(shù)量的 Token。

盡管現(xiàn)有一些研究提出了時間自回歸方法,通過將當(dāng)前視頻片段的初始幀與前一生成片段的末尾幀進(jìn)行條件關(guān)聯(lián)以實(shí)現(xiàn)長視頻生成,但這類方法僅能在較短時間跨度內(nèi)維持時序一致性。隨著生成過程的推進(jìn),誤差累積問題將導(dǎo)致空間一致性難以有效保持。

相關(guān)工作

目前與本文工作相關(guān)的新視角生成方法主要分為三類:重建模型和生成模型,以及結(jié)合重建與生成的混合方法。

重建模型

重建模型主要通過從多視角輸入中重建場景的幾何結(jié)構(gòu)和外觀信息來實(shí)現(xiàn)新視角生成。傳統(tǒng)幾何重建方法,如 NeRF 和 3D-GS,通過隱式或顯式表示對場景進(jìn)行建模,在生成高質(zhì)量新視角方面表現(xiàn)優(yōu)異,但其對密集視角輸入的依賴限制了其適用性。

基于前饋網(wǎng)絡(luò)的重建方法,如 PixelNeRF 和 PixelSplat,通過從稀疏視圖直接推斷 3D 表示,降低了對密集輸入的需求,顯著提升了重建效率。

然而,這類方法本質(zhì)上仍局限于重建任務(wù),缺乏生成能力,仍然需要輸入圖像覆蓋充分才能獲得完整的場景表達(dá)。

生成模型

生成模型通過學(xué)習(xí)輸入數(shù)據(jù)的分布來生成圖像或視頻,主要包括生成對抗網(wǎng)絡(luò)(GAN)和擴(kuò)散模型的兩類方法。

GAN 在早期取得了一定成功,但在跨幀或跨片段的全局一致性方面表現(xiàn)不足。擴(kuò)散模型通過逆向擴(kuò)散過程生成高質(zhì)量圖像,并結(jié)合控制條件(如 ControlNet)實(shí)現(xiàn)對生成內(nèi)容的精確約束。

盡管擴(kuò)散模型在視頻生成任務(wù)中表現(xiàn)出色,通過全注意力機(jī)制(Full-Attention)能夠?qū)崿F(xiàn)單段視頻內(nèi)的多視圖一致性,但由于計(jì)算資源的限制,現(xiàn)有方法難以實(shí)現(xiàn)長距離、高質(zhì)量且多視一致的視頻生成。

結(jié)合重建與生成的混合方法

近年來,重建與生成方法的結(jié)合逐漸受到關(guān)注,通過互補(bǔ)方式提升生成質(zhì)量和一致性。代表性方法如 ViewCrafter,利用 Dust3r 從稀疏視圖中生成點(diǎn)云,并將所有點(diǎn)云投影到當(dāng)前片段作為空間約束,從而實(shí)現(xiàn)多段生成視頻的幾何一致性。

然而,這種以點(diǎn)云作為空間約束的方法會隨著生成視頻的增長而累積點(diǎn)云重建誤差,最終導(dǎo)致生成內(nèi)容出現(xiàn)顯著偏差。此外,該方法需要訓(xùn)練視頻生成模型本身,限制了其擴(kuò)展性和通用性。

方法

圖片

圖 1. 系統(tǒng)框架

系統(tǒng)概述

如圖 1 所示,StarGen 框架主要包括三部分:時空自回歸框架、時空條件視頻生成和下游任務(wù)實(shí)現(xiàn)。

時空自回歸框架

StarGen 通過滑動窗口的方式逐步實(shí)現(xiàn)長距離場景生成,每個窗口的生成既依賴于上一窗口的時間條件圖像,也依賴于與當(dāng)前窗口具有共視關(guān)系的空間相鄰圖像。

具體而言,StarGen 從前一窗口生成的關(guān)鍵幀中選擇圖像作為時間條件,來保證當(dāng)前生成結(jié)果和上一段視頻在時間上的連續(xù)性。

同時,從歷史窗口中提取與當(dāng)前窗口具有最大共視區(qū)域的圖像集合作為空間條件,保證長距離生成過程中各個視頻間的多視一致。

圖片

圖 2. 時空條件視頻生成

時空條件視頻生成

StarGen 通過引入大型重建模型(LRM)和視頻擴(kuò)散模型(VDM)實(shí)現(xiàn)高質(zhì)量可控視頻生成。具體流程如圖 2 所示:

1. 空間條件處理:從空間條件圖像中提取 3D 幾何信息,并通過基于多視幾何的渲染方法生成目標(biāo)視角的特征圖。這些特征圖隨后被壓縮到 VDM 的潛在空間中。

2. 時間條件處理:將時間條件圖像通過變分自編碼器(VAE)編碼為隱特征,并與空間條件特征融合,生成結(jié)合時空信息的綜合特征。

3. 視頻擴(kuò)散生成:將融合后的時空特征輸入視頻擴(kuò)散模型,通過 ControlNet 進(jìn)行條件控制生成,生成當(dāng)前窗口的高質(zhì)量圖像序列。

下游任務(wù)實(shí)現(xiàn)

StarGen 框架支持多種場景生成任務(wù):

  • 稀疏視圖插值:通過結(jié)合時空條件,生成輸入圖像之間的中間幀,同時支持精確的姿態(tài)控制;
  • 圖生視頻:以單張輸入圖像為起點(diǎn),逐幀生成實(shí)現(xiàn)長距離視角變化;
  • 基于布局的城市生成:結(jié)合深度圖和語義圖,通過 ControlNet 對布局信息進(jìn)行精準(zhǔn)約束,生成具有大規(guī)模場景一致性的城市場景。

損失函數(shù)設(shè)計(jì)

為了確保生成內(nèi)容的一致性和質(zhì)量,StarGen 框架設(shè)計(jì)了三種損失函數(shù):

圖片

圖 3. 損失函數(shù)

1. 深度損失:通過多視角約束優(yōu)化重建深度圖的精度,從而提升空間條件的幾何一致性。

2. 潛在損失:監(jiān)督空間條件生成的潛在特征與真實(shí)視圖特征之間的差異,確保特征空間的一致性。

3. 擴(kuò)散損失:優(yōu)化擴(kuò)散模型生成的潛在特征與噪聲潛在變量之間的差異,增強(qiáng)生成序列的質(zhì)量。

結(jié)果

稀疏視圖插值

在 RealEstate-10K 和 ACID 數(shù)據(jù)集上,StarGen 在 PSNR 指標(biāo)上優(yōu)于其他基于重建和生成的方法,同時在其他指標(biāo)上達(dá)到了當(dāng)前最先進(jìn)的水平:

圖片

表 1. 稀疏視角插值的定量對比

特別是在輸入視圖幾乎無重疊的情況下,仍能生成合理的中間內(nèi)容:

圖片

圖 4. 稀疏視角插值的定性對比

圖生視頻

1. 短視頻生成:在測試集上生成 25 幀視頻,StarGen 在所有指標(biāo)(PSNR、SSIM、LPIPS)上表現(xiàn)最好。

2. 長視頻生成:與其他方法相比,StarGen 生成的長視頻在視覺保真度和姿態(tài)精度上退化更少。

圖片

表 2. 圖生短視頻的定量對比

圖片

圖 5. 圖生長視頻的定量對比

圖片

圖 6. 圖生長視頻的定性對比

基于布局的城市生成

實(shí)驗(yàn)基于 OpenStreetMap 布局?jǐn)?shù)據(jù)生成城市場景,與 CityDreamer 方法相比,StarGen 生成的內(nèi)容在布局一致性和細(xì)節(jié)保真度上更優(yōu):

圖片

圖 7. 基于布局的城市生成定性對比

消融實(shí)驗(yàn)

通過逐步移除空間或時間條件等模塊進(jìn)行消融實(shí)驗(yàn),結(jié)果表明這兩種條件的結(jié)合對生成質(zhì)量和一致性有顯著貢獻(xiàn):

圖片

圖片

表 3. 消融實(shí)驗(yàn)

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-01-26 10:50:00

模型視頻生成

2023-06-13 09:33:37

視頻阿里巴巴

2025-03-27 09:24:16

2024-10-28 07:30:00

2023-04-03 10:04:44

開源模型

2025-04-28 09:28:14

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2025-03-12 09:05:02

2024-11-08 17:34:38

2024-04-07 14:56:22

技術(shù)應(yīng)用

2024-11-25 10:30:00

AI視頻開源

2025-01-15 09:21:57

2024-12-26 00:51:38

2024-02-04 19:58:27

谷歌AI視頻生成器

2024-12-12 10:00:00

2024-02-19 07:58:01

OpenAI模型GPT

2024-02-26 16:55:51

Sora人工智能

2025-04-18 09:25:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號