自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

生成越長越跑偏？浙大商湯新作StarGen讓場景視頻生成告別「短片魔咒」

作者：機(jī)器之心 2025-01-17 09:00:00

人工智能新聞

針對復(fù)雜場景的長距離場景生成的時空一致性問題，該研究團(tuán)隊(duì)創(chuàng)新提出了一種解決方案 StarGen，其核心創(chuàng)新在于通過引入空間與時間雙重條件機(jī)制，將稀疏視圖的 3D 幾何信息與視頻擴(kuò)散模型有機(jī)結(jié)合，緩解誤差累積。

本文介紹了一篇由浙江大學(xué)章國鋒教授和商湯科技研究團(tuán)隊(duì)聯(lián)合撰寫的論文《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》。

針對復(fù)雜場景的長距離場景生成的時空一致性問題，該研究團(tuán)隊(duì)創(chuàng)新提出了一種解決方案 StarGen，其核心創(chuàng)新在于通過引入空間與時間雙重條件機(jī)制，將稀疏視圖的 3D 幾何信息與視頻擴(kuò)散模型有機(jī)結(jié)合，緩解誤差累積。

StarGen 實(shí)現(xiàn)了多視一致的長視頻生成，并且能夠支持稀疏視圖插值、圖生視頻以及布局驅(qū)動場景生成等多樣化任務(wù)。實(shí)驗(yàn)結(jié)果表明，StarGen 在生成質(zhì)量、一致性保持和場景擴(kuò)展能力等方面均顯著優(yōu)于現(xiàn)有方法。

論文標(biāo)題：StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation
論文地址：https://arxiv.org/pdf/2501.05763
項(xiàng)目主頁：https://zju3dv.github.io/StarGen/

背景

近年來，隨著大規(guī)模模型的快速發(fā)展，3D 重建與生成技術(shù)取得了顯著進(jìn)展，并逐漸呈現(xiàn)出互補(bǔ)融合的趨勢。在重建領(lǐng)域，基于大規(guī)模重建模型的方法顯著降低了對密集多視角數(shù)據(jù)采集的依賴，同時生成模型被有效應(yīng)用于稀疏輸入視角下不可見區(qū)域的補(bǔ)全任務(wù)。

在生成領(lǐng)域，3D 重建技術(shù)為 2D 生成模型向 3D 生成任務(wù)的遷移提供了重要支撐，具體表現(xiàn)為兩種技術(shù)路徑：其一是通過將 2D 概率分布蒸餾為 3D 表示，其二是基于 2D 生成圖像重建 3D 表示。

然而，這些大規(guī)模重建與生成模型面臨一個關(guān)鍵性挑戰(zhàn)：在有限計(jì)算資源約束下，單次推理過程僅能處理有限數(shù)量的 Token。

盡管現(xiàn)有一些研究提出了時間自回歸方法，通過將當(dāng)前視頻片段的初始幀與前一生成片段的末尾幀進(jìn)行條件關(guān)聯(lián)以實(shí)現(xiàn)長視頻生成，但這類方法僅能在較短時間跨度內(nèi)維持時序一致性。隨著生成過程的推進(jìn)，誤差累積問題將導(dǎo)致空間一致性難以有效保持。

相關(guān)工作

目前與本文工作相關(guān)的新視角生成方法主要分為三類：重建模型和生成模型，以及結(jié)合重建與生成的混合方法。

重建模型

重建模型主要通過從多視角輸入中重建場景的幾何結(jié)構(gòu)和外觀信息來實(shí)現(xiàn)新視角生成。傳統(tǒng)幾何重建方法，如 NeRF 和 3D-GS，通過隱式或顯式表示對場景進(jìn)行建模，在生成高質(zhì)量新視角方面表現(xiàn)優(yōu)異，但其對密集視角輸入的依賴限制了其適用性。

基于前饋網(wǎng)絡(luò)的重建方法，如 PixelNeRF 和 PixelSplat，通過從稀疏視圖直接推斷 3D 表示，降低了對密集輸入的需求，顯著提升了重建效率。

然而，這類方法本質(zhì)上仍局限于重建任務(wù)，缺乏生成能力，仍然需要輸入圖像覆蓋充分才能獲得完整的場景表達(dá)。

生成模型

生成模型通過學(xué)習(xí)輸入數(shù)據(jù)的分布來生成圖像或視頻，主要包括生成對抗網(wǎng)絡(luò)（GAN）和擴(kuò)散模型的兩類方法。

GAN 在早期取得了一定成功，但在跨幀或跨片段的全局一致性方面表現(xiàn)不足。擴(kuò)散模型通過逆向擴(kuò)散過程生成高質(zhì)量圖像，并結(jié)合控制條件（如 ControlNet）實(shí)現(xiàn)對生成內(nèi)容的精確約束。

盡管擴(kuò)散模型在視頻生成任務(wù)中表現(xiàn)出色，通過全注意力機(jī)制（Full-Attention）能夠?qū)崿F(xiàn)單段視頻內(nèi)的多視圖一致性，但由于計(jì)算資源的限制，現(xiàn)有方法難以實(shí)現(xiàn)長距離、高質(zhì)量且多視一致的視頻生成。

結(jié)合重建與生成的混合方法

近年來，重建與生成方法的結(jié)合逐漸受到關(guān)注，通過互補(bǔ)方式提升生成質(zhì)量和一致性。代表性方法如 ViewCrafter，利用 Dust3r 從稀疏視圖中生成點(diǎn)云，并將所有點(diǎn)云投影到當(dāng)前片段作為空間約束，從而實(shí)現(xiàn)多段生成視頻的幾何一致性。

然而，這種以點(diǎn)云作為空間約束的方法會隨著生成視頻的增長而累積點(diǎn)云重建誤差，最終導(dǎo)致生成內(nèi)容出現(xiàn)顯著偏差。此外，該方法需要訓(xùn)練視頻生成模型本身，限制了其擴(kuò)展性和通用性。

方法

圖 1. 系統(tǒng)框架

系統(tǒng)概述

如圖 1 所示，StarGen 框架主要包括三部分：時空自回歸框架、時空條件視頻生成和下游任務(wù)實(shí)現(xiàn)。

時空自回歸框架

StarGen 通過滑動窗口的方式逐步實(shí)現(xiàn)長距離場景生成，每個窗口的生成既依賴于上一窗口的時間條件圖像，也依賴于與當(dāng)前窗口具有共視關(guān)系的空間相鄰圖像。

具體而言，StarGen 從前一窗口生成的關(guān)鍵幀中選擇圖像作為時間條件，來保證當(dāng)前生成結(jié)果和上一段視頻在時間上的連續(xù)性。

同時，從歷史窗口中提取與當(dāng)前窗口具有最大共視區(qū)域的圖像集合作為空間條件，保證長距離生成過程中各個視頻間的多視一致。

圖 2. 時空條件視頻生成

時空條件視頻生成

StarGen 通過引入大型重建模型（LRM）和視頻擴(kuò)散模型（VDM）實(shí)現(xiàn)高質(zhì)量可控視頻生成。具體流程如圖 2 所示：

1. 空間條件處理：從空間條件圖像中提取 3D 幾何信息，并通過基于多視幾何的渲染方法生成目標(biāo)視角的特征圖。這些特征圖隨后被壓縮到 VDM 的潛在空間中。

2. 時間條件處理：將時間條件圖像通過變分自編碼器（VAE）編碼為隱特征，并與空間條件特征融合，生成結(jié)合時空信息的綜合特征。

3. 視頻擴(kuò)散生成：將融合后的時空特征輸入視頻擴(kuò)散模型，通過 ControlNet 進(jìn)行條件控制生成，生成當(dāng)前窗口的高質(zhì)量圖像序列。

下游任務(wù)實(shí)現(xiàn)

StarGen 框架支持多種場景生成任務(wù)：

稀疏視圖插值：通過結(jié)合時空條件，生成輸入圖像之間的中間幀，同時支持精確的姿態(tài)控制；
圖生視頻：以單張輸入圖像為起點(diǎn)，逐幀生成實(shí)現(xiàn)長距離視角變化；
基于布局的城市生成：結(jié)合深度圖和語義圖，通過 ControlNet 對布局信息進(jìn)行精準(zhǔn)約束，生成具有大規(guī)模場景一致性的城市場景。

損失函數(shù)設(shè)計(jì)

為了確保生成內(nèi)容的一致性和質(zhì)量，StarGen 框架設(shè)計(jì)了三種損失函數(shù)：

圖 3. 損失函數(shù)

1. 深度損失：通過多視角約束優(yōu)化重建深度圖的精度，從而提升空間條件的幾何一致性。

2. 潛在損失：監(jiān)督空間條件生成的潛在特征與真實(shí)視圖特征之間的差異，確保特征空間的一致性。

3. 擴(kuò)散損失：優(yōu)化擴(kuò)散模型生成的潛在特征與噪聲潛在變量之間的差異，增強(qiáng)生成序列的質(zhì)量。

結(jié)果

稀疏視圖插值

在 RealEstate-10K 和 ACID 數(shù)據(jù)集上，StarGen 在 PSNR 指標(biāo)上優(yōu)于其他基于重建和生成的方法，同時在其他指標(biāo)上達(dá)到了當(dāng)前最先進(jìn)的水平：

表 1. 稀疏視角插值的定量對比

特別是在輸入視圖幾乎無重疊的情況下，仍能生成合理的中間內(nèi)容：

圖 4. 稀疏視角插值的定性對比

圖生視頻

1. 短視頻生成：在測試集上生成 25 幀視頻，StarGen 在所有指標(biāo)（PSNR、SSIM、LPIPS）上表現(xiàn)最好。

2. 長視頻生成：與其他方法相比，StarGen 生成的長視頻在視覺保真度和姿態(tài)精度上退化更少。

表 2. 圖生短視頻的定量對比

圖 5. 圖生長視頻的定量對比

圖 6. 圖生長視頻的定性對比

基于布局的城市生成

實(shí)驗(yàn)基于 OpenStreetMap 布局?jǐn)?shù)據(jù)生成城市場景，與 CityDreamer 方法相比，StarGen 生成的內(nèi)容在布局一致性和細(xì)節(jié)保真度上更優(yōu)：

圖 7. 基于布局的城市生成定性對比

消融實(shí)驗(yàn)

通過逐步移除空間或時間條件等模塊進(jìn)行消融實(shí)驗(yàn)，結(jié)果表明這兩種條件的結(jié)合對生成質(zhì)量和一致性有顯著貢獻(xiàn)：

表 3. 消融實(shí)驗(yàn)

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型 AI 訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營