自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

理想汽車最新!DiVE:擴(kuò)散模型+Vit的高保真、時間一致的視頻生成

人工智能 智能汽車
今天為大家分享一篇哈工大、理想汽車與清華大學(xué)等團(tuán)隊(duì)出品的工作:基于DiT的視頻生成與增強(qiáng)控制!

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

原標(biāo)題:DiVE: DiT-based Video Generation with Enhanced Control

論文鏈接:https://arxiv.org/pdf/2409.01595

項(xiàng)目鏈接:https://liautoad.github.io/DIVE/

代碼鏈接:https://github.com/LiAutoAD/DIVE

作者單位:哈爾濱工業(yè)大學(xué)(深圳) 理想汽車 清華大學(xué) Westlake University 新加坡國立大學(xué)

圖片圖片

論文思路:

在自動駕駛場景中生成高保真、時間一致性的視頻面臨著顯著的挑戰(zhàn),例如在極端情況(corner cases)下的問題操作(problematic maneuvers)。盡管最近提出了一些視頻生成工作來解決上述問題,例如基于 Diffusion Transformers(DiT)的模型,但仍然缺乏專門探索多視角視頻生成潛力的研究。值得注意的是,本文提出了首個基于DiT的框架,專門設(shè)計(jì)用于生成與給定鳥瞰圖布局控制精確匹配的時間和多視角一致性視頻。具體而言,所提出的框架利用無參數(shù)的 spatial view-inflated attention 來保證跨視角一致性,其中集成了 joint cross-attention modules 和ControlNet-Transformer 以進(jìn)一步提高控制的精度。為了展示本文的優(yōu)勢,本文在nuScenes數(shù)據(jù)集上進(jìn)行了廣泛的定性比較,特別是在一些最具挑戰(zhàn)性的極端情況下??偟膩碚f,本文提出的方法在困難條件下生成長時間、可控且高度一致性視頻方面被證明是有效的。

論文設(shè)計(jì):

鳥瞰視角(Bird’s-Eye-View, BEV)感知在自動駕駛中引起了極大的關(guān)注,突顯了其在3D目標(biāo)檢測等任務(wù)中的巨大潛力。最近的方法如StreamPETR 利用多視角視頻進(jìn)行訓(xùn)練,強(qiáng)調(diào)了廣泛且良好標(biāo)注的數(shù)據(jù)集的必要性。然而,在各種條件下收集和標(biāo)注此類數(shù)據(jù)具有挑戰(zhàn)性且成本高昂。為了解決上述挑戰(zhàn),生成模型的最新進(jìn)展表明,合成數(shù)據(jù)可以有效地提高目標(biāo)檢測和語義分割等各種任務(wù)的性能。

由于時序數(shù)據(jù)在視頻中的參與在相關(guān)感知任務(wù)中起著至關(guān)重要的作用,本文的重點(diǎn)轉(zhuǎn)向生成高質(zhì)量的真實(shí)感視頻。實(shí)現(xiàn)現(xiàn)實(shí)世界的逼真度需要高視覺質(zhì)量、跨視角和時間一致性以及精確的可控性。值得注意的是,最近方法的潛力受到限制,原因包括低分辨率、固定縱橫比以及物體形狀和顏色的不一致性。受Sora在生成高質(zhì)量、時間一致性視頻任務(wù)中成功表現(xiàn)的啟發(fā),本文在工作中采用 Diffusion Transformer (DiT) 進(jìn)行可控的多視角視頻生成。

本文提出的框架是首批在駕駛場景中使用 DiT 進(jìn)行視頻生成的工作之一,通過整合 BEV 布局和場景文本,實(shí)現(xiàn)了精確的內(nèi)容控制?;贠penSora架構(gòu),本文的方法嵌入了 joint cross-attention modules ,以管理來自鳥瞰視角的場景文本和實(shí)例布局。擴(kuò)展ControlNet-Transformer方法以適應(yīng)道路草圖,本文通過無參數(shù)的 spatial view-inflated attention 確保多視角一致性。為了支持多分辨率生成、更快的推理以及不同的視頻長度,本文采用了OpenSora的訓(xùn)練策略,并引入了一種新穎的無分類器指導(dǎo)技術(shù),以增強(qiáng)控制和視頻質(zhì)量。

圖片圖1. 本文提出的方法中每個獨(dú)立組件的結(jié)構(gòu)實(shí)現(xiàn)。

本文的模型總體架構(gòu)如圖1所示。采用OpenSora 1.1提出的參數(shù)模型作為基線模型。為了實(shí)現(xiàn)對前景和背景信息的精確控制,本文將通過投影從3D幾何數(shù)據(jù)中提取的布局條目和道路草圖整合到布局條件視頻生成過程中。本文提出的新模塊和訓(xùn)練策略將在接下來的部分中分別介紹。

多條件時空DiT

Caption-Layout Joint Cross-Atttention. 按照MagicDrive的方法,本文使用交叉注意力機(jī)制來整合場景描述(scene captions)和布局條目(layout entries)。布局條目(即實(shí)例的詳細(xì)信息,如2D坐標(biāo)、朝向和ID)經(jīng)過傅里葉編碼后合并為一個統(tǒng)一的嵌入。實(shí)例標(biāo)題則使用預(yù)訓(xùn)練的CLIP模型進(jìn)行編碼。這些嵌入被連接并通過一個多層感知器(MLP)處理,生成最終的布局嵌入,該嵌入與場景描述嵌入一起作為交叉注意力機(jī)制的條件。

ControlNet-Transformer。深入細(xì)節(jié),本文引入了ControlNet-Transformer,以確保對道路草圖控制的精確性,靈感來自PixArt-δ。實(shí)際上,一個預(yù)訓(xùn)練的變分自編碼器(VAE)從道路草圖中提取潛在特征,這些特征然后通過 3D patch embedder 處理,以確保與本文主網(wǎng)絡(luò)的一致性。為了參數(shù)化本文提到的設(shè)計(jì),本文將13個重復(fù)塊(duplicated block)與DiT架構(gòu)的前13個基礎(chǔ)塊集成。每個重復(fù)塊結(jié)合了道路草圖特征和基礎(chǔ)塊輸出,使用空間自注意力來減少計(jì)算開銷。

訓(xùn)練

可變分辨率和幀長度。遵循OpenSora的做法,本文采用了Bucket策略,以確保每個批次中的視頻具有一致的分辨率和幀長度。

Rectified Flow。受OpenSora 1.2的啟發(fā),本文在后期訓(xùn)練階段用校正流替代了IDDPM,以提高穩(wěn)定性并減少推理步驟。校正流是一種基于 ODE 的生成模型,其定義了數(shù)據(jù)和正態(tài)分布之間的前向過程如下:

圖片

圖片

損失僅在未掩碼的幀上計(jì)算。在推理過程中,視頻以自回歸方式生成,前一個片段的最后k幀作為下一個片段的條件。

圖片

實(shí)驗(yàn)結(jié)果:

圖片圖2. 本文的模型與MagicDrive生成的多視角視頻的定性比較。圖片

圖3. 場景編輯的使用案例。圖片表1. 與MagicDrive的定量比較。DTC、CTC和IQ分別代表DINO時間一致性、CLIP時間一致性和圖像質(zhì)量。最佳表現(xiàn)以粗體顯示。

總結(jié):

本文提出了首個針對駕駛場景的基于DiT的可控多視角視頻生成模型。通過整合 ControlNet-Transformer 和 joint cross-attention ,實(shí)現(xiàn)對 BEV 布局的精確控制。Spatial view-inflated attention 結(jié)合全面的訓(xùn)練和推理策略,確保了高質(zhì)量和一致性的視頻生成。與MagicDrive的比較和各種可視化進(jìn)一步展示了該模型在生成視頻中的卓越控制和一致性。

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2025-01-22 10:30:00

圖像生成模型AI

2024-06-07 09:15:48

2025-03-20 09:20:00

2025-04-28 09:28:14

2025-04-02 08:50:00

AI視頻生成

2023-10-11 12:32:26

模型訓(xùn)練

2025-03-03 08:32:00

模型AI訓(xùn)練

2024-04-03 14:11:49

模型訓(xùn)練

2024-06-04 09:52:25

2024-11-26 09:43:37

2023-01-09 13:18:59

AI

2023-04-03 10:04:44

開源模型

2023-06-13 09:33:37

視頻阿里巴巴

2023-04-13 15:55:00

AI開源

2024-01-22 08:59:00

AI

2024-03-20 00:00:00

StabilityAI開源人工智能

2024-12-05 14:20:00

模型AI

2023-08-21 12:10:08

算法AI

2025-02-14 09:30:00

視頻生成模型開源機(jī)器人
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號