自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICLR 2025 Spotlight | 讓城市「動(dòng)」起來!DynamicCity突破4D大場景生成技術(shù)邊界

人工智能 新聞
上海人工智能實(shí)驗(yàn)室、卡耐基梅隆大學(xué)、新加坡國立大學(xué)和新加坡南洋理工大學(xué)團(tuán)隊(duì)提出DynamicCity。

過去一年,3D 生成技術(shù)迎來爆發(fā)式增長。在大場景生成領(lǐng)域,涌現(xiàn)出一批 “靜態(tài)大場景生成” 工作,如 SemCity [1]、PDD [2]、XCube [3] 等。這些研究推動(dòng)了 AI 利用擴(kuò)散模型的強(qiáng)大學(xué)習(xí)能力來解構(gòu)和創(chuàng)造物理世界的趨勢。

盡管這些方法在生成復(fù)雜且稀疏的三維環(huán)境方面表現(xiàn)出色,現(xiàn)有技術(shù)仍面臨一個(gè)核心挑戰(zhàn):在生成大型 3D 場景時(shí),它們將環(huán)境視為靜止的 “快照”—— 道路凝固、行人懸停、車輛靜止不動(dòng)。這種靜態(tài)生成方式缺乏真實(shí)世界瞬息萬變的交通流,難以反映復(fù)雜多變的交通場景,限制了實(shí)際應(yīng)用。

那么,如何讓生成的 3D 場景突破靜態(tài)單幀的限制,真正捕捉動(dòng)態(tài)世界的時(shí)空演化規(guī)律?

對此,上海人工智能實(shí)驗(yàn)室、卡耐基梅隆大學(xué)、新加坡國立大學(xué)和新加坡南洋理工大學(xué)團(tuán)隊(duì)提出DynamicCity,給出了突破性的解答。這項(xiàng)創(chuàng)新性工作以4D 到 2D 的特征降維為核心突破點(diǎn),首次實(shí)現(xiàn)了高質(zhì)量、高效的 4D 場景建模,并在生成質(zhì)量、訓(xùn)練速度和內(nèi)存消耗三大關(guān)鍵維度上取得跨越式進(jìn)展。

DynamicCity已被 ICLR 2025 接收為Spotlight論文,項(xiàng)目主頁和代碼均已公開。

  • 論文:https://arxiv.org/abs/2410.18084
  • 主頁:https://dynamic-city.github.io
  • 代碼:https://github.com/3DTopia/DynamicCity

引言

3D 大型場景生成技術(shù)旨在利用深度學(xué)習(xí)模型,如擴(kuò)散模型,構(gòu)建高保真、可擴(kuò)展的場景。該技術(shù)有望為智能系統(tǒng)的訓(xùn)練與驗(yàn)證提供近乎無限的虛擬試驗(yàn)場。然而,現(xiàn)有方法大多還在探索靜態(tài)場景的單幀生成(如 XCube [1]、PDD [2]、SemCity [3] 等),難以捕捉真實(shí)駕駛環(huán)境中交通流、行人運(yùn)動(dòng)等動(dòng)態(tài)要素的時(shí)空演化規(guī)律。這種靜態(tài)與動(dòng)態(tài)的割裂,嚴(yán)重制約了生成場景在復(fù)雜任務(wù)中的應(yīng)用價(jià)值。

主流的靜態(tài)場景生成方法 [1, 2, 3] 主要依賴體素超分或 TriPlane 壓縮,以實(shí)現(xiàn)大規(guī)模靜態(tài)場景的高效生成,其本質(zhì)仍是對單幀 3D 場景的 “快照式” 建模。盡管近期研究嘗試將生成范圍擴(kuò)展至動(dòng)態(tài)(如 OccSora [4], DOME [5]),4D 場景的復(fù)雜性 —— 包含數(shù)十個(gè)移動(dòng)物體、百米級空間跨度及時(shí)序關(guān)聯(lián) —— 仍導(dǎo)致生成質(zhì)量與效率的嚴(yán)重失衡。例如 OccSora 無法在大壓縮率的情況保證較好的重建效果,以及擴(kuò)散模型生成的結(jié)果也較為粗糙。

針對這一難題,上海人工智能實(shí)驗(yàn)室等提出DynamicCity—— 面向 4D 場景的生成框架。核心思想是,通過在潛空間顯式建模場景的空間布局與動(dòng)態(tài)變化,并借助擴(kuò)散模型,直接生成高質(zhì)量的動(dòng)態(tài)場景。具體而言,DynamicCity 采用以下兩步方法:1) 通過變分自編碼器(Variational Autoencoder, VAE)將復(fù)雜的 4D 場景壓縮為緊湊的 2D HexPlane [5][6] 特征表示,避免高維潛空間過于復(fù)雜導(dǎo)致生成模型難以學(xué)習(xí);2) 采用 Padded Rollout Operation (PRO) 使?jié)摽臻g捕捉到更多時(shí)空結(jié)構(gòu),幫助擴(kuò)散模型(Diffusion Transformer, DiT [7])更好生成場景的空間結(jié)構(gòu)與動(dòng)態(tài)演化。

DynamicCity 的主要貢獻(xiàn)如下:

1. 時(shí)空特征壓縮:提出基于 Transformer 的投影模塊(Projection Module),將 4D 點(diǎn)云序列壓縮為六個(gè) 2D 特征平面(HexPlane),相較于傳統(tǒng)平均池化方法,mIoU 提升 12.56%。結(jié)合 Expansion and Squeeze Strategy (ESS),在提升 7.05% 重建精度的同時(shí),將內(nèi)存消耗降低 70.84%。

2. 特征重組:提出 Padded Rollout 操作,將 HexPlane 特征重組為適配 DiT 框架的特征圖,最大程度保留 HexPlane 結(jié)構(gòu)化信息,幫助生成 DiT 更好的學(xué)習(xí)潛空間。

3. 可控生成:支持軌跡引導(dǎo)生成、指令驅(qū)動(dòng)生成、4D 場景修改、布局條件生成等功能,并可輕松擴(kuò)展至更多應(yīng)用,實(shí)現(xiàn)更可控的生成。

DynamicCity:基于 HexPlane 的動(dòng)態(tài)場景擴(kuò)散模型

DynamicCity 采用HexPlane 表征DiT構(gòu)建了一個(gè)高效的4D 場景生成框架 。核心思想通過特征降維的方式,將 4D 場景映射到緊湊的 2D HexPlane,并在此基礎(chǔ)上訓(xùn)練 DiT 進(jìn)行場景生成。如圖所示,DynamicCity 主要由以下兩個(gè)核心模塊構(gòu)成:

1. 基于 HexPlane 表征的 VAE:利用投影模塊 (HexPlane Projection Module),將 4D 場景壓縮到六個(gè)互相正交的2D 特征平面,并通過  Expansion & Squeeze Strategy (ESS) 進(jìn)行解碼,以高效恢復(fù)原始時(shí)空信息。

2. 在重組 HexPlane 上訓(xùn)練的擴(kuò)散模型:基于Padded Rollout Operation (PRO),對 HexPlane 進(jìn)行結(jié)構(gòu)化展開,并在此潛空間訓(xùn)練DiT進(jìn)行采樣,以生成新的 4D 動(dòng)態(tài)場景。

DynamicCity 通過這兩個(gè)核心模塊,解決了現(xiàn)有 4D 生成模型重建效果和生成結(jié)果差的問題,提供了更緊湊的表征、更高效的訓(xùn)練、更高質(zhì)量的動(dòng)態(tài)場景合成。

基于 HexPlane 表征的 VAE

DynamicCity 使用 VAE 將 4D 點(diǎn)云轉(zhuǎn)換為緊湊的 HexPlane 表征。一個(gè) 4D 場景被表示為時(shí)空體素?cái)?shù)據(jù),其中分別表示時(shí)間、空間維度,而代表特征通道數(shù)。VAE 將 4D 數(shù)據(jù)進(jìn)行降維成 HexPlane:

其中,下標(biāo)表示每個(gè)平面保留的維度。負(fù)責(zé)建模空間維度信息,負(fù)責(zé)建模時(shí)空關(guān)聯(lián)。這一映射成功將 4D 表達(dá)壓縮至 2D 空間,使得后續(xù)的生成任務(wù)更高效。

投影模塊(Projection Module)

為了高效獲取 HexPlane,作者設(shè)計(jì)了投影模塊 (Projection Module),用于將高維特征映射至 HexPlane。在通過共享 3D 卷積特征提取器提取初步的時(shí)空 4D 特征后,作者使用多個(gè)投影網(wǎng)絡(luò) ,將 4D 特征投影到 2D 平面,每一個(gè)投影網(wǎng)絡(luò)會壓縮一個(gè)或兩個(gè)維度。

投影模塊由 7 個(gè)小型的投影網(wǎng)絡(luò)組成,其中 首先進(jìn)行時(shí)間維度壓縮,而后三個(gè)小型網(wǎng)絡(luò)分別提取空間特征平面。而時(shí)空特征平面 則是通過三個(gè)小型網(wǎng)絡(luò)直接從 4D 特征中提取得到。

Expansion & Squeeze Strategy (ESS) 解碼

在動(dòng)態(tài) NeRF 等領(lǐng)域中,HexPlane 常用一個(gè)多層感知機(jī)(MLP)進(jìn)行逐點(diǎn)解碼。然而在 4D 場景中,點(diǎn)的數(shù)量非常多,導(dǎo)致模型速度慢,顯存占用大。DynamicCity 提出 ESS 解碼策略,用卷積神經(jīng)網(wǎng)絡(luò)代 MLP,減少顯存占用,加速訓(xùn)練,同時(shí)顯著提升重建效果。

首先,對每個(gè) 2D 特征平面進(jìn)行擴(kuò)展和重復(fù),使其匹配 4D 體素特征;然后,利用 Hadamard 乘積進(jìn)行信息融合:

最終,通過卷積解碼器生成完整 4D 語義場景。

在重組 HexPlane 上訓(xùn)練的擴(kuò)散模型

在 VAE 編碼器學(xué)習(xí)到 4D 場景的 HexPlane 表征之后,DynamicCity 使用 DiT在學(xué)習(xí) HexPlane 空間的分布,并生成時(shí)空一致的動(dòng)態(tài)場景。

HexPlane 的六個(gè)特征平面共享部分空間維度或時(shí)間維度。作者希望能夠用一種簡單有效的方式,在訓(xùn)練擴(kuò)散模型時(shí),六個(gè)平面并非互相獨(dú)立,而是共享部分時(shí)空信息。Padded Rollout Operation (PRO)將六個(gè)特征平面排列成單個(gè)統(tǒng)一的 2D 矩陣,并在未對齊的區(qū)域填充零值,以最大程度地保留 HexPlane 的結(jié)構(gòu)化信息 。

具體而言,PRO 將六個(gè) 2D 特征平面轉(zhuǎn)換為一個(gè)方形特征矩陣,通過將空間維度和時(shí)間維度盡可能的對齊,PRO 能夠最小化填充區(qū)域的大小,并確??臻g與時(shí)間維度之間的信息一致性。

隨后,Patch Embedding將該 2D 特征矩陣劃分為小塊,并將其轉(zhuǎn)換為 token 序列。在訓(xùn)練過程中,作者為所有 token 添加位置嵌入,并將填充區(qū)域?qū)?yīng)的 token排除在擴(kuò)散過程之外,從而保證生成過程中時(shí)空信息的完整性。

可控生成與應(yīng)用

為了讓 HexPlane 生成過程具備可控性,作者引入 Classifier-Free Guidance (CFG)[8]機(jī)制,以支持不同條件約束下的場景生成。

對于任意輸入條件,作者采用AdaLN-Zero技術(shù)來調(diào)整 DiT 模型內(nèi)部的歸一化參數(shù),從而引導(dǎo)模型生成符合特定約束的場景。此外,對于圖像條件 (Image-based Condition),作者額外添加跨模態(tài)注意力模塊 (Cross-Attention Block),以增強(qiáng) HexPlane 與外部視覺信息的交互能力。

通過 CFG 和 HexPlane Manipulation,DynamicCity 支持以下的應(yīng)用,且可以輕松拓展到其他的條件

1. HexPlane 續(xù)生成 (Long-term Prediction):通過自回歸方式擴(kuò)展 HexPlane,實(shí)現(xiàn) 4D 場景未來預(yù)測,長序列 4D 場景生成等任務(wù)。

2. 布局控制 (Layout-conditioned Generation):根據(jù)鳥瞰 (BEV) 視角語義圖,生成符合交通布局的動(dòng)態(tài)場景。

3. 車輛軌跡控制 (Trajectory-conditioned Generation):通過輸入目標(biāo)軌跡,引導(dǎo)場景中車輛的運(yùn)動(dòng)。

4. 自車運(yùn)動(dòng)控制 (Ego-motion Conditioned Generation):允許用戶輸入特定指令,引導(dǎo)自車在合成場景中的運(yùn)動(dòng)路徑。

5. 4D 場景修改 (4D Scene Inpainting):通過掩膜 HexPlane 中的局部區(qū)域,并利用 DiT 進(jìn)行局部補(bǔ)全,實(shí)現(xiàn) 4D 動(dòng)態(tài)場景的高質(zhì)量修復(fù)。

結(jié)果

下面展示了一些 DynamicCity 的結(jié)果,包括無條件生成的結(jié)果,布局控制生成結(jié)果等。

無條件生成(左:OccSora [4]; 右:DynamicCity)

長序列生成

布局控制生成

車輛軌跡 / 自車運(yùn)動(dòng)生成

4D 場景編輯

總結(jié) 

DynamicCity 提出了基于 HexPlane 的 4D 場景擴(kuò)散生成模型,通過 HexPlane 表征、Projection Module、Expansion & Squeeze Strategy、Padded Rollout Operation (PRO),以及Diffusion Transformer 擴(kuò)散采樣,實(shí)現(xiàn)了高效、可控且高質(zhì)量的 4D 場景生成。此外,DynamicCity 還支持多種可控生成方式,并可應(yīng)用于軌跡預(yù)測、布局控制、自車運(yùn)動(dòng)控制及場景修改等多個(gè)自動(dòng)駕駛?cè)蝿?wù)。

作者介紹

DynamicCity是上海人工智能實(shí)驗(yàn)室、卡耐基梅隆大學(xué)、新加坡國立大學(xué)和新加坡南洋理工大學(xué)團(tuán)隊(duì)的合作項(xiàng)目。

本文第一作者卞恒瑋,系卡耐基梅隆大學(xué)碩士研究生,工作完成于其在上海人工智能實(shí)驗(yàn)室實(shí)習(xí)期間,通訊作者為上海人工智能實(shí)驗(yàn)室青年科學(xué)家潘亮博士。

其余作者分別為新加坡國立大學(xué)計(jì)算機(jī)系博士生孔令東,新加坡南洋理工大學(xué)謝浩哲博士、劉子緯教授,以及上海人工智能實(shí)驗(yàn)室喬宇教授。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2018-05-23 16:07:52

智慧城市

2025-02-24 10:20:00

模型訓(xùn)練數(shù)據(jù)

2025-03-10 08:25:00

機(jī)器人AI模型

2025-02-24 13:40:00

模型生成訓(xùn)練

2025-04-03 10:12:30

2017-04-21 16:32:42

4D3D打印

2025-04-07 08:35:00

3DAI生成

2016-02-17 13:31:35

智能交通華為

2024-10-28 13:30:00

2023-10-15 12:57:38

數(shù)據(jù)訓(xùn)練

2023-06-09 13:40:47

2024-12-16 14:40:00

AI模型訓(xùn)練

2017-02-24 08:56:47

API云計(jì)算IaaS

2024-06-12 09:48:39

2021-04-01 13:53:26

深度學(xué)習(xí)大數(shù)據(jù)人工智能

2023-11-27 09:49:37

自動(dòng)駕駛數(shù)據(jù)

2015-03-16 11:54:55

云計(jì)算

2024-04-12 10:46:26

2025-03-26 09:55:14

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號