自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

MagicDrive:自動(dòng)駕駛大數(shù)據(jù)生成時(shí)代即將開啟!

智能汽車 新聞
最近在擴(kuò)散模型方面的進(jìn)展顯著提升了與2D控制相關(guān)的數(shù)據(jù)合成。然而,在街景生成中精確的3D控制對(duì)于3D感知任務(wù)至關(guān)重要,但仍然難以實(shí)現(xiàn)。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

筆者的個(gè)人理解

雖然擴(kuò)散模型在2D數(shù)據(jù)合成上已有很大進(jìn)展,但如何使用擴(kuò)散模型生成街景圖像用于圖像增強(qiáng)并沒有很好的實(shí)現(xiàn),當(dāng)前已有工作通過2D bbox和segment作為條件,如何拓展到相機(jī)位姿(embedding),道路地圖(embedding)和3D邊界框(embedding)及場(chǎng)景描述(文本)作為控制條件呢?這將對(duì)BEV和3D任務(wù)有很大幫助。

MagicDrive主要思路是啥?

最近在擴(kuò)散模型方面的進(jìn)展顯著提升了與2D控制相關(guān)的數(shù)據(jù)合成。然而,在街景生成中精確的3D控制對(duì)于3D感知任務(wù)至關(guān)重要,但仍然難以實(shí)現(xiàn)。將鳥瞰圖(BEV)作為主要條件通常會(huì)導(dǎo)致在幾何控制方面(例如高度)出現(xiàn)挑戰(zhàn),從而影響目標(biāo)形狀、遮擋模式和道路表面高程的表示,所有這些對(duì)于感知數(shù)據(jù)合成尤為重要,特別是對(duì)于3D目標(biāo)檢測(cè)任務(wù)而言。MagicDrive是一種新穎的街景生成框架,提供多樣化的3D幾何控制,包括相機(jī)位姿、道路地圖和3D邊界框,以及通過量身定制的編碼策略實(shí)現(xiàn)的文本描述。此外還包括一個(gè)跨視圖注意力模塊,確保在多個(gè)攝像機(jī)視圖之間保持一致性。通過MAGICDRIVE實(shí)現(xiàn)了高保真的街景合成,捕捉到微妙的3D幾何和各種場(chǎng)景描述,從而增強(qiáng)了諸如BEV分割和3D目標(biāo)檢測(cè)等任務(wù)。

領(lǐng)域目前的工作

條件生成的擴(kuò)散模型。 擴(kuò)散模型通過學(xué)習(xí)從高斯噪聲分布到圖像分布的漸進(jìn)去噪過程生成圖像。由于它們?cè)谔幚砀鞣N形式的控制和多種條件方面的適應(yīng)性和能力,這些模型在各種任務(wù)中表現(xiàn)出色,如文本到圖像的合成,修復(fù)以及指導(dǎo)性圖像編輯。此外,從幾何標(biāo)注中合成的數(shù)據(jù)可以幫助下游任務(wù),如2D目標(biāo)檢測(cè)。因此,本文探討了text-to-image (T2I)擴(kuò)散模型在生成街景圖像并惠及下游3D感知模型方面的潛力。

街景生成。 許多街景生成模型以2D布局為條件,如2D邊界框和語(yǔ)義分割。這些方法利用與圖像比例直接對(duì)應(yīng)的2D布局信息,而3D信息則不具備這種特性,因此使得這些方法不適用于利用3D信息進(jìn)行生成。對(duì)于帶有3D幾何的街景合成,BEVGen是第一個(gè)進(jìn)行嘗試的。它使用BEV地圖作為道路和車輛的條件。然而,省略高度信息限制了它在3D目標(biāo)檢測(cè)中的應(yīng)用。BEVControl通過高度提升過程修正了目標(biāo)高度的損失,但是從3D到2D的投影導(dǎo)致了關(guān)鍵的3D幾何信息的喪失,如深度和遮擋。因此,它們都沒有充分利用3D標(biāo)注,也不能利用對(duì)駕駛場(chǎng)景的文本控制。MagicDrive提出分別對(duì)邊界框和道路地圖進(jìn)行編碼,以實(shí)現(xiàn)更為微妙的控制,并整合場(chǎng)景描述,提供對(duì)街景生成的增強(qiáng)控制。

3D場(chǎng)景的多攝像機(jī)圖像生成 基本上需要視角一致性。在室內(nèi)場(chǎng)景的背景下,一些研究已經(jīng)解決了這個(gè)問題。例如,MVDiffusion使用全景圖像和交叉視圖注意力模塊來保持全局一致性,而pose-guided diffusion則利用極線幾何作為約束先驗(yàn)。然而,這些方法主要依賴于圖像視圖的連續(xù)性,而在街景中并不總是滿足,因?yàn)閿z像機(jī)重疊有限。MAGICDRIVE在UNet中引入了額外的跨視圖注意力模塊,顯著增強(qiáng)了跨多攝像機(jī)視圖的一致性。

MagicDrive的優(yōu)勢(shì)有哪些?

盡管MAGICDRIVE框架非常簡(jiǎn)單,但在生成與道路地圖、3D邊界框和多樣化攝像機(jī)視角相一致的逼真圖像方面表現(xiàn)出色。此外,生成的圖像可以增強(qiáng)對(duì)3D目標(biāo)檢測(cè)和BEV分割任務(wù)的訓(xùn)練。MAGICDRIVE在場(chǎng)景、背景和前景層面提供了全面的幾何控制。這種靈活性使其能夠創(chuàng)造出以前未曾見過的適用于仿真目的的街景視圖。總結(jié)本工作的主要貢獻(xiàn)如下:

  • 引入了MAGICDRIVE,這是一個(gè)創(chuàng)新的框架,生成基于BEV和為自動(dòng)駕駛量身定制的3D數(shù)據(jù)的多透視攝像機(jī)視圖。
  • 開發(fā)了簡(jiǎn)單而強(qiáng)大的策略,有效應(yīng)對(duì)多攝像機(jī)視圖一致性的挑戰(zhàn),對(duì)3D幾何數(shù)據(jù)進(jìn)行管理。
  • 通過嚴(yán)格的實(shí)驗(yàn)證明,MAGICDRIVE在先前的街景生成技術(shù)方面表現(xiàn)出色,尤其是在多維度可控性方面。此外結(jié)果顯示,合成數(shù)據(jù)在3D感知任務(wù)中帶來了顯著的改進(jìn)。

圖片

方法設(shè)計(jì)

問題表述

將激光雷達(dá)系統(tǒng)的坐標(biāo)視為主車的坐標(biāo),并根據(jù)它參數(shù)化所有幾何信息。設(shè)  是對(duì)主車周圍駕駛場(chǎng)景的描述,, 其中  是表示 BEV 中  米道路區(qū)域的二值圖,具有  個(gè)語(yǔ)義類別, 對(duì)于場(chǎng)景中的每個(gè)目標(biāo),  表示 3D 邊界框位置  和類別 ,  是描述場(chǎng)景附加信息的文本(例如,天氣和一天中的時(shí)間)。給定一個(gè)相機(jī)位姿 , 街景圖像生成的目標(biāo)是學(xué)習(xí)一個(gè)生成器  合成真實(shí)圖像  對(duì)應(yīng)場(chǎng)景 和相機(jī)位姿 下, , 其中  是服從隨機(jī)高斯分布.

條件擴(kuò)散模型。 擴(kuò)散模型通過迭代次隨機(jī)高斯噪聲的去噪過程來生成圖像 。通常為了學(xué)習(xí)去噪過程, 網(wǎng)絡(luò)被訓(xùn)練為通過最小化均方誤差來預(yù)測(cè)噪聲:

其中  是要訓(xùn)練的網(wǎng)絡(luò), 參數(shù) 是可選的條件用于條件生成,  是時(shí)間步長(zhǎng),  是加性高斯噪聲,并且 是標(biāo)量參數(shù). Latent diffusion models (LDM) 是特殊的一種擴(kuò)散模型, 這類模型初始化一個(gè)預(yù)訓(xùn)練的Vector Quantized Variational AutoEncoder (VQVAE,矢量量化變分自動(dòng)編碼器)并在隱空間執(zhí)行擴(kuò)散過程. 給定一個(gè)VQ-VAE編碼器 , 在LDM中,可以把重寫為。此外,LDM 將描述圖像的文本視為條件.

具有 3D 信息的街景生成

幾何條件編碼

圖片

如圖所示,采用兩種策略將信息注入到擴(kuò)散模型的 UNet 中:交叉注意力和加性編碼器分支。鑒于注意力機(jī)制是針對(duì)順序數(shù)據(jù)量身定制的,交叉注意力適用于管理可變長(zhǎng)度輸入,例如文本標(biāo)記和邊界框。相反,對(duì)于網(wǎng)格狀數(shù)據(jù),例如道路地圖,加法編碼器分支在信息注入方面是有效的。因此,MAGICDRIVE 針對(duì)各種情況采用不同的編碼模塊。

Scene-level Encoding 包含相機(jī)位姿 , 和文本序列. 對(duì)于文本來說, 對(duì)于文本,使用模板構(gòu)建提示:“在 {location} 的駕駛場(chǎng)景圖像。{description} ”,并利用預(yù)訓(xùn)練的 CLIP 文本編碼器 作為 LDM. 對(duì)于相機(jī)姿態(tài),首先將每個(gè)參數(shù)按其列連接起來,得到. 由于  包含來自 sin/cos 函數(shù)的值以及 3D 偏移,為了讓模型有效地解釋這些高頻變化,將傅立葉embedding應(yīng)用于每個(gè) 3 維向量,然后再利用多層感知(MLP、Ecam)來embedding相機(jī)位姿參數(shù), 為了保持一致性,本文將  的維度設(shè)置為與  相同。通過 CLIP 文本編碼器,每個(gè)embedding  的文本已經(jīng)包含位置信息。因此將相機(jī)姿勢(shì)embedding  添加到文本embedding之前,從而產(chǎn)生場(chǎng)景級(jí)embedding .

3D 邊界框編碼。 由于每個(gè)駕駛場(chǎng)景都有不同長(zhǎng)度的邊界框,因此通過類似于場(chǎng)景級(jí)信息的交叉注意機(jī)制注入它們。具體來說,將每個(gè)框編碼為隱藏向量 ,其維度與  相同。每個(gè) 3D 邊界框  包含兩種類型的信息:類標(biāo)簽  和框位置 。對(duì)于類別標(biāo)簽, 類別名稱  的池化向量被視為標(biāo)簽embedding。對(duì)于框位置 ,由其 8 個(gè)角點(diǎn)的坐標(biāo)表示,對(duì)每個(gè)點(diǎn)使用傅里葉embedding,并通過 MLP 進(jìn)行編碼。然后使用 MLP 將類和位置向量壓縮到一個(gè)隱藏向量中。每個(gè)場(chǎng)景的所有邊界框的最終隱狀態(tài)表示為 ,其中  是bbox的數(shù)量。

理想情況下,模型通過訓(xùn)練學(xué)習(xí)邊界框和相機(jī)姿態(tài)之間的幾何關(guān)系。然而,不同視圖的可見框數(shù)量的分布是長(zhǎng)尾的。因此通過過濾每個(gè)視圖  的可見目標(biāo)來引導(dǎo)學(xué)習(xí)。此外還添加了不可見的框進(jìn)行增強(qiáng)。

Road Map編碼. 地圖是2D網(wǎng)格的形式. 已有工作表明addictive編碼器可以將此類數(shù)據(jù)納入  指導(dǎo),地圖的 BEV 和相機(jī)的第一人稱視角 (FPV) 之間固有的視角差異會(huì)產(chǎn)生差異。BEVControl采用反投影從 BEV 轉(zhuǎn)換為 FPV,但由于不適定問題而使情況變得復(fù)雜。在 MAGICDRIVE 中, 提出顯式視圖變換是不必要的,因?yàn)樽銐虻?3D 線索(例如,距目標(biāo)框的高度和相機(jī)姿勢(shì))允許addictive編碼器完成視圖變換。具體來說, 將場(chǎng)景級(jí)和 3D 邊界框嵌入集成到地圖編碼器中。場(chǎng)景級(jí)嵌入提供相機(jī)姿勢(shì),框嵌入提供道路高程提示。此外,合并文本描述有助于在不同條件下生成道路(例如,天氣和一天中的時(shí)間)。因此,地圖編碼器可以與其他條件協(xié)同生成。

跨視角attention模塊

在多攝像機(jī)視圖生成中,圖像合成在不同視角之間保持一致至關(guān)重要。為了保持一致性,引入了跨視圖注意模塊。考慮到駕駛環(huán)境中攝像頭的稀疏排列,每個(gè)交叉視圖注意力都允許目標(biāo)視圖從其直接左視圖和右視圖訪問信息;其中,和分別是目標(biāo)視圖、左視圖和右視圖。然后目標(biāo)視圖通過跳躍連接聚合此類信息, 表示目標(biāo)視圖的隱狀態(tài)。

在 UNet 中的交叉注意模塊之后注入交叉視圖注意,并應(yīng)用零初始化來引導(dǎo)優(yōu)化。UNet 的多層結(jié)構(gòu)使得能夠在多個(gè)堆疊塊之后聚合來自遠(yuǎn)程視圖的信息。因此,對(duì)相鄰視圖使用跨視圖注意力足以保證多視圖一致性。

模型訓(xùn)練

Classifier-free Guidance 增強(qiáng)了條件指導(dǎo)的影響。為了有效的 CFG,模型需要在訓(xùn)練過程中偶爾丟棄條件。鑒于每種條件的獨(dú)特性,對(duì)于多種條件應(yīng)用丟棄策略是復(fù)雜的。因此,MAGICDRIVE 通過以  的速率同時(shí)刪除場(chǎng)景級(jí)條件(相機(jī)姿勢(shì)和文本嵌入),簡(jiǎn)化了四種條件。對(duì)于在編碼中具有 null 語(yǔ)義表示的框和地圖(即,框中的填充標(biāo)記和映射中的 0),在整個(gè)訓(xùn)練過程中維護(hù)它們。在推理時(shí),對(duì)所有條件都使用 null,從而實(shí)現(xiàn)有意義的放大來指導(dǎo)生成。

訓(xùn)練目標(biāo)和增強(qiáng) 將所有條件作為輸入注入后,訓(xùn)練目標(biāo)調(diào)整為多條件場(chǎng)景。

此外,在訓(xùn)練 MAGICDRIVE 時(shí)強(qiáng)調(diào)兩個(gè)基本策略。首先,為了抵消對(duì)可見框的過濾,本文隨機(jī)添加  不可見框作為增強(qiáng),增強(qiáng)模型的幾何變換能力。其次,為了利用跨視圖注意力,促進(jìn)跨多個(gè)視圖的信息共享,在每個(gè)訓(xùn)練步驟中將獨(dú)特的噪聲應(yīng)用于不同的視圖,從而防止損失出現(xiàn)局部解(例如,跨不同視圖輸出共享組件)。相同的隨機(jī)噪聲專門用于推理。

實(shí)驗(yàn)對(duì)比一覽

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集和基線。 選擇nuScenes數(shù)據(jù)集作為MAGICDRIVE的測(cè)試基礎(chǔ),這是一個(gè)在駕駛中用于BEV分割和檢測(cè)的常見數(shù)據(jù)集。遵循官方配置,使用700個(gè)街景場(chǎng)景進(jìn)行訓(xùn)練,150個(gè)進(jìn)行驗(yàn)證?;€是BEVGen和BEVControl,它們都是最近提出的街景生成方法。方法考慮了10個(gè)目標(biāo)類別和8個(gè)道路類別,多樣性方面超過了基線模型。

評(píng)估指標(biāo)。 評(píng)估街景生成的逼真度和可控性。逼真度主要使用Frechet Inception Distance(FID)進(jìn)行測(cè)量,反映圖像合成質(zhì)量。對(duì)于可控性,通過兩個(gè)感知任務(wù)對(duì)MAGICDRIVE進(jìn)行評(píng)估:BEV分割和3D目標(biāo)檢測(cè),分別使用CVT和BEVFusion作為感知模型。它們?cè)诿總€(gè)任務(wù)中的性能都很出色。首先,生成與驗(yàn)證集注釋對(duì)齊的圖像,并使用在真實(shí)數(shù)據(jù)上預(yù)訓(xùn)練的感知模型評(píng)估圖像質(zhì)量和控制精度。然后,基于訓(xùn)練集生成數(shù)據(jù),以檢查對(duì)訓(xùn)練感知模型的支持作為數(shù)據(jù)增強(qiáng)。

可控階段具體怎么用? 條件來自驗(yàn)證集,基于訓(xùn)練集生成數(shù)據(jù)作為訓(xùn)練模型的數(shù)據(jù)增強(qiáng);

模型設(shè)置。MAGICDRIVE使用來自Stable Diffusion v1.5的預(yù)訓(xùn)練權(quán)重,僅訓(xùn)練新增的參數(shù)。根據(jù)Zhang等人的說法,為Emap創(chuàng)建了一個(gè)可訓(xùn)練的UNet編碼器。新參數(shù),除了零初始化模塊和類令牌之外,都是隨機(jī)初始化的。采用兩個(gè)分辨率來協(xié)調(diào)感知任務(wù)和基線之間的差異:224×400(0.25×下采樣),遵循BEVGen和CVT模型支持,并且更高的272×736(0.5×下采樣)用于BEVFusion的支持。除非另有說明,圖像使用UniPC調(diào)度程序進(jìn)行20步采樣,CFG設(shè)置為2.0。

Main Results

圖片圖片

MAGICDRIVE的潛力與優(yōu)勢(shì)

MAGICDRIVE對(duì)高質(zhì)量多攝像機(jī)街景生成進(jìn)行多重幾何控制的編碼。通過分離編碼設(shè)計(jì),MAGICDRIVE充分利用來自3D標(biāo)注的幾何信息,并實(shí)現(xiàn)對(duì)街景的準(zhǔn)確語(yǔ)義控制。此外,所提出的跨視圖注意力模塊簡(jiǎn)單而有效,確保了在多攝像機(jī)視圖之間的一致性。正如實(shí)驗(yàn)證明的那樣,MAGICDRIVE生成的圖像表現(xiàn)出對(duì)3D標(biāo)注的高逼真度和保真度。多重控制使MAGICDRIVE在生成新的街景時(shí)具有更強(qiáng)的泛化能力。與此同時(shí),MAGICDRIVE可用于數(shù)據(jù)增強(qiáng),有助于在BEV分割和3D目標(biāo)檢測(cè)任務(wù)上對(duì)感知模型進(jìn)行訓(xùn)練。

限制與未來工作。盡管MAGICDRIVE可以生成夜間視圖,但它們不如真實(shí)圖像那么暗。這可能是因?yàn)閿U(kuò)散模型難以生成過于黑暗的圖像。MAGICDRIVE無法為nuScenes生成未見過的天氣情況。未來的工作可能集中在如何提高街景生成的跨領(lǐng)域泛化能力上。

原文鏈接:https://mp.weixin.qq.com/s/0LykWSIi-T12L3cPaRvTTQ

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2022-06-24 11:26:37

網(wǎng)絡(luò)

2021-05-11 14:41:55

自動(dòng)駕駛人工智能5G

2024-03-11 10:08:12

駕駛模型

2020-03-27 22:15:52

自動(dòng)駕駛物聯(lián)網(wǎng)大數(shù)據(jù)

2022-09-13 12:19:14

自動(dòng)駕駛數(shù)據(jù)

2022-10-27 10:18:25

自動(dòng)駕駛

2021-11-18 09:50:35

自動(dòng)駕駛輔助駕駛人工智能

2016-10-21 20:16:25

安全性自動(dòng)駕駛特斯拉

2022-07-12 09:42:10

自動(dòng)駕駛技術(shù)

2022-03-09 14:58:08

自動(dòng)駕駛監(jiān)管人工智能

2023-10-17 13:27:49

自動(dòng)駕駛數(shù)據(jù)

2020-10-22 15:35:35

自動(dòng)駕駛美團(tuán)人工智能

2018-10-24 14:16:33

自動(dòng)駕駛道路測(cè)試牌照

2024-04-01 09:39:59

自動(dòng)駕駛數(shù)據(jù)

2020-09-28 14:00:06

自動(dòng)駕駛AI網(wǎng)絡(luò)

2021-12-01 10:21:27

自動(dòng)駕駛技術(shù)人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)