自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

自動駕駛數(shù)據(jù)不用愁!港中文等發(fā)布MagicDrive:日夜、雨晴、多視角全覆蓋,人、物位置隨意變更

人工智能
總的來說,MagicDrive帶給我們一個全新的、高效的數(shù)據(jù)生成途徑。不僅成功解決了之街景生成中的3D幾何控制問題,而且提供了一種全新的方法,利用細粒度可控生成技術(shù)為3D自動駕駛產(chǎn)生訓(xùn)練數(shù)據(jù),生成數(shù)據(jù)的質(zhì)量和真實性向自動駕駛的感知技術(shù)注入了新的活力。

在深度學(xué)習(xí)算法的應(yīng)用中,高質(zhì)量的數(shù)據(jù)是技術(shù)創(chuàng)新的關(guān)鍵驅(qū)動力,尤其在自動駕駛領(lǐng)域,獲取和標注3D感知數(shù)據(jù)的成本不菲,對于許多研究者和開發(fā)者來說都是一個重大挑戰(zhàn)。

為此,來自香港中文大學(xué)、香港科技大學(xué)和華為諾亞方舟實驗室的研究人員聯(lián)合提出了基于 Diffusion的3D自動駕駛數(shù)據(jù)生成方法MagicDrive。

通過多種3D幾何條件的細粒度控制,MagicDrive在生成高保真多相機街景圖像的同時,還能夠支持多種下游感知任務(wù)的訓(xùn)練。

圖片圖片

論文地址:https://arxiv.org/abs/2310.02601

項目主頁:https://gaoruiyuan.com/magicdrive/

Github: https://github.com/cure-lab/MagicDrive

MagicDrive多樣化生成數(shù)據(jù)

MagicDrive是一個突破性的解決方案利用可控生成技術(shù)合成自動駕環(huán)視相機視圖,生成更多樣化的自動駕駛數(shù)據(jù),為自動駕駛場景仿真提供了新思路。

圖片圖片

先來看一些MagicDrive的生成效果。

多視角下,前景和背景都能保持一致性:

圖片圖片

可以一鍵轉(zhuǎn)雨天:

圖片圖片

不止生成車,人、障礙物都能準確控制位置:

圖片圖片

還可以一鍵轉(zhuǎn)夜晚:

圖片圖片

物體位置可以實現(xiàn)細粒度控制:

圖片

關(guān)鍵問題:多種3D條件的編碼與注入

描述自動駕駛場景的條件是多維度的,包括:相機參數(shù)、物體框、路面地圖以及對場景屬性的語言描述(比如天氣和時間)。如何將如此復(fù)雜的場景信息同時作為條件指導(dǎo)生成,是3D自動駕駛街景數(shù)據(jù)合成的重點問題。

BEVGen[1]將3D幾何信息(路面和物體位置)都投影在BEV空間中,這會丟失全部高度信息,既無法控制物體高度/遮擋,也無法體現(xiàn)路面起伏;BEVControl[2]將3D幾何信息分別投影在相機視圖中,對于沒有高度信息的路面地圖而言,投影本身就是一個欠定義的問題,而且這種做法丟失了深度信息,同樣無法準確控制遮擋。

圖片圖片

3D幾何信息與不同2D投影(相機投影/BEV)控制的比較

MagicDrive在完整考慮這些控制條件的基礎(chǔ)上,首次實現(xiàn)3D幾何的直接控制。MagicDrive結(jié)合Diffusion Model進行條件生成的優(yōu)勢,根據(jù)每個控制條件的形式,采用不同的方法對生成進行控制。

圖片圖片

MagicDrive的方法框架

具體來說,對于場景級別的信息(語言描述和相機參數(shù))和物體框信息,由于他們具有可變長的性質(zhì),MagicDrive先使用不同的編碼器講輸入數(shù)據(jù)編碼成嵌入序列,然后使用交叉注意力模塊控制圖像生成過程;

對于路面地圖信息,BEV能夠很好地將路面表示成圖像的形式,因此,使用類似ControlNet[3]的額外編碼器分支,就能夠讓生成遵循路面地圖的條件。

刪繁就簡:不同視角的一致性生成

多視角一致性是3D場景相機視圖生成的另一個重要要求。此前,已經(jīng)有一些工作探索了室內(nèi)場景中的多視角一致性約束方法,例如:MVDiffusion[5]和[6],但室內(nèi)場景通常視角之間重疊較大,因此他們借助了不同的幾何先驗來限制視角之間的關(guān)系。

對于自動駕駛場景,不同相機之間重疊程度是有限的,因此并不需要過強的幾何約束。相反,在幾何條件足夠的情況下(即不同視角已經(jīng)有獨立的幾何條件信息),只需要讓不同視角的生成過程有信息交互,就能夠保證前景和背景的一致生成。

因此MagicDrive提出cross-view attention模塊,用于在各個視角的生成過程中與左右相鄰視角交換信息,確保了從多個視角看到的前景和背景是一致的,這大大提高了數(shù)據(jù)的真實性與可靠性。

圖片圖片

Corss-view attention 模塊控制多視角的一致性

生成效果:在多個下游任務(wù)上提升明顯

用以真實圖像訓(xùn)練的感知模型評價生成模型產(chǎn)生的圖片,MagicDrive不僅可以在BEV分割任務(wù)上超過baseline,并且能夠直接支持3D物體檢測任務(wù),體現(xiàn)出優(yōu)越的生成效果。

MagicDrive生成的圖片還可以直接用于數(shù)據(jù)增強,支持BEV分割和3D物體檢測任務(wù),提升BEVFusion[6]和CVT[7]的性能。

除此之外,MagicDrive的多條件控制還可以實現(xiàn)場景、背景和前景的多層次街景圖像編輯,用來生成更多的新街景圖像。

更多評價結(jié)果與討論請參考原論文。

總結(jié)

總的來說,MagicDrive帶給我們一個全新的、高效的數(shù)據(jù)生成途徑。不僅成功解決了之街景生成中的3D幾何控制問題,而且提供了一種全新的方法,利用細粒度可控生成技術(shù)為3D自動駕駛產(chǎn)生訓(xùn)練數(shù)據(jù),生成數(shù)據(jù)的質(zhì)量和真實性向自動駕駛的感知技術(shù)注入了新的活力。

參考資料:

[1] Alexander Swerdlow, Runsheng Xu, and Bolei Zhou. Street-view image generation from a bird’seye view layout. arXiv preprint arXiv:2301.04634, 2023. 

[2] Kairui Yang, Enhui Ma, Jibin Peng, Qing Guo, Di Lin, and Kaicheng Yu. Bevcontrol: Accurately controlling street-view elements with multi-perspective consistency via bev sketch layout. arXiv preprint arXiv:2308.01661, 2023. 

[3] Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. Adding conditional control to text-to-image diffusion models. In ICCV, 2023. 

[4] Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, and Yasutaka Furukawa. Mvdiffusion: Enabling holistic multi-view image generation with correspondence-aware diffusion. arXiv preprint arXiv:2307.01097, 2023. 

[5] Hung-Yu Tseng, Qinbo Li, Changil Kim, Suhib Alsisan, Jia-Bin Huang, and Johannes Kopf. Consistent view synthesis with pose-guided diffusion models. In CVPR, 2023. 

[6] Zhijian Liu, Haotian Tang, Alexander Amini, Xingyu Yang, Huizi Mao, Daniela Rus, and Song Han. Bevfusion: Multi-task multi-sensor fusion with unified bird’s-eye view representation. In ICRA, 2023. 

[7] Brady Zhou and Philipp Kr¨ahenb¨uhl. Cross-view transformers for real-time map-view semantic segmentation. In CVPR, 2022.

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2023-10-18 09:36:35

2024-12-20 09:30:00

模型訓(xùn)練數(shù)據(jù)

2022-06-24 11:23:28

網(wǎng)絡(luò)

2023-07-31 14:09:53

自動駕駛技術(shù)

2019-07-11 16:30:04

智能物聯(lián)自動駕駛麥肯錫

2022-10-27 10:18:25

自動駕駛

2023-10-23 10:11:36

自動駕駛技術(shù)

2021-11-18 09:50:35

自動駕駛輔助駕駛人工智能

2019-08-08 16:27:36

自動駕駛無人駕駛駕駛

2022-05-06 08:34:45

自動駕駛物聯(lián)網(wǎng)IOT

2022-07-12 09:42:10

自動駕駛技術(shù)

2022-04-25 15:13:03

自動駕駛傳感器

2020-03-27 22:15:52

自動駕駛物聯(lián)網(wǎng)大數(shù)據(jù)

2016-09-02 13:19:03

NVIDIA

2017-04-06 08:53:26

無人駕駛

2018-10-24 14:16:33

自動駕駛道路測試牌照

2021-12-24 10:33:35

毫末智行RNN自動駕駛
點贊
收藏

51CTO技術(shù)棧公眾號