自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

無需3D數(shù)據(jù)也能訓(xùn)練,港科&港中文聯(lián)手華為推出3D自動駕駛場景生成模型

發(fā)布于 2024-6-3 09:42
瀏覽
0收藏

無需采集3D數(shù)據(jù),也能訓(xùn)練出高質(zhì)量的3D自動駕駛場景生成模型。


這是來自香港中文大學(xué)、香港科技大學(xué)和華為諾亞方舟實驗室的最新研究成果——針對自動駕駛街景的可控3D場景生成方法“MagicDrive3D”。


此前,采用常見的2D自動駕駛數(shù)據(jù)集來生成3D街景的方法不是沒有,但受采集角度所限,生成結(jié)果的可控性和幾何一致性無法同時滿足。而現(xiàn)在,MagicDrive3D通過結(jié)合可控生成與場景重建解決了這一限制。


不僅支持多條件控制,還突破了原始數(shù)據(jù)的局限,即使在原始圖像不一致的情況下,也能建立出連貫的高質(zhì)量模型。

無需3D數(shù)據(jù)也能訓(xùn)練,港科&港中文聯(lián)手華為推出3D自動駕駛場景生成模型-AI.x社區(qū)

即使場景中有很多物體,生成結(jié)果依然真實可靠:


無需3D數(shù)據(jù)也能訓(xùn)練,港科&港中文聯(lián)手華為推出3D自動駕駛場景生成模型-AI.x社區(qū)

而且支持天氣情況的文本控制,可以一鍵從晴天切換到雨天:

無需3D數(shù)據(jù)也能訓(xùn)練,港科&港中文聯(lián)手華為推出3D自動駕駛場景生成模型-AI.x社區(qū)

道路結(jié)構(gòu)、物體位置都能夠精確控制(隨機(jī)保留50%車):

無需3D數(shù)據(jù)也能訓(xùn)練,港科&港中文聯(lián)手華為推出3D自動駕駛場景生成模型-AI.x社區(qū)

還可以一鍵實現(xiàn)白天與夜晚的轉(zhuǎn)換(隨機(jī)保留25%車):

無需3D數(shù)據(jù)也能訓(xùn)練,港科&港中文聯(lián)手華為推出3D自動駕駛場景生成模型-AI.x社區(qū)

總之,這項成果解決了自動駕駛等無邊界場景下3D場景的高質(zhì)量模型開發(fā)難題,可以有效幫助BEV分割等下游感知任務(wù)。

常規(guī)駕駛數(shù)據(jù)即可實現(xiàn)可控場景生成

3D自動駕駛場景生成應(yīng)用廣闊,然而目前3D資產(chǎn)的生成方法通常局限于以物體為中心的生成場景,對于自動駕駛中無界限的大場景生成缺乏探索。


但從應(yīng)用的角度來說,可控的生成方法在下游應(yīng)用中價值更高,針對這個痛點,MagicDrive3D提出了一種新穎的框架,在常規(guī)的自動駕駛數(shù)據(jù)集上即可訓(xùn)練出3D場景生成模型,而且支持多種條件控制!


MagicDrive3D繼承了前一代MagicDrive諸多優(yōu)點,其多條件控制可以實現(xiàn)場景、背景和前景的多層次街景圖像編輯,用來生成更多的自動駕駛3D場景。

無需3D數(shù)據(jù)也能訓(xùn)練,港科&港中文聯(lián)手華為推出3D自動駕駛場景生成模型-AI.x社區(qū)

△MagicDrive3D 的多視角渲染能力

而且生成的場景支持多相機(jī)視角的渲染,例如全景圖渲染:

無需3D數(shù)據(jù)也能訓(xùn)練,港科&港中文聯(lián)手華為推出3D自動駕駛場景生成模型-AI.x社區(qū)

在目前應(yīng)用最廣泛的nuScenes數(shù)據(jù)集上,MagicDrive3D在視頻生成和場景生成兩方面相比于baseline,均表現(xiàn)出明顯優(yōu)勢。

無需3D數(shù)據(jù)也能訓(xùn)練,港科&港中文聯(lián)手華為推出3D自動駕駛場景生成模型-AI.x社區(qū)

△MagicDrive3D的生成效果評估

此外,MagicDrive3D生成的圖片還可以直接用于數(shù)據(jù)增強(qiáng),可以在BEV分割任務(wù)中提升相機(jī)參數(shù)的魯棒性。

無需3D數(shù)據(jù)也能訓(xùn)練,港科&港中文聯(lián)手華為推出3D自動駕駛場景生成模型-AI.x社區(qū)

△MagicDrive3D的生成數(shù)據(jù)在下游任務(wù)的效果

那么,MagicDrive3D究竟是如何做到的呢?

先合成,再重建

隨著擴(kuò)散模型的發(fā)展,圖片、視頻生成的方法層出不窮,但是受限制于現(xiàn)有的數(shù)據(jù)采集形式,這些方法只能生成固定的相機(jī)視角,對場景幾何缺乏建模(geometry-free),因而無法拓展到更多視角。


能夠支持多視角的重建方法,雖然能夠提供幾何一致性的保證(geometry-focused),卻又受到了真實采集的數(shù)據(jù)(靜態(tài)、多視角數(shù)據(jù))的限制,常見的自動駕駛數(shù)據(jù)集根本無法滿足這些要求。


為了填補這部分空白,MagicDrive3D提出了一個將視角合成方法與場景重建方法相結(jié)合的框架。


該框架充分利用前者的可控性以及后者的幾何一致性,實現(xiàn)了接受多種控制條件的3D街景場景合成。

無需3D數(shù)據(jù)也能訓(xùn)練,港科&港中文聯(lián)手華為推出3D自動駕駛場景生成模型-AI.x社區(qū)

△MagicDrive3D的方法框架

具體來說,MagicDrive3D首先訓(xùn)練了一個細(xì)粒度可控的視頻生成模型,不僅能夠通過語義信息控制,視頻中每個視角的相機(jī)參數(shù)都經(jīng)過統(tǒng)一坐標(biāo)系編碼,使得生成的多視角視頻具備更強(qiáng)的幾何一致性。


接著,為了提供更強(qiáng)的幾何一致性保證以及多視角渲染,MagicDrive3D提出可形變的高斯?jié)姙R作為場景的3D表征,結(jié)合單目深度點云進(jìn)行重建。


最終得到的駕駛場景能夠合理的反應(yīng)各種控制條件,并且支持任意相機(jī)視角的精確渲染。

總的來說,MagicDrive3D帶來了一個全新的、高效的可控3D場景生成框架,不僅成功解決了無界限的3D場景生成難題,其可控性更為多種下游任務(wù)提供了支持。


相比前序工作MagicDrive,MagicDrive3D不僅提供了多視角渲染能力,生成的場景幾何信息也為更多樣的場景編輯提供可能。


隨著質(zhì)量和真實性的提升,生成數(shù)據(jù)將得到更廣泛的應(yīng)用,為自動駕駛技術(shù)的發(fā)展注入更多活力。


論文地址:??https://arxiv.org/abs/2405.14475???
項目主頁:???https://gaoruiyuan.com/magicdrive3d/??


本文轉(zhuǎn)自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/DdUfHmGvkyXz2iq84Jc2Zg??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦