萬物皆可高斯!清華最新GaussianAD:以高斯為中心的端到端自動(dòng)駕駛,完爆當(dāng)前SOTA!
寫在前面 & 筆者的個(gè)人理解
基于視覺的自動(dòng)駕駛因其令人滿意的性能和低成本而顯示出巨大的潛力。大多數(shù)現(xiàn)有方法采用密集表示(如鳥瞰圖)或稀疏表示(如實(shí)例框)進(jìn)行決策,這會(huì)在全面性和效率之間進(jìn)行權(quán)衡。本文探索了一個(gè)以高斯為中心的端到端自動(dòng)駕駛(GaussianAD)框架,并利用3D語義高斯來廣泛而稀疏地描述場(chǎng)景。我們用均勻的3D高斯分布初始化場(chǎng)景,并使用環(huán)視圖像逐步細(xì)化它們,以獲得3D高斯場(chǎng)景表示。然后,我們使用稀疏卷積來有效地執(zhí)行3D感知(例如,3D檢測(cè)、語義圖構(gòu)建)。我們用動(dòng)態(tài)語義預(yù)測(cè)高斯模型的3D流,并相應(yīng)地規(guī)劃自我軌跡,以預(yù)測(cè)未來的場(chǎng)景。我們的GaussianAD可以通過可選的感知標(biāo)簽以端到端的方式進(jìn)行訓(xùn)練。在廣泛使用的nuScenes數(shù)據(jù)集上進(jìn)行的廣泛實(shí)驗(yàn)驗(yàn)證了我們的端到端GaussianAD在各種任務(wù)上的有效性,包括運(yùn)動(dòng)規(guī)劃、3D占用預(yù)測(cè)和4D占用預(yù)測(cè)。
- 論文鏈接:https://arxiv.org/abs/2412.10371v1
本文提出了一個(gè)以高斯為中心的自動(dòng)駕駛(GaussianAD)框架作為肯定答案,如圖1所示。我們使用來自2D圖像的稀疏3D語義高斯集作為場(chǎng)景表示。盡管存在稀疏性,但它受益于高斯混合的通用近似和顯式3D結(jié)構(gòu)帶來的細(xì)粒度建模,這有助于各種下游任務(wù)。我們進(jìn)一步從3D高斯表示中探索感知、預(yù)測(cè)和規(guī)劃。對(duì)于感知,我們將3D高斯視為語義點(diǎn)云,并采用稀疏卷積和稀疏預(yù)測(cè)頭來有效地處理3D場(chǎng)景。我們提出了3D高斯流來全面明確地仿真場(chǎng)景演變,我們預(yù)測(cè)每個(gè)高斯流的未來位移。然后,我們整合所有可用信息,相應(yīng)地規(guī)劃自我軌跡。由于3D高斯表示的明確性,我們可以使用仿射變換直接計(jì)算自車觀察到的預(yù)測(cè)未來場(chǎng)景。我們將預(yù)測(cè)場(chǎng)景與地面實(shí)況場(chǎng)景觀測(cè)進(jìn)行比較,作為預(yù)測(cè)和規(guī)劃的明確監(jiān)督。據(jù)我們所知,GaussianAD是第一個(gè)探索以視覺為中心的端到端自動(dòng)駕駛顯式稀疏點(diǎn)架構(gòu)的公司。我們?cè)趎uScenes數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),以評(píng)估所提出的高斯中心框架的有效性。實(shí)驗(yàn)結(jié)果表明,我們的GaussianAD在高效的端到端運(yùn)動(dòng)規(guī)劃方面取得了最先進(jìn)的結(jié)果。
相關(guān)工作回顧
自動(dòng)駕駛感知。從傳感器輸入中準(zhǔn)確感知周圍環(huán)境是自動(dòng)駕駛的基本步驟。作為兩個(gè)主要的傳統(tǒng)感知任務(wù),3D目標(biāo)檢測(cè)旨在獲得周圍場(chǎng)景中每個(gè)代理的3D位置、姿態(tài)和類別,這對(duì)軌跡預(yù)測(cè)和規(guī)劃非常重要。語義圖重建旨在恢復(fù)鳥瞰圖(BEV)中的靜態(tài)圖元素,為進(jìn)一步推理提供額外信息。這兩個(gè)任務(wù)都可以在BEV空間中有效地執(zhí)行,但它們無法描述周圍場(chǎng)景和任意形狀對(duì)象的細(xì)粒度3D結(jié)構(gòu)。這促使最近的方法探索其他3D表示,如體素和三視角視圖(TPV),以執(zhí)行3D占用預(yù)測(cè)任務(wù)。3D占用提供了對(duì)周圍場(chǎng)景的更全面的描述,包括動(dòng)態(tài)和靜態(tài)元素,可以從稀疏的激光雷達(dá)或視頻序列中有效地學(xué)習(xí)。Gaussianformer提出使用3D語義高斯來稀疏地表示3D占用場(chǎng)景。然而,目前尚不清楚3D高斯表示是否可用于一般的自動(dòng)駕駛。
自動(dòng)駕駛預(yù)測(cè)。預(yù)測(cè)場(chǎng)景演變對(duì)自動(dòng)駕駛汽車的安全性也至關(guān)重要。大多數(shù)現(xiàn)有方法側(cè)重于根據(jù)交通代理的過去位置和語義地圖信息預(yù)測(cè)其移動(dòng)。早期的方法將智能體和語義圖信息投影到邊界電動(dòng)圖像上,并采用二維圖像主干對(duì)其進(jìn)行處理,以推斷未來的智能體運(yùn)動(dòng)。隨后的方法采用了更有效的動(dòng)態(tài)代理的標(biāo)記化表示,并使用圖神經(jīng)網(wǎng)絡(luò)或變換器來聚合信息。最近的工作開始以端到端的方式直接從傳感器輸入探索運(yùn)動(dòng)預(yù)測(cè)。他們通常首先執(zhí)行BEV感知以提取相關(guān)信息(例如,3D代理框、語義圖、軌跡),然后利用它們來推斷未來的軌跡。與僅對(duì)動(dòng)態(tài)對(duì)象運(yùn)動(dòng)進(jìn)行建模的現(xiàn)有方法不同,我們提出了高斯流來預(yù)測(cè)包括動(dòng)態(tài)和靜態(tài)元素在內(nèi)的環(huán)視場(chǎng)景演變。
規(guī)劃自動(dòng)駕駛。規(guī)劃是自動(dòng)駕駛系統(tǒng)的重要組成部分,可分為基于規(guī)則的和基于學(xué)習(xí)的方法。雖然傳統(tǒng)的基于規(guī)則的方法可以獲得令人滿意的結(jié)果,并且具有很高的可解釋性,但基于學(xué)習(xí)的方法近年來受到了越來越多的關(guān)注,因?yàn)樗鼈兙哂袛U(kuò)展到大規(guī)模訓(xùn)練數(shù)據(jù)的巨大潛力。作為簡單而有效的基于學(xué)習(xí)的解決方案,基于模仿的規(guī)劃者一直是端到端方法的首選。作為早期的嘗試,LBC和CILRS采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)從專家駕駛數(shù)據(jù)中學(xué)習(xí)。以下方法結(jié)合了更多的數(shù)據(jù)或提取了更多的中間特征,為規(guī)劃者提供了更多的信息,取得了顯著的效果。盡管如此,大多數(shù)現(xiàn)有的端到端自動(dòng)駕駛方法采用高級(jí)場(chǎng)景描述(例如3D框、地圖)進(jìn)行下游預(yù)測(cè)和規(guī)劃,并可能省略某些關(guān)鍵信息。本文提出了一種以高斯為中心的自動(dòng)駕駛流水線,并使用3D高斯作為稀疏但全面的信息載體。
GaussianAD方法詳解
3D Scene Representation Matters for Driving
自動(dòng)駕駛旨在根據(jù)一系列場(chǎng)景觀察{o}產(chǎn)生安全一致的控制信號(hào)(例如加速器、制動(dòng)器、轉(zhuǎn)向)。雖然場(chǎng)景觀測(cè)可以從多個(gè)傳感器(如攝像頭和激光雷達(dá))獲得,但由于其高信息密度和低傳感器成本,我們主要針對(duì)周圍攝像頭的基于視覺的自動(dòng)駕駛。
假設(shè)控制器性能良好,大多數(shù)自動(dòng)駕駛模型主要側(cè)重于學(xué)習(xí)從當(dāng)前和歷史觀測(cè)值{o}到未來自車軌跡{w}的映射f:
傳統(tǒng)的自動(dòng)駕駛方法將f分解為感知、預(yù)測(cè)和規(guī)劃模塊,并在連接之前分別對(duì)其進(jìn)行訓(xùn)練:
這些模塊的單獨(dú)訓(xùn)練進(jìn)一步加劇了這個(gè)問題,因?yàn)椴煌娜蝿?wù)側(cè)重于提取不同的信息。提供給規(guī)劃模塊的不全面信息可能會(huì)影響自動(dòng)駕駛模型的決策過程。這推動(dòng)了從模塊化框架到端到端框架工作的轉(zhuǎn)變,該框架可區(qū)分地連接并共同學(xué)習(xí)感知、預(yù)測(cè)和規(guī)劃模塊:
場(chǎng)景表示r在整個(gè)模型中傳遞信息,因此r的選擇對(duì)端到端系統(tǒng)的性能至關(guān)重要。由于自動(dòng)駕駛需要在3D空間中做出決策,場(chǎng)景表示應(yīng)該是3D結(jié)構(gòu)的,并包含從輸入圖像推斷出的3D結(jié)構(gòu)信息。另一方面,3D空間通常是稀疏的,導(dǎo)致在設(shè)計(jì)r時(shí)在全面性和效率之間進(jìn)行權(quán)衡。為了全面性,傳統(tǒng)的鳥瞰圖(BEV)表示在地圖視圖中使用密集的網(wǎng)格特征,并壓縮高度維度以減少冗余。后續(xù)方法進(jìn)一步探索更密集的表示,如體素或三視角視圖(TPV),以捕獲更詳細(xì)和細(xì)粒度的3D信息。為了提高效率,最近的方法采用了稀疏查詢,并專注于對(duì)實(shí)例框和映射元素進(jìn)行建模,這是決策中最重要的因素。盡管如此,被丟棄的信息仍然很重要(例如,不規(guī)則的障礙物、交通燈、人體姿勢(shì)),并且與端到端自動(dòng)駕駛的理念(即全面的信息流)相矛盾。本文探討了3D高斯分布作為一種全面而稀疏的場(chǎng)景表示,并提出了一個(gè)用于端到端感知、預(yù)測(cè)和規(guī)劃的完全稀疏框架,如圖2所示。
Gaussian-Centric Autonomous Driving
3D高斯表示**?,F(xiàn)有的方法通常構(gòu)建一個(gè)密集的3D特征來表示周圍環(huán)境,并用相等的存儲(chǔ)和計(jì)算資源處理每個(gè)3D體素,這通常會(huì)導(dǎo)致難以處理的開銷,因?yàn)橘Y源分配不合理。同時(shí),這種密集的3D體素表示無法區(qū)分不同尺度的對(duì)象。與這些方法不同,我們遵循GaussianFormer,它表示一個(gè)具有許多稀疏3D語義Gaussian的自動(dòng)駕駛場(chǎng)景。每個(gè)高斯分布都實(shí)例化了一個(gè)語義高斯分布,其特征是均值、協(xié)方差和語義邏輯。這種稀疏顯式特征表示對(duì)下游任務(wù)更有利。
圖像中的Gaussians。我們首先將3D高斯分布及其高維查詢表示為可學(xué)習(xí)向量。然后使用高斯編碼器迭代地增強(qiáng)這些表示。每個(gè)高斯編碼器塊由三個(gè)模塊組成:一個(gè)促進(jìn)高斯人之間交互的自編碼模塊,一個(gè)用于聚合視覺信息的圖像交叉注意力模塊,以及一個(gè)用于微調(diào)高斯屬性的細(xì)化模塊。與GaussianFormer不同,我們利用由4D稀疏卷積組成的時(shí)間編碼器將前一幀的高斯特征與當(dāng)前幀中的相應(yīng)特征進(jìn)行整合。
高斯稀疏3D檢測(cè)。由于3D高斯表示是一種稀疏場(chǎng)景表示,我們遵循VoxelNeXt,它直接基于稀疏體素特征預(yù)測(cè)3D對(duì)象。特別地,我們進(jìn)行了一個(gè)3D稀疏CNN網(wǎng)絡(luò)V來編碼3D高斯表示r。根據(jù)GenAD,我們使用V(r)上的一組代理令牌D來解碼3D對(duì)象a:
Gaussians的稀疏地圖構(gòu)建。與高斯的3D檢測(cè)表示類似,我們采用一組映射標(biāo)記M來表示語義建圖。我們關(guān)注三類地圖元素(即車道分隔線、道路邊界和人行橫道)。
運(yùn)動(dòng)預(yù)測(cè)。運(yùn)動(dòng)預(yù)測(cè)模塊通過預(yù)測(cè)其他交通參與者的未來軌跡來輔助自車軌跡規(guī)劃。我們通過使代理令牌D通過交叉關(guān)注層CA與地圖令牌M交互來獲得運(yùn)動(dòng)令牌Mo:
高斯流用于場(chǎng)景預(yù)測(cè)。此外,它表明中間表示r的場(chǎng)景預(yù)測(cè)在端到端自動(dòng)駕駛中起著重要作用。我們根據(jù)當(dāng)前的高斯表示$r^T$和預(yù)測(cè)的自車軌跡$w^{T+N}$,將未來的高斯表示預(yù)測(cè)為高斯流$r^{T+N}$:
對(duì)中間高斯表示的未來占用的監(jiān)督保證了場(chǎng)景預(yù)測(cè)能力,最終提高了自車軌跡預(yù)測(cè)的性能。
End-to-End GaussianAD Framework
本節(jié)介紹GaussianAD的整體端到端框架。我們首先用一組均勻分布的3D高斯G0初始化場(chǎng)景,然后通過合并周圍視圖圖像o的信息來逐步細(xì)化它們,以獲得高斯場(chǎng)景表示r。然后,如果相應(yīng)的標(biāo)注可用,我們可以從r中提取各種場(chǎng)景描述d作為輔助任務(wù)。具體來說,我們使用高斯到體素飛濺來獲得密集描述的密集體素特征(例如,3D占用預(yù)測(cè)),并使用完全稀疏卷積來獲得稀疏描述的稀疏查詢(例如,三維邊界框、地圖元素)。輔助感知監(jiān)督的使用引入了場(chǎng)景表示r的額外約束和先驗(yàn)知識(shí),以指導(dǎo)其學(xué)習(xí)過程。盡管如此,我們還是直接在3D高斯模型上預(yù)測(cè)未來的演變,以減少信息損失,并相應(yīng)地規(guī)劃自車軌跡{w}。GaussianAD通過稀疏但全面的3D高斯表示在整個(gè)模型中傳遞信息,為決策過程提供更多知識(shí)。我們的GaussianAD的總體框架如下:
對(duì)于訓(xùn)練,我們自適應(yīng)地對(duì)從r中提取的場(chǎng)景描述d施加不同的感知損失:
由于3D高斯分布的顯式表示,我們可以使用全局仿射變換來模擬在某個(gè)給定的自車位置w處觀察到的場(chǎng)景表示r。在用提出的高斯流獲得預(yù)測(cè)的未來場(chǎng)景表示后,我們使用計(jì)劃的航路點(diǎn)來模擬未來的自車場(chǎng)景表示:
預(yù)測(cè)的未來自車場(chǎng)景表示也取決于計(jì)劃的軌跡${w}^F$如(10)所示。因此,除了傳統(tǒng)的軌跡損失外,我們還采用預(yù)測(cè)損失(11)進(jìn)行規(guī)劃:
所提出的GaussianAD是一個(gè)靈活的框架,可以適應(yīng)具有不同可用監(jiān)督的各種情況,如圖3所示,總體目標(biāo)如下:
對(duì)于推理,GaussianAD使用3D高斯表示實(shí)現(xiàn)端到端驅(qū)動(dòng),以在整個(gè)流水線中有效地傳遞信息。它為決策過程提供了全面的知識(shí),并通過稀疏計(jì)算保持了高效率。
實(shí)驗(yàn)
結(jié)論
本文基于視覺的端到端自動(dòng)駕駛提出了一個(gè)以高斯為中心的框架。為了保留更全面的信息,我們采用3D高斯作為場(chǎng)景表示,并采用高斯流來有效地預(yù)測(cè)未來的演變。我們的框架提供了靈活性,可以容納具有各種注釋的不同訓(xùn)練數(shù)據(jù)。我們對(duì)廣泛使用的nuScenes進(jìn)行了廣泛的實(shí)驗(yàn),并在各種任務(wù)上展示了具有競(jìng)爭(zhēng)力的性能,包括端到端規(guī)劃和4D占用預(yù)測(cè)。探索基于用更多樣化數(shù)據(jù)訓(xùn)練的3D高斯場(chǎng)景表示的大規(guī)模端到端模型是很有趣的。