自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超越BEVFusion!DifFUSER:擴(kuò)散模型殺入自動(dòng)駕駛多任務(wù)(BEV分割+檢測(cè)雙SOTA)

人工智能 智能汽車(chē)
本文為大家分享一篇擴(kuò)散模型實(shí)現(xiàn)多任務(wù)網(wǎng)絡(luò)的工作DifFUSER!

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫(xiě)在前面&筆者的個(gè)人理解

目前,隨著自動(dòng)駕駛技術(shù)的越發(fā)成熟以及自動(dòng)駕駛感知任務(wù)需求的日益增多,工業(yè)界和學(xué)術(shù)界非常希望一個(gè)理想的感知算法模型,可以同時(shí)完成如3D目標(biāo)檢測(cè)以及基于BEV空間的語(yǔ)義分割在內(nèi)的多個(gè)感知任務(wù)。對(duì)于一輛能夠?qū)崿F(xiàn)自動(dòng)駕駛功能的車(chē)輛而言,其通常會(huì)配備環(huán)視相機(jī)傳感器、激光雷達(dá)傳感器以及毫米波雷達(dá)傳感器來(lái)采集不同模態(tài)的數(shù)據(jù)信息,從而充分利用不同模態(tài)數(shù)據(jù)之間的互補(bǔ)優(yōu)勢(shì),比如三維的點(diǎn)云數(shù)據(jù)可以為3D目標(biāo)檢測(cè)任務(wù)提供算法模型必要的幾何數(shù)據(jù)和深度信息;2D的圖像數(shù)據(jù)可以為基于BEV空間的語(yǔ)義分割任務(wù)提供至關(guān)重要的色彩和語(yǔ)義紋理信息,通過(guò)將不同模態(tài)數(shù)據(jù)的有效結(jié)果,使得部署在車(chē)上的多模態(tài)感知算法模型輸出更加魯棒和準(zhǔn)確的空間感知結(jié)果。

雖然最近在學(xué)術(shù)界和工業(yè)界提出了許多基于Transformer網(wǎng)絡(luò)框架的多傳感、多模態(tài)數(shù)據(jù)融合的3D感知算法,但均采用了Transformer中的交叉注意力機(jī)制來(lái)實(shí)現(xiàn)多模態(tài)數(shù)據(jù)之間的融合,以實(shí)現(xiàn)比較理想的3D目標(biāo)檢測(cè)結(jié)果。但是這類(lèi)多模態(tài)的特征融合方法并不完全適用于基于BEV空間的語(yǔ)義分割任務(wù)。此外,除了采用交叉注意力機(jī)制來(lái)完成不同模態(tài)之間信息融合的方法外,很多算法采用基于LSS中前向的2D到3D的視角轉(zhuǎn)換方式來(lái)構(gòu)建融合后的特征,但也存在著如下的一些問(wèn)題:

  • 由于目前提出的相關(guān)多模態(tài)融合的3D感知算法,對(duì)于不同模態(tài)數(shù)據(jù)特征的融合方式設(shè)計(jì)的還不夠充分,造成感知算法模型無(wú)法準(zhǔn)確捕獲到傳感器數(shù)據(jù)之間的復(fù)雜連接關(guān)系,進(jìn)而影響模型的最終感知性能。
  • 不同傳感器采集數(shù)據(jù)的過(guò)程中難免會(huì)引入無(wú)關(guān)的噪聲信息,這種不同模態(tài)之間的內(nèi)在噪聲,也會(huì)導(dǎo)致不同模態(tài)特征融合的過(guò)程中會(huì)混入噪聲,從而造成多模態(tài)特征融合的不準(zhǔn)確,影響后續(xù)的感知任務(wù)。

針對(duì)上述提到的在多模態(tài)融合過(guò)程中存在的諸多可能會(huì)影響到最終模型感知性能的問(wèn)題,同時(shí)考慮到生成模型最近展現(xiàn)出來(lái)的強(qiáng)大性能,我們對(duì)生成模型進(jìn)行了探索,用于實(shí)現(xiàn)多傳感器之間的多模態(tài)融合和去噪任務(wù)?;诖耍覀兲岢隽艘环N基于條件擴(kuò)散的生成模型感知算法DifFUSER,用于實(shí)現(xiàn)多模態(tài)的感知任務(wù)。通過(guò)下圖可以看出,我們提出的DifFUSER多模態(tài)數(shù)據(jù)融合算法可以實(shí)現(xiàn)更加有效的多模態(tài)融合過(guò)程。

提出的算法模型與其它算法模型的結(jié)果可視化對(duì)比圖

論文鏈接:https://arxiv.org/pdf/2404.04629.pdf

網(wǎng)絡(luò)模型的整體架構(gòu)&細(xì)節(jié)梳理

在詳細(xì)介紹本文提出的基于條件擴(kuò)散模型的多任務(wù)感知算法的DifFUSER的模塊細(xì)節(jié)之前,下圖展示了我們提出的DifFUSER算法的整體網(wǎng)絡(luò)結(jié)構(gòu)。

圖片提出的DifFUSER感知算法模型網(wǎng)絡(luò)結(jié)構(gòu)圖

通過(guò)上圖可以看出,我們提出的DifFUSER網(wǎng)絡(luò)結(jié)構(gòu)主要包括三個(gè)子網(wǎng)絡(luò),分別是主干網(wǎng)絡(luò)部分、DifFUSER的多模態(tài)數(shù)據(jù)融合部分以及最終的BEV語(yǔ)義分割、3D目標(biāo)檢測(cè)感知任務(wù)頭部分。

  • 主干網(wǎng)絡(luò)部分:該部分主要對(duì)網(wǎng)絡(luò)模型輸入的2D圖像數(shù)據(jù)以及3D的激光雷達(dá)點(diǎn)云數(shù)據(jù)進(jìn)行特征提取用于輸出相對(duì)應(yīng)的BEV語(yǔ)義特征。對(duì)于提取圖像特征的主干網(wǎng)絡(luò)而言,主要包括2D的圖像主干網(wǎng)絡(luò)以及視角轉(zhuǎn)換模塊。對(duì)于提取3D的激光雷達(dá)點(diǎn)云特征的主干網(wǎng)絡(luò)而言,主要包括3D的點(diǎn)云主干網(wǎng)絡(luò)以及特征Flatten模塊。
  • DifFUSER多模態(tài)數(shù)據(jù)融合部分:我們提出的DifFUSER模塊以層級(jí)的雙向特征金字塔網(wǎng)絡(luò)的形式鏈接在一起,我們把這樣的結(jié)構(gòu)稱為cMini-BiFPN。該結(jié)構(gòu)為潛在的擴(kuò)散提供了可以替代的結(jié)構(gòu),可以更好的處理來(lái)自不同傳感器數(shù)據(jù)中的多尺度和寬高詳細(xì)特征信息。
  • BEV語(yǔ)義分割、3D目標(biāo)檢測(cè)感知任務(wù)頭部分:由于我們的算法模型可以同時(shí)輸出3D目標(biāo)檢測(cè)結(jié)果以及BEV空間的語(yǔ)義分割結(jié)果,所以3D感知任務(wù)頭包括3D檢測(cè)頭以及語(yǔ)義分割頭。此外,我們提出的算法模型涉及到的損失則包括擴(kuò)散損失、檢測(cè)損失和語(yǔ)義分割損失,通過(guò)將所有損失進(jìn)行求和,并通過(guò)反向傳播的方式來(lái)更新網(wǎng)絡(luò)模型的參數(shù)。

接下來(lái),我們會(huì)仔細(xì)介紹模型中各個(gè)主要子部分的實(shí)現(xiàn)細(xì)節(jié)。

融合架構(gòu)設(shè)計(jì)(Conditional-Mini-BiFPN,cMini-BiFPN)

對(duì)于自動(dòng)駕駛系統(tǒng)中的感知任務(wù)而言,算法模型能夠?qū)Ξ?dāng)前的外部環(huán)境進(jìn)行實(shí)時(shí)的感知是至關(guān)重要的,所以確保擴(kuò)散模塊的性能和效率是非常重要的。因此,我們從雙向特征金字塔網(wǎng)絡(luò)中得到啟發(fā),引入一種條件類(lèi)似的BiFPN擴(kuò)散架構(gòu),我們稱之為Conditional-Mini-BiFPN,其具體的網(wǎng)絡(luò)結(jié)構(gòu)如上圖所示。

漸進(jìn)傳感器Dropout訓(xùn)練(PSDT)

對(duì)于一輛自動(dòng)駕駛汽車(chē)而言,配備的自動(dòng)駕駛采集傳感器的性能至關(guān)重要,在自動(dòng)駕駛車(chē)輛日常行駛的過(guò)程中,極有可能會(huì)出現(xiàn)相機(jī)傳感器或者激光雷達(dá)傳感器出現(xiàn)遮擋或者故障的問(wèn)題,從而影響最終自動(dòng)駕駛系統(tǒng)的安全性以及運(yùn)行效率?;谶@一考慮出發(fā),我們提出了漸進(jìn)式的傳感器Dropout訓(xùn)練范式,用于增強(qiáng)提出的算法模型在傳感器可能被遮擋等情況下的魯棒性和適應(yīng)性。

通過(guò)我們提出的漸進(jìn)傳感器Dropout訓(xùn)練范式,可以使得算法模型通過(guò)利用相機(jī)傳感器以及激光雷達(dá)傳感器采集到的兩種模態(tài)數(shù)據(jù)的分布,重建缺失的特征,從而實(shí)現(xiàn)了在惡劣狀況下的出色適應(yīng)性和魯棒性。具體而言,我們利用來(lái)自圖像數(shù)據(jù)和激光雷達(dá)點(diǎn)云數(shù)據(jù)的特征,以三種不同的方式進(jìn)行使用,分別是作為訓(xùn)練目標(biāo)、擴(kuò)散模塊的噪聲輸入以及模擬傳感器丟失或故障的條件,為了模擬傳感器丟失或故障的條件,我們?cè)谟?xùn)練期間逐漸將相機(jī)傳感器或激光雷達(dá)傳感器輸入的丟失率從0增加到預(yù)定義的最大值a=25。整個(gè)過(guò)程可以用下面的公式進(jìn)行表示:

其中,代表當(dāng)前模型所處的訓(xùn)練輪數(shù),通過(guò)定義dropout的概率用于表示特征中每個(gè)特征被丟棄的概率。通過(guò)這種漸進(jìn)式的訓(xùn)練過(guò)程,不僅訓(xùn)練模型有效去噪并生成更具有表現(xiàn)力的特征,而且還最大限度地減少其對(duì)任何單個(gè)傳感器的依賴,從而增強(qiáng)其處理具有更大彈性的不完整傳感器數(shù)據(jù)的能力。

門(mén)控自條件調(diào)制擴(kuò)散模塊(GSM Diffusion Module)

具體而言,門(mén)控自條件調(diào)制擴(kuò)散模塊的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示

門(mén)控自條件調(diào)制擴(kuò)散模塊網(wǎng)絡(luò)結(jié)構(gòu)示意圖

實(shí)驗(yàn)結(jié)果&評(píng)價(jià)指標(biāo)

定量分析部分

為了驗(yàn)證我們提出的算法模型DifFUSER在多任務(wù)上的感知結(jié)果,我們主要在nuScenes數(shù)據(jù)集上進(jìn)行了3D目標(biāo)檢測(cè)以及基于BEV空間的語(yǔ)義分割實(shí)驗(yàn)。

首先,我們比較了提出的算法模型DifFUSER與其它的多模態(tài)融合算法在語(yǔ)義分割任務(wù)上的性能對(duì)比情況,具體的實(shí)驗(yàn)結(jié)果如下表所示:

圖片不同算法模型在nuScenes數(shù)據(jù)集上的基于BEV空間的語(yǔ)義分割任務(wù)的實(shí)驗(yàn)結(jié)果對(duì)比情況

通過(guò)實(shí)驗(yàn)結(jié)果可以看出,我們提出的算法模型相比于基線模型而言在性能上有著顯著的提高。具體而言,BEVFusion模型的mIoU值只有62.7%,而我們提出的算法模型已經(jīng)達(dá)到了69.1%,具有6.4%個(gè)點(diǎn)的提升,這表明我們提出的算法在不同類(lèi)別上都更有優(yōu)勢(shì)。此外,下圖也更加直觀的說(shuō)明了我們提出的算法模型更具有優(yōu)勢(shì)。具體而言,BEVFusion算法會(huì)輸出較差的分割結(jié)果,尤其在遠(yuǎn)距離的場(chǎng)景下,傳感器錯(cuò)位的情況更加明顯。與之相比,我們的算法模型具有更加準(zhǔn)確的分割結(jié)果,細(xì)節(jié)更加明顯,噪聲更少。

提出算法模型與基線模型的分割可視化結(jié)果對(duì)比

此外,我們也將提出的算法模型與其它的3D目標(biāo)檢測(cè)算法模型進(jìn)行對(duì)比,具體的實(shí)驗(yàn)結(jié)果如下表所示

不同算法模型在nuScenes數(shù)據(jù)集上的3D目標(biāo)檢測(cè)任務(wù)的實(shí)驗(yàn)結(jié)果對(duì)比情況

通過(guò)表格當(dāng)中列出的結(jié)果可以看出,我們提出的算法模型DifFUSER相比于基線模型在NDS和mAP指標(biāo)上均有提高,相比于基線模型BEVFusion的72.9%NDS以及70.2%的mAP,我們的算法模型分別要高出1.8%以及1.0%。相關(guān)指標(biāo)的提升表明,我們提出的多模態(tài)擴(kuò)散融合模塊對(duì)特征的減少和特征的細(xì)化過(guò)程是有效的。

此外,為了表明我們提出的算法模型在傳感器故障或者遮擋情況下的感知魯棒性,我們進(jìn)行了相關(guān)分割任務(wù)的結(jié)果比較,如下圖所示。

不同情況下的算法性能比較

通過(guò)上圖可以看出,在采樣充足的情況下,我們提出的算法模型可以有效的對(duì)缺失特征進(jìn)行補(bǔ)償,用于作為缺失傳感器采集信息的替代內(nèi)容。我們提出的DifFUSER算法模型生成和利用合成特征的能力,有效地減輕了對(duì)任何單一傳感器模態(tài)的依賴,確保模型在多樣化和具有挑戰(zhàn)性的環(huán)境中能夠平穩(wěn)運(yùn)行。

定性分析部分

下圖展示了我們提出的DifFUSER算法模型在3D目標(biāo)檢測(cè)以及BEV空間的語(yǔ)義分割結(jié)果的可視化,通過(guò)可視化結(jié)果可以看出,我們提出的算法模型具有很好的檢測(cè)和分割效果。

結(jié)論

本文提出了一個(gè)基于擴(kuò)散模型的多模態(tài)感知算法模型DifFUSER,通過(guò)改進(jìn)網(wǎng)絡(luò)模型的融合架構(gòu)以及利用擴(kuò)散模型的去噪特性來(lái)提高網(wǎng)絡(luò)模型的融合質(zhì)量。通過(guò)在Nuscenes數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們提出的算法模型在BEV空間的語(yǔ)義分割任務(wù)中實(shí)現(xiàn)了SOTA的分割性能,在3D目標(biāo)檢測(cè)任務(wù)中可以和當(dāng)前SOTA的算法模型取得相近的檢測(cè)性能。

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2024-04-17 09:56:24

算法模型

2023-11-17 09:55:41

2024-02-01 09:41:01

AI算法

2024-02-21 09:25:50

3D自動(dòng)駕駛

2024-06-18 10:00:00

自動(dòng)駕駛BEV感知

2024-01-22 09:54:09

模型數(shù)據(jù)

2023-06-30 09:33:37

自動(dòng)駕駛技術(shù)

2023-12-27 08:28:54

自動(dòng)駕駛模型

2024-01-10 09:25:21

自動(dòng)駕駛視圖

2024-01-05 08:30:26

自動(dòng)駕駛算法

2025-03-03 05:00:00

DiffUCD擴(kuò)散模型SOTA

2024-03-04 09:48:26

3D自動(dòng)駕駛

2024-01-19 09:31:04

自動(dòng)駕駛方案

2022-02-07 22:52:07

自動(dòng)駕駛安全技術(shù)

2023-12-12 10:09:33

3D框架模型

2024-06-19 09:45:07

2024-09-10 10:07:19

2023-02-13 12:15:41

自動(dòng)駕駛算法

2024-07-11 11:40:18

2024-07-04 12:06:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)