自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

CLIP-BEVFormer:顯式監(jiān)督BEVFormer結(jié)構(gòu),提升長尾檢測性能

人工智能 智能汽車
在本文中,針對原有的BEVFormer算法當(dāng)中存在的生成BEV特征圖過程中缺少顯示監(jiān)督以及Decoder模塊中Object Query與BEV特征交互查詢的不確定問題,我們提出了CLIP-BEVFormer算法模型,并從算法模型的3D感知性能、目標(biāo)長尾分布以及在傳感器故障的魯棒性等方面進(jìn)行實(shí)驗(yàn)。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面&筆者的個(gè)人理解

目前,在整個(gè)自動(dòng)駕駛系統(tǒng)當(dāng)中,感知模塊扮演了其中至關(guān)重要的角色,行駛在道路上的自動(dòng)駕駛車輛只有通過感知模塊獲得到準(zhǔn)確的感知結(jié)果后,才能讓自動(dòng)駕駛系統(tǒng)中的下游規(guī)控模塊做出及時(shí)、正確的判斷和行為決策。目前,具備自動(dòng)駕駛功能的汽車中通常會(huì)配備包括環(huán)視相機(jī)傳感器、激光雷達(dá)傳感器以及毫米波雷達(dá)傳感器在內(nèi)的多種數(shù)據(jù)信息傳感器來收集不同模態(tài)的信息,用于實(shí)現(xiàn)準(zhǔn)確的感知任務(wù)。

由于基于純視覺的BEV感知算法需要更低的硬件以及部署成本,同時(shí)其輸出的BEV空間感知結(jié)果可以很方便的被下游規(guī)控等任務(wù)所使用而受到了來自工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。近年來,很多基于BEV空間的視覺感知算法被相繼提出,并且在公開數(shù)據(jù)集上取得了出色的感知性能。

目前,基于BEV空間的感知算法根據(jù)構(gòu)建BEV特征的方式可以大體分成兩類算法模型:

  • 一類是以LSS算法為代表的前向BEV特征構(gòu)建方式,這類感知算法模型首先是利用感知模型中的深度估計(jì)網(wǎng)絡(luò)來預(yù)測特征圖的每個(gè)像素點(diǎn)的語義特征信息以及離散深度概率分布,然后將得到的語義特征信息與離散深度概率采用外積運(yùn)算的方式構(gòu)建語義視錐特征,采用BEV池化等方式最終完成BEV空間特征的構(gòu)建過程。
  • 另外一類是以BEVFormer算法為代表的反向BEV特征構(gòu)建方式,這類感知算法模型首先是在感知的BEV空間下顯式的生成3D體素坐標(biāo)點(diǎn),然后利用相機(jī)的內(nèi)外參將3D體素坐標(biāo)點(diǎn)投影回圖像坐標(biāo)系下,并對相應(yīng)特征位置的像素特征進(jìn)行提取和聚合,從而構(gòu)建出BEV空間下的BEV特征。

雖然兩類算法都可以較為準(zhǔn)確的生成BEV空間下的特征進(jìn)而完成最終的3D感知結(jié)果,但在當(dāng)前的基于BEV空間的3D目標(biāo)感知算法中,比如BEVFormer算法存在著以下兩方面的問題:

  • 問題一:由于BEVFormer感知算法模型整體框架采用的是Encoder-Decoder的網(wǎng)絡(luò)結(jié)構(gòu),其主要思想是利用Encoder模塊獲取BEV空間下的特征,然后利用Decoder模塊預(yù)測最終的感知結(jié)果,并通過將輸出的感知結(jié)果與真值目標(biāo)計(jì)算損失來實(shí)現(xiàn)模型預(yù)測的BEV空間特征的過程。但通過這種網(wǎng)絡(luò)模型的參數(shù)更新方式會(huì)過于依賴Decoder模塊的感知性能,導(dǎo)致可能存在模型輸出的BEV特征與真值BEV特征并不對齊的問題,從而進(jìn)一步制約感知模型最終的表現(xiàn)性能。
  • 問題二:由于BEVFormer感知算法模型的Decoder模塊依舊沿用Transformer中的自注意力模塊->交叉注意力模塊->前饋神經(jīng)網(wǎng)絡(luò)的步驟完成Query特征的構(gòu)建輸出最終的檢測結(jié)果,其整個(gè)過程依舊是一個(gè)黑盒模型,缺乏良好的可解釋性。同時(shí),Object Query與真值目標(biāo)之間的一對一匹配過程在模型訓(xùn)練的過程中也存在著很大的不確定性。

所以,針對上述提到的BEVFormer感知算法模型存在的兩點(diǎn)問題,我們在BEVFormer算法模型的基礎(chǔ)上進(jìn)行改進(jìn),提出了基于環(huán)視圖像的BEV場景下的3D檢測算法模型CLIP-BEVFormer,通過利用對比學(xué)習(xí)的方式來增強(qiáng)模型對于BEV特征的構(gòu)建能力,并且在nuScenes數(shù)據(jù)集上實(shí)現(xiàn)了SOTA的感知性能。

文章鏈接:https://arxiv.org/pdf/2403.08919.pdf

網(wǎng)絡(luò)模型的整體架構(gòu)&細(xì)節(jié)梳理

在詳細(xì)介紹本文提出的具體CLIP-BEVFormer感知算法模型細(xì)節(jié)之前,下圖展示了我們提出的CLIP-BEVFormer算法的整體網(wǎng)絡(luò)結(jié)構(gòu)。

圖片本文提出的CLIP-BEVFormer感知算法模型整體流程圖

通過算法的整體流程圖可以看出,本文提出的CLIP-BEVFormer算法模型是在BEVFormer算法模型的基礎(chǔ)上進(jìn)行改進(jìn)的,這里先簡單回顧一下BEVFormer感知算法模型的實(shí)現(xiàn)過程。首先,BEVFormer算法模型輸入的是相機(jī)傳感器采集到的環(huán)視圖像數(shù)據(jù),利用2D的圖像特征提取網(wǎng)絡(luò)提取輸入環(huán)視圖像的多尺度語義特征信息。其次,利用包含時(shí)序自注意力和空間交叉注意力的Encoder模塊完成2D圖像特征向BEV空間特征的轉(zhuǎn)換過程。然后,在3D感知空間中以正態(tài)分布的形式生成一組Object Query,并送入到Decoder模塊中完成與Encoder模塊輸出的BEV空間特征的空間特征交互利用。最后利用前饋神經(jīng)網(wǎng)絡(luò)預(yù)測Object Query查詢到的語義特征,輸出網(wǎng)絡(luò)模型最終的分類和回歸結(jié)果。同時(shí),在BEVFormer算法模型訓(xùn)練的過程中,采用一對一的匈牙利匹配策略完成正負(fù)樣本的分配過程,并利用分類和回歸損失完成整體網(wǎng)絡(luò)模型參數(shù)的更新過程。BEVFormer算法模型整體的檢測過程可以用如下的數(shù)學(xué)公式進(jìn)行表示:

其中,公式中的代表BEVFormer算法中的Encoder特征提取模塊,代表BEVFormer算法中的Decoder解碼模塊,代表數(shù)據(jù)集中的真值目標(biāo)標(biāo)簽,代表當(dāng)前BEVFormer算法模型輸出的3D感知結(jié)果。

真值BEV的生成

在上文中已經(jīng)有提到,現(xiàn)有的絕大多數(shù)基于BEV空間的3D目標(biāo)檢測算法沒有顯式的對生成的BEV空間特征進(jìn)行監(jiān)督,導(dǎo)致模型生成的BEV特征可能存在與真實(shí)的BEV特征不一致的問題,這種BEV空間特征的分布差異會(huì)制約模型最終的感知性能?;谶@一考慮出發(fā),我們提出了Ground Truth BEV模塊,我們設(shè)計(jì)該模塊的核心思路是想讓模型生成的BEV特征可以和當(dāng)前真值BEV特征進(jìn)行對齊,從而提高模型的表現(xiàn)性能。

具體而言,如整體網(wǎng)絡(luò)框架圖所示,我們使用了一個(gè)真值編碼器()用來對BEV特征圖上的任意一個(gè)真值實(shí)例的類別標(biāo)簽和空間邊界框位置信息進(jìn)行編碼,該過程可以用公式表述成如下的形式:

其中公式中的具有和生成的BEV特征圖同等大小的特征維度,代表某個(gè)真值目標(biāo)被編碼后的特征信息。在編碼的過程中,我們采用了兩種形式,一種是大語言模型(LLM),另外一種是多層感知機(jī)(MLP),通過實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),兩種方式基本達(dá)到了同樣的性能。

除此之外,我們?yōu)榱诉M(jìn)一步增強(qiáng)真值目標(biāo)在BEV特征圖上的邊界信息,我們在BEV特征圖上根據(jù)真值目標(biāo)所在的空間位置將其裁剪下來,并對裁剪后的特征采用池化操作構(gòu)建對應(yīng)的特征信息表示,該過程可以表述成如下的形式:

最后,我們?yōu)榱藢?shí)現(xiàn)模型生成的BEV特征與真值BEV特征的進(jìn)一步對齊,我們采用了對比學(xué)習(xí)的方法來優(yōu)化兩類BEV特征之間的元素關(guān)系和距離,其優(yōu)化過程可以表述成如下的形式:

其中公式中的和分別代表生成的BEV特征和真值BEV特征之間的相似度矩陣,代表對比學(xué)習(xí)中的邏輯尺度因子,表示矩陣間的乘法運(yùn)算,代表交叉熵?fù)p失函數(shù)。通過上述對比學(xué)習(xí)的方式,我們提出的方法可以為生成的BEV特征提供更加明確的特征指導(dǎo),提高模型的感知能力。

真值目標(biāo)查詢交互

這部分在前文中也有提到,BEVFormer感知算法模型中的Object Query通過Decoder模塊與生成的BEV特征進(jìn)行交互,獲得對應(yīng)的目標(biāo)查詢特征,但該過程整體還是一個(gè)黑盒過程,缺少一個(gè)完整的流程理解。針對這一問題,我們引入了真值查詢交互模塊,通過將真值目標(biāo)來執(zhí)行Decoder模塊的BEV特征交互來激發(fā)模型參數(shù)的學(xué)習(xí)過程。具體而言,我們將真值編碼器()模塊輸出的真值目標(biāo)編碼信息引入到Object Query當(dāng)中參與Decoder模塊的解碼過程,與正常的Object Query參與相同的自注意力模塊,交叉注意力模塊以及前饋神經(jīng)網(wǎng)絡(luò)輸出最終的感知結(jié)果。但需要注意的是,在解碼的過程中,所有的Object Query均是采用了并行計(jì)算的方式,防止發(fā)生真值目標(biāo)信息的泄露。整個(gè)真值目標(biāo)查詢交互過程,可以抽象表述成如下的形式:

其中,公式中的代表初始化的Object Query,和分別代表真值Object Query經(jīng)過Decoder模塊和感知檢測頭的輸出結(jié)果。通過在模型訓(xùn)練的過程中引入真值目標(biāo)的交互過程,我們提出的真值目標(biāo)查詢交互模塊可以實(shí)現(xiàn)真值目標(biāo)查詢與真值BEV特征進(jìn)行交互,從而輔助模型Decoder模塊的參數(shù)更新過程。

實(shí)驗(yàn)結(jié)果&評價(jià)指標(biāo)

定量分析部分

為了驗(yàn)證我們提出的CLIP-BEVFormer算法模型的有效性,我們分別在nuScenes數(shù)據(jù)集上從3D感知效果、數(shù)據(jù)集中目標(biāo)類別的長尾分布情況以及魯棒性等角度出發(fā)進(jìn)行了相關(guān)實(shí)驗(yàn),下表是我們提出的算法模型與其他3D感知算法模型在nuScenes數(shù)據(jù)集上的精度對比情況。

本文提出的方法與其他感知算法模型的對比結(jié)果

在這部分實(shí)驗(yàn)中,我們分別評估了不同模型配置情況下的感知性能,具體而言,我們將CLIP-BEVFormer算法模型應(yīng)用于BEVFormer的tiny和base變體中。此外,我們還探索了將預(yù)訓(xùn)練的CLIP模型或者M(jìn)LP層作為真值目標(biāo)編碼器對于模型感知性能的影響。通過實(shí)驗(yàn)結(jié)果可以看出,無論是原先的tiny還是base變體,在應(yīng)用了我們提出的CLIP-BEVFormer算法后,NDS和mAP指標(biāo)均有穩(wěn)定的性能提升。除此之外,通過實(shí)驗(yàn)結(jié)果我們可以發(fā)現(xiàn),對于真值目標(biāo)編碼器選擇MLP層還是語言模型,我們提出的算法模型對于此并不敏感,這種靈活性可以使得我們提出的CLIP-BEVFormer算法更具有適應(yīng)能力并且方便上車部署??傊覀兲岢龅乃惴P偷母黝愖凅w的性能指標(biāo)一致表明提出的CLIP-BEVFormer算法模型具有很好的感知魯棒性,可以在不同模型復(fù)雜度和參數(shù)量的情況下實(shí)現(xiàn)出色的檢測性能。

除了驗(yàn)證我們提出的CLIP-BEVFormer在3D感知任務(wù)上的性能外,我們還進(jìn)行了長尾分布的實(shí)驗(yàn)來評估我們的算法在面對數(shù)據(jù)集中存在長尾分布情況下的魯棒性和泛化能力,實(shí)驗(yàn)結(jié)果匯總在下表

提出的CLIP-BEVFormer算法模型在長尾問題上的表現(xiàn)性能

通過上表的實(shí)驗(yàn)結(jié)果可以看出,nuScenes數(shù)據(jù)集中表現(xiàn)出了極大的類別數(shù)量不均衡的問題,其中一些類別如(建筑車輛、公交車、摩托車、自行車等)占比很低,但是對于小汽車的占比非常高。我們通過進(jìn)行長尾分布的相關(guān)實(shí)驗(yàn)來評估提出的CLIP-BEVFormer算法模型在特征類別上的感知性能,從而驗(yàn)證其解決不太常見類別的處理能力。通過上述的實(shí)驗(yàn)數(shù)據(jù)可以看出,提出的CLIP-BEVFormer算法模型在所有類別上均實(shí)現(xiàn)了性能的提升,并且在對于占比極少的類別上,CLIP-BEVFormer算法模型展示出了明顯的實(shí)質(zhì)性改進(jìn)。

考慮到在真實(shí)環(huán)境下的自動(dòng)駕駛系統(tǒng)需要面臨硬件故障、惡劣天氣狀況或者人造障礙物容易引發(fā)的傳感器故障等問題,我們進(jìn)一步實(shí)驗(yàn)驗(yàn)證了提出的算法模型的魯棒性。具體而言,我們?yōu)榱四M傳感器的故障問題,我們在模型實(shí)施推理的過程中隨機(jī)對一個(gè)相機(jī)的攝像頭進(jìn)行遮擋,從而實(shí)現(xiàn)對于相機(jī)可能出現(xiàn)故障的場景進(jìn)行模擬,相關(guān)的實(shí)驗(yàn)結(jié)果如下表所示

圖片提出的CLIP-BEVFormer算法模型的魯棒性實(shí)驗(yàn)結(jié)果

通過實(shí)驗(yàn)結(jié)果可以看出,無論是在tiny還是base的模型參數(shù)配置下,我們提出的CLIP-BEVFormer算法模型始終要優(yōu)于BEVFormer的相同配置的基線模型,驗(yàn)證了我們的算法模型在模擬傳感器故障情況下的優(yōu)越性能和優(yōu)秀的魯棒性。

定性分析部分

下圖展示了我們提出的CLIP-BEVFormer算法模型與BEVFormer算法模型的感知結(jié)果可視化對比情況。通過可視化的結(jié)果可以看出,我們提出的CLIP-BEVFormer算法模型的感知結(jié)果與真值目標(biāo)更加的接近,表明我們提出的真值BEV特征生成模塊與真值目標(biāo)查詢交互模塊的有效性。

提出的CLIP-BEVFormer算法模型與BEVFormer算法模型感知結(jié)果的可視化對比情況

結(jié)論

在本文中,針對原有的BEVFormer算法當(dāng)中存在的生成BEV特征圖過程中缺少顯示監(jiān)督以及Decoder模塊中Object Query與BEV特征交互查詢的不確定問題,我們提出了CLIP-BEVFormer算法模型,并從算法模型的3D感知性能、目標(biāo)長尾分布以及在傳感器故障的魯棒性等方面進(jìn)行實(shí)驗(yàn),大量的實(shí)驗(yàn)結(jié)果表明我們提出的CLIP-BEVFormer算法模型的有效性。

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2024-03-20 15:53:28

模型技術(shù)

2024-04-24 11:23:11

3D檢測雷達(dá)

2024-07-30 09:14:13

模型數(shù)據(jù)

2015-10-12 10:37:42

學(xué)習(xí)算法檢測

2023-09-05 10:16:02

Java框架

2023-10-17 14:35:22

人工智能AI

2011-11-03 10:07:09

ASP.NET

2021-10-12 09:31:22

算法模型技術(shù)

2024-06-07 09:22:27

2025-02-17 08:58:06

2024-07-05 10:38:15

SOTA目標(biāo)檢測

2025-04-08 09:10:00

模型訓(xùn)練AI

2023-12-13 13:04:55

CLIPRGB模型

2021-10-25 10:23:49

Webpack 前端Tree shakin

2021-08-17 14:32:57

大數(shù)據(jù)稅務(wù)數(shù)據(jù)分析

2010-11-16 14:59:39

Oracle顯式游標(biāo)

2025-03-03 05:00:00

DiffUCD擴(kuò)散模型SOTA

2022-01-21 15:33:56

架構(gòu)模型AI

2021-09-27 08:16:38

Webpack 前端Cache

2013-05-22 09:38:03

GoGo語言Go性能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)