超越Stream PETR!BEVNeXt:重塑密集BEV感知新框架
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
寫在前面&&筆者的個人理解
目前基于純相機(jī)的自動駕駛3D感知算法也可以按照2D目標(biāo)檢測的技術(shù)路線分為包含后處理的感知算法和不需要后處理(端到端)的感知算法。
諸如BEVDet這類密集檢測的感知算法會在BEV特征的每個單元網(wǎng)格上利用3D Head來輸出相應(yīng)的感知結(jié)果,這就導(dǎo)致這類密集檢測的感知結(jié)果最后需要利用3D NMS等后處理操作來抑制掉重復(fù)的檢測框。
但是仿照2D目標(biāo)檢測中End-to-End的方法,在自動駕駛感知算法中也有Query-Based的檢測算法,利用Transformer的Decoder模塊直接輸出最終的檢測結(jié)果,省去了NMS后處理的操作。
雖然,目前這類Query-Based的算法模型的感知性能正在逐漸逼近或者超過BEV-Based的感知模型。但是,作者認(rèn)為BEV-Based的感知算法相比于Query-Based的感知算法而言,更加的有利于對于整體的場景理解,因?yàn)锽EV-Based的感知算法會對車身周圍的前景區(qū)域或者背景區(qū)域均輸出相應(yīng)的語義特征。
同時,作者認(rèn)為BEV-Based的算法目前落后于Query-Based的算法主要是由于缺少更加先進(jìn)的網(wǎng)絡(luò)設(shè)計和訓(xùn)練技巧?;诖?,作者將目前經(jīng)典的BEV-Based算法進(jìn)行分析,并總結(jié)出了三條缺點(diǎn),列舉如下:
- 2D建模還不夠不充分
在BEV-Based的感知算法當(dāng)中,通常會利用一個由激光雷達(dá)采集的點(diǎn)云信號進(jìn)行監(jiān)督的深度估計網(wǎng)絡(luò)來提高模型的2D建模能力。但是采集的點(diǎn)云信號很大程度上會受到激光雷達(dá)分辨率的限制,從而造成模型對于深度的感知不夠準(zhǔn)確,影響模型的感知性能。 - 時序建模能力還比較差
目前,基于BEV框架的感知算法對于時序的建模能力依舊比較有限,但是對于時序信息的理解對于自動駕駛感知算法而言卻是非常重要的一環(huán)。在時序建模的過程中,當(dāng)自車以及周圍的物體在不斷運(yùn)動時,建立一個大感受野對于時序信息的融合是至關(guān)重要的。 - 投影轉(zhuǎn)換中的特征失真
在基于BEV-Based的算法當(dāng)中,在進(jìn)行不同坐標(biāo)系之間的坐標(biāo)轉(zhuǎn)換,或者特征圖分辨率的變換過程中特征圖的失真是非常容易發(fā)生的一件事情。而特征的失真問題對于自動駕駛的感知性能影響很非常大。
基于上述提到的幾點(diǎn)問題,作者提出了一個更加先進(jìn)的BEV-Based的算法模型,即BEV-NeXt。
論文的arxiv鏈接:https://arxiv.org/pdf/2312.01696.pdf
BEVNeXt算法流程
BEVNeXt是基于現(xiàn)有的LSS算法基礎(chǔ)上構(gòu)建起來的。BEVNeXt算法模型的整體框圖如下所示。
BEVNeXt算法模型的整體網(wǎng)絡(luò)結(jié)構(gòu)
通過上圖可知,BEVNeXt算法模型主要由三個子模塊組成,分別是BEV Generation模塊,BEV Encoder模塊以及Detection Head模塊。下面依次為大家介紹各個模塊的功能及用途。
BEV Generation模塊
首先針對網(wǎng)絡(luò)模型輸入的六張環(huán)視圖像,利用2D主干網(wǎng)絡(luò)提取輸入環(huán)視圖像的多尺度特征。論文中提取到的多尺度特征分別是原始輸入圖像的降采樣4倍、8倍、16倍、32倍的特征結(jié)果。
接下來會將主干網(wǎng)絡(luò)提取到的多尺度特征送入到深度估計網(wǎng)絡(luò)Depth Net中預(yù)測離散的深度概率分布。然后利用論文中提出的Conditional Random Fields(CRF)利用輸入圖像的色彩信息對估計出來的深度信息進(jìn)行調(diào)制,從而得到調(diào)制后的深度概率估計。接下來讓我們來看看CRF-Modulated子模塊具體是怎么來實(shí)現(xiàn)的。
- CRF-Modulated深度估計子模塊
在基于BEV-Based的感知算法當(dāng)中,對物體的深度信息進(jìn)行估計可以幫助模型提高對于2D的建模能力。論文中指出提高2D的建模能力可以緩解模型在構(gòu)建BEV特征過程中的失真問題。
因此對于純視覺的感知任務(wù)而言,獲取準(zhǔn)確和高精度的深度估計對于模型的定位能力是非常有幫助的。因此論文中將深度估計看作是一個語義分割任務(wù),并利用Conditional Random Fields(CRF)來增強(qiáng)模型的深度估計能力。
具體而言,論文中希望施加顏色平滑的方法來調(diào)制深度估計,從而緩解2D深度估計的不足實(shí)現(xiàn)在像素級別執(zhí)行深度的一致性功能。
假設(shè)代表降采樣特征圖所包含的個像素,代表需要估計的個離散的深度信息。而深度估計網(wǎng)絡(luò)的目標(biāo)就是為每一個像素值分配對應(yīng)的離散深度,用數(shù)學(xué)公式表示為。所以最終所需要優(yōu)化的目標(biāo)就是使得相應(yīng)的Energy Cost最小,代價公式計算方式如下:其中,公式里的
用來衡量與深度估計網(wǎng)絡(luò)初始輸出的代價損失。而其具體的衡量公式如下所示:
其中,和代表圖像塊的平均RGB色彩像素值,表示兩個離散的深度網(wǎng)格之間的label兼容性,用來衡量其在現(xiàn)實(shí)世界中的實(shí)際距離。
最后利用View Transformer結(jié)合提取出來的多尺度圖像特征以及調(diào)制后的離散深度概率值來構(gòu)建最終當(dāng)前T時刻的BEV特征。
BEV Encoder模塊
論文中設(shè)計的BEV Encoder模塊用于融合過去K幀計算得到的歷史BEV特征信息。由于前文已經(jīng)提到了,在時序信息融合的過程當(dāng)中需要足夠大的感受野來獲取自車周圍運(yùn)動的目標(biāo)特征信息。而這一過程是通過論文提出的Res2Fusion子網(wǎng)絡(luò)來實(shí)現(xiàn)的。
- Res2Fusion子網(wǎng)絡(luò)
作者認(rèn)為將當(dāng)前時刻的BEV特征與歷史幀的BEV特征進(jìn)行融合有助于提高模型對于動態(tài)物體的感知能力。然而,在BEV空間擴(kuò)展模型的感受野是非常有挑戰(zhàn)性的,如果簡單的擴(kuò)大卷積核的大小不僅會增加模型的計算量還會增加模型的過擬合風(fēng)險。
為此,論文中是提出了Res2Fusion子網(wǎng)絡(luò),該部分的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示
Res2Fusion子網(wǎng)絡(luò)整體網(wǎng)絡(luò)結(jié)構(gòu)
針對當(dāng)前幀以及前K個時刻的歷史BEV特征信息,首先以窗口大小為尺寸將所有BEV特征分成組。然后利 用卷積降低每組特征的通道數(shù),該部分可以表示成
再降低通道數(shù)之后,再采用多尺度卷積操作進(jìn)行特征提取從而擴(kuò)大模型的感受野,提高模型對于時序信息的建模能力。該部分的數(shù)學(xué) 表達(dá)式如下:
Detection Head模塊
最后將得到的統(tǒng)一BEV特征,利用Center-Based的3D檢測頭進(jìn)行處理,從而獲取最終的3D感知結(jié)果。但是生成最終檢測結(jié)果的過程當(dāng)中,作者采用CRF-Modulated深度估計子模塊得到的深度估計概率幫助模型區(qū)分不同位置的目標(biāo)特征。
- Perspective Refinement
前文也有提到,將2D的圖像特征利用坐標(biāo)轉(zhuǎn)換關(guān)系變換到3D空間會造成特征的失真問題。所以在本文中,作者利用透視精修的方法來對齊前景區(qū)域的特征。
具體而言,作者利用CenterPoint中的3D檢測頭來獲取目標(biāo)的中心位置,在此中心位置的基礎(chǔ)上考慮大小的鄰域范圍,利用一組可學(xué)習(xí)的查詢,使用可變形注意力來實(shí)現(xiàn)透視精修的過程。為了進(jìn)一步的引入深度信息的指導(dǎo),論文中將CRF-Modulated子網(wǎng)絡(luò)中估計出來的深度信息嵌入到了2D圖像特征當(dāng)中,具體公式如下其中,代表可變形卷積運(yùn)算,是將點(diǎn)Lift到高度后的一組參考點(diǎn)。
實(shí)驗(yàn)
作者在nuScenes數(shù)據(jù)集上來驗(yàn)證提出的算法模型的有效性。通過表格中的結(jié)果可以看出,在采用不同2D Backbone的情況下,BEVNeXt均實(shí)現(xiàn)了非常出色的檢測結(jié)果。
BEVNeXt算法模型在nuScenes val數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比
此外,論文為了更加直觀的展示所提出的CRF-Modulated深度估計網(wǎng)絡(luò)的效果,分別對幾組輸入圖像進(jìn)行了可視化,如下圖所示
Conditional Random Field模塊的可視化效果對比
通過可視化結(jié)果也可以比較清晰的看出,采用了CRF模塊的深度估計更加的準(zhǔn)確,目標(biāo)的邊緣更加的銳利,前景區(qū)域和背景區(qū)域區(qū)分的也更加的明顯,從而證明了所提出的CRF模塊的有效性。
除此之外,論文也通過可視化的方式來驗(yàn)證了提出的Perspective Refinement創(chuàng)新點(diǎn)的有效性。
Perspective Refinement模塊可視化效果對比
通過上面的可視化結(jié)果可以比較清楚的看出,無論是大目標(biāo)還是小目標(biāo)都可以從提出的Perspective Refinement模塊上受益。同時通過進(jìn)一步的細(xì)化,模型在方向上的預(yù)測更加準(zhǔn)確。
總結(jié)
目前雖然Query-Based的算法模型整體感知性能要好于BEV-Based的算法,但是作者將原因歸結(jié)于目前密集BEV-Based檢測模型的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練策略,基于提到的相關(guān)缺點(diǎn),本文介紹的BEVNeXt分別從2D建模能力、時序信息融合、透視精修等角度對BEV-Based的算法模型進(jìn)行增強(qiáng),希望本文可以給大家?guī)韼椭?/p>
原文鏈接:https://mp.weixin.qq.com/s/vPDCMSSW1bp0zZ2d73xYzg


2024-07-10 12:32:48




