遙遙領(lǐng)先!BEVHeight++:針對路側(cè)視覺3D目標(biāo)檢測新方案!
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
回歸到地面的高度,以實現(xiàn)距離不可知的公式,從而簡化僅相機感知方法的優(yōu)化過程。在路側(cè)camera的3D檢測基準(zhǔn)上,方法大大超過了以前所有以視覺為中心的方法。它比BEVDepth產(chǎn)生了+1.9%的NDS和+1.1%的mAP的顯著改善。在nuScenes測試集上,方法取得了實質(zhì)性的進步,NDS和mAP分別增加了+2.8%和+1.7%。
題目:BEVHeight++: Toward Robust Visual Centric 3D Object Detection
論文鏈接:https://arxiv.org/pdf/2309.16179.pdf
作者單位:清華大學(xué),中山大學(xué),菜鳥網(wǎng)絡(luò),北京大學(xué)
出自國內(nèi)首個自動駕駛社區(qū):終于完成了20+技術(shù)方向?qū)W習(xí)路線的搭建(BEV感知/3D檢測/多傳感器融合/SLAM與規(guī)劃等)
雖然最近的自動駕駛系統(tǒng)專注于開發(fā)自車輛傳感器的感知方法,但人們往往忽視了一種利用智能路邊攝像頭將感知能力擴展到視覺范圍之外的替代方法。作者發(fā)現(xiàn),最先進的以視覺為中心的BEV檢測方法在路邊攝像頭上的性能較差。這是因為這些方法主要集中在恢復(fù)關(guān)于相機中心的深度,在相機中心,汽車和地面之間的深度差隨著距離的增加而迅速縮小。在本文中,作者提出了一種簡單而有效的方法,稱為BEVHeight++,來解決這個問題。本質(zhì)上,作者回歸到地面的高度,以實現(xiàn)距離不可知的公式,從而簡化僅相機感知方法的優(yōu)化過程。通過結(jié)合高度和深度編碼技術(shù),實現(xiàn)了從2D到BEV空間的更準(zhǔn)確和穩(wěn)健的投影。在路邊攝像頭的流行3D檢測基準(zhǔn)上,方法大大超過了以前所有以視覺為中心的方法。就自車輛場景而言,BEVHeight++具有優(yōu)于僅深度的方法。
具體而言,在nuScenes驗證集上進行評估時,它比BEVDepth產(chǎn)生了+1.9%的NDS和+1.1%的mAP的顯著改善。此外,在nuScenes測試集上,方法取得了實質(zhì)性的進步,NDS和mAP分別增加了+2.8%和+1.7%。
圖1:(a)為了從單目圖像中產(chǎn)生3D邊界框,最先進的方法首先顯式或隱式地預(yù)測每像素深度,以確定前景對象與背景的3D位置。然而,當(dāng)我們在圖像上繪制每像素深度時,我們注意到,當(dāng)汽車遠離相機時,車頂和周圍地面上的點之間的差異會迅速縮小,這使得優(yōu)化變得次優(yōu),尤其是對于遠處的物體。(b) 相反,我們繪制了到地面的每像素高度,并觀察到無論距離如何,這種差異都是不可知的,并且在視覺上更適合網(wǎng)絡(luò)檢測目標(biāo)。然而,不能僅通過預(yù)測高度來直接回歸3D位置。(c) 為此,我們提出了一個新的框架BEVHeight++來解決這個問題。經(jīng)驗結(jié)果表明,我們的方法在干凈設(shè)置上超過了最佳方法5.49%,在嘈雜設(shè)置上超過28.2%。
網(wǎng)絡(luò)結(jié)構(gòu)
預(yù)測高度和深度的比較。(a) 概述了以前基于深度的方法和我們提出的基于高度的管道。請注意,本文提出了一種新穎的2D到3D投影模塊。(b) 繪制每像素深度(頂部)和地面高度(底部)的直方圖,可以清楚地觀察到,深度范圍超過200米,而高度在5米以內(nèi),這使得高度更容易學(xué)習(xí)。
目標(biāo)在圖像上的行坐標(biāo)與其深度和高度之間的相關(guān)性。目標(biāo)在圖像中的位置,可以定義為(u,v),v坐標(biāo)表示圖像的行坐標(biāo)。(a) 噪聲設(shè)置的視覺示例,在正態(tài)分布中添加沿滾轉(zhuǎn)和俯仰方向的旋轉(zhuǎn)偏移。(b) 是深度分布的散點圖。(c) 是指離地高度??梢园l(fā)現(xiàn),與深度相比,高度的噪聲設(shè)置與其原始分布有更大的重疊,這表明高度估計更具魯棒性。
BEVHeight++的總體框架,檢測器由三個子網(wǎng)絡(luò)組成,分別是基于深度的分支(青色)、基于高度的分支(綠色)和特征融合過程(灰色)。基于深度的pipeline使用估計的每像素深度來將圖像視圖特征提升為基于深度的BEV特征(基于D的BEV)。基于高度的pipeline將對圖像視圖中升力特征的地面高度預(yù)測應(yīng)用于基于高度的BEV特征(基于H的BEV)。特征融合包括圖像融合和鳥瞰融合。圖像-視圖融合通過級聯(lián)高度分布和圖像特征來獲得融合的特征,這些特征用于后續(xù)的提升操作。鳥瞰圖融合通過可變形交叉注意力從基于高度的BEV特征和基于深度的BEV特性中獲得融合的BEV特點,然后將其用作檢測頭的輸入。
實驗結(jié)果
原文鏈接:https://mp.weixin.qq.com/s/AdCXYzHIy2lTfAHk2AZ4_w