BEVNet,一個多攝像頭在BEV視圖的3-D目標檢測方法
arXiv在2021年12月“BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View“,作者是北京鑒智機器人公司。
自主駕駛能夠感知周圍環(huán)境進行決策,這是視覺感知最復雜的應用場景之一。本文提出BEVDet,根據在鳥瞰視圖(BEV)中檢測3D目標,因為BEV能方便地執(zhí)行路線規(guī)劃(route planning)。其包括四類模塊:在圖像視圖編碼特征的圖像視圖編碼器、將特征從圖像視圖轉換為BEV的視圖轉換器、在BEV中進一步編碼特征的BEV編碼器以及用于預測BEV中目標(target)的任務特定頭。只需重復使用現(xiàn)有的模塊來構建BEVDet,并通過構建專用的數據增強策略用于多攝像機3D目標檢測。
BEVDet如圖所示:圖像視圖編碼器,包括主干和頸部,用于圖像特征提取;視圖轉換器將特征從圖像視圖轉換為BEV;BEV編碼器進一步編碼BEV特征;最后,基于BVE特征構建特定于任務的頭部,并預測3D目標的目標值(target values)。
如下表是BEVDet的幾個變型:
圖像像素點加深度,可以得到其3-D空間坐標:
文章采用一個數據增強策略,即變換A:
那么為保持圖像像素與三維空間對應點之間的一致性,在視圖變換過程中應采用A逆,即:
在BEV空間中的學習,數據量少于圖像視圖空間的數據量,因為每個樣本包含多個攝像機圖像(例如,nuScenses基準數據的每個樣本包含6個圖像)。因此,BEV空間中的學習容易陷入過擬合。在增強角度看,視圖變換器將兩個視圖空間隔離,為此構建另一個增強策略,專門為BEV空間學習的正則化。二維空間的常見數據擴充操作包括翻轉、縮放和旋轉。在實踐中,這些操作同時在視圖轉換器的輸出特征和三維目標檢測的目標上進行,保持其空間一致性。值得注意的是,這種數據增強策略建立于這樣的前提,即視圖轉換器解耦圖像視圖編碼器與后續(xù)模塊。
實驗結果如下: