超越BEVFusion!Lift-Attend-Splat:最新BEV LV融合方案
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
論文:Lift-Attend-Splat: Bird’s-eye-view camera-lidar fusion using transformers
鏈接:https://arxiv.org/pdf/2312.14919.pdf
結(jié)合互補(bǔ)的傳感器模態(tài)對(duì)于為自動(dòng)駕駛等安全關(guān)鍵應(yīng)用提供強(qiáng)大的感知至關(guān)重要。最近最先進(jìn)的自動(dòng)駕駛相機(jī)-激光雷達(dá)融合方法依賴于單目深度估計(jì),與直接使用激光雷達(dá)的深度信息相比,這是一項(xiàng)困難任務(wù)。在這里,我們發(fā)現(xiàn)這種方法并沒有像預(yù)期的那樣利用深度,并表明天真地改進(jìn)深度估計(jì)并不能提高目標(biāo)檢測(cè)性能,而且令人驚訝的是,完全消除深度估計(jì)并不會(huì)降低目標(biāo)檢測(cè)性能。
這表明,在相機(jī)-激光雷達(dá)融合過程中,依賴單目深度可能是一個(gè)不必要的架構(gòu)瓶頸。本文介紹了一種新的融合方法,該方法完全繞過單目深度估計(jì),而是使用簡(jiǎn)單的注意力機(jī)制在BEV網(wǎng)格中選擇和融合相機(jī)和激光雷達(dá)的特征。論文表明,提出的模型可以根據(jù)激光雷達(dá)特征的可用性調(diào)整其對(duì)相機(jī)特征的使用,并且它在nuScenes數(shù)據(jù)集上比依賴于單目深度估計(jì)的基線產(chǎn)生更好的3D檢測(cè)性能。
本文介紹了一種新的相機(jī)-激光雷達(dá)融合方法,稱為“Lift Attented Splat”,該方法完全繞過單目深度估計(jì),而是使用簡(jiǎn)單的transformer在BEV中選擇和融合相機(jī)和激光雷達(dá)特征。證據(jù)表明,與基于Monocular深度估計(jì)的方法相比,本文的方法顯示出更好的相機(jī)利用率,并提高了物體檢測(cè)性能。貢獻(xiàn)如下:
- 基于Lift Splat范式的相機(jī)-激光雷達(dá)融合方法并沒有像預(yù)期的那樣利用深度。特別地,我們表明,如果完全去除單目深度預(yù)測(cè),它們的性能相當(dāng)或更好。
- 本文介紹了一種新的相機(jī)-激光雷達(dá)融合方法,該方法使用簡(jiǎn)單的注意力機(jī)制融合純BEV中的相機(jī)和激光雷達(dá)特征。論文證明,與基于Lift Splat范式的模型相比,它可以更好地利用相機(jī),并提高3D檢測(cè)性能。
主要結(jié)構(gòu)介紹
Lift Splat深度預(yù)測(cè)通常較差,通過使用絕對(duì)相對(duì)誤差(Abs.Rel.)和均方根誤差(RMSE)將其與激光雷達(dá)深度圖進(jìn)行定性和定量比較,來分析BEVFusion預(yù)測(cè)的深度質(zhì)量。如圖1所示,深度預(yù)測(cè)不能準(zhǔn)確反映場(chǎng)景的結(jié)構(gòu),并且與激光雷達(dá)深度圖明顯不同,后者表明單目深度沒有如預(yù)期的那樣得到利用。論文還進(jìn)行了研究,改進(jìn)深度預(yù)測(cè)并不能提高檢測(cè)性能!完全取消深度預(yù)測(cè)不會(huì)影響物體檢測(cè)性能。
我們提出了一種相機(jī)-激光雷達(dá)融合方法,該方法完全繞過單目深度估計(jì),而是使用簡(jiǎn)單的transformer在鳥瞰圖中融合相機(jī)和激光雷達(dá)特征。然而,由于大量的相機(jī)和激光雷達(dá)特征以及注意力的二次性,transformer架構(gòu)很難簡(jiǎn)單地應(yīng)用于相機(jī)-激光雷達(dá)融合問題。在BEV中投影相機(jī)特征時(shí),可以使用問題的幾何形狀來大幅限制注意力的范圍,因?yàn)橄鄼C(jī)特征應(yīng)該只對(duì)沿其相應(yīng)光線的位置有貢獻(xiàn)。我們將這一想法應(yīng)用于相機(jī)-激光雷達(dá)融合的情況,并介紹了一種簡(jiǎn)單的融合方法,該方法使用相機(jī)平面中的柱和激光雷達(dá)BEV網(wǎng)格中的極射線之間的交叉注意力!交叉注意力不是預(yù)測(cè)單目深度,而是在激光雷達(dá)特征沿著其光線提供的背景下,學(xué)習(xí)哪些相機(jī)特征是最顯著的。
除了在BEV中投影相機(jī)特征外,我們的模型與基于Lift Splat范式的方法具有相似的總體架構(gòu),如下圖所示。它由以下模塊組成:相機(jī)和激光雷達(dá)主干,獨(dú)立生成每個(gè)模態(tài)的特征;投影和融合模塊,將相機(jī)特征嵌入BEV并與激光雷達(dá)融合;最后是檢測(cè)頭。當(dāng)考慮目標(biāo)檢測(cè)時(shí),模型的最終輸出是場(chǎng)景中目標(biāo)的屬性,表示為具有位置、維度、方向、速度和分類信息的3D邊界框。
Lift Attented Splat相機(jī)激光雷達(dá)融合架構(gòu)如下所示。(左)總體架構(gòu):相機(jī)和激光雷達(dá)主干的特征在傳遞到檢測(cè)頭之前融合在一起。(inset)我們的3D投影的幾何結(jié)構(gòu):“Lift”步驟通過使用雙線性采樣沿z方向提升激光雷達(dá)特征,將激光雷達(dá)BEV特征嵌入投影地平線?!皊plat”步驟對(duì)應(yīng)于逆變換,因?yàn)樗褂秒p線性采樣將特征從投影的地平線投影回BEV網(wǎng)格,再次沿著z方向!右邊是project模塊的細(xì)節(jié)部分。
實(shí)驗(yàn)結(jié)果
原文鏈接:https://mp.weixin.qq.com/s/D7xgvrp8633S2SeUfCRFXQ