自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DualBEV:大幅超越BEVFormer、BEVDet4D,開卷!

人工智能 智能汽車
DualBEV成功地提升了多個關鍵性能指標,特別是在鳥瞰圖(BEV)的精度和場景理解方面。

本文經(jīng)自動駕駛之心公眾號授權轉載,轉載請聯(lián)系出處。

圖片

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特征,這一轉換是通過視覺轉換(VT)模塊實施的?,F(xiàn)有的方法大致分為兩種策略:2D到3D和3D到2D轉換。2D到3D的方法通過預測深度概率來提升密集的2D特征,但深度預測的固有不確定性,尤其是在遠處區(qū)域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來采樣2D特征,并通過Transformer學習3D和2D特征之間對應關系的注意力權重,這增加了計算和部署的復雜性。

圖片

論文指出,現(xiàn)有的方法如HeightFormer和FB-BEV嘗試結合這兩種VT策略,但這些方法通常采用兩階段策略,由于雙VT的特征轉換不同,受到初始特征性能的限制,從而阻礙了雙VT之間的無縫融合。此外,這些方法在實現(xiàn)自動駕駛的實時部署方面仍面臨挑戰(zhàn)。

針對這些問題,論文提出了一種統(tǒng)一的特征轉換方法,適用于2D到3D和3D到2D的視覺轉換,通過三種概率測量來評估3D和2D特征之間的對應關系:BEV概率、投影概率和圖像概率。這一新方法旨在減輕BEV網(wǎng)格中空白區(qū)域對特征構建的影響,區(qū)分多個對應關系,并在特征轉換過程中排除背景特征。

通過應用這種統(tǒng)一的特征轉換,論文探索了使用卷積神經(jīng)網(wǎng)絡(CNN)進行3D到2D視覺轉換的新方法,并引入了稱為HeightTrans的方法。除了展示了其卓越的性能外,還展示了通過預計算加速的潛力,使其適用于實時自動駕駛應用。同時,通過整合這種特征轉換,增強了傳統(tǒng)的LSS流程,展示了其對當前檢測器的普適性。

結合HeightTrans和Prob-LSS,論文介紹了DualBEV,這是一種創(chuàng)新的方法,它在一階段內就考慮并融合了來自BEV和透視視圖的對應關系,消除了對初始特征的依賴。此外,提出了一個強大的BEV特征融合模塊,稱為雙特征融合(DFF)模塊,通過利用通道注意力模塊和空間注意力模塊,進一步幫助精細化BEV概率預測。DualBEV遵循“廣泛輸入,嚴格輸出”的原則,通過利用精確的雙視圖概率對應關系來理解和表示場景的概率分布。

論文的主要貢獻如下:

  1. 揭示了3D到2D和2D到3D視覺轉換之間的內在相似性,并提出了一種統(tǒng)一的特征轉換方法,能夠從BEV和透視視圖兩個方面準確建立對應關系,顯著縮小了雙策略之間的差距。
  2. 提出了一種新的基于CNN的3D到2D視覺轉換方法HeightTrans,通過概率采樣和查找表的預計算,有效且高效地建立精確的3D-2D對應關系。
  3. 引入了DFF用于雙視圖特征融合,這種融合策略在一階段內捕獲近遠區(qū)域的信息,從而生成全面的BEV特征。
  4. 他們的高效框架DualBEV在nuScenes測試集上實現(xiàn)了55.2%的mAP和63.4%的NDS,即使沒有使用Transformer,也突顯了捕獲精確雙視圖對應關系對視圖轉換的重要性。

通過這些創(chuàng)新,論文提供了一種克服現(xiàn)有方法限制,實現(xiàn)高效、準確物體檢測的新策略,特別是在自動駕駛等實時應用場景中。

詳解DualBEV

圖片

這篇論文提出的方法旨在通過統(tǒng)一的特征轉換框架,DualBEV,解決自動駕駛中的BEV(鳥瞰圖)對象檢測問題。以下是方法部分的主要內容,概括了其不同子部分和關鍵創(chuàng)新。

DualBEV概述

DualBEV的處理流程從多個相機獲取的圖像特征  開始,接著使用SceneNet生成實例mask  和深度圖 . 接下來,通過HeightTrans模塊和Prob-LSS流水線提取和轉換特征,最后這些特征被融合并用于預測BEV空間的概率分布 ,以得到最終的BEV特征 ,用于后續(xù)任務。

HeightTrans

HeightTrans是基于3D到2D視覺轉換的原理,通過選擇3D位置并投影到圖像空間,以及評估這些3D-2D對應關系。這個方法首先在預定義的BEV圖中采樣一組3D點,然后仔細考慮和過濾這些對應關系以生成BEV特征。HeightTrans通過采用多分辨率采樣策略和概率采樣方法來增強對小物體的關注,并解決背景像素帶來的誤導問題。此外,通過引入BEV概率  來解決空白BEV網(wǎng)格的問題。HeightTrans模塊是論文提出的關鍵技術之一,專注于通過3D到2D視覺轉換(VT)來處理和轉換特征。它基于從預定義的鳥瞰圖(BEV)地圖中選擇3D位置,并將這些位置投影到圖像空間,從而評估3D和2D之間的對應關系。以下是HeightTrans工作原理的詳細介紹:

BEV Height

HeightTrans方法在處理高度時采用了一種多分辨率采樣策略,覆蓋整個高度范圍(從-5米到3米),在興趣區(qū)域(ROI,定義為-2米到2米內)的分辨率為0.5米,在此范圍外的分辨率為1.0米。這種策略有助于增加對小物體的關注,這些小物體可能會在更粗糙的分辨率采樣中被遺漏。

Prob-Sampling

HeightTrans在概率采樣方面采用了以下步驟:

  1. 定義3D采樣點:預定義一組3D采樣點 ,每個點由其在3D空間中的位置  定義。
  2. 投影到2D空間:利用相機的外參矩陣  和內參矩陣 ,將3D點投影到2D圖像空間中的點 ,其中  表示點的深度。
  3. 特征采樣:使用雙線性網(wǎng)格采樣器  在投影位置  處采樣圖像特征 
  4. 利用實例mask:為了避免投影位置落在背景像素上,利用SceneNet生成的實例mask  來代表圖像概率 ,并將其應用于圖像特征,以減少誤導性信息的影響:
  5. 處理多重對應關系:使用三線性網(wǎng)格采樣器  在深度圖  中評估多個3D點映射到同一2D位置的情況,即投影概率 
  6. 引入BEV概率:為了解決BEV網(wǎng)格中空白格不提供有用信息的問題,引入BEV概率  來表示BEV網(wǎng)格的占用概率,其中  是BEV空間中的位置:

加速

通過預計算3D點在BEV空間中的索引,并在推理期間固定圖像特征索引和深度圖索引,HeightTrans能夠加速視覺轉換過程。最終的HeightTrans特征通過對每個BEV網(wǎng)格中預定義

Prob-LSS

Prob-LSS擴展了傳統(tǒng)的LSS(Lift, Splat, Shoot)管道,通過預測每個像素的深度概率來促進其投影到BEV空間。該方法進一步整合了BEV概率,通過以下公式構建LSS特征:

這樣做可以更好地處理深度估計中的不確定性,從而減少BEV空間中的冗余信息。

雙特征融合(Dual Feature Fusion, DFF)

DFF模塊旨在融合來自HeightTrans和Prob-LSS的特征,并有效地預測BEV概率。通過結合通道注意力模塊和空間注意力增強的ProbNet,DFF能夠優(yōu)化特征選擇和BEV概率預測,以增強對近處和遠處對象的表征。這種融合策略考慮了來自兩個流的特征的互補性,同時也通過計算局部和全局注意力來增強BEV概率的準確性。

總之,這篇論文提出的DualBEV框架通過結合HeightTrans和Prob-LSS,以及創(chuàng)新的雙特征融合模塊,實現(xiàn)了對3D和2D特征之間對應關系的高效評估和轉換。這不僅橋接了2D到3D和3D到2D轉換策略之間的差距,而且還通過預計算和概率測量加速了特征轉換過程,使其適合實時自動駕駛應用。

該方法的關鍵在于對不同視角下的特征進行精確對應和高效融合,從而在BEV對象檢測中實現(xiàn)了出色的性能。

實驗

圖片

DualBEV方法的變體(帶星號的DualBEV* )在單幀輸入條件下表現(xiàn)最佳,達到了35.2%的mAP和42.5%的NDS,這表明它在準確性和綜合性能上都超過了其他方法。特別是在mAOE上,DualBEV*實現(xiàn)了0.542的分數(shù),這是單幀方法中最好的。然而,它在mATE和mASE上的表現(xiàn)并沒有明顯優(yōu)于其他方法。

當輸入幀數(shù)增加到兩幀時,DualBEV的表現(xiàn)進一步提升,mAP達到38.0%,NDS達到50.4%,這是所有列出方法中最高的NDS,表明DualBEV在處理更復雜的輸入時能夠更全面地理解場景。在多幀方法中,它在mATE、mASE、和mAAE上也展現(xiàn)了較強的性能,特別是在mAOE上有明顯的改善,顯示出其在估計物體方向上的優(yōu)勢。

從這些結果可以分析得出,DualBEV及其變體在多個重要的性能指標上均有出色表現(xiàn),尤其是在多幀設置下,表明其對BEV對象檢測任務具有較好的準確性和魯棒性。此外,這些結果還強調了使用多幀數(shù)據(jù)的重要性,可以提高模型的整體性能和估計準確性。

圖片

下面是對各個消融實驗結果的分析:

  • 添加ProbNet、HeightTrans、CAF(Channel Attention Fusion)、SAE(Spatial Attention Enhanced)等組件逐步提升了Baseline的性能。
  • HeightTrans的加入顯著提高了mAP和NDS,這表明在視覺轉換中引入高度信息是有效的。
  • CAF進一步提升了mAP,但略微增加了延遲。
  • SAE的引入提升了NDS到最高的42.5%,同時對mAP也有提升,說明空間注意力機制有效地增強了模型性能。
  • 不同的概率措施(投影概率 ,圖像概率 ,BEV概率 )逐步加入對比試驗。
  • 當全部三種概率同時使用時,模型達到了最高的mAP和NDS,這表明這些概率的結合對于模型性能至關重要。
  • Prob-Sampling在相似的延遲下(0.32ms),比其他的VT操作具有更高的NDS(39.0%),這強調了概率采樣在性能上的優(yōu)越性。
  • 多分辨率(MR)采樣策略相對于均勻采樣策略,在使用相同數(shù)量的采樣點時能達到相似或更好的性能。
  • 通過將投影概率、圖像概率和BEV概率加入到LSS流程,Prob-LSS的表現(xiàn)超過了其他的LSS變體,提高了mAP和NDS,顯示了結合這些概率的有效性。
  • 與多階段的精細化(Refine)策略相比,單階段的添加(Add)策略和DFF模塊都能取得更高的NDS,而DFF在mAP上也有輕微的提升,這表明DFF作為一種單階段的融合策略,在效率和性能上都是有益的。

消融實驗表明了HeightTrans、概率措施、Prob-Sampling和DFF等組件及策略對提高模型性能至關重要。此外,多分辨率采樣策略在高度信息上的使用也證明了其有效性。這些發(fā)現(xiàn)支持了作者在方法部分提出的每一項技術都對模型性能有正面貢獻的論點。

討論

圖片

這篇論文通過一系列消融實驗展示了其方法的性能。從實驗結果可以看出,論文提出的DualBEV框架和它的各個組成部分均對提高鳥瞰圖(BEV)對象檢測的準確性具有積極影響。

論文的方法通過將ProbNet、HeightTrans、CAF(Channel Attention Fusion)、和SAE(Spatial Attention Enhanced)模塊逐步引入到基線模型中,顯示出在mAP和NDS兩個指標上均有顯著提升,這證明了每個組件在整個架構中都發(fā)揮了重要作用。尤其是引入SAE后,NDS得分提高到了最高點42.5%,同時延遲只有輕微增加,這表明了該方法在精度和延遲之間取得了良好的平衡。

概率消融實驗結果進一步證實了投影概率、圖像概率和BEV概率在提高檢測性能方面的重要性。當這些概率被逐一引入時,系統(tǒng)的mAP和NDS得分穩(wěn)步提升,這表明了將這些概率措施集成到BEV對象檢測任務中的重要性。

在視覺轉換(VT)操作的比較中,論文提出的Prob-Sampling方法與其他操作如SCAda和Bilinear-Sampling相比,顯示出較低的延遲和更高的NDS得分,這強調了其在效率和性能上的優(yōu)勢。此外,對于不同的高度采樣策略,采用多分辨率(MR)策略而不是統(tǒng)一采樣能夠進一步提高NDS得分,這表明了考慮場景中不同高度的信息對于提升檢測性能的重要性。

此外,對于不同的特征融合策略,論文展示了DFF方法在簡化模型的同時,依然能夠維持高NDS得分的能力,這意味著在一階段處理流程中融合雙流特征是有效的。

然而,盡管論文提出的方法在多個方面表現(xiàn)出色,每項改進也都會導致系統(tǒng)復雜度和計算成本的增加。例如,每引入一個新的組件(如ProbNet、HeightTrans等),系統(tǒng)的延遲都會有所增加,盡管延遲的增加是微小的,但在實時或低延遲要求的應用中,這可能成為考慮因素。此外,雖然概率措施有助于性能提升,但也需要額外的計算資源來估計這些概率,可能導致更高的資源消耗。

論文提出的DualBEV方法在提高BEV對象檢測的精度和綜合性能方面取得了顯著的成果,特別是在將深度學習的最新進展與視覺轉換技術相結合的方面。但這些進步是以輕微增加計算延遲和資源消耗為代價的,實際應用時需要根據(jù)具體情況權衡這些因素。

結論

該方法在BEV對象檢測任務中表現(xiàn)出色,顯著提高了準確性和綜合性能。通過引入概率采樣、高度轉換、注意力機制和空間關注增強網(wǎng)絡,DualBEV成功地提升了多個關鍵性能指標,特別是在鳥瞰圖(BEV)的精度和場景理解方面。實驗結果表明,論文的方法在處理復雜場景和不同視角數(shù)據(jù)時尤為有效,這對于自動駕駛和其他實時監(jiān)控應用至關重要。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2024-04-24 11:23:11

3D檢測雷達

2024-03-26 09:27:56

算法3D

2023-09-15 11:01:51

人工智能

2011-04-21 10:14:55

Firefox 4

2024-06-11 09:20:48

2024-06-11 14:53:19

2010-02-06 09:27:17

Opera 10.5

2010-04-21 09:23:09

.NET 4

2022-06-23 15:54:15

NLP訓練

2022-01-11 10:59:46

智能自動駕駛汽車

2021-12-24 10:00:19

自動駕駛數(shù)據(jù)汽車

2023-11-29 13:52:00

模型訓練

2024-12-03 09:36:52

2024-04-08 10:12:20

GPT4AgentAI

2024-03-27 13:32:00

AI數(shù)據(jù)

2024-10-17 10:28:23

2025-03-11 13:13:28

2013-06-24 18:04:37

LTE-Advance5G4G
點贊
收藏

51CTO技術棧公眾號