Camera or Lidar?如何實現(xiàn)魯棒的3D目標檢測?最新綜述!
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
0. 寫在前面&&個人理解
自動駕駛系統(tǒng)依賴于先進的感知、決策和控制技術(shù),通過使用各種傳感器(如相機、激光雷達、雷達等)來感知周圍環(huán)境,并利用算法和模型進行實時分析和決策。這使得車輛能夠識別道路標志、檢測和跟蹤其他車輛、預測行人行為等,從而安全地操作和適應復雜的交通環(huán)境.這項技術(shù)目前引起了廣泛的關(guān)注,并認為是未來交通領域的重要發(fā)展領域之一。但是,讓自動駕駛變得困難的是弄清楚如何讓汽車了解周圍發(fā)生的事情。這需要自動駕駛系統(tǒng)中的三維物體檢測算法可以準確地感知和描述周圍環(huán)境中的物體,包括它們的位置、形狀、大小和類別。這種全面的環(huán)境意識有助于自動駕駛系統(tǒng)更好地了解駕駛環(huán)境,并做出更精確的決策。
我們?nèi)嬖u估了自動駕駛中3D物體檢測算法的穩(wěn)健性。確定了評估檢測穩(wěn)健性的三個關(guān)鍵因素:環(huán)境變化性、傳感器噪聲和誤對準。這些因素至關(guān)重要,因為它們影響了檢測算法在真實世界多變條件下的表現(xiàn)。
- 環(huán)境變化性: 文章強調(diào)檢測算法需要適應不同的環(huán)境條件,如光照、天氣和季節(jié)的變化。
- 傳感器噪聲: 算法必須有效處理傳感器的噪聲,可能包括攝像機的運動模糊等問題。
- 誤對準: 對于由校準錯誤或其他因素引起的誤對準,算法需要考慮到這些因素,無論是外部的(如不平坦的路面)還是內(nèi)部的(例如系統(tǒng)時鐘誤對準)。
還深入探討了性能評估的三個關(guān)鍵領域:準確性、延遲和穩(wěn)健性。
- 準確性:盡管研究通常將準確性作為關(guān)鍵性能指標,但在復雜和極端條件下的表現(xiàn)需要更深入的理解,以確保真實世界的可靠性。
- 延遲: 自動駕駛中的實時能力至關(guān)重要。檢測方法的延遲影響系統(tǒng)及時決策的能力,特別是在緊急情況下。
- 穩(wěn)健性: 呼吁對系統(tǒng)在不同條件下的穩(wěn)定性進行更全面的評估,因為許多當前的評估可能沒有完全考慮到真實世界場景的多樣性。
在分析中,論文指出了多模態(tài)3D檢測方法在安全感知方面的顯著優(yōu)勢。這些方法結(jié)合了來自不同傳感器的數(shù)據(jù),為自動駕駛系統(tǒng)提供了更豐富、更多樣化的感知能力。
1. 數(shù)據(jù)集
上述概述了自動駕駛系統(tǒng)中用于3D物體檢測的數(shù)據(jù)集,重點在于評估不同傳感器模式下的優(yōu)勢和局限性,以及公共數(shù)據(jù)集的特點。
首先,表格展示了camera、點云和多模態(tài)(相機和激光雷達)三種類型的傳感器。對于每種類型,列出了硬件成本、優(yōu)點和局限性。例如,相機數(shù)據(jù)的優(yōu)點在于提供豐富的顏色和紋理信息,但局限于缺乏深度信息且易受光線和天氣影響。而激光雷達則提供準確的深度信息,但成本高且沒有顏色信息。
接下來,另一個表格詳細列出了用于自動駕駛中3D物體檢測的多個公共數(shù)據(jù)集,如KITTI、nuScenes和Waymo等。這些數(shù)據(jù)集涵蓋了不同年份發(fā)布的數(shù)據(jù),使用的傳感器類型,數(shù)據(jù)規(guī)模(包括幀數(shù)和注釋數(shù)量),場景的多樣性(包括場景數(shù)量和類別),以及場景類型(如白天、晴天、夜晚、雨天等)。
此外,還提到了關(guān)于“干凈”自動駕駛數(shù)據(jù)集的研究,并強調(diào)了在噪聲場景下評估模型穩(wěn)健性的重要性。一些研究關(guān)注在惡劣條件下的相機單模態(tài)方法,而其他的多模態(tài)數(shù)據(jù)集則專注于噪聲問題。例如,GROUNDED數(shù)據(jù)集關(guān)注在不同天氣條件下地面穿透雷達的定位,而ApolloScape開放數(shù)據(jù)集包括了激光雷達、相機和GPS數(shù)據(jù),涵蓋了多種天氣和光照條件。
由于在真實世界中收集大規(guī)模噪聲數(shù)據(jù)的成本過高,許多研究轉(zhuǎn)向使用合成數(shù)據(jù)集。例如,ImageNet-C是在圖像分類模型中對抗常見擾動的基準研究。這一研究方向隨后擴展到為自動駕駛中的3D物體檢測量身定制的穩(wěn)健性數(shù)據(jù)集。
2. 基于視覺的3D目標檢測
2.1 Monocular 3D object detection
在這部分內(nèi)容中,討論了單目3D物體檢測的概念以及三種主要的方法:基于先驗的單目3D物體檢測、僅相機的單目3D物體檢測和深度輔助的單目3D物體檢測。
Prior-guided monocular 3D object detection
這種方法利用隱藏在圖像中的物體形狀和場景幾何學的先驗知識來解決單目3D物體檢測的挑戰(zhàn)。通過引入預訓練的子網(wǎng)絡或輔助任務,先驗知識可以提供額外信息或約束來幫助精確定位3D物體,增強檢測的精度和穩(wěn)健性。常見的先驗知識包括物體形狀、幾何一致性、時間約束和分割信息。例如,Mono3D算法首先假設3D物體位于固定的地面平面上,然后使用物體的先驗3D形狀來在3D空間中重建邊界框。
Camera-only monocular 3D object detection
這種方法僅使用單個相機捕獲的圖像來檢測和定位3D物體。它采用卷積神經(jīng)網(wǎng)絡(CNN)直接從圖像中回歸3D邊界框參數(shù),從而估計物體在三維空間中的尺寸和姿態(tài)。這種直接回歸方法可以以端到端的方式進行訓練,促進了3D物體的整體學習和推斷。例如,Smoke算法摒棄了2D邊界框的回歸,通過結(jié)合單個關(guān)鍵點的估計和3D變量的回歸來預測每個檢測目標的3D框。
Depth-assisted monocular 3D object detection
深度估計在深度輔助的單目3D物體檢測中扮演著關(guān)鍵角色。為了實現(xiàn)更準確的單目檢測結(jié)果,許多研究利用預訓練的輔助深度估計網(wǎng)絡。這個過程首先通過使用預訓練的深度估計器(如MonoDepth)將單目圖像轉(zhuǎn)換為深度圖像。然后,采用兩種主要方法來處理深度圖像和單目圖像。例如,Pseudo-LiDAR檢測器使用預訓練的深度估計網(wǎng)絡生成Pseudo-LiDAR表示,但由于圖像到LiDAR生成的錯誤,Pseudo-LiDAR與基于LiDAR的檢測器之間存在巨大的性能差距。
通過這些方法的探索和應用,單目3D物體檢測在計算機視覺和智能系統(tǒng)領域取得了顯著進展,為這些領域帶來了突破和機遇。
2.2 Stereo-based 3D object detection
在這部分內(nèi)容中,討論了基于立體視覺的3D物體檢測技術(shù)。立體視覺3D物體檢測利用一對立體圖像來識別和定位3D物體。通過利用立體攝像機捕獲的雙重視角,這些方法在通過立體匹配和校準獲取高精度深度信息方面表現(xiàn)出色,這是它們與單目攝像機設置不同的特點。盡管存在這些優(yōu)勢,與基于激光雷達的方法相比,立體視覺方法仍存在相當大的性能差距。此外,從立體圖像中進行3D物體檢測的領域相對較少被探索,僅有限的研究工作致力于這一領域。
- 2D-detection based methods:傳統(tǒng)的2D物體檢測框架可以修改以解決立體檢測問題。例如,Stereo R-CNN使用基于圖像的2D檢測器來預測2D提議,為相應的左右圖像生成左右感興趣區(qū)域(RoIs)。隨后,在第二階段,它直接估計基于之前生成的RoIs的3D物體參數(shù)。這種范式被后續(xù)的工作廣泛采用。
- Pseudo-LiDAR based methods:從立體圖像預測的視差圖可以轉(zhuǎn)換為深度圖,進一步轉(zhuǎn)換為偽激光雷達點。因此,類似于單目檢測方法,偽激光雷達表示也可以用于基于立體視覺的3D物體檢測方法。這些方法旨在增強立體匹配中的視差估計,以實現(xiàn)更準確的深度預測。例如,Wang等人是引入偽激光雷達表示的先驅(qū)。這種表示是由具有深度圖的圖像生成的,要求模型執(zhí)行深度估計任務以協(xié)助檢測。隨后的工作遵循了這一范式,并通過引入額外的顏色信息來增強偽點云、輔助任務(如實例分割、前景和背景分割、領域適應)和坐標變換方案進行了優(yōu)化。值得注意的是,Ma等人提出的PatchNet挑戰(zhàn)了利用偽激光雷達表示進行單目3D物體檢測的傳統(tǒng)觀念。通過為每個像素編碼3D坐標,PatchNet可以在沒有偽激光雷達表示的情況下獲得可比較的單目檢測結(jié)果。這一觀察表明,偽激光雷達表示的力量來源于坐標變換,而不是點云表示本身。
2.3 Multi-view 3D object detection
最近,多視圖3D物體檢測在精度和穩(wěn)健性方面相較于前述的單目和立體視覺3D物體檢測方法表現(xiàn)出了優(yōu)越性。與基于激光雷達的3D物體檢測不同,最新的全景鳥瞰視圖(BEV)方法消除了對高精度地圖的需求,將檢測從2D提升到3D。這一進展帶來了多視角3D物體檢測的重大發(fā)展。在多攝像頭3D物體檢測中,關(guān)鍵挑戰(zhàn)在于識別不同圖像中的同一物體并從多視角輸入中聚合物體特征。目前的方法涉及將多視角統(tǒng)一映射到鳥瞰視圖(BEV)空間,這是一種常見的做法。
Depth-based Multi-view methods:
從2D到BEV空間的直接轉(zhuǎn)換構(gòu)成了一個重大挑戰(zhàn)。LSS是首個提出基于深度的方法的,它利用3D空間作為中介。這種方法首先預測2D特征的網(wǎng)格深度分布,然后將這些特征提升到體素空間。這種方法為更有效地實現(xiàn)從2D到BEV空間的轉(zhuǎn)換提供了希望。繼LSS之后,CaDDN采用了類似的深度表示方法。通過將體素空間特征壓縮到BEV空間,它執(zhí)行最終的3D檢測。值得注意的是,CaDDN并不是多視角3D物體檢測的一部分,而是單視角3D物體檢測,它對隨后的深度研究產(chǎn)生了影響。LSS和CaDDN的主要區(qū)別在于CaDDN使用實際的地面真實深度值來監(jiān)督其分類深度分布的預測,從而創(chuàng)建了一個能夠更準確地從2D空間提取3D信息的出色深度網(wǎng)絡。
Query-based Multi-view methods
在Transformer技術(shù)的影響下,基于query的多視角方法從3D空間檢索2D空間特征。DETR3D引入了3D物體query來解決多視角特征的聚合問題。它通過從不同視角剪輯圖像特征,并使用學習到的3D參考點將它們投影到2D空間,從而在鳥瞰視圖(BEV)空間獲得圖像特征。與基于深度的多視角方法不同,基于query的多視角方法通過使用反向query技術(shù)獲得稀疏BEV特征,從根本上影響了后續(xù)基于query的發(fā)展。然而,由于與顯式3D參考點相關(guān)的潛在不準確性,PETR采用了隱式位置編碼方法來構(gòu)建BEV空間,影響了后續(xù)的工作。
2.4 Analysis: Accuracy, Latency, Robustness
當前,基于鳥瞰視圖(BEV)感知的3D物體檢測解決方案正在迅速發(fā)展。盡管存在許多綜述文章,但對這一領域的全面回顧仍然不足。上海AI實驗室和商湯研究院提供了對BEV解決方案技術(shù)路線圖的深入回顧。然而,與現(xiàn)有的綜述不同,我們考慮了自動駕駛安全感知等關(guān)鍵方面。在分析了基于相機解決方案的技術(shù)路線圖和當前發(fā)展狀態(tài)之后,我們打算基于`準確性、延遲、穩(wěn)健性'的基本原則進行討論。我們將整合安全感知的視角,以指導自動駕駛中安全感知的實際實施。
- 準確度:大多數(shù)研究文章和綜述中都非常關(guān)注準確性,這確實非常重要。雖然準確性可以通過AP(平均精度)來反映,但僅考慮AP可能無法提供全面的視角,因為不同的方法由于不同的范式可能表現(xiàn)出顯著的差異。如圖所示,我們選擇了10種代表性方法進行比較,結(jié)果表明單目3D物體檢測與立體視覺3D物體檢測之間存在顯著的度量差異。目前的情況表明,單目3D物體檢測的準確性遠低于立體視覺3D物體檢測。立體視覺3D物體檢測利用從同一場景的兩個不同視角捕獲的圖像來獲取深度信息。相機之間的基線越大,捕獲的深度信息范圍越廣。隨著時間的推移,多視角(鳥瞰視圖感知)3D物體檢測逐漸取代了單目方法,顯著提高了mAP。傳感器數(shù)量的增加對mAP產(chǎn)生了重大影響。
- 延遲:在自動駕駛領域,延遲至關(guān)重要。它指的是系統(tǒng)對輸入信號做出反應所需的時間,包括從傳感器數(shù)據(jù)采集到系統(tǒng)決策制定和執(zhí)行動作的整個過程。在自動駕駛中,對延遲的要求非常嚴格,因為任何形式的延遲都可能導致嚴重的后果。延遲在自動駕駛中的重要性體現(xiàn)在以下幾個方面:實時響應性、安全性、用戶體驗、互動性和緊急響應。在3D物體檢測領域,延遲(每秒幀數(shù),F(xiàn)PS)和準確性是評估算法性能的關(guān)鍵指標。如圖所示,單目和立體視覺3D物體檢測的圖表顯示了KITTI數(shù)據(jù)集中等難度級別的平均精度(AP)與FPS的關(guān)系。對于自動駕駛的實現(xiàn),3D物體檢測算法必須在延遲和準確性之間取得平衡。雖然單目檢測速度快,但缺乏精確度;相反,立體和多視角方法準確但速度較慢。未來的研究不僅應保持高精度,還應更加重視提高FPS和降低延遲,以滿足自動駕駛中實時響應性和安全性的雙重要求。
- 穩(wěn)健性:穩(wěn)健性是自動駕駛安全感知的一個關(guān)鍵因素,代表了一個在綜合回顧中以前被忽視的重要話題。在當前精心設計的干凈數(shù)據(jù)集和基準測試中,如KITTI、nuScenes和Waymo,這一方面通常沒有得到解決。目前,像RoboBEV、Robo3D這樣的研究作品在3D物體檢測中納入了穩(wěn)健性的考慮,例如傳感器缺失等因素。它們采用了一種方法論,包括在與3D物體檢測相關(guān)的數(shù)據(jù)集中引入干擾,以評估穩(wěn)健性。這包括引入各種類型的噪聲,如天氣條件變化、傳感器故障、運動干擾和與物體相關(guān)的擾動,旨在揭示不同噪聲源對模型的不同影響。通常,大多數(shù)研究穩(wěn)健性的論文通過向干凈數(shù)據(jù)集的驗證集(如KITTI、nuScenes和Waymo)引入噪聲進行評估。另外,我們強調(diào)了參考文獻中的發(fā)現(xiàn),其中強調(diào)了KITTI-C和nuScenes-C作為相機僅3D物體檢測方法的例子。表格提供了總體比較,顯示總體上,相機僅方法的穩(wěn)健性低于激光雷達僅和多模型融合方法。它們非常容易受到各種類型的噪聲的影響。在KITTI-C中,三個代表性的作品——SMOKE、PGD和ImVoxelNet——顯示出一致較低的整體性能和對噪聲的減少穩(wěn)健性。在nuScenes-C中,值得注意的方法如DETR3D和BEVFormer與FCOS3D和PGD相比表現(xiàn)出更大的穩(wěn)健性,表明隨著傳感器數(shù)量的增加,整體穩(wěn)健性提高??傊磥淼南鄼C僅方法需要考慮不僅是成本因素和準確性指標(mAP、NDS等),還有與安全感知和穩(wěn)健性相關(guān)的因素。我們的分析旨在為未來自動駕駛系統(tǒng)的安全提供有價值的見解。
3. 基于Lidar的3D目標檢測
基于體素的3D物體檢測方法提出了將稀疏點云分割并分配到規(guī)則體素中,從而形成密集的數(shù)據(jù)表示,這個過程稱為體素化。與基于視圖的方法相比,基于體素的方法利用空間卷積有效感知3D空間信息,實現(xiàn)更高的檢測精度,這對自動駕駛中的安全感知至關(guān)重要。然而,這些方法仍面臨以下挑戰(zhàn):
- 高計算復雜性:與基于相機的方法相比,基于體素的方法需要大量的內(nèi)存和計算資源,因為用于表示3D空間的體素數(shù)量巨大。
- 空間信息丟失:由于體素的離散化特性,在體素化過程中細節(jié)和形狀信息可能丟失或模糊,同時體素有限的分辨率使得難以準確檢測小物體。
- 尺度和密度不一致性:基于體素的方法通常需要在不同尺度和密度的體素網(wǎng)格上進行檢測,但由于不同場景中目標的尺度和密度變化很大,選擇合適的尺度和密度來適應不同目標成為挑戰(zhàn)。
為了克服這些挑戰(zhàn),需要解決數(shù)據(jù)表示的局限性、提高網(wǎng)絡特征能力和目標定位精度,并加強算法對復雜場景的理解。盡管優(yōu)化策略各不相同,但通常都旨在從數(shù)據(jù)表示和模型結(jié)構(gòu)方面進行優(yōu)化。
3.1 Voxel-based 3D object detection
得益于PC在深度學習中的繁榮,基于點的三維對象檢測繼承了其許多框架,并提出在不進行預處理的情況下直接從原始點檢測三維對象。與voxel-based方法相比,原始點云保留了最大量的原始信息,這有利于細粒度的特征獲取,result high accuracy。同時,PointNet的一系列工作自然為基于點的方法提供了強大的基礎。基于點的3D對象檢測器有兩個基本組成部分:點云采樣和特征學習 %截至目前,Point-based方法的性能仍被兩個因素所影響:上下文點的數(shù)量和特征學習中采用的上下文半徑。e.g.增加上下文點的數(shù)量可以獲得更細致的3D信息,但會顯著增加模型的推理時間。類似地,縮小上下文半徑可以獲得同樣地效果。因此,為這兩個因素選擇合適的值,可以使模型在精度和速度之間達到一個平衡。此外,由于需要對點云中每一個點進行計算,點云采樣過程是限制point-based方法實時運行的主要因素。具體來說,為解決以上問題,現(xiàn)有的方法大多圍繞基于點的3D對象檢測器的兩個基本組成部分進行優(yōu)化:1) Point Sampling 2) feature learning
3.2 Point-based 3D object detection
基于點的3D物體檢測方法繼承了許多深度學習框架,并提出直接從原始點云中檢測3D物體,而不進行預處理。與基于體素的方法相比,原始點云最大限度地保留了原始信息,有利于細粒度特征的獲取,從而實現(xiàn)高精度。同時,PointNet系列工作為基于點的方法提供了強大的基礎。然而,到目前為止,基于點的方法的性能仍受兩個因素的影響:上下文點的數(shù)量和特征學習中使用的上下文半徑。例如,增加上下文點的數(shù)量可以獲得更細致的3D信息,但會顯著增加模型的推理時間。類似地,縮小上下文半徑可以達到同樣的效果。因此,為這兩個因素選擇適當?shù)闹悼梢允鼓P驮诰群退俣戎g實現(xiàn)平衡。此外,由于需要對點云中的每個點進行計算,點云采樣過程是限制基于點方法實時運行的主要因素。為解決這些問題,現(xiàn)有方法主要圍繞基于點的3D物體檢測器的兩個基本組成部分進行優(yōu)化:1) 點云采樣;2) 特征學習。
最遠點采樣(FPS)源自PointNet++,是一種在基于點的方法中廣泛使用的點云采樣方法。它的目標是從原始點云中選擇一組具有代表性的點,使它們之間的距離最大化,以最好地覆蓋整個點云的空間分布。PointRCNN是基于點的方法中的開創(chuàng)性的兩階段檢測器,使用PointNet++作為骨干網(wǎng)絡。在第一階段,它以自下而上的方式從點云中生成3D提議。在第二階段,通過結(jié)合語義特征和局部空間特征來對提議進行精煉。然而,現(xiàn)有基于FPS的方法仍面臨一些問題:1) 與檢測無關(guān)的點同樣參與采樣過程,帶來額外的計算負擔;2) 點在物體的不同部分分布不均勻,導致次優(yōu)的采樣策略。為了解決這些問題,后續(xù)工作采用了類似FPS的設計范式,并進行了改進,例如,通過分割引導的背景點過濾、隨機采樣、特征空間采樣、基于體素的采樣和基于光線分組的采樣。
基于點的3D物體檢測方法的特征學習階段旨在從稀疏點云數(shù)據(jù)中提取具有判別性的特征表示。在特征學習階段使用的神經(jīng)網(wǎng)絡應具備以下特性:1) 不變性,點云骨干網(wǎng)絡應對輸入點云的排列順序不敏感;2) 具有局部感知能力,能夠?qū)植繀^(qū)域進行感知和建模,提取局部特征;3) 具有整合上下文信息的能力,能夠從全局和局部的上下文信息中提取特征?;谏鲜鎏匦?,大量的檢測器被設計用于處理原始點云。大多數(shù)方法可以根據(jù)所使用的核心算子分為:1) 基于PointNet的方法;2) 基于圖神經(jīng)網(wǎng)絡的方法;3) 基于Transformer的方法。
基于PointNet的方法
基于PointNet的方法主要依賴集合抽象來對原始點進行降采樣,聚合局部信息,并整合上下文信息,同時保持原始點的對稱不變性。Point-RCNN是基于點的方法中的第一個兩階段工作,取得了出色的性能,但仍面臨高計算成本的問題。后續(xù)工作通過在檢測過程中引入額外的語義分割任務來過濾掉對檢測貢獻最小的背景點,解決了這個問題。
基于圖神經(jīng)網(wǎng)絡的方法
圖神經(jīng)網(wǎng)絡(GNN)具有自適應結(jié)構(gòu)、動態(tài)鄰域、構(gòu)建局部和全局上下文關(guān)系的能力以及對不規(guī)則采樣的魯棒性。Point-GNN是一項開創(chuàng)性的工作,設計了一個單階段圖神經(jīng)網(wǎng)絡,通過自動注冊機制、合并和評分操作來預測對象的類別和形狀,展示了使用圖神經(jīng)網(wǎng)絡作為3D物體檢測新方法的潛力。
基于Transformer的方法
近年來,Transformer(Transformer)在點云分析中得到了探索,并在許多任務上表現(xiàn)出色。例如,Pointformer引入了局部和全局注意模塊來處理3D點云,局部Transformer模塊用于對局部區(qū)域中的點之間的交互進行建模,而全局Transformer旨在學習場景級別的上下文感知表示。Group-free直接利用點云中的所有點來計算每個對象候選的特征,其中每個點的貢獻由自動學習的注意模塊決定。這些方法展示了基于Transformer的方法在處理非結(jié)構(gòu)化和無序的原始點云方面的潛力。
3.3 Point-Voxel based 3D object detection
點云基礎的3D物體檢測方法提供高分辨率并保留了原始數(shù)據(jù)的空間結(jié)構(gòu),但它們在處理稀疏數(shù)據(jù)時面臨高計算復雜性和低效率。相比之下,基于體素的方法提供了結(jié)構(gòu)化的數(shù)據(jù)表示,提高了計算效率,并促進了傳統(tǒng)卷積神經(jīng)網(wǎng)絡技術(shù)的應用。然而,由于離散化過程,它們通常會丟失細微的空間細節(jié)。為了解決這些問題,開發(fā)了點-體素(PV)基礎的方法。點-體素方法旨在利用基于點的方法的細粒度信息捕獲能力和基于體素的方法的計算效率。通過整合這些方法,點-體素基礎的方法能夠更詳細地處理點云數(shù)據(jù),捕獲全局結(jié)構(gòu)和微觀幾何細節(jié)。這對于自動駕駛中的安全感知至關(guān)重要,因為自動駕駛系統(tǒng)的決策精度取決于高精度的檢測結(jié)果。
點-體素方法的關(guān)鍵目標是通過點到體素或體素到點的轉(zhuǎn)換,實現(xiàn)體素和點之間的特征互動。許多工作已經(jīng)探索了在骨干網(wǎng)絡中利用點-體素特征融合的思想。這些方法可分為兩類:1) 早期融合;2) 后期融合。
a) 早期融合:一些方法已經(jīng)探索了使用新的卷積運算符來融合體素和點特征,PVCNN可能是這方向的首個工作。在這種方法中,基于體素的分支首先將點轉(zhuǎn)換為低分辨率的體素網(wǎng)格,并通過卷積聚合鄰近體素特征。然后,通過稱為去體素化的過程,將體素級特征轉(zhuǎn)換回點級特征,并與基于點的分支獲得的特征融合?;邳c的分支為每個單獨的點提取特征。由于它不聚合鄰近信息,該方法可以以更高的速度運行。接著,SPVCNN在PVCNN的基礎上擴展到物體檢測領域。其他方法試圖從不同的角度進行改進,如輔助任務或多尺度特征融合。
b) 后期融合:這一系列方法主要采用兩階段檢測框架。首先,使用基于體素的方法生成初步的物體提議。接著,利用點級特征對檢測框進行精確劃分。Shi等人提出的PV-RCNN是點-體素基礎方法中的一個里程碑。它使用SECOND作為第一階段檢測器,并提出了帶有RoI網(wǎng)格池的第二階段精煉階段,用于關(guān)鍵點特征的融合。后續(xù)工作主要遵循上述范式,專注于第二階段檢測的進展。值得注意的發(fā)展包括注意力機制、尺度感知池化和點密度感知精煉模塊。
點-體素基礎的方法同時具有基于體素方法的計算效率和基于點方法捕獲細粒度信息的能力。然而,構(gòu)建點到體素或體素到點的關(guān)系,以及體素和點的特征融合,會帶來額外的計算開銷。因此,與基于體素的方法相比,點-體素基礎
的方法可以實現(xiàn)更好的檢測精度,但代價是增加了推理時間。
4.多模態(tài)3D目標檢測
4.1 Projection-based 3D object detection
基于投影的3D物體檢測方法在特征融合階段使用投影矩陣來實現(xiàn)點云和圖像特征的整合。這里的關(guān)鍵是關(guān)注在特征融合期間的投影,而不是融合階段的其他投影過程,如數(shù)據(jù)增強等。根據(jù)融合階段使用的不同類型的投影,可以將投影基礎的3D物體檢測方法進一步細分為以下幾類:
- 基于點投影的3D物體檢測:這類方法通過將圖像特征投影到原始點云上來增強原始點云數(shù)據(jù)的表示能力。這些方法的第一步是使用校準矩陣建立激光雷達點和圖像像素之間的強相關(guān)性。接下來,通過添加額外數(shù)據(jù)來增強點云特征。這種增強有兩種形式:一種是通過合并分割分數(shù)(如PointPainting),另一種是使用來自相關(guān)像素的CNN特征(如MVP)。PointPainting通過追加分割分數(shù)來增強激光雷達點,但在有效捕獲圖像中的顏色和紋理細節(jié)方面存在局限性。為解決這些問題,開發(fā)了更復雜的方法,如FusionPainting。
- 基于特征投影的3D物體檢測:與基于點投影的方法不同,這類方法主要關(guān)注在點云特征提取階段將點云特征與圖像特征融合。在這個過程中,通過應用校準矩陣將體素的三維坐標系統(tǒng)轉(zhuǎn)換為圖像的像素坐標系統(tǒng),從而有效地融合點云和圖像模態(tài)。例如,ContFuse通過連續(xù)卷積融合多尺度卷積特征圖。
- 自動投影基礎的3D物體檢測:許多研究通過直接投影進行融合,但沒有解決投影誤差問題。一些工作(如AutoAlignV2)通過學習偏移量和鄰域投影等方法來減輕這些誤差。例如,HMFI、GraphAlign和GraphAlign++利用投影校準矩陣的先驗知識進行圖像投影,并進行局部圖建模。
- 基于決策投影的3D物體檢測:這類方法使用投影矩陣來對齊感興趣區(qū)域(RoI)或特定結(jié)果中的特征。例如,Graph-RCNN將圖節(jié)點投影到攝像機圖像中的位置,并通過雙線性插值收集攝像機圖像中該像素的特征向量。F-PointNet通過2D圖像檢測來確定物體的類別和定位,并通過校準的傳感器參數(shù)和3D空間的轉(zhuǎn)換矩陣獲得相應3D空間中的點云。
這些方法展示了如何在多模態(tài)3D物體檢測中使用投影技術(shù)來實現(xiàn)特征融合,但它們在處理不同模態(tài)間的交互和準確性方面仍存在一定的局限性。
4.2 Non-Projection-based 3D object detection
非投影式三維物體檢測方法通過不依賴特征對齊來實現(xiàn)融合,從而產(chǎn)生穩(wěn)健的特征表示。它們規(guī)避了相機到激光雷達投影的局限性,這種投影通常會降低相機特征的語義密度,并影響如Focals Conv和PointPainting等技術(shù)的有效性。非投影式方法通常采用交叉注意力機制或構(gòu)建統(tǒng)一空間來解決直接特征投影中的固有不對齊問題。這些方法主要分為兩類:(1)基于query學習的方法和(2)基于統(tǒng)一特征的方法。基于query學習的方法完全避免了融合過程中的對齊需求。相反,基于統(tǒng)一特征的方法雖然構(gòu)建了統(tǒng)一的特征空間,但并沒有完全避免投影;它通常發(fā)生在單一模態(tài)背景下。例如,BEVFusion利用LSS進行相機到BEV的投影。這個過程發(fā)生在融合之前,在特征不對齊的場景中顯示出相當?shù)聂敯粜浴?/p>
- 基于query學習的三維物體檢測:基于query學習的三維物體檢測方法,如Transfusion、DeepFusion、DeepInteraction、autoalign、CAT-Det、MixedFusion等,避免了特征融合過程中的投影需求。相反,它們通過交叉注意力機制在進行特征融合之前實現(xiàn)特征對齊。點云特征通常作為query,而圖像特征作為鍵和值,通過全局特征query獲得高度魯棒的多模態(tài)特征。此外,DeepInteraction引入了多模態(tài)交互,其中點云和圖像特征作為不同的query來實現(xiàn)更進一步的特征交互。與僅使用點云特征作為query相比,全面整合圖像特征導致了更強韌的多模態(tài)特征的獲得??偟膩碚f,基于query學習的三維物體檢測方法采用基于Transformer的結(jié)構(gòu)進行特征query以實現(xiàn)特征對齊。最終,多模態(tài)特征被整合進激光雷達基礎的流程中,如CenterPoint。
- 基于統(tǒng)一特征的三維物體檢測:基于統(tǒng)一特征的三維物體檢測方法,如EA-BEV、BEVFusion、cai2023bevfusion4d、FocalFormer3D、FUTR3D、UniTR、Uni3D、virconv、MSMDFusion、sfd、cmt、UVTR、sparsefusion等,通常在特征融合前通過投影實現(xiàn)異構(gòu)模態(tài)的預融合統(tǒng)一。在BEV融合系列中,使用LSS進行深度估計,前視特征被轉(zhuǎn)換為BEV特征,然后融合BEV圖像和BEV點云特征。另一方面,CMT和UniTR使用Transformer進行點云和圖像的標記化,通過Transformer編碼構(gòu)建隱式統(tǒng)一空間。CMT在位置編碼過程中使用投影,但在特征學習級別完全避免了對投影關(guān)系的依賴。FocalFormer3D、FUTR3D和UVTR利用Transformer的query實施類似于DETR3D的方案,通過query構(gòu)建統(tǒng)一的稀疏BEV特征空間,從而減輕了直接投影帶來的不穩(wěn)定性。
VirConv、MSMDFusion和SFD通過偽點云構(gòu)建統(tǒng)一空間,在特征學習之前發(fā)生投影。通過后續(xù)特征學習解決了直接投影引入的問題。總之,基于統(tǒng)一特征的三維物體檢測方法目前代表了高精度和強魯棒性的解決方案。盡管它們包含投影矩陣,但這種投影不發(fā)生在多模態(tài)融合之間,因此被視為非投影式三維物體檢測方法。與自動投影式三維物體檢測方法不同,它們不直接解決投影誤差問題,而是選擇構(gòu)建統(tǒng)一空間,考慮多模態(tài)三維物體檢測的多個維度,從而獲得高度魯棒的多模態(tài)特征。
5. 結(jié)論
3D物體檢測在自動駕駛感知中扮演著至關(guān)重要的角色。近年來,這個領域快速發(fā)展,產(chǎn)生了大量的研究論文。基于傳感器產(chǎn)生的多樣化數(shù)據(jù)形式,這些方法主要分為三種類型:基于圖像的、基于點云的和多模態(tài)的。這些方法的主要評估指標是高準確性和低延遲。許多綜述總結(jié)了這些方法,主要關(guān)注于`高準確性和低延遲'的核心原則,描述它們的技術(shù)軌跡。
然而,在自動駕駛技術(shù)從突破轉(zhuǎn)向?qū)嶋H應用的過程中,現(xiàn)有的綜述沒有將安全感知作為核心關(guān)注點,未能涵蓋與安全感知相關(guān)的當前技術(shù)路徑。例如,最近的多模態(tài)融合方法在實驗階段通常會進行魯棒性測試,這一方面在當前的綜述中并未得到充分考慮。
因此,重新審視3D物體檢測算法,以`準確性、延遲和魯棒性'為關(guān)鍵方面進行重點關(guān)注。我們重新分類以前的綜述,特別強調(diào)從安全感知的角度進行重新劃分。希望這項工作能為未來3D物體檢測的研究提供新的見解,超越僅僅探索高準確性的局限。