MonoDETRNext:下一代準(zhǔn)確高效的單目3D檢測(cè)方法!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫在前面&筆者的個(gè)人理解
基于單目視覺的3D目標(biāo)檢測(cè)在各個(gè)領(lǐng)域都至關(guān)重要,但現(xiàn)有方法在準(zhǔn)確性和計(jì)算效率方面面臨著重大挑戰(zhàn)。在2D檢測(cè)和深度估計(jì)的成功策略的基礎(chǔ)上,本文提出了MonoDETRNext,它尋求在精度和處理速度之間取得最佳平衡。我們的方法包括開發(fā)高效的混合視覺編碼器,增強(qiáng)深度預(yù)測(cè)機(jī)制,以及引入創(chuàng)新的查詢生成策略,并通過(guò)高級(jí)深度預(yù)測(cè)器進(jìn)行增強(qiáng)。在MonoDETR的基礎(chǔ)上,MonoDETRNext引入了兩種變體:強(qiáng)調(diào)速度的MonoDETRNext-F和注重精度的MonoDETRNext-A。我們認(rèn)為MonoDETRNext為單目3D物體檢測(cè)建立了一個(gè)新的基準(zhǔn),并為未來(lái)的研究開辟了道路。我們進(jìn)行了詳盡的評(píng)估,證明了該模型相對(duì)于現(xiàn)有解決方案的優(yōu)越性能。值得注意的是,與MonoDETR相比,MonoDETRNext-A在KITTI測(cè)試基準(zhǔn)上的AP3D指標(biāo)提高了4.60%,而MonoDETRNext-F提高了2.21%。此外,MonoDETRNext-F的計(jì)算效率略高于其前身。
總結(jié)來(lái)說(shuō),本文的主要貢獻(xiàn)如下:
- 提出了兩種新的單目3D物體檢測(cè)模型,即MonoDETRNext-F和MonoDETRNext-A,前者充分平衡了速度和精度,而后者強(qiáng)調(diào)了以精度為中心的目標(biāo)。
- 構(gòu)建用于3D目標(biāo)檢測(cè)的混合視覺編碼器,精通對(duì)單目3D目標(biāo)檢測(cè)任務(wù)至關(guān)重要的特征的有效提取,以及集成精細(xì)但輕便的深度估計(jì)模塊,可視化以提高檢測(cè)精度。
- 利用迄今為止在2D目標(biāo)檢測(cè)范式中根深蒂固的方法,我們提出了一種有說(shuō)服力的目標(biāo)查詢生成策略,該策略以精心設(shè)計(jì)的訓(xùn)練策略為基礎(chǔ),旨在有效優(yōu)化模型性能,以適應(yīng)單目3D目標(biāo)檢測(cè)的需求。
相關(guān)工作回顧
目前的3D目標(biāo)檢測(cè)方法通常可以分為兩類:基于相機(jī)的方法和集成激光雷達(dá)和其他傳感器的融合方法。
基于相機(jī)的方法可以根據(jù)輸入視點(diǎn)的數(shù)量進(jìn)一步分為單目(單視圖)和多視圖方法。單色探測(cè)器僅使用前向圖像作為輸入,以有限的2D信息處理更復(fù)雜的任務(wù)。多視圖檢測(cè)器同時(shí)對(duì)周圍場(chǎng)景的圖像進(jìn)行編碼,利用視點(diǎn)之間的關(guān)系來(lái)理解3D空間。另一方面,基于激光雷達(dá)和其他傳感器集成的融合方法依賴于來(lái)自深度相機(jī)和激光雷達(dá)等設(shè)備的輸入,這些設(shè)備提供了各種傳感器數(shù)據(jù)類型的融合,包括圖像和點(diǎn)云。因此,他們可以獲得更豐富、更全面的深度信息。盡管成本較高,但這些方法通常在復(fù)雜環(huán)境中表現(xiàn)出更大的魯棒性和準(zhǔn)確性,因?yàn)樗鼈兛梢岳枚鄠€(gè)傳感器的優(yōu)勢(shì)并集成來(lái)自不同數(shù)據(jù)源的信息。
MonoDETR and other monocular 3D detection
MonoDETR是一種最先進(jìn)的方法,它利用渲染傳輸從單個(gè)RGB圖像預(yù)測(cè)深度圖。與傳統(tǒng)的單目深度估計(jì)方法相比,通過(guò)捕捉輸入圖像中的細(xì)微線索,MonoDETR實(shí)現(xiàn)了對(duì)不同照明條件的準(zhǔn)確度和魯棒性的提高。
近年來(lái),已經(jīng)提出了其他幾種單目3D重建方法。例如,MonoDTR是一個(gè)深度學(xué)習(xí)模型,使用基于Transformer的架構(gòu)從單個(gè)RGB圖像預(yù)測(cè)深度圖。雖然MonoDTR實(shí)現(xiàn)了高精度,但它需要額外的激光雷達(dá)數(shù)據(jù)來(lái)輔助訓(xùn)練。同時(shí),CaDDN和Monorun不僅在訓(xùn)練過(guò)程中需要激光雷達(dá)數(shù)據(jù),而且在推理過(guò)程中也需要數(shù)據(jù)。Autoshape將CAD數(shù)據(jù)集成到模型中,以增強(qiáng)受限制的3D提示。MonoDETR需要最小的2D-3D幾何先驗(yàn),并且不需要額外的注釋。我們的MonoDETRNext繼承了這一特性。
如MonoDLE、PGD和PackNet所示,替代方法集成了多尺度特征融合和注意力機(jī)制,用于深度圖估計(jì)和誤差分析,從而提高了性能。盡管這些方法具有很高的準(zhǔn)確性,但會(huì)產(chǎn)生大量的計(jì)算成本,并需要大量的內(nèi)存資源。相反,MonoDETR的特點(diǎn)是其重量輕、效率高。此外,MonoDETRNext-F在速度和效率方面超過(guò)了它,而MonoDETRNext-A表現(xiàn)出明顯優(yōu)越的性能。
Multi-view 3D object detection
為了從周圍視圖中聯(lián)合提取特征,DETR3D最初采用一組3D目標(biāo)查詢,然后將其反向投影到多視圖圖像上以聚合特征。PETR系列進(jìn)一步介紹了3D位置特征的生成,避免了不穩(wěn)定的投影,并探索了前一幀的時(shí)間信息的優(yōu)勢(shì)。
或者,BEVFormer及其改進(jìn)使用可學(xué)習(xí)的BEV查詢生成BEV(鳥瞰圖)特征,并引入用于視覺特征聚合的時(shí)空BEV轉(zhuǎn)換器。隨后的研究還研究了跨模態(tài)蒸餾和mask圖像建模以提高性能。
LiDAR and multi-source information fusion 3D object detection
DeepFusion和PointPainting等方法代表了激光雷達(dá)點(diǎn)云數(shù)據(jù)與相機(jī)圖像集成的顯著進(jìn)步,以促進(jìn)三維空間環(huán)境中的精確目標(biāo)檢測(cè)。這種融合策略最佳地利用了不同傳感器模態(tài)固有的協(xié)同效應(yīng),將空間深度線索與顏色紋理信息融合在一起,從而增強(qiáng)了檢測(cè)結(jié)果的彈性和準(zhǔn)確性。
BevFusion將BEVFormer的原理集成到融合范式中,促進(jìn)了進(jìn)一步的改進(jìn),最終提高了精度,MV2D和Futr3d中描述的示例模型證明了這一點(diǎn)。mmFusion最近的端點(diǎn)通過(guò)集成來(lái)自多個(gè)傳感器(包括相機(jī)、激光雷達(dá)和雷達(dá))的數(shù)據(jù),擴(kuò)展了融合方法的范圍,從而在性能上取得了顯著進(jìn)步。
與此同時(shí),該領(lǐng)域見證了大規(guī)模架構(gòu)的出現(xiàn),例如OMNI3D和GLEE,它們?cè)?D目標(biāo)檢測(cè)任務(wù)中表現(xiàn)出了顯著的效率。利用豐富的訓(xùn)練數(shù)據(jù)和以數(shù)十億個(gè)或更多參數(shù)為特征的復(fù)雜模型架構(gòu),這些框架已經(jīng)使用先進(jìn)的優(yōu)化算法進(jìn)行了訓(xùn)練,從而提高了檢測(cè)性能和精度。
方法
Efficient Hybrid Vision Encoder
根據(jù)[36]中的研究結(jié)果,可變形DETR將其49%的計(jì)算工作量分配給編碼器,但該組件僅對(duì)平均精度(AP)指標(biāo)貢獻(xiàn)11%。
受RT-DETR架構(gòu)的啟發(fā),我們?cè)O(shè)計(jì)了一種創(chuàng)新的高效混合視覺編碼器,專門為3D目標(biāo)檢測(cè)任務(wù)量身定制。該編碼器的特點(diǎn)是減少了計(jì)算占用,同時(shí)保持了特征提取的效率。如圖2所示,我們提出的編碼器包括兩個(gè)集成元件:奇異編碼器層和基于CNN的跨尺度特征集成模塊(CFIM)。如圖3所示,CFIM起著融合單元的作用,將形容詞特征融合成新穎的表征。該融合過(guò)程如以下公式:
Accurate Depth Predictor
The Sequential Dilated Convolution (SDC)模塊,利用膨脹卷積提取多尺度局部特征。與lite-mono類似,我們采用了一種分階段的方法,通過(guò)插入具有不同膨脹率的多個(gè)連續(xù)膨脹卷積來(lái)有效地聚合多尺度上下文。
The Regional-Global Feature Interaction (RGFI)的操作如下:給定輸入特征圖X,它被線性投影到查詢、鍵和值中。交叉協(xié)方差注意力用于增強(qiáng)輸入X:
Effective Query Generation and Overall Loss
實(shí)驗(yàn)結(jié)果
結(jié)論和限制
結(jié)論:本文介紹了一種新的基于單目視覺的3D目標(biāo)檢測(cè)方法。利用2D檢測(cè)領(lǐng)域的進(jìn)步,我們提出了高效而精確的MonoDETRNext。在MonoDETR奠定的基礎(chǔ)上,我們引入了兩種變體:MonoDETRNext-F優(yōu)先考慮速度,MonoDETRNext-A強(qiáng)調(diào)準(zhǔn)確性。我們的方法包括開發(fā)高效的混合視覺編碼器、增強(qiáng)深度預(yù)測(cè)機(jī)制以及改進(jìn)目標(biāo)查詢生成。通過(guò)綜合性能評(píng)估,我們確定了我們的模型相對(duì)于現(xiàn)有方法的優(yōu)勢(shì)。通過(guò)優(yōu)化精度和計(jì)算效率,MonoDETRNext在單目3D目標(biāo)檢測(cè)方面樹立了一個(gè)新的基準(zhǔn),促進(jìn)了未來(lái)在各種現(xiàn)實(shí)世界場(chǎng)景中的研究和應(yīng)用。
局限性:盡管MonoDETRNext在提高單目3D物體檢測(cè)的準(zhǔn)確性和計(jì)算效率方面取得了實(shí)質(zhì)性進(jìn)展,但仍存在某些局限性。由于單目視覺方法的固有限制,與采用多視圖方法或傳感器融合技術(shù)(如激光雷達(dá)與相機(jī)的集成)的方法相比,在精度和性能方面仍然存在顯著差異。