Far3D:直接干到150m,視覺(jué)3D目標(biāo)檢測(cè)新思路(AAAI2024)
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
近來(lái)在 Arxiv 讀到一篇純視覺(jué)環(huán)視感知的新工作,它延續(xù)了 PETR 系列方法,主要關(guān)注如何解決純視覺(jué)感知的遠(yuǎn)距離目標(biāo)檢測(cè)問(wèn)題,將感知范圍擴(kuò)大到150m。文章方法和結(jié)果有相當(dāng)?shù)慕梃b意義,所以試著解讀一下。
原標(biāo)題:Far3D: Expanding the Horizon for Surround-view 3D Object Detection
論文鏈接:https://arxiv.org/abs/2308.09616
作者單位:北京理工大學(xué) & 曠視科技
任務(wù)背景
三維物體檢測(cè)在理解自動(dòng)駕駛的三維場(chǎng)景方面發(fā)揮著重要作用,其目的是對(duì)自車周圍的物體進(jìn)行精確定位和分類。純視覺(jué)環(huán)視感知方法具有成本低、適用性廣等優(yōu)點(diǎn),已取得顯著進(jìn)展。然而,它們大多側(cè)重于近距離感知(例如,nuScenes的感知距離約為 50 米),對(duì)遠(yuǎn)距離探測(cè)領(lǐng)域的探索較少。檢測(cè)遠(yuǎn)距離物體對(duì)于實(shí)際駕駛中保持安全距離至關(guān)重要,尤其是在高速或復(fù)雜路況下。
近來(lái),從環(huán)視圖像中進(jìn)行三維物體檢測(cè)取得了顯著進(jìn)展,其部署成本較低。然而,大多數(shù)研究主要集中在近距離感知范圍,對(duì)遠(yuǎn)距離檢測(cè)的研究較少。將現(xiàn)有方法直接擴(kuò)展到覆蓋長(zhǎng)距離會(huì)面臨計(jì)算成本高、收斂性不穩(wěn)定等挑戰(zhàn)。為了解決這些局限性,本文提出了一種新的基于稀疏查詢的框架,稱為 Far3D。
論文思路
現(xiàn)有的環(huán)視感知方法根據(jù)中間表征可大致分為兩類:基于 BEV 表征和基于稀疏 query 表征的方法?;?BEV 表征的方法,由于其密集的 BEV 特征計(jì)算,計(jì)算量非常大,難以擴(kuò)展到遠(yuǎn)距離場(chǎng)景。而基于稀疏query表征的方法,會(huì)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到全局 3D query,計(jì)算量會(huì)小許多,且擴(kuò)展性較強(qiáng)。但它也有弱點(diǎn),雖然可以避免 query 數(shù)目的平方增長(zhǎng),但全局固定 query 不易適應(yīng)動(dòng)態(tài)場(chǎng)景,在遠(yuǎn)距離檢測(cè)中通常會(huì)遺漏目標(biāo)。
圖1:Argoverse 2 數(shù)據(jù)集上,3D 檢測(cè)和 2D 檢測(cè)的性能對(duì)比。
在遠(yuǎn)距離檢測(cè)中,基于稀疏 query 表征的方法有兩個(gè)主要挑戰(zhàn)。
- 首先是召回性能較差。由于 query 在 3D 空間分布的稀疏性,在遠(yuǎn)距離范圍只能產(chǎn)生少量匹配的 positive query。如上圖所示,3D 檢測(cè)的召回率較低,而現(xiàn)有 2D 檢測(cè)的召回率要高得多,兩者之間存在明顯的性能差距。因此,利用高質(zhì)量的 2D 物體先驗(yàn)來(lái)改進(jìn) 3D query 是一種很有潛力的方法,它有利于實(shí)現(xiàn)物體的精確定位和全面覆蓋。
- 其次,直接引入 2D 檢測(cè)結(jié)果來(lái)幫助 3D 檢測(cè)會(huì)面臨誤差傳播的問(wèn)題。如下圖所示,兩種主要來(lái)源是 1) 由于深度預(yù)測(cè)不準(zhǔn)的物體定位誤差;2) 隨著距離的增大,視錐變換中的 3D 位置誤差也會(huì)增大。這些 noisy query 會(huì)影響訓(xùn)練的穩(wěn)定性,需要有效的去噪方法來(lái)優(yōu)化。此外,在訓(xùn)練過(guò)程中,模型會(huì)表現(xiàn)出對(duì)密集的近距離物體過(guò)度擬合的傾向,而忽略稀疏分布的遠(yuǎn)距離物體。
為了解決上述問(wèn)題,本文做了以下設(shè)計(jì):
- 除了從數(shù)據(jù)集中學(xué)到的 3D global query 外,還引入了由 2D 檢測(cè)結(jié)果生成的 3D adaptive query。具體地,首先利用 2D 檢測(cè)器和深度預(yù)測(cè)網(wǎng)絡(luò)得到 2D 框和對(duì)應(yīng)深度,再通過(guò)空間變換投射到 3D 空間,作為 3D adaptive query 的初始化。
- 為了適應(yīng)不同距離的物體的尺度不同,設(shè)計(jì)了 Perspective-aware Aggergation。它使得 3D query 可以和不同尺度的特征交互,有利于不同距離物體的特征捕捉。比如,遠(yuǎn)處物體需要大分辨率的特征,而近處則不同。模型通過(guò)這種設(shè)計(jì)可以自適應(yīng)地與特征交互。
- 設(shè)計(jì)了一種稱為 Range-modulated 3D Denoising 的策略,以減輕 query 錯(cuò)誤傳播和收斂緩慢的問(wèn)題。考慮到不同距離的 query 回歸難度不同,noisy query 根據(jù)真實(shí)框的距離和尺度來(lái)調(diào)整。將 GT 附近的多組 noisy query 輸入解碼器,來(lái)分別實(shí)現(xiàn)重建3D 真實(shí)框(對(duì)于正樣本)和舍棄負(fù)樣本的作用。
主要貢獻(xiàn)
- 本文提出了一種新的基于稀疏 query 的檢測(cè)框架,它利用高質(zhì)量的 2D object prior 來(lái)生成 3D adaptive query, 從而擴(kuò)大三維檢測(cè)的感知范圍。
- 本文設(shè)計(jì)了 Perspective-aware Aggregation 模塊,它從不同尺度和視角聚合視覺(jué)特征,以及一個(gè)基于目標(biāo)距離的 3D Denoising 策略,來(lái)解決 query 誤差傳播和框架收斂問(wèn)題。
- 在遠(yuǎn)距離的 Argoverse 2 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,F(xiàn)ar3D 超越了此前的環(huán)視方法,并優(yōu)于幾種基于激光雷達(dá)的方法。并且在 nuScenes 數(shù)據(jù)集上驗(yàn)證了其通用性。
模型設(shè)計(jì)
Far3D 流程概覽:
- 將環(huán)視圖像輸入主干網(wǎng)絡(luò)和 FPN 層,編碼得到 2D 圖像特征,并將其與相機(jī)參數(shù)進(jìn)行編碼。
- 利用 2D 檢測(cè)器和深度預(yù)測(cè)網(wǎng)絡(luò),生成可靠的 2D 物體框及其相應(yīng)深度,然后通過(guò)相機(jī)變換投影到 3D 空間。
- 生成的3D adaptive query 與初始的 3D global query 相結(jié)合,由解碼器層迭代回歸,以預(yù)測(cè) 3D 物體框。更進(jìn)一步,該模型可通過(guò)長(zhǎng)時(shí)序的 query 傳播實(shí)現(xiàn)時(shí)序建模。
Perspective-aware Aggregation:
為了給遠(yuǎn)距離檢測(cè)模型引入多尺度特征,本文應(yīng)用了 3D spatial deformable attention。它先在 query 對(duì)應(yīng)的 3D 位置附近進(jìn)行偏移采樣,而后通過(guò) 3D-2D 視圖變換聚合圖像特征。這種方法替代 PETR 系列中的 global attention 的優(yōu)勢(shì)在于,計(jì)算量可以大幅降低。具體地,對(duì)于 3D 空間中的每個(gè) query 的參考點(diǎn),模型會(huì)學(xué)習(xí)其周圍的 M 個(gè)采樣偏移,并將這些偏移點(diǎn)投影到不同的 2D 視圖特征中。
其后,3D query 與投影得到的采樣特征交互。通過(guò)這種方式,來(lái)自不同視角和尺度的各種特征將通過(guò)考慮其相對(duì)重要性匯聚到三維查詢中。
Range-modulated 3D Denoising:
不同距離的 3D query 具有不同的回歸難度,這不同于現(xiàn)有的 2D Denoising 方法(如 DN-DETR, 通常同等對(duì)待的2D query)。難度差異來(lái)自于 query 匹配密度和誤差傳播。一方面,與遠(yuǎn)處物體相對(duì)應(yīng)的 query 匹配度低于近處物體。另一方面,在 3D adaptive query 中引入二維先驗(yàn)時(shí),2D 物體框的微小誤差會(huì)被放大,更不用說(shuō)這種影響會(huì)隨著物體距離的增加而增大。因此,GT 框附近的一些 query 可被視為 positive query,而其他有明顯偏差則應(yīng)被視為 negative query。本文提出一種 3D Denoising 方法,旨在優(yōu)化那些正樣本,并直接舍棄負(fù)樣本。
具體地,作者通過(guò)同時(shí)添加正樣本和負(fù)樣本組來(lái)構(gòu)建基于 GT 的 noisy queries。對(duì)于這兩種類型,都會(huì)根據(jù)物體的位置和大小應(yīng)用隨機(jī)噪聲,以促進(jìn)遠(yuǎn)距離感知中的去噪學(xué)習(xí)。形式上,正樣本定義在 3D 框內(nèi)的隨機(jī)點(diǎn),而負(fù)樣本則在 GT 施加更大的偏移,范圍隨著物體的距離變化。這種方式可以在訓(xùn)練過(guò)程中模擬有噪聲的候選正樣本和 false postive 樣本。
實(shí)驗(yàn)結(jié)果
Far3D 在 150m 感知范圍的 Argoverse 2 上取得了最高的性能。并且模型 scale up 之后,可以達(dá)到幾個(gè) Lidar-based 方法的性能,展現(xiàn)了純視覺(jué)方法的潛力。
為了驗(yàn)證泛化性能,作者也在 nuScenes 數(shù)據(jù)集上做了實(shí)驗(yàn),表明其在驗(yàn)證集和測(cè)試集上都達(dá)到 SoTA 性能。
通過(guò) Ablation 實(shí)驗(yàn)表明了 3D adaptive query, perspective-aware aggregation 和 range-modulated 3D denoising 各自的增益。
論文思考
Q:這篇文章有什么 novelty?
A:主要 novelty 是解決遠(yuǎn)距離場(chǎng)景的感知問(wèn)題?,F(xiàn)有方法拓展到遠(yuǎn)距離場(chǎng)景有許多問(wèn)題,計(jì)算成本和收斂困難等。本文作者為這個(gè)任務(wù)提出了一個(gè)高效的框架。盡管單拎出來(lái)各個(gè)模塊似曾相識(shí),它們都是服務(wù)于遠(yuǎn)處目標(biāo)的檢測(cè)的,目標(biāo)明確。
Q:相比 BevFormer v2, MV2D 有什么區(qū)別?
A: MV2D 主要是依賴 2D anchor 去取對(duì)應(yīng)的特征對(duì) 3D 進(jìn)行了綁定,但是沒(méi)有顯式的深度估計(jì),所以對(duì)于遠(yuǎn)距離物體來(lái)說(shuō)不確定性就會(huì)比較大,然后難收斂;BevFormer v2 主要解決的是2D backbone與 3D 任務(wù)場(chǎng)景之間的domain gap,一般 2D 識(shí)別任務(wù)上預(yù)訓(xùn)練的 backbone 察覺(jué) 3D 場(chǎng)景的能力存在不足,并沒(méi)有探索遠(yuǎn)距離任務(wù)中的問(wèn)題。
Q: 時(shí)序上能否改進(jìn),如 query propagation 再加上 feature propagation?
A: 理論上是可行的,但是實(shí)際應(yīng)用中應(yīng)該考慮performance-efficiency tradeoff。
Q: 還有哪些需要改進(jìn)的地方?
A: 在長(zhǎng)尾問(wèn)題和遠(yuǎn)距離評(píng)測(cè)指標(biāo)上都值得改進(jìn)。在 Argoverse 2 這樣的 26 類目標(biāo)上,模型在長(zhǎng)尾類別上表現(xiàn)不佳,最終也會(huì)降低平均精度,這一點(diǎn)尚未被探索。另一方面,使用統(tǒng)一的指標(biāo)來(lái)評(píng)估遠(yuǎn)距離和近距離物體可能并不合適,這就強(qiáng)調(diào)了對(duì)實(shí)用的動(dòng)態(tài)評(píng)估標(biāo)準(zhǔn)的需求,以適應(yīng)現(xiàn)實(shí)世界的不同場(chǎng)景。
原文鏈接:https://mp.weixin.qq.com/s/xxaaYQsjuWzMI7PnSmuaWg