自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Far3D:直接干到150m,視覺(jué)3D目標(biāo)檢測(cè)新思路(AAAI2024)

人工智能 智能汽車
近來(lái),從環(huán)視圖像中進(jìn)行三維物體檢測(cè)取得了顯著進(jìn)展,其部署成本較低。然而,大多數(shù)研究主要集中在近距離感知范圍,對(duì)遠(yuǎn)距離檢測(cè)的研究較少。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

近來(lái)在 Arxiv 讀到一篇純視覺(jué)環(huán)視感知的新工作,它延續(xù)了 PETR 系列方法,主要關(guān)注如何解決純視覺(jué)感知的遠(yuǎn)距離目標(biāo)檢測(cè)問(wèn)題,將感知范圍擴(kuò)大到150m。文章方法和結(jié)果有相當(dāng)?shù)慕梃b意義,所以試著解讀一下。

原標(biāo)題:Far3D: Expanding the Horizon for Surround-view 3D Object Detection
論文鏈接:https://arxiv.org/abs/2308.09616
作者單位:北京理工大學(xué) & 曠視科技

任務(wù)背景

三維物體檢測(cè)在理解自動(dòng)駕駛的三維場(chǎng)景方面發(fā)揮著重要作用,其目的是對(duì)自車周圍的物體進(jìn)行精確定位和分類。純視覺(jué)環(huán)視感知方法具有成本低、適用性廣等優(yōu)點(diǎn),已取得顯著進(jìn)展。然而,它們大多側(cè)重于近距離感知(例如,nuScenes的感知距離約為 50 米),對(duì)遠(yuǎn)距離探測(cè)領(lǐng)域的探索較少。檢測(cè)遠(yuǎn)距離物體對(duì)于實(shí)際駕駛中保持安全距離至關(guān)重要,尤其是在高速或復(fù)雜路況下。

近來(lái),從環(huán)視圖像中進(jìn)行三維物體檢測(cè)取得了顯著進(jìn)展,其部署成本較低。然而,大多數(shù)研究主要集中在近距離感知范圍,對(duì)遠(yuǎn)距離檢測(cè)的研究較少。將現(xiàn)有方法直接擴(kuò)展到覆蓋長(zhǎng)距離會(huì)面臨計(jì)算成本高、收斂性不穩(wěn)定等挑戰(zhàn)。為了解決這些局限性,本文提出了一種新的基于稀疏查詢的框架,稱為 Far3D。

論文思路

現(xiàn)有的環(huán)視感知方法根據(jù)中間表征可大致分為兩類:基于 BEV 表征和基于稀疏 query 表征的方法?;?BEV 表征的方法,由于其密集的 BEV 特征計(jì)算,計(jì)算量非常大,難以擴(kuò)展到遠(yuǎn)距離場(chǎng)景。而基于稀疏query表征的方法,會(huì)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到全局 3D query,計(jì)算量會(huì)小許多,且擴(kuò)展性較強(qiáng)。但它也有弱點(diǎn),雖然可以避免 query 數(shù)目的平方增長(zhǎng),但全局固定 query 不易適應(yīng)動(dòng)態(tài)場(chǎng)景,在遠(yuǎn)距離檢測(cè)中通常會(huì)遺漏目標(biāo)。

圖1:Argoverse 2 數(shù)據(jù)集上,3D 檢測(cè)和 2D 檢測(cè)的性能對(duì)比。

在遠(yuǎn)距離檢測(cè)中,基于稀疏 query 表征的方法有兩個(gè)主要挑戰(zhàn)。

  1. 首先是召回性能較差。由于 query 在 3D 空間分布的稀疏性,在遠(yuǎn)距離范圍只能產(chǎn)生少量匹配的 positive query。如上圖所示,3D 檢測(cè)的召回率較低,而現(xiàn)有 2D 檢測(cè)的召回率要高得多,兩者之間存在明顯的性能差距。因此,利用高質(zhì)量的 2D 物體先驗(yàn)來(lái)改進(jìn) 3D query 是一種很有潛力的方法,它有利于實(shí)現(xiàn)物體的精確定位和全面覆蓋。
  2. 其次,直接引入 2D 檢測(cè)結(jié)果來(lái)幫助 3D 檢測(cè)會(huì)面臨誤差傳播的問(wèn)題。如下圖所示,兩種主要來(lái)源是 1) 由于深度預(yù)測(cè)不準(zhǔn)的物體定位誤差;2) 隨著距離的增大,視錐變換中的 3D 位置誤差也會(huì)增大。這些 noisy query 會(huì)影響訓(xùn)練的穩(wěn)定性,需要有效的去噪方法來(lái)優(yōu)化。此外,在訓(xùn)練過(guò)程中,模型會(huì)表現(xiàn)出對(duì)密集的近距離物體過(guò)度擬合的傾向,而忽略稀疏分布的遠(yuǎn)距離物體。

為了解決上述問(wèn)題,本文做了以下設(shè)計(jì):

  1. 除了從數(shù)據(jù)集中學(xué)到的 3D global query 外,還引入了由 2D 檢測(cè)結(jié)果生成的 3D adaptive query。具體地,首先利用 2D 檢測(cè)器和深度預(yù)測(cè)網(wǎng)絡(luò)得到 2D 框和對(duì)應(yīng)深度,再通過(guò)空間變換投射到 3D 空間,作為 3D adaptive query 的初始化。
  2. 為了適應(yīng)不同距離的物體的尺度不同,設(shè)計(jì)了 Perspective-aware Aggergation。它使得 3D query 可以和不同尺度的特征交互,有利于不同距離物體的特征捕捉。比如,遠(yuǎn)處物體需要大分辨率的特征,而近處則不同。模型通過(guò)這種設(shè)計(jì)可以自適應(yīng)地與特征交互。
  3. 設(shè)計(jì)了一種稱為 Range-modulated 3D Denoising 的策略,以減輕 query 錯(cuò)誤傳播和收斂緩慢的問(wèn)題。考慮到不同距離的 query 回歸難度不同,noisy query 根據(jù)真實(shí)框的距離和尺度來(lái)調(diào)整。將 GT 附近的多組 noisy query 輸入解碼器,來(lái)分別實(shí)現(xiàn)重建3D 真實(shí)框(對(duì)于正樣本)和舍棄負(fù)樣本的作用。

主要貢獻(xiàn)

  1. 本文提出了一種新的基于稀疏 query 的檢測(cè)框架,它利用高質(zhì)量的 2D object prior 來(lái)生成 3D adaptive query, 從而擴(kuò)大三維檢測(cè)的感知范圍。
  2. 本文設(shè)計(jì)了 Perspective-aware Aggregation 模塊,它從不同尺度和視角聚合視覺(jué)特征,以及一個(gè)基于目標(biāo)距離的 3D Denoising 策略,來(lái)解決 query 誤差傳播和框架收斂問(wèn)題。
  3. 在遠(yuǎn)距離的 Argoverse 2 數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,F(xiàn)ar3D 超越了此前的環(huán)視方法,并優(yōu)于幾種基于激光雷達(dá)的方法。并且在 nuScenes 數(shù)據(jù)集上驗(yàn)證了其通用性。

模型設(shè)計(jì)

Far3D 流程概覽:

  1. 將環(huán)視圖像輸入主干網(wǎng)絡(luò)和 FPN 層,編碼得到 2D 圖像特征,并將其與相機(jī)參數(shù)進(jìn)行編碼。
  2. 利用 2D 檢測(cè)器和深度預(yù)測(cè)網(wǎng)絡(luò),生成可靠的 2D 物體框及其相應(yīng)深度,然后通過(guò)相機(jī)變換投影到 3D 空間。
  3. 生成的3D adaptive query 與初始的 3D global query 相結(jié)合,由解碼器層迭代回歸,以預(yù)測(cè) 3D 物體框。更進(jìn)一步,該模型可通過(guò)長(zhǎng)時(shí)序的 query 傳播實(shí)現(xiàn)時(shí)序建模。

Perspective-aware Aggregation:

為了給遠(yuǎn)距離檢測(cè)模型引入多尺度特征,本文應(yīng)用了 3D spatial deformable attention。它先在 query 對(duì)應(yīng)的 3D 位置附近進(jìn)行偏移采樣,而后通過(guò) 3D-2D 視圖變換聚合圖像特征。這種方法替代 PETR 系列中的 global attention 的優(yōu)勢(shì)在于,計(jì)算量可以大幅降低。具體地,對(duì)于 3D 空間中的每個(gè) query 的參考點(diǎn),模型會(huì)學(xué)習(xí)其周圍的 M 個(gè)采樣偏移,并將這些偏移點(diǎn)投影到不同的 2D 視圖特征中。

其后,3D query 與投影得到的采樣特征交互。通過(guò)這種方式,來(lái)自不同視角和尺度的各種特征將通過(guò)考慮其相對(duì)重要性匯聚到三維查詢中。

Range-modulated 3D Denoising:

不同距離的 3D query 具有不同的回歸難度,這不同于現(xiàn)有的 2D Denoising 方法(如 DN-DETR, 通常同等對(duì)待的2D query)。難度差異來(lái)自于 query 匹配密度和誤差傳播。一方面,與遠(yuǎn)處物體相對(duì)應(yīng)的 query 匹配度低于近處物體。另一方面,在 3D adaptive query 中引入二維先驗(yàn)時(shí),2D 物體框的微小誤差會(huì)被放大,更不用說(shuō)這種影響會(huì)隨著物體距離的增加而增大。因此,GT 框附近的一些 query 可被視為 positive query,而其他有明顯偏差則應(yīng)被視為 negative query。本文提出一種 3D Denoising 方法,旨在優(yōu)化那些正樣本,并直接舍棄負(fù)樣本。

具體地,作者通過(guò)同時(shí)添加正樣本和負(fù)樣本組來(lái)構(gòu)建基于 GT 的 noisy queries。對(duì)于這兩種類型,都會(huì)根據(jù)物體的位置和大小應(yīng)用隨機(jī)噪聲,以促進(jìn)遠(yuǎn)距離感知中的去噪學(xué)習(xí)。形式上,正樣本定義在 3D 框內(nèi)的隨機(jī)點(diǎn),而負(fù)樣本則在 GT 施加更大的偏移,范圍隨著物體的距離變化。這種方式可以在訓(xùn)練過(guò)程中模擬有噪聲的候選正樣本和 false postive 樣本。

實(shí)驗(yàn)結(jié)果

Far3D 在 150m 感知范圍的 Argoverse 2 上取得了最高的性能。并且模型 scale up 之后,可以達(dá)到幾個(gè) Lidar-based 方法的性能,展現(xiàn)了純視覺(jué)方法的潛力。

為了驗(yàn)證泛化性能,作者也在 nuScenes 數(shù)據(jù)集上做了實(shí)驗(yàn),表明其在驗(yàn)證集和測(cè)試集上都達(dá)到 SoTA 性能。

通過(guò) Ablation 實(shí)驗(yàn)表明了 3D adaptive query, perspective-aware aggregation 和 range-modulated 3D denoising 各自的增益。

論文思考

Q:這篇文章有什么 novelty?
A:主要 novelty 是解決遠(yuǎn)距離場(chǎng)景的感知問(wèn)題?,F(xiàn)有方法拓展到遠(yuǎn)距離場(chǎng)景有許多問(wèn)題,計(jì)算成本和收斂困難等。本文作者為這個(gè)任務(wù)提出了一個(gè)高效的框架。盡管單拎出來(lái)各個(gè)模塊似曾相識(shí),它們都是服務(wù)于遠(yuǎn)處目標(biāo)的檢測(cè)的,目標(biāo)明確。

Q:相比 BevFormer v2, MV2D 有什么區(qū)別?
A: MV2D 主要是依賴 2D anchor 去取對(duì)應(yīng)的特征對(duì) 3D 進(jìn)行了綁定,但是沒(méi)有顯式的深度估計(jì),所以對(duì)于遠(yuǎn)距離物體來(lái)說(shuō)不確定性就會(huì)比較大,然后難收斂;BevFormer v2 主要解決的是2D backbone與 3D 任務(wù)場(chǎng)景之間的domain gap,一般 2D 識(shí)別任務(wù)上預(yù)訓(xùn)練的 backbone 察覺(jué) 3D 場(chǎng)景的能力存在不足,并沒(méi)有探索遠(yuǎn)距離任務(wù)中的問(wèn)題。

Q: 時(shí)序上能否改進(jìn),如 query propagation 再加上 feature propagation?
A: 理論上是可行的,但是實(shí)際應(yīng)用中應(yīng)該考慮performance-efficiency tradeoff。

Q: 還有哪些需要改進(jìn)的地方?
A: 在長(zhǎng)尾問(wèn)題和遠(yuǎn)距離評(píng)測(cè)指標(biāo)上都值得改進(jìn)。在 Argoverse 2 這樣的 26 類目標(biāo)上,模型在長(zhǎng)尾類別上表現(xiàn)不佳,最終也會(huì)降低平均精度,這一點(diǎn)尚未被探索。另一方面,使用統(tǒng)一的指標(biāo)來(lái)評(píng)估遠(yuǎn)距離和近距離物體可能并不合適,這就強(qiáng)調(diào)了對(duì)實(shí)用的動(dòng)態(tài)評(píng)估標(biāo)準(zhǔn)的需求,以適應(yīng)現(xiàn)實(shí)世界的不同場(chǎng)景。

原文鏈接:https://mp.weixin.qq.com/s/xxaaYQsjuWzMI7PnSmuaWg

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2024-01-23 10:17:24

自動(dòng)駕駛安全

2023-12-07 13:14:54

2024-01-22 10:02:38

引擎架構(gòu)

2022-05-23 10:26:10

人工智能機(jī)器學(xué)習(xí)機(jī)器視覺(jué)

2023-12-29 10:06:00

AI3D

2022-12-16 09:44:39

3D智能

2023-10-05 12:55:12

自動(dòng)駕駛系統(tǒng)

2022-12-13 10:17:05

技術(shù)目標(biāo)檢測(cè)

2023-10-09 09:42:18

自動(dòng)駕駛模型

2011-10-06 13:30:45

宏碁投影儀

2024-12-23 15:46:59

2012-11-26 12:51:44

木材3D打

2023-09-11 11:27:34

自動(dòng)駕駛3D

2022-07-13 10:20:14

自動(dòng)駕駛3D算法

2023-04-25 11:49:28

3D視覺(jué)

2023-12-07 13:07:59

3D模型訓(xùn)練

2023-11-24 09:56:19

自動(dòng)駕駛訓(xùn)練

2011-05-26 10:05:07

優(yōu)派投影機(jī)

2024-01-26 10:02:51

自動(dòng)駕駛3D

2011-08-08 09:42:41

OGRE iOS
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)