Sparse4D v3來了!推進(jìn)端到端3D檢測和跟蹤
原標(biāo)題:Sparse4D v3 Advancing End-to-End 3D Detection and Tracking
論文鏈接:https://arxiv.org/pdf/2311.11722.pdf
代碼鏈接:https://github.com/linxuewu/Sparse4D
作者單位:地平線
論文思路:
在自動駕駛感知系統(tǒng)中,3D檢測和跟蹤是兩項(xiàng)基本任務(wù)。本文基于 Sparse4D 框架更深入地研究了該領(lǐng)域。本文引入了兩個(gè)輔助訓(xùn)練任務(wù)(時(shí)序?qū)嵗ピ?Temporal Instance Denoising和質(zhì)量估計(jì)-Quality Estimation),并提出解耦注意力(decoupled attention)來進(jìn)行結(jié)構(gòu)改進(jìn),從而顯著提高檢測性能。此外,本文使用一種簡單的方法將檢測器擴(kuò)展到跟蹤器,該方法在推理過程中分配實(shí)例 ID,進(jìn)一步突出了 query-based 算法的優(yōu)勢。在 nuScenes 基準(zhǔn)上進(jìn)行的大量實(shí)驗(yàn)驗(yàn)證了所提出的改進(jìn)的有效性。以ResNet50為骨干,mAP、NDS和AMOTA分別提高了3.0%、2.2%和7.6%,分別達(dá)到46.9%、56.1%和49.0%。本文最好的模型在 nuScenes 測試集上實(shí)現(xiàn)了 71.9% NDS 和 67.7% AMOTA。
主要貢獻(xiàn):
本文提出了 Sparse4D-v3,這是一個(gè)強(qiáng)大的 3D 感知框架,具有三種有效的策略:時(shí)序?qū)嵗ピ?、質(zhì)量估計(jì)和解耦注意力。
本文將 Sparse4D 擴(kuò)展為端到端跟蹤模型。
本文展示了 nuScenes 改進(jìn)的有效性,在檢測和跟蹤任務(wù)中實(shí)現(xiàn)了最先進(jìn)的性能。
網(wǎng)絡(luò)設(shè)計(jì):
首先,本文觀察到與 dense-based 算法相比,sparse-based 算法在收斂方面遇到了更大的挑戰(zhàn),最終影響了它們的最終性能。這個(gè)問題已經(jīng)在 2D 檢測領(lǐng)域得到了徹底的研究[17,48,53],并且主要?dú)w因于一對一正樣本匹配的使用。這種匹配方式在訓(xùn)練初期不穩(wěn)定,而且與一對多匹配相比,正樣本數(shù)量有限,從而降低了解碼器訓(xùn)練的效率。此外,Sparse4D 使用稀疏特征采樣而不是全局交叉注意力,由于正樣本稀缺,這進(jìn)一步阻礙了編碼器收斂。在 Sparse4Dv2 [27] 中,引入了密集深度監(jiān)督(dense depth supervision)來部分緩解圖像編碼器面臨的這些收斂問題。本文主要旨在通過關(guān)注解碼器訓(xùn)練的穩(wěn)定性來增強(qiáng)模型性能。本文將去噪任務(wù)作為輔助監(jiān)督,并將去噪技術(shù)(denoising techniques)從 2D 單幀檢測擴(kuò)展到 3D 時(shí)序檢測。不僅保證了穩(wěn)定的正樣本匹配,而且顯著增加了正樣本的數(shù)量。此外,本文引入了質(zhì)量評估(quality estimation)任務(wù)作為輔助監(jiān)督。這使得輸出的置信度分?jǐn)?shù)更加合理,提高了檢測結(jié)果排名的準(zhǔn)確性,從而獲得更高的評估指標(biāo)。此外,本文增強(qiáng)了Sparse4D中實(shí)例自注意力(instance self-attention)和時(shí)序交叉注意力模塊(temporal cross-attention modules)的結(jié)構(gòu),引入了一種解耦注意力機(jī)制(decoupled attention mechanism),旨在減少注意力權(quán)重計(jì)算過程中的特征干擾。如圖 3 所示,當(dāng)添加 anchor embedding 和實(shí)例特征作為注意力計(jì)算的輸入時(shí),所得注意力權(quán)重中存在異常值的實(shí)例。這無法準(zhǔn)確反映目標(biāo)特征之間的相互關(guān)聯(lián),導(dǎo)致無法聚合正確的特征。通過用 concatenation 代替 attention,本文顯著減少了這種錯(cuò)誤現(xiàn)象的發(fā)生。此增強(qiáng)功能與 Conditional DETR [33] 具有相似之處。然而,關(guān)鍵的區(qū)別在于本文強(qiáng)調(diào) queries 之間的注意力,與 Conditional DETR 不同,其專注于 queries 和圖像特征之間的交叉注意力。此外,本文的方法涉及獨(dú)特的編碼方法。
最后,為了提高感知系統(tǒng)的端到端能力,本文探索將3D多目標(biāo)跟蹤任務(wù)集成到Sparse4D框架中,從而能夠直接輸出目標(biāo)運(yùn)動軌跡。與 tracking-by-detection 方法不同,本文消除了數(shù)據(jù)關(guān)聯(lián)和過濾的需要,將所有跟蹤功能集成到檢測器中。此外,與現(xiàn)有的聯(lián)合檢測和跟蹤方法不同,本文的跟蹤器不需要修改訓(xùn)練過程或損失函數(shù)。它不需要提供 ground truth IDs,但可以實(shí)現(xiàn)預(yù)定義的 instance-to-tracking 回歸。本文的跟蹤實(shí)現(xiàn)最大限度地集成了檢測器和跟蹤器,不需要修改檢測器的訓(xùn)練過程,也不需要額外的微調(diào)。
圖1:Sparse4D框架概述,輸入多視圖視頻并輸出所有幀的感知結(jié)果。
圖 2:不同算法的 nuScenes 驗(yàn)證數(shù)據(jù)集上的推理效率 (FPS) - 感知性能 (mAP)。
圖 3:實(shí)例自注意力中的注意力權(quán)重的可視化:1)第一行顯示了普通自注意力中的注意力權(quán)重,其中紅色圓圈中的行人顯示出與目標(biāo)車輛(綠色框)的意外相關(guān)性。2)第二行顯示了解耦注意力中的注意力權(quán)重,有效解決了該問題。
圖 4:時(shí)序?qū)嵗ピ氲膱D示。(a) 在訓(xùn)練階段,實(shí)例包含兩個(gè)組成部分:可學(xué)習(xí)的和噪聲的。噪聲實(shí)例由時(shí)間和非時(shí)間元素組成。對于噪聲實(shí)例,本文采用預(yù)匹配方法來分配正樣本和負(fù)樣本——將 anchors 與 ground truth 進(jìn)行匹配,而可學(xué)習(xí)實(shí)例與預(yù)測和 ground truth 進(jìn)行匹配。在測試階段,僅保留圖中的綠色塊。(b) 采用 Attention mask 來防止 groups 之間的特征傳播,其中灰色表示 queries 和 keys 之間沒有注意力,綠色表示相反。
圖 5:anchor encoder 和注意力的架構(gòu)。本文獨(dú)立地對 anchor 的多個(gè)組件進(jìn)行高維特征編碼,然后將它們連接起來。與原始 Sparse4D 相比,這種方法可以降低計(jì)算和參數(shù)開銷。E 和 F 分別表示 anchor embedding 和實(shí)例特征。
實(shí)驗(yàn)結(jié)果:
總結(jié):
本文首先提出了增強(qiáng) Sparse4D 檢測性能的方法。這一增強(qiáng)主要包括三個(gè)方面:時(shí)序?qū)嵗ピ?、質(zhì)量估計(jì)和解耦注意力。隨后,本文說明了將 Sparse4D 擴(kuò)展為端到端跟蹤模型的過程。本文在 nuScenes 上的實(shí)驗(yàn)表明,這些增強(qiáng)功能顯著提高了性能,使 Sparse4Dv3 處于該領(lǐng)域的前沿。
引用:
Lin, X., Pei, Z., Lin, T., Huang, L., & Su, Z. (2023). Sparse4D v3: Advancing End-to-End 3D Detection and Tracking. ArXiv. /abs/2311.11722