自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

地平線最新!Sparse4D v3:進(jìn)一步提升端到端3D檢測與跟蹤任務(wù)(雙SOTA?。?/h1>

人工智能 新聞
Sparse4D-v3包含三種有效的策略--時間實例去噪、質(zhì)量估計和解耦注意力,這也是將Sparse4D擴(kuò)展到端到端跟蹤模型中的嘗試!在檢測和跟蹤任務(wù)中都實現(xiàn)了SOTA!

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

個人理解&&寫在前面

自動駕駛感知系統(tǒng)中,3D檢測和跟蹤是兩項基本任務(wù)。v3版本在Sparse4D的基礎(chǔ)上對該領(lǐng)域進(jìn)行了更深入的研究。主要引入了兩個輔助訓(xùn)練任務(wù)(時態(tài)實例去噪和質(zhì)量估計),并提出了解耦注意力來進(jìn)行結(jié)構(gòu)改進(jìn),從而顯著提高檢測性能。此外,還使用一種簡單的方法將檢測器擴(kuò)展到跟蹤器中,該方法在推理過程中分配實例ID,進(jìn)一步突出了基于Query算法的優(yōu)勢。 這一段話中間開始可以改成 該方法在推理過程中通過直接分配實例id的方式實現(xiàn)跟蹤。和現(xiàn)有的端到端跟蹤方法(如motr系列)相比,sparse4d v3中無需加入任何針對跟蹤的訓(xùn)練策略,進(jìn)一步突出了基于稀疏實例的時序算法的優(yōu)勢。在nuScenes上以ResNet50為主干,mAP、NDS和AMOTA的提升分別為3.0%、2.2%和7.6%,達(dá)到了46.9%、56.1%和49.0%。Best Model在nuScenes測試集上獲得了71.9%的NDS和67.7%的AMOTA。

一句話總結(jié)下:Sparse4D-v3包含三種有效的策略--時間實例去噪、質(zhì)量估計和解耦注意力,這也是將Sparse4D擴(kuò)展到端到端跟蹤模型中的嘗試!在檢測和跟蹤任務(wù)中都實現(xiàn)了SOTA!

Sparse4D框架回顧

在時序多視角感知研究領(lǐng)域,基于稀疏的算法取得了重大進(jìn)展,達(dá)到了與基于dense-BEV-based算法相當(dāng)?shù)母兄阅?,同時提供了幾個優(yōu)勢:

  • 1) 無需視角變換模塊。這些稀疏方法消除了將圖像空間轉(zhuǎn)換為3D矢量空間的模塊。
  • 2) 檢測頭中的恒定計算負(fù)載,與感知距離和圖像分辨率無關(guān)。
  • 3)更容易地實現(xiàn)對下游任務(wù)進(jìn)行端到端方式的集成。

這里選擇了稀疏算法Sparse4Dv2作為改進(jìn)的基線算法。該算法的總體結(jié)構(gòu)如圖1所示,圖像編碼器將多視圖圖像轉(zhuǎn)換為多尺度特征圖,解碼器利用這些圖像特征來細(xì)化實例并生成感知結(jié)果。

與基于密集的算法相比,基于稀疏的算法在收斂方面遇到了更大的挑戰(zhàn),最終影響了它們的最終性能。這個問題已經(jīng)在2D檢測領(lǐng)域進(jìn)行了深入的研究,主要歸因于一對一正樣本匹配的使用。這種匹配方法在訓(xùn)練的初始階段是不穩(wěn)定的,并且與一對多匹配相比正樣本數(shù)量大幅減少,從而降低解碼器訓(xùn)練的效率。

此外,Sparse4D利用稀疏特征采樣而不是全局交叉注意力,由于正樣本的特征采樣點稀少,進(jìn)一步阻礙了編碼器的收斂。在Sparse4Dv2中,引入了密集深度監(jiān)督,一定程度緩解圖像編碼器面臨的這些收斂問題。v3主要目的是通過關(guān)注解碼器訓(xùn)練的穩(wěn)定性來提高模型性能。將去噪任務(wù)作為輔助監(jiān)督,并將去噪技術(shù)從2D單幀檢測擴(kuò)展到3D時序檢測。它不僅確保了穩(wěn)定的正樣本匹配,而且顯著增加了正樣本的數(shù)量。此外,還引入了質(zhì)量評估作為輔助監(jiān)督的任務(wù)。這使得輸出置信度更加合理,提高了檢測結(jié)果排名的準(zhǔn)確性,從而得到更高的評估指標(biāo)。并且,我們還改進(jìn)了Sparse4D中實例自注意和時序交叉注意模塊的結(jié)構(gòu),提出了一種解耦的注意機(jī)制,旨在減少注意力權(quán)重計算過程中的特征干擾

如圖3所示,當(dāng)anchor嵌入和實例特征被添加為注意力計算的輸入時,在產(chǎn)生的注意力權(quán)重中存在異常值的實例。這不能準(zhǔn)確地反映目標(biāo)特征之間的相互關(guān)聯(lián),導(dǎo)致無法聚合正確的特征。通過用特征拼接代替特征相加,顯著減少了這種錯誤現(xiàn)象的發(fā)生。這種改進(jìn)與Conditional DETR有相似之處。然而,關(guān)鍵的區(qū)別在于這里強(qiáng)調(diào)query之間的注意力,而不是Conditional DETR,后者專注于query和圖像特征之間的交叉注意力。

當(dāng)前背景介紹

DETR采用了Transformer架構(gòu)以及一對一匹配訓(xùn)練方法,以消除對NMS的需求并實現(xiàn)端到端檢測。DETR帶來了一系列后續(xù)改進(jìn)。Deformable DETR基于參考點將全局注意力變?yōu)榫植孔⒁饬Γ@著縮小了模型的訓(xùn)練搜索空間,提高了收斂速度。它還降低了注意力的計算復(fù)雜性,便于在DETR框架內(nèi)使用高分辨率輸入和多尺度特征。Conditional DETR引入了條件交叉注意力,將query中的內(nèi)容和空間信息分離,并通過點積獨立計算注意力權(quán)重,從而加速模型收斂?;贑onditional DETR,Anchor DETR顯式初始化參考點,用作anchor。DAB-DETR進(jìn)一步將邊界框維度包括在anchor的初始化和空間查詢的編碼中。此外,許多方法旨在從訓(xùn)練匹配的角度提高DETR的收斂穩(wěn)定性和檢測性能。DN-DETR使用添加的噪聲對真值進(jìn)行編碼,作為解碼器的query,采用去噪任務(wù)進(jìn)行輔助監(jiān)督。在DN-DETR的基礎(chǔ)上,DINO引入了噪聲負(fù)樣本,并提出使用混合查詢選擇進(jìn)行查詢初始化,進(jìn)一步提高了DETR框架的性能。Group DETR在訓(xùn)練期間將query復(fù)制到多個組中,從而提供更多的訓(xùn)練樣本。Co-DETR在訓(xùn)練過程中結(jié)合了密集的Head,具有兩個作用,既能夠?qū)χ鞲蛇M(jìn)行更全面的訓(xùn)練,也能通過使用密集頭輸出作為query來增強(qiáng)解碼器的訓(xùn)練!

DETR3D將可變形注意力應(yīng)用于multi-view 3D檢測,通過空間特征融合實現(xiàn)端到端的3D檢測。PETR系列引入了3D位置編碼,利用全局注意力進(jìn)行直接多視圖特征融合并進(jìn)行時間優(yōu)化。Sparse4D系列在實例特征解耦、多點特征采樣、時序融合等方面增強(qiáng)了DETR3D,從而增強(qiáng)了感知性能。

大多數(shù)多目標(biāo)跟蹤(MOT)方法使用檢測+跟蹤框架。它們依賴于檢測器輸出來執(zhí)行數(shù)據(jù)關(guān)聯(lián)和軌跡過濾等后處理任務(wù),從而產(chǎn)生了一個具有大量超參數(shù)的復(fù)雜pipeline,需要進(jìn)行調(diào)整。這些方法并沒有充分利用神經(jīng)網(wǎng)絡(luò)的能力,為了將跟蹤功能直接集成到檢測器中,GCNet、TransTrack和TrackFormer利用了DETR框架。它們基于track query將檢測得的目標(biāo)進(jìn)行幀間傳輸,顯著降低了后處理的依賴性,MOTR將跟蹤推進(jìn)到一個完全端到端的過。MOTRv3解決了MOTR的detection query訓(xùn)練的局限性,從而帶來了實質(zhì)性的改進(jìn)(在跟蹤性能方面)。MUTR3D將這種基于查詢的跟蹤框架應(yīng)用于3D多目標(biāo)跟蹤領(lǐng)域。這些端到端跟蹤方法有一些共同的特點:

(1) 在訓(xùn)練過程中,根據(jù)跟蹤目標(biāo)約束匹配,確保track query的ID匹配一致,detection query只匹配新目標(biāo)。

(2) 使用高閾值來傳輸時間特征,只將高置信度查詢傳遞到下一幀。

v3方法與現(xiàn)有方法不同,不需要修改檢測器訓(xùn)練或推理策略,也不需要跟蹤ID的ground truth。

方法介紹

網(wǎng)絡(luò)結(jié)構(gòu)和推理框架如圖1所示!展示了Sparse4Dv2的網(wǎng)絡(luò)結(jié)構(gòu)和推理pipeline,這里將首先介紹兩個輔助任務(wù):時序?qū)嵗ピ牒唾|(zhì)量估計,緊接著介紹注意力模塊的增強(qiáng),稱為解耦注意力,最后概述了如何利用Sparse4D實現(xiàn)3D MOT。

1)Temporal 實例去噪

在2D檢測中,引入去噪任務(wù)被證明是提高模型收斂穩(wěn)定性和檢測性能的有效方法。v3將基本的2D單幀去噪擴(kuò)展到3D時序去噪。在Sparse4D中,實例(也可稱為query)被解耦為隱式實例特征和顯式anchor,在訓(xùn)練過程中初始化了兩組anchor。一個集合包括均勻分布在檢測空間中的anhcor,使用k-means方法初始化,并且這些anchor用作可學(xué)習(xí)參數(shù)。另一組anchor是通過將噪聲添加到GT中來生成的。對于3D檢測任務(wù),噪聲anchor生成如方程(1,2)所示

此外,通過時序傳播擴(kuò)展了上述單幀噪聲實例,以更好地與稀疏遞歸訓(xùn)練過程保持一致。在每幀的訓(xùn)練過程中,從有噪聲的實例中隨機(jī)選擇M′組投影到下一幀。時間傳播策略與無噪聲實例的策略一致:anchors進(jìn)行自車pose和速度補(bǔ)償,而實例特征直接作為后續(xù)幀特征的初始化。

需要注意的是,這里保持每組實例的相互獨立性,并且在噪聲實例和正常實例之間不會發(fā)生特征交互。這與DN-DETR不同,如圖4(b)所示。這種方法確保在每組中,一個GT最多與一個正樣本匹配,有效地避免了任何潛在的歧義!

2)質(zhì)量估計

現(xiàn)有的基于稀疏的方法主要估計正樣本和負(fù)樣本的分類置信度,以測量與GT的一致性。優(yōu)化目標(biāo)是最大化所有正樣本的分類置信度。然而,匹配質(zhì)量在不同的正樣本中存在顯著差異,因此分類置信度不是用于評估預(yù)測邊界框的質(zhì)量的理想度量。為了便于網(wǎng)絡(luò)理解正樣本的質(zhì)量,一方面加快收斂,另一方面合理化預(yù)測ranking ,這里引入了預(yù)測質(zhì)量估計的任務(wù)。對于3D檢測任務(wù),定義了兩個質(zhì)量指標(biāo):centerness和yawness,公式如下:

在網(wǎng)絡(luò)輸出分類置信度的同時,它還估計了centerness和yawness,它們各自的損失函數(shù)為交叉熵?fù)p失和focal loss,如以下方程所示:

3)Decoupled Attention

v3對Sparse4Dv2中的anchor編碼器、自注意和時間交叉注意進(jìn)行了簡單的改進(jìn),該體系結(jié)構(gòu)如圖5所示。設(shè)計原則是以拼接的方式結(jié)合不同模態(tài)的特征,而不是使用加法。與Conditional DETR相比,存在一些差異。首先,改進(jìn)了查詢之間的注意力,而不是查詢和圖像特征之間的交叉注意力;交叉注意力仍然利用來自Sparse4D的可變形聚集。此外,沒有在單頭注意力級別連接位置嵌入和查詢特征,而是在多頭注意力級別進(jìn)行外部修改,為神經(jīng)網(wǎng)絡(luò)提供了更大的靈活性!

4)擴(kuò)展到跟蹤部分

在Sparse4Dv2的框架中,時序建模采用了遞歸形式,將前一幀的實例投影到當(dāng)前幀上作為輸入。時序?qū)嵗愃朴诨趒uery的跟蹤器中的track query,不同之處在于track query受到更高閾值的約束,表示高度自信的檢測結(jié)果。相比之下,v3的時序?qū)嵗芏啵渲写蠖鄶?shù)可能無法準(zhǔn)確地表示先前幀中檢測到的目標(biāo)。

為了在Sparse4Dv2框架內(nèi)從檢測擴(kuò)展到多目標(biāo)跟蹤,我們直接將實例從檢測邊界框重新定義為軌跡。軌跡包括ID和每個幀的邊界框。由于設(shè)置了大量冗余實例,許多實例可能不與精確目標(biāo)相關(guān)聯(lián),并且不被分配明確的ID。盡管如此,它們?nèi)匀豢梢詡鞑サ较乱粠R坏嵗臋z測置信度超過閾值T,就認(rèn)為它被鎖定在目標(biāo)上并被分配了ID,該ID在整個時間傳播過程中保持不變。因此,實現(xiàn)多目標(biāo)跟蹤就像將ID分配過程應(yīng)用于輸出感知結(jié)果一樣簡單。跟蹤過程中的生命周期管理由Sparse4Dv2中的top-k策略無縫處理,無需額外修改,具體可參考算法1。我們觀察到,訓(xùn)練好的時序模型不需要使用跟蹤約束進(jìn)行微調(diào),就已經(jīng)表現(xiàn)出優(yōu)異的跟蹤特性。

實驗分析對比

為了驗證Sparse4Dv3的有效性,這里使用了nuScenes基準(zhǔn)測試,它是一個包含1000個場景的數(shù)據(jù)集。訓(xùn)練、驗證和測試分別包含700、150和150個場景。每個場景以2幀(FPS)的20秒視頻剪輯為特征,并包括6個view圖像。除了3D框標(biāo)簽外,該數(shù)據(jù)集還提供了有關(guān)車輛運(yùn)動狀態(tài)和攝像頭參數(shù)的數(shù)據(jù)。對于檢測性能評估,綜合方法考慮了mAP、mATE、mASE、mAOE、mAVE、mAAE和NDS等指標(biāo),其中NDS表示其它指標(biāo)的加權(quán)平均值。對于跟蹤模型評估,關(guān)鍵指標(biāo)包括AMOTA、AMOTP、召回和ID切換(IDS)。

nuScenes驗證數(shù)據(jù)集上的3D檢測結(jié)果:

圖片

nuScenes測試數(shù)據(jù)集上的3D檢測結(jié)果:

圖片

nuscenes上多目標(biāo)跟蹤性能:

圖片

更多消融實驗:

圖片圖片

后續(xù)的一些方向

基于Sparse4D框架,還有相當(dāng)大的進(jìn)一步研究潛力:

  • (1)我們進(jìn)對目標(biāo)跟蹤任務(wù)進(jìn)行初步嘗試,跟蹤性能還有很大的改進(jìn)空間;
  • (2) 將Sparse4D擴(kuò)展為以激光雷達(dá)輸入或多模態(tài)輸入的模型是比較有前景的方向;
  • (3) 在跟蹤的基礎(chǔ)上引入更多的下游任務(wù)(如預(yù)測和規(guī)劃),進(jìn)一步實現(xiàn)端到端感知;
  • (4) 集成額外的感知任務(wù),如在線地圖和2D標(biāo)志&紅綠燈檢測;

原文鏈接:https://mp.weixin.qq.com/s/ke7_QXm_F5iZwF_A_aw--A

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2023-11-24 09:56:19

自動駕駛訓(xùn)練

2024-01-23 13:32:53

地平線自動駕駛

2023-12-20 09:55:51

雷達(dá)傳感器算法

2024-02-27 15:14:04

自動駕駛技術(shù)

2011-08-25 23:17:16

2021-03-29 09:12:50

Windows 10Windows操作系統(tǒng)

2024-04-17 09:56:24

算法模型

2021-04-18 10:50:15

Windows10操作系統(tǒng)微軟

2024-12-03 09:36:52

2024-03-15 10:20:14

自動駕駛模型

2024-04-24 11:23:11

3D檢測雷達(dá)

2023-09-01 18:20:43

Chrome代碼測試版

2024-06-19 09:45:07

2024-10-10 09:37:49

2022-12-16 09:44:39

3D智能

2023-09-25 14:53:55

3D檢測

2024-09-20 09:53:11

2009-08-26 14:48:05

C#委托與事件

2024-05-16 09:24:17

3D技術(shù)

2011-08-26 14:50:23

點贊
收藏

51CTO技術(shù)棧公眾號