Nuscenes最新SOTA | DynamicBEV超越PETRv2/BEVDepth!
1. 論文信息
2. 引言
這篇論文介紹了一種新的3D object detection方法,這對(duì)于自動(dòng)駕駛、機(jī)器人技術(shù)和監(jiān)控等應(yīng)用至關(guān)重要。傳統(tǒng)的3D object detection方法使用鳥瞰視角(BEV)方法,將3D場(chǎng)景簡(jiǎn)化為2D表示。然而,常規(guī)的BEV方法在本質(zhì)上大多是靜態(tài)的。本文提出了一種名為DynamicBEV的動(dòng)態(tài)方法。
傳統(tǒng)BEV方法的局限性
- 靜態(tài)Queries:傳統(tǒng)方法主要使用靜態(tài)Queries,其中Queries權(quán)重在訓(xùn)練階段預(yù)定義,并且在推理期間不會(huì)更改。
- 有限的背景利用:由于Queries的靜態(tài)性質(zhì),這些模型難以有效地利用空間和時(shí)間背景,并適應(yīng)復(fù)雜場(chǎng)景。
DynamicBEV的進(jìn)步
- 動(dòng)態(tài)Queries:與靜態(tài)Queries不同,DynamicBEV中的動(dòng)態(tài)Queries可以迭代地適應(yīng)復(fù)雜場(chǎng)景。這種適應(yīng)性允許模型捕捉更復(fù)雜的時(shí)空關(guān)系。
- 特征聚類:DynamicBEV采用特征聚類來(lái)創(chuàng)建自適應(yīng)場(chǎng)景表示。
- Top-K 注意機(jī)制:在這種方法中,采用了一種Top-K注意機(jī)制,每個(gè)Queries都會(huì)調(diào)整以適應(yīng)最相關(guān)的前k個(gè)聚類,允許從各種特征聚類中聚合信息。
- 多樣性損失:引入了多樣性損失,確保注意權(quán)重的平衡,使模型不僅考慮最突出的特征,還考慮較不明顯的特征。這提高了模型的準(zhǔn)確性、魯棒性和適應(yīng)性。輕量級(jí)時(shí)間融合模塊(LTFM):引入了這個(gè)模塊以提高效率。與傳統(tǒng)方法相比,LTFM在不顯著增加計(jì)算成本的情況下,提高了時(shí)間背景的合并。在nuScenes數(shù)據(jù)集上的評(píng)估表明,DynamicBEV在準(zhǔn)確性和效率方面都超過了最先進(jìn)的方法。DynamicBEV,通過其對(duì)動(dòng)態(tài)Queries的創(chuàng)新使用以及像LTFM這樣的有效機(jī)制,為3D object detection領(lǐng)域提供了有希望的進(jìn)步。通過允許Queries動(dòng)態(tài)適應(yīng)、通過多樣性損失利用多樣化特征,以及高效合并時(shí)間背景,DynamicBEV顯著提高了各種場(chǎng)景下3D object detection的性能。
3. 方法
DynamicBEV 是一個(gè)創(chuàng)新的3D物體檢測(cè)方法,它通過動(dòng)態(tài)查詢的使用,改進(jìn)了傳統(tǒng)基于靜態(tài)查詢的方法。這個(gè)方法包括幾個(gè)關(guān)鍵組件:一個(gè)基礎(chǔ)網(wǎng)絡(luò)用于初步的特征提??;動(dòng)態(tài)查詢演化模塊(DQEM),用于通過 K-means 聚類在每個(gè)查詢周圍分組特征,帶來(lái)自適應(yīng)的結(jié)構(gòu)表示;以及 Top-K 注意模塊和輕量級(jí)時(shí)間融合模塊(LTFM),分別用于迭代優(yōu)化查詢和有效捕獲每個(gè)查詢的時(shí)間背景。這些組件共同作用,實(shí)現(xiàn)了在復(fù)雜3D場(chǎng)景中魯棒且精確的物體檢測(cè)。Initialization of Queries (Pillars)
在“查詢(Pillars)的初始化”這一部分,通過初始化查詢(也稱為pillars)來(lái)建立在3D空間中檢測(cè)對(duì)象的基礎(chǔ)。這些pillars被放置在鳥瞰圖(BEV)空間中,并通過集合 (Q) 數(shù)學(xué)符號(hào)化,其中集合中的每個(gè)元素代表pillar的空間坐標(biāo)、維度、方向角和速度分量等屬性,。數(shù)學(xué)表述結(jié)合敘述,生動(dòng)地描述了3D空間中每個(gè)pillar的內(nèi)在特性。
K-means Clustering
在“K均值聚類”部分,方法論的重點(diǎn)是將周圍的特征劃分為聚類。這一部分的數(shù)學(xué)基礎(chǔ)是使用K均值聚類,其中每個(gè)查詢的周圍特征 (F) 被劃分為 (K) 個(gè)聚類 。這個(gè)技術(shù)過程是至關(guān)重要的,因?yàn)樗鼪Q定了pillars如何適應(yīng)3D空間中的局部化模式和特征,促進(jìn)了對(duì)對(duì)象特征的細(xì)致理解。
Diversity Loss for Balanced Feature Aggregation
在標(biāo)題為“多樣性損失用于平衡特征聚合”的部分,介紹并數(shù)學(xué)定義了一個(gè)新的損失函數(shù) ,。該部分旨在確保模型不過度集中于主導(dǎo)特征,促進(jìn)了對(duì)各種特征聚類的平衡關(guān)注。它詳細(xì)闡述了多樣性損失的數(shù)學(xué)和概念基礎(chǔ),倡導(dǎo)更加包容的特征聚合過程。
Dynamic Adaptation of Queries
這部分主要分為三個(gè)步驟
- 初始特征聚合這個(gè)等式描述了聚合特征的初始過程。這里,(F_0) 代表初始聚合特征,而 是一個(gè)聚合每個(gè)查詢周圍特征的函數(shù)。該函數(shù)接受查詢 (Q) 和簇 作為輸入。目標(biāo)是合并來(lái)自各種簇的信息,為每個(gè)查詢創(chuàng)建一個(gè)綜合的初始特征表示。
- Top-K 注意力更新
這個(gè)等式計(jì)算每個(gè)查詢和每個(gè)簇之間的注意力分?jǐn)?shù)。這里,注意力函數(shù),,通過執(zhí)行點(diǎn)積后跟一個(gè) softmax 函數(shù),計(jì)算每個(gè)查詢 (Q) 和簇 之間的相似性。這個(gè)過程為與每個(gè)查詢更相關(guān)的簇分配更高的權(quán)重,確保捕獲最重要的特征。
- 查詢的迭代更新這個(gè)等式表示查詢的迭代更新。新查詢是通過將更新函數(shù)應(yīng)用于初始查詢,初始聚合特征和注意力分?jǐn)?shù)獲得的。更新函數(shù)可能涉及如加權(quán)和和規(guī)范化之類的操作,允許查詢動(dòng)態(tài)適應(yīng)并更具代表性地捕獲 3D 空間中的對(duì)象特征。
概括一下,也就是最初,每個(gè)查詢從其周圍環(huán)境(由簇表示)收集信息,這些信息聚合不太受每個(gè)簇的相關(guān)性的影響。然后,模型計(jì)算注意力分?jǐn)?shù),確定每個(gè)簇對(duì)每個(gè)查詢的重要性,確保給予更多關(guān)注的相關(guān)特征。最后,查詢會(huì)動(dòng)態(tài)更新,使它們?cè)诓东@來(lái)自特征簇的基本特征方面更具適應(yīng)性和效力,使它們能夠通過迭代更好地代表 3D 空間中的對(duì)象。這種動(dòng)態(tài)適應(yīng)促使object detection過程更加細(xì)致和有效。Lightweight Temporal Fusion Module“輕量級(jí)時(shí)態(tài)融合模塊”部分深入探討了在3D object detection中管理時(shí)態(tài)上下文的有效策略。它系統(tǒng)地展開了計(jì)算過程,描述了通過加權(quán)組合和動(dòng)態(tài)時(shí)態(tài)聚合初始化和更新時(shí)態(tài)查詢的過程。本節(jié)體現(xiàn)了計(jì)算效率的本質(zhì),通過利用現(xiàn)有的計(jì)算來(lái)管理時(shí)態(tài)上下文,減輕了對(duì)資源密集型操作的需求。
4. 實(shí)驗(yàn)
表格展示了我們的DynamicBEV與其他最新方法的性能比較。在nuScenes驗(yàn)證數(shù)據(jù)集上,DynamicBEV以較大的優(yōu)勢(shì)超越了所有其他方法。當(dāng)使用ResNet50背景,DynamicBEV達(dá)到了55.9的NDS,略高于SparseBEV的54.5。更重要的是,當(dāng)應(yīng)用透視預(yù)訓(xùn)練時(shí),DynamicBEV的NDS分?jǐn)?shù)升至57.0,超過SparseBEV的55.8。
DynamicBEV始終保持高平均精度(mAP)分?jǐn)?shù),證明了其強(qiáng)大的object detection能力。在真陽(yáng)性度量如mATE,mASE等方面,DynamicBEV與SparseBEV和其他競(jìng)爭(zhēng)方法相比表現(xiàn)良好。此外,該模型在細(xì)粒度評(píng)估指標(biāo)如對(duì)象方向誤差(mAOE)和屬性誤差(mAAE)方面也表現(xiàn)良好。透視預(yù)訓(xùn)練的應(yīng)用不僅改進(jìn)了幾乎所有評(píng)估指標(biāo),還展示了模型的適應(yīng)性和靈活性。
DynamicBEV的優(yōu)勢(shì)主要源于兩個(gè)固有方面:首先,DynamicBEV的設(shè)計(jì)使其能夠更好地捕捉長(zhǎng)距離依賴性。在3D object detection中,一個(gè)對(duì)象的不同部分可能在空間上是遙遠(yuǎn)的,但在上下文中是相關(guān)的。例如,車的前部和后部在BEV空間中可能相距很遠(yuǎn),但它們屬于同一個(gè)對(duì)象。作為一種基于靜態(tài)查詢的方法,SparseBEV可能會(huì)在這樣的場(chǎng)景中遇到困難,因?yàn)槠洳樵凕c(diǎn)是固定的,不能動(dòng)態(tài)適應(yīng)變化的場(chǎng)景。相比之下,DynamicBEV通過其動(dòng)態(tài)查詢演化模塊,可以實(shí)時(shí)更新其查詢點(diǎn),從而更好地捕捉這些長(zhǎng)距離依賴性。其次,DynamicBEV更能應(yīng)對(duì)真實(shí)世界場(chǎng)景的動(dòng)態(tài)性。在真實(shí)世界場(chǎng)景中,對(duì)象可能會(huì)移動(dòng)、旋轉(zhuǎn)或改變形狀。在這樣動(dòng)態(tài)變化的場(chǎng)景中,具有靜態(tài)查詢點(diǎn)的SparseBEV可能會(huì)遇到困難。然而,DynamicBEV通過其動(dòng)態(tài)查詢和K-means聚類,可以動(dòng)態(tài)調(diào)整其查詢點(diǎn),從而更好地適應(yīng)不斷變化的場(chǎng)景。在接下來(lái)的部分中,我們將通過消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證這些觀察結(jié)果。
5. 討論
本文提出的DynamicBEV方法在3D object detection領(lǐng)域展現(xiàn)了顯著的創(chuàng)新性和優(yōu)越性。首先,該方法引入了動(dòng)態(tài)查詢?cè)O(shè)計(jì),這是一種突破性策略,有效捕獲了長(zhǎng)距離依賴,彌補(bǔ)了傳統(tǒng)靜態(tài)查詢?cè)谔幚砜臻g分布廣泛的對(duì)象時(shí)可能遇到的問題。動(dòng)態(tài)查詢通過實(shí)時(shí)更新查詢點(diǎn),允許模型更敏感地捕捉場(chǎng)景的動(dòng)態(tài)變化,增強(qiáng)了模型對(duì)不同物體部分之間復(fù)雜關(guān)系的理解和處理能力。
其次,DynamicBEV方法還采用了透視預(yù)訓(xùn)練策略,進(jìn)一步提高了模型的性能。這種預(yù)訓(xùn)練方法通過在多個(gè)透視圖中訓(xùn)練模型,提高了模型在多個(gè)評(píng)估指標(biāo)上的表現(xiàn),顯示了該模型在不同任務(wù)和視角下都有著優(yōu)秀的適應(yīng)性和靈活性。
在與當(dāng)前最先進(jìn)的方法進(jìn)行比較時(shí),DynamicBEV在nuScenes驗(yàn)證數(shù)據(jù)集上表現(xiàn)卓越,不僅在常規(guī)的mean Average Precision (mAP)評(píng)估指標(biāo)上保持了高分,還在nuScenes特有的綜合評(píng)估指標(biāo)NDS上達(dá)到了新的高度。該方法在各種不同的網(wǎng)絡(luò)配置和輸入規(guī)模下都能保持穩(wěn)定和高效的性能,證明了其強(qiáng)大的泛化能力。
DynamicBEV方法在真實(shí)世界的動(dòng)態(tài)場(chǎng)景中表現(xiàn)出了非凡的魯棒性。由于采用了動(dòng)態(tài)查詢和K-means聚類,即便在面對(duì)對(duì)象移動(dòng)、旋轉(zhuǎn)和形狀變化等復(fù)雜變化時(shí),該方法也能夠有效地調(diào)整其查詢點(diǎn),保持高水平的檢測(cè)性能。
然而,值得注意的是,盡管DynamicBEV在性能上表現(xiàn)出色,但其模型復(fù)雜性相對(duì)較高。動(dòng)態(tài)查詢和透視預(yù)訓(xùn)練的引入可能增加了模型的計(jì)算負(fù)擔(dān)。因此,未來(lái)的研究可以考慮在維持檢測(cè)性能的基礎(chǔ)上,探索如何優(yōu)化和簡(jiǎn)化模型結(jié)構(gòu),以提高模型的計(jì)算效率。
6. 結(jié)論
DynamicBEV作為一個(gè)新穎而強(qiáng)大的3Dobject方法,成功地解決了傳統(tǒng)方法在處理動(dòng)態(tài)場(chǎng)景和長(zhǎng)距離依賴時(shí)的問題,表現(xiàn)出了良好的魯棒性和廣泛的適用性。