新世界大門打開!MambaBEV成功將Mamba2引入BEV目標檢測
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
引言
MambaBEV是一個專為自動駕駛系統(tǒng)設(shè)計的基于Mamba2的高效3D檢測模型。該模型利用了鳥瞰圖(BEV)范式,并整合了時序信息,同時提高了檢測的穩(wěn)定性和準確性。在nuScences數(shù)據(jù)集上,該模型具有出色的表現(xiàn)。
對于自動駕駛系統(tǒng)而言,更安全、準確地進行3D目標檢測至關(guān)重要。歷史上,這些感知系統(tǒng)主要依賴霍夫變換和關(guān)鍵點提取等技術(shù)構(gòu)建基礎(chǔ)框架。然而,深度學習的興起使得感知精度的重大飛躍。
然而,單目相機的感知方法仍面臨諸多挑戰(zhàn),尤其是距離感知誤差大和盲區(qū)范圍廣,這些問題對駕駛安全構(gòu)成了顯著威脅。為了解決距離誤差問題,研究人員提出了雙目立體匹配技術(shù),通過利用一對相機捕獲圖像之間的視差,在一定程度上改善了距離估計的準確性。然而,這些系統(tǒng)仍然存在關(guān)鍵的局限性:它們無法感知車輛側(cè)面和后部的物體及車道標記,從而在自動駕駛系統(tǒng)的安全范圍內(nèi)留下空白。
為了應對這些局限性,最新的研究探索了使用環(huán)視相機系統(tǒng)進行感知,該系統(tǒng)通常包括六個相機。這種方法為每個相機輸入部署獨立的深度學習模型,并依賴后處理技術(shù)將各個輸出整合為對環(huán)境的一致感知。盡管這種方法克服了單目和雙目系統(tǒng)的局限性,但也引入了一系列新挑戰(zhàn),包括大量的GPU內(nèi)存消耗、感知冗余、跨相機視圖的目標重新識別,以及缺乏跨相機的信息交互。這些因素共同影響了感知系統(tǒng)的效率和有效性。
圖1 MambaBEV的框架。
為了解決這些障礙,基于鳥瞰圖(BEV)的范式作為一種有前景的解決方案應運而生。這種方法將多個相機的輸入整合到一個統(tǒng)一的BEV表示中,從而使車輛周圍環(huán)境的全面理解成為可能。通過直接將圖像數(shù)據(jù)映射到環(huán)境的俯視圖,BEV方法促進了更準確的距離估計和障礙物檢測,同時有效解決了盲區(qū)問題。此外,這種方法還促進了不同相機視圖之間的信息高效共享,從而增強了感知系統(tǒng)的整體魯棒性和可靠性。
另一個關(guān)鍵方面是處理時序數(shù)據(jù)。單幀檢測雖然簡單,但常常因為幀間目標遮擋和特征不明顯而錯過檢測。為了解決這些問題,整合時序融合技術(shù),利用歷史特征來增強當前特征,已被證明可以顯著提高模型性能。然而,傳統(tǒng)的時序融合范式主要依賴自注意力機制,導致高內(nèi)存消耗、有限的全局感受野,以及較慢的訓練和推理速度。因此,開發(fā)一種新的時序融合方法以克服這些缺點具有重要的工程意義。
最近,一個專門處理序列的新模型mamba在多個下游任務中展現(xiàn)出巨大的潛力。Mamba2是mamba的改進版本,在多個任務上顯示了更優(yōu)的性能。這種新方法采用基于塊分解的矩陣乘法,并利用GPU的存儲層次結(jié)構(gòu),從而提高了訓練速度。將mamba2引入3D自動駕駛感知是一個值得探索的方向。為了解決時序融合模塊面臨的問題,作者提出了MambaBEV,這是一個基于BEV的3D感知模型,使用了mamba2。據(jù)作者所知,這是首次將Mamba2整合到基于相機的3D目標檢測網(wǎng)絡(luò)中。
作者提出了一種基于mamba2的3D目標檢測范式,命名為MambaBEV。該方法采用了一個基于mamba-CNN的模塊,名為TemporalMamba,用于融合不同幀中的BEV特征。此外,作者在解碼器層設(shè)計了一種mamba-detr頭部,以進一步優(yōu)化檢測效果。
A.預備知識
結(jié)構(gòu)化狀態(tài)空間模型(SSMs)是一類深度學習模型,特別適用于序列建模任務。通過利用這些結(jié)構(gòu)化公式,SSMs在表達性與計算效率之間提供了一種權(quán)衡,成為與基于注意力的模型(如Transformer)的一種有效替代。SSMs的公式代表了推進深度學習中序列建模的一個有前景的方向。作者使用的基模型稱為Mamba2,它基于結(jié)構(gòu)化狀態(tài)空間(S4)序列模型,這些模型根植于連續(xù)系統(tǒng)。這些模型通過采取1-D輸入序列或函數(shù)和一個中間隱藏狀態(tài), ,如下所示:
它結(jié)合了一個可學習的步長,并采用零階保持將連續(xù)系統(tǒng)轉(zhuǎn)換為離散系統(tǒng)。注意,如果設(shè)置D為0,則可以忽略Du(t)。因此,方程(1)可以重寫為:
通過應用數(shù)學歸納法,的最終輸出可以表示為:
其中M定義為:
表示從到的矩陣乘積,索引j和i分別表示第j個和第i個A,B,C矩陣。Mamba2中的變換矩陣M也符合N-序半可分離(SSS)表示的定義。因此,在Mamba2框架內(nèi),SSM和SSS的表示是等價的。這種等價性允許在涉及SSM的計算中高效利用結(jié)構(gòu)化矩陣乘法進行SSS。為了實現(xiàn)這種方法,參數(shù)矩陣M被分解為對角塊和低秩塊,分別使用結(jié)構(gòu)化掩碼注意力(SMA)二次模式算法和SMA線性模式算法。此外,多頭注意力(MHA)被集成以增強模型的性能。
圖2 TemporalMamba的總體框架。
B.總體架構(gòu)
MambaBEV的主要結(jié)構(gòu)在圖1中展示。該模型可以總結(jié)為四個主要模塊:圖像特征編碼器、后向投影(SCA)、TemporalMamba和Mamba-DETR頭部。MambaBEV以六個相機圖像為輸入,并通過圖像特征編碼器生成六個多尺度特征圖。這些特征圖隨后被送入名為空間交叉注意力(SCA)的后向投影模塊,以生成BEV特征圖。
接下來,歷史BEV特征與當前BEV特征進行融合,用于指導生成新的當前BEV特征。此過程由作者提出的TemporalMamba塊執(zhí)行。經(jīng)過多層處理后,最終使用mamba-DETR頭部作為3D目標檢測的輸出模塊。
C. 圖像特征編碼器
圖像特征編碼器由兩部分組成:高效的主干和經(jīng)典的頸部。針對場景中不同視圖的六張圖片,作者使用在ImageNet上預訓練的經(jīng)典ResNet-50、從FCOS3D檢查點初始化的ResNet-101-DCN,以及非常有效的VoV-99(同樣來自FCOS3D檢查點)作為主干,以提取每張圖片的高級特征。Vmamba也可以作為主干。為了更好地提取特征并提升性能,作者采用經(jīng)典的特征金字塔網(wǎng)絡(luò)(FPN)生成多尺度特征。
圖3 Query重組。
D. TemporalMamba塊
對于傳統(tǒng)的基于注意力的時序融合塊,作者采用了可變形自注意力。Temporal Self-Attention(TSA)主要遵循以下流程:首先,給定歷史BEV特征圖和當前特征圖,TSA將它們連接,并通過線性層生成注意力權(quán)重和偏移量。然后,每個查詢(代表BEV特征)根據(jù)權(quán)重進行并行計算。然而,作者認為這種方法存在一些副作用。盡管可變形注意力可以降低計算成本,但由于每個參考查詢僅允許與三個查詢交互,導致大尺寸物體特征在跨幀交互中受到限制。
模型使用了mamba以增強全局交互能力。首先,兩種模態(tài)的特征通過自我旋轉(zhuǎn)角度進行變換,并通過一個卷積塊將維度從512壓縮到256,如圖2所示。
在處理歷史BEV特征圖和當前特征圖(每個維度為256)時,首先在第三維度將它們連接,連接后的特征分別經(jīng)過兩次帶有批歸一化的3x3卷積層和一次帶有批歸一化的1x1卷積層,然后將它們相加。
然后,作者對特征圖Z進行離散重排,并通過mamba2塊處理。典型的mamba2塊是為自然語言處理設(shè)計的,旨在處理序列,但在應用于視覺數(shù)據(jù)時面臨重大挑戰(zhàn)。因此,設(shè)計合適的離散重排方法至關(guān)重要?;趯嶒灢⑹艿絍mamba的啟發(fā),作者設(shè)計了四種不同方向的重排方法,并討論了這些方法在消融研究中的影響。
作者創(chuàng)新性地提出了一種多方向特征序列掃描機制,其中特征圖Z被離散序列化,并以四個方向:向前左、向前上、向后左和向后上重新組合,如圖3所示,形成新的序列作為Mamba2模型的輸入。值得注意的是,作者沒有采用蛇形螺旋重組合方法,因為他們認為這種方法會導致相鄰特征之間的交互不平衡,一些相鄰特征可能過于接近,而其他特征則相距甚遠。mamba輸出增強的序列特征,然后重新組合并恢復圖4中顯示的原始順序。接著,作者計算四個張量的平均值,并將以0.9的dropout率生成的增強融合BEV特征圖作為跳躍連接添加到當前BEV特征圖中。
圖4 Query融合。
E. Mamba-DETR頭部
如圖1所示,作者重新設(shè)計了一個結(jié)合mamba和傳統(tǒng)DETR編碼器的mamba-DETR頭部。在此結(jié)構(gòu)中,900個目標查詢首先在mamba2塊中進行預處理,并相互之間進行交互,承擔與自注意力相同的職責。隨后,mamba塊的輸出將像傳統(tǒng)的CustomMSDeformableAttention那樣,通過可變形注意力進行處理。
在實驗中,MambaBEV在nuScenes數(shù)據(jù)集上表現(xiàn)出色,其基礎(chǔ)版本實現(xiàn)了51.7%的NDS(nuScenes Detection Score)。此外,MambaBEV還在端到端自動駕駛范式中進行了測試,展現(xiàn)了良好的性能。在3D對象檢測任務中,MambaBEV-base相較于僅使用單幀的BEVFormer-S,在mAP和NDS上分別提高了3.51%和5.97%,充分顯示了TemporalMamba塊的有效性。當添加TemporalMamba塊時,平均速度誤差降低了37%,表明歷史信息,特別是經(jīng)過TemporalMamba塊處理的信息,可以顯著改善速度估計,因為它提供了寶貴的歷史位置信息。
表1 在nuScenes驗證集上的3D目標檢測結(jié)果。
表2 開環(huán)規(guī)劃性能。
表3 動態(tài)預測。
表4 拼接方法與卷積方法的消融對比。
表5 不同窗口大小造成的影響。
表6 不同重排方法的比較
表7 BEV特征不同分辨率的影響
MambaBEV是一種基于BEV范式和mamba2結(jié)構(gòu)的創(chuàng)新3D目標檢測模型,充分利用時序信息以處理動態(tài)場景。在nuScenes數(shù)據(jù)集上實現(xiàn)51.7%的NDS,突出了其有效性和準確性。通過引入TemporalMamba塊,MambaBEV有效整合歷史信息,改善速度估計和目標檢測性能。與傳統(tǒng)卷積層和可變形自注意力相比,該模型在全局信息交換上更具優(yōu)勢,并且優(yōu)化了計算成本。為適應端到端的自動駕駛范式,MambaBEV結(jié)合了mamba和傳統(tǒng)DETR編碼器的特性,展現(xiàn)出良好的潛力,尤其在自動駕駛應用中具有可觀的發(fā)展前景。