UniBEV:統(tǒng)一BEV編碼器助力多模態(tài)融合新SOTA!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
背景介紹
智能汽車通常利用多個(gè)傳感器進(jìn)行魯棒的目標(biāo)檢測,包括激光雷達(dá)(LiDARs)和camera。這些設(shè)備每個(gè)都有其獨(dú)特的優(yōu)勢。camera提供豐富的紋理數(shù)據(jù),而激光雷達(dá)通過密集的點(diǎn)云提供準(zhǔn)確的幾何信息。傳統(tǒng)上,大多數(shù)多傳感器模型都專注于在所有傳感器都正常工作時(shí)最大化檢測性能。然而,在現(xiàn)實(shí)世界中,一個(gè)或多個(gè)傳感器可能會(huì)失敗或缺失。為了解決這個(gè)問題,這項(xiàng)研究旨在設(shè)計(jì)一個(gè)"魯棒的"多傳感器目標(biāo)檢測模型。這樣的模型將無縫地融合camera和激光雷達(dá)的數(shù)據(jù),但也可以僅使用一個(gè)傳感器的輸入有效地運(yùn)作。
之前的工作與挑戰(zhàn)
在多傳感器目標(biāo)檢測的最新技術(shù)中,通常使用鳥瞰視圖 (Bird's-Eye view,簡稱BEV) 功能作為中介步驟來合并多傳感器信息。
其中一個(gè)著名的例子是 BEVFusion,它融合了來自激光雷達(dá)和camera的多模態(tài)BEV特征。但是,從這兩個(gè)來源提取這些特征的方法存在差異,可能導(dǎo)致camera和激光雷達(dá)BEV特征之間的不對(duì)齊。
近期的 MetaBEV 優(yōu)化了BEVFusion,采用了一個(gè)包含多個(gè)可變形注意層的模塊來更好地對(duì)齊特征,盡管并沒有完全解決底層特征的不對(duì)齊問題。
提出的解決方案 - UniBEV
本文介紹了名為 UniBEV 的端到端模型,重點(diǎn)是對(duì)多模態(tài)3D目標(biāo)檢測的魯棒性。UniBEV的新穎之處在于其從不同傳感器統(tǒng)一提取BEV特征的方法,確保了特征的良好對(duì)齊。
UniBEV的關(guān)鍵設(shè)計(jì)組件:
- 統(tǒng)一架構(gòu):camera和激光雷達(dá)分支都采用統(tǒng)一的可變形注意力為基礎(chǔ)的架構(gòu)。這樣就避免了對(duì)camera進(jìn)行明確的深度預(yù)測。
- 共享查詢:該模型在兩個(gè)分支之間使用共享查詢來進(jìn)一步加強(qiáng)特征對(duì)齊并刺激兩個(gè)分支之間的互動(dòng)。
- 特征融合:論文探討了不同的特征融合策略,包括連接、平均和新提出的通道歸一化權(quán)重 (Channel Normalized Weights,簡稱CNW)。當(dāng)考慮到模態(tài)丟失的情況時(shí),與傳統(tǒng)的連接方法相比,CNW提供了更好的性能。
主要貢獻(xiàn):
- 魯棒模型提議 - UniBEV:這項(xiàng)研究介紹了UniBEV,一個(gè)針對(duì)模態(tài)缺失的魯棒性的3D目標(biāo)檢測模型。在nuScenes數(shù)據(jù)集上的實(shí)驗(yàn)表明,UniBEV比最先進(jìn)的模型BEVFusion和MetaBEV表現(xiàn)更好。
- 特征融合技術(shù)的探討:該論文深入探討了各種特征融合方法,并強(qiáng)調(diào)了它們提出的通道歸一化權(quán)重 (CNW) 在模態(tài)掉出的情境中相對(duì)于傳統(tǒng)的連接方法的優(yōu)勢。
- 共享BEV查詢的影響:通過比較所有模態(tài)的BEV編碼器之間的共享BEV查詢與使用單獨(dú)的查詢,研究表明共享查詢?cè)谒休斎虢M合中都提供了持續(xù)的小幅改進(jìn)。
這篇論文強(qiáng)調(diào)了一個(gè)魯棒的多傳感器目標(biāo)檢測系統(tǒng)在面對(duì)傳感器故障時(shí)仍然保持魯棒性的必要性。通過UniBEV,它不僅提供了一個(gè)解決方案,而且還探討了特征融合和對(duì)齊的細(xì)節(jié),為自動(dòng)駕駛汽車感知系統(tǒng)領(lǐng)域增加了重要價(jià)值。
主要方法
Feature Extractors
特征提取器是機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型中的關(guān)鍵組件,它負(fù)責(zé)從輸入數(shù)據(jù)(如圖像或點(diǎn)云)中提取有意義的特征,這些特征隨后被用于進(jìn)一步的分析和決策。
從上述描述中,UniBEV使用了兩種主要的特征提取器:
圖像特征提取器:
- 輸入:來自多個(gè)camera視角的圖像。
- 使用的主要工具:ResNet-101,它是一個(gè)深度的卷積神經(jīng)網(wǎng)絡(luò)。
- 操作:圖像首先經(jīng)過ResNet-101網(wǎng)絡(luò),產(chǎn)生一個(gè)特征圖,該特征圖在原始圖像坐標(biāo)中有一個(gè)確定的分辨率,同時(shí)具有特定的特征維度。所得到的特征可以表示圖像中的各種目標(biāo)、形狀、紋理和其他重要信息。
- 輸出:圖像特征 。
LiDAR點(diǎn)云特征提取器:
- 輸入:LiDAR scan,通常包括三維空間中的點(diǎn)云數(shù)據(jù)。
- 使用的主要工具:VoxelNet,這是一個(gè)專為點(diǎn)云數(shù)據(jù)設(shè)計(jì)的特征提取網(wǎng)絡(luò)。
- 操作:LiDAR數(shù)據(jù)首先被體素化,這意味著連續(xù)的三維空間被劃分成體素(即小的、離散的三維單元)。VoxelNet然后對(duì)這些體素化的數(shù)據(jù)進(jìn)行處理,提取鳥瞰圖中的網(wǎng)格狀特征。
- 輸出:LiDAR特征 ,它在鳥瞰圖中具有確定的空間形狀和特征維度。
這兩個(gè)特征提取器從各自的輸入數(shù)據(jù)中提取特征,這些特征隨后可以用于目標(biāo)檢測、分類或其他任務(wù)。
Uniform BEV Feature Encoders
在特征提取之后,LiDAR和攝像機(jī)得到的特征(即 和 )仍然在不同的坐標(biāo)系統(tǒng)中表示。 使用與目標(biāo)BEV空間相似的3D空間坐標(biāo),而 則使用2D圖像坐標(biāo)。雖然現(xiàn)有的方法通常會(huì)進(jìn)一步將圖像特征轉(zhuǎn)移到鳥瞰圖中并通過連接來簡單地融合兩個(gè)BEV特征,但UniBEV引入了一個(gè)為所有傳感器模態(tài)設(shè)計(jì)的統(tǒng)一方案,以獲得更好對(duì)齊的BEV特征。
- 查詢:首先定義了一組可學(xué)習(xí)的BEV查詢向量與相應(yīng)的3D空間位置。這些查詢向量在所有模態(tài)中都是共享的。具體來說,查詢參數(shù) 表示BEV查詢,其中 是車輛本地空間坐標(biāo)中的2D BEV空間網(wǎng)格分辨率,而 是BEV查詢中的通道數(shù)。此外, 包含BEV參考點(diǎn)在3D空間網(wǎng)格中的相應(yīng)空間坐標(biāo)。
- 投影:這一階段的目的是將BEV空間位置投影到每個(gè)模態(tài)的特征圖的本地空間坐標(biāo)系統(tǒng)中。對(duì)于每個(gè)攝像機(jī),3D點(diǎn)被投影到其2D基于圖像的坐標(biāo) 。對(duì)于LiDAR, 被投影到LiDAR特征圖的空間坐標(biāo)。
- 編碼:使用3層的可變自注意力和可變跨注意力,對(duì)每個(gè)模態(tài)的BEV特征圖進(jìn)行構(gòu)建。對(duì)于攝像機(jī),第一層的BEV編碼器的特征圖是通過對(duì)所有可見參考的所有視圖和每個(gè)查詢的所有D位置進(jìn)行求和來獲得的。而對(duì)于LiDAR,LiDAR BEV編碼器執(zhí)行相同的操作,其第一特征圖同樣表示為。
這個(gè)過程確保從攝像機(jī)和LiDAR得到的BEV特征在同一個(gè)坐標(biāo)系中,并具有相同的尺寸和結(jié)構(gòu)。這樣,當(dāng)特征從不同的傳感器融合時(shí),它們可以更好地對(duì)齊。
Fusion Module: Channel Normalized Weights
這段內(nèi)容討論了兩種用于融合Bird's Eye View (BEV)特征圖的策略:均值融合和Channel Normalized Weights (CNW)。以下是對(duì)這段內(nèi)容的解釋和總結(jié):
均值融合 (Averaging Fusion)
此策略很簡單,它通過對(duì)所有可用模態(tài)特征圖進(jìn)行平均(或求和)來融合BEV特征圖。此方法的潛在缺點(diǎn)是可能會(huì)稀釋來自更可靠傳感器的信息,但其優(yōu)點(diǎn)是永遠(yuǎn)不需要使用占位符值,并確保融合的BEV特征圖總是與每個(gè)模態(tài)BEV特征圖具有相同的通道數(shù)。
Channel Normalized Weights (CNW)
CNW是均值融合的一個(gè)推廣。對(duì)于每種模態(tài),它學(xué)習(xí)一個(gè)-維權(quán)重向量,該權(quán)重向量在訓(xùn)練后保持不變。每個(gè)元素表示在融合結(jié)果的第個(gè)通道中模態(tài)的相對(duì)重要性。在融合之前,所有權(quán)重會(huì)被標(biāo)準(zhǔn)化,以確保它們每個(gè)通道的和為1。
對(duì)于兩種模態(tài)(LiDAR和攝像機(jī)),有以下標(biāo)準(zhǔn)化公式:
融合的公式為:
其中,表示與空間維度的廣播相結(jié)合的逐通道乘法。
當(dāng)只有一個(gè)模態(tài)可用時(shí),對(duì)每個(gè)通道應(yīng)用softmax,并將完整的權(quán)重分配給該模態(tài)。例如,。
CNW有一個(gè)特點(diǎn),當(dāng)在 和中所有學(xué)到的通道權(quán)重都接近時(shí),它會(huì)退化為平均融合。另一方面,CNW也可以通過允許融合輸出的通道僅從一個(gè)模態(tài)獲取信息來反映串聯(lián)融合,如果這些通道的學(xué)到的權(quán)重僅接近0或1。
直觀地說,CNW為模型添加了少量的可學(xué)習(xí)參數(shù),以在這些特殊情況之間提供更多的靈活性,允許它優(yōu)化每種模態(tài)融合的相對(duì)重要性,并仍然為單一模態(tài)輸入提供有意義的值。實(shí)驗(yàn)結(jié)果將展示UniBEV為每種模態(tài)構(gòu)建的BEV特征具有相似的大小分布,確保我們的CNW能夠區(qū)分不同通道的重要性,而不是隨機(jī)的尺度函數(shù)。
Detection Head and Modality Dropout Strategy
基于之前的研究,我們將邊界框檢測視為一種集合預(yù)測問題,并采用BEVFormer的解碼器進(jìn)行3D目標(biāo)檢測任務(wù)。為了針對(duì)傳感器失效進(jìn)行模型訓(xùn)練,我們采用了常見的"模態(tài)丟失" (Modality Dropout, MD) 訓(xùn)練策略。因此,在訓(xùn)練過程中,我們以概率隨機(jī)丟棄一個(gè)模態(tài)的BEV特征,即 或 。
實(shí)驗(yàn)對(duì)比
在nuScenes的驗(yàn)證集上,對(duì)比了多種3D目標(biāo)檢測方法的性能后,我們可以明確地看到,本文提出的方法UniBEV在各種模態(tài)和輸入條件下都展現(xiàn)了卓越的性能。首先,從單模態(tài)模型的性能來看,盡管BEVFormer_S
和CenterPoint
在各自的專業(yè)模態(tài)(相機(jī)和LiDAR)上展現(xiàn)了很好的效果,但它們?cè)谄渌B(tài)中不具備適用性。然而,當(dāng)我們考慮多模態(tài)模型時(shí),尤其是那些使用了模態(tài)丟失策略的模型,UniBEV在所有的評(píng)估指標(biāo)上均勝過了其它方法。無論是使用LiDAR和相機(jī)的組合,還是單獨(dú)的LiDAR或相機(jī),UniBEV都保持了最高的NDS和mAP得分。
更為重要的是,從總結(jié)指標(biāo)來看,UniBEV的NDS和mAP分?jǐn)?shù)分別為58.7和52.5,這遠(yuǎn)遠(yuǎn)超過了其他被評(píng)估的方法。這一結(jié)果進(jìn)一步強(qiáng)調(diào)了UniBEV在3D目標(biāo)檢測任務(wù)中的卓越性能,尤其是在處理來自不同傳感器的多模態(tài)數(shù)據(jù)時(shí)。它不僅能夠有效地融合和利用這些模態(tài)的信息,還可以在某個(gè)模態(tài)不可用時(shí)維持高水平的性能。總的來說,根據(jù)這些實(shí)驗(yàn)數(shù)據(jù),我們可以自信地說,本文提出的UniBEV方法在3D目標(biāo)檢測領(lǐng)域中是一種高效和魯棒的解決方案。
這個(gè)表格是為了比較在固定解碼器維度為256的情況下,不同融合方法在nuScenes驗(yàn)證集上的性能。這些方法分別是:UniBEV_cat
,UniBEV_avg
和UniBEV_CNW
。
從這些數(shù)據(jù)中,我們可以觀察到以下幾點(diǎn):
- 融合方法的影響:
UniBEV_cat
采用拼接(concatenation)作為其融合方法,它的編碼器維度為128,而其他兩種方法(平均和CNW)都有一個(gè)256的編碼器維度。即使如此,UniBEV_cat
的整體性能略低于其他兩種方法。 - 平均融合 (
UniBEV_avg
) vs 通道歸一化權(quán)重融合 (UniBEV_CNW
): 平均融合方法的性能與UniBEV_CNW
非常接近,但在LiDAR和相機(jī)的組合(L+C)以及僅使用相機(jī)(C)時(shí)的性能略低。這表明UniBEV_CNW
融合策略對(duì)于利用不同模態(tài)的特征提供了一個(gè)更優(yōu)化的策略。 - 性能指標(biāo): 在摘要度量中,
UniBEV_CNW
獲得了最高的評(píng)分52.5,而UniBEV_avg
緊隨其后,得分為52.3。UniBEV_cat
的摘要度量為51.9,這進(jìn)一步證明了通道歸一化權(quán)重融合方法的優(yōu)越性。 - 編碼器維度的影響: 從數(shù)據(jù)中,我們可以看到
UniBEV_cat
具有較小的編碼器維度,這可能會(huì)影響其性能,尤其是與其他兩種方法相比。
在固定解碼器維度的情況下,UniBEV_CNW
融合方法提供了最佳的性能,尤其是在考慮使用多模態(tài)信息時(shí)。這證明了這種融合策略能夠更有效地利用來自不同傳感器的信息。而UniBEV_avg
作為一種簡單的平均融合策略,其性能也相當(dāng)出色,與UniBEV_CNW
相當(dāng)接近。這顯示了簡單的平均方法在某些情況下也可以表現(xiàn)得非常好。然而,使用拼接作為融合策略的UniBEV_cat
在性能上稍微遜色一些,這可能與其編碼器維度較小有關(guān)。
一些討論
本文提出的UniBEV
方法是一種強(qiáng)大的3D目標(biāo)檢測策略,尤其是在多模態(tài)場景中,它能有效地融合LiDAR和相機(jī)的信息,從而達(dá)到了卓越的性能。通過引入通道歸一化權(quán)重(CNW)作為其核心融合機(jī)制,該方法不僅能夠根據(jù)不同的信息源動(dòng)態(tài)地分配權(quán)重,而且還可以在單一模態(tài)輸入的情況下提供出色的性能,這在某種程度上表明了它的魯棒性和靈活性。
然而,雖然其表現(xiàn)出色,但也存在一些潛在的限制。首先,盡管它在單一模態(tài)情況下具有良好的性能,但它在設(shè)計(jì)上仍旨在處理多模態(tài)數(shù)據(jù),這可能意味著在純粹的單一模態(tài)任務(wù)上可能不如專門為該任務(wù)設(shè)計(jì)的模型。其次,它的性能依賴于學(xué)習(xí)到的通道權(quán)重,這可能在某些極端情況下引入噪聲或過擬合。
在此基礎(chǔ)上,為了進(jìn)一步創(chuàng)新和提高性能,我們可以考慮以下幾個(gè)方向:
- 深入探索融合策略:盡管CNW是一個(gè)有效的融合策略,但仍然有可能找到其他更強(qiáng)大的策略,或者將多個(gè)策略結(jié)合以實(shí)現(xiàn)更強(qiáng)的表現(xiàn)。
- 模型正則化:為了防止過擬合,我們可以考慮引入更先進(jìn)的正則化技術(shù)或增強(qiáng)數(shù)據(jù)。
- 多模態(tài)數(shù)據(jù)的先進(jìn)表示:除了直接的特征融合,我們還可以探索如何更有效地表示和處理多模態(tài)數(shù)據(jù),例如通過更深入地理解每種模態(tài)的語義內(nèi)容。
綜上所述,雖然UniBEV
方法在多模態(tài)3D目標(biāo)檢測任務(wù)中取得了很大的成功,但仍有進(jìn)一步提高和創(chuàng)新的空間,這為未來的研究提供了廣闊的機(jī)會(huì)。
結(jié)論分析
在本文中,我們提出了UniBEV
,一種新穎且高效的3D目標(biāo)檢測方法,特別強(qiáng)調(diào)了在多模態(tài)場景中的LiDAR和相機(jī)數(shù)據(jù)的融合。通過獨(dú)特的通道歸一化權(quán)重融合策略,該方法實(shí)現(xiàn)了對(duì)不同信息來源的動(dòng)態(tài)權(quán)重分配,確保了在多種輸入情境下的強(qiáng)大性能。實(shí)驗(yàn)結(jié)果不僅展示了UniBEV
在多模態(tài)數(shù)據(jù)上的優(yōu)勢,而且還顯示了其在單一模態(tài)輸入下的出色表現(xiàn),證明了其在3D目標(biāo)檢測任務(wù)上的魯棒性和靈活性。盡管該方法已經(jīng)取得了很大的進(jìn)步,但仍然存在進(jìn)一步探索和優(yōu)化的空間,以更好地適應(yīng)不斷變化和發(fā)展的應(yīng)用場景??偟膩碚f,UniBEV
為多模態(tài)3D目標(biāo)檢測領(lǐng)域開辟了新的可能性,為未來的研究和應(yīng)用提供了堅(jiān)實(shí)的基礎(chǔ)。
原文鏈接:https://mp.weixin.qq.com/s/kHmdEhQynz41Un_kDNZO_A