挖掘BEV潛力的邊界!DA-BEV:無(wú)監(jiān)督BEV SOTA新方案!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫(xiě)在前面&筆者的個(gè)人理解
今天和大家探討3D視覺(jué)感知領(lǐng)域中的一個(gè)特定問(wèn)題:針對(duì)純視覺(jué)的鳥(niǎo)瞰圖(BEV)的無(wú)監(jiān)督領(lǐng)Domain Adaptation(Unsupervised Domain Adaptation, UDA)。3D視覺(jué)感知在移動(dòng)機(jī)器人、自動(dòng)駕駛、虛擬現(xiàn)實(shí)等領(lǐng)域起著重要的作用,而近年來(lái),純視覺(jué)的BEV模型由于其在全面的3D理解、豐富的語(yǔ)義信息、高計(jì)算效率和低部署成本方面的優(yōu)勢(shì)而受到越來(lái)越多的關(guān)注。
研究背景上,盡管單目和基于激光雷達(dá)的3D感知取得了顯著的進(jìn)步,但當(dāng)在源域(例如,訓(xùn)練數(shù)據(jù)的環(huán)境)訓(xùn)練的純視覺(jué)BEV模型應(yīng)用到目標(biāo)域(例如,不同于訓(xùn)練數(shù)據(jù)的新環(huán)境)時(shí),通常會(huì)出現(xiàn)明顯的性能下降。這種性能降低主要是由于源域和目標(biāo)域之間的顯著差異所導(dǎo)致。
論文提出的問(wèn)題是,盡管對(duì)于2D計(jì)算機(jī)視覺(jué)任務(wù)來(lái)說(shuō),無(wú)監(jiān)督領(lǐng)Domain Adaptation已經(jīng)被廣泛探索,但對(duì)于純視覺(jué)BEV感知來(lái)說(shuō),如何減少源域和目標(biāo)域之間的差異仍然是一個(gè)極具挑戰(zhàn)性且相對(duì)欠缺研究的問(wèn)題。
為了解決這個(gè)問(wèn)題,論文提出了一種名為DA-BEV的新框架,這是第一個(gè)針對(duì)純視覺(jué)BEV感知的領(lǐng)域自適應(yīng)框架。DA-BEV通過(guò)利用圖像視圖特征和BEV特征之間的互補(bǔ)性來(lái)解決BEV領(lǐng)Domain Adaptation的挑戰(zhàn)。具體來(lái)說(shuō),這個(gè)框架通過(guò)引入可學(xué)習(xí)的查詢(xún)來(lái)促進(jìn)圖像視圖特征和BEV特征之間的相互作用,同時(shí)跨領(lǐng)Domain Adaptation它們。在這一過(guò)程中,BEV特征中的全局3D信息有助于適應(yīng)圖像視圖特征,而圖像視圖特征中較少變化的2D信息則有助于適應(yīng)BEV特征。
DA-BEV的設(shè)計(jì)包括兩種基于查詢(xún)的領(lǐng)Domain Adaptation技術(shù):基于查詢(xún)的對(duì)抗學(xué)習(xí)(QAL)和基于查詢(xún)的自訓(xùn)練(QST)。這兩種設(shè)計(jì)相輔相成,共同實(shí)現(xiàn)了有效的無(wú)監(jiān)督BEV感知適應(yīng)。
論文的主要貢獻(xiàn)在于三個(gè)方面。首先,它提出了一種基于查詢(xún)的領(lǐng)Domain Adaptation策略,這種策略利用了圖像視圖特征和BEV特征的互補(bǔ)性,適用于無(wú)監(jiān)督的BEV感知適應(yīng)。其次,它設(shè)計(jì)了DA-BEV,這是一種引入基于查詢(xún)的對(duì)抗學(xué)習(xí)和基于查詢(xún)的自訓(xùn)練的框架,有效地聯(lián)合解決了領(lǐng)域自適應(yīng)BEV感知的問(wèn)題。最后,通過(guò)廣泛的實(shí)驗(yàn),DA-BEV在不同數(shù)據(jù)集和任務(wù)(如3D物體檢測(cè)和3D場(chǎng)景分割)上展示了其在BEV感知適應(yīng)方面的優(yōu)越性能。
詳解DA-BEV
DA-BEV整體框架
DA-BEV框架利用圖像視圖特征和BEV特征之間的互補(bǔ)性來(lái)解決BEV領(lǐng)Domain Adaptation的挑戰(zhàn)。它設(shè)計(jì)了一種基于查詢(xún)的領(lǐng)Domain Adaptation方法,通過(guò)引入可學(xué)習(xí)的查詢(xún),實(shí)現(xiàn)圖像視圖特征和BEV特征之間的交互以及它們的協(xié)同適應(yīng)。直觀地說(shuō),BEV特征中的全局3D信息有助于適應(yīng)圖像視圖特征,而圖像視圖特征中的局部2D信息,由于領(lǐng)域變化較小,有助于適應(yīng)BEV特征?;谶@一理念,論文設(shè)計(jì)了兩種基于查詢(xún)的領(lǐng)Domain Adaptation技術(shù):基于查詢(xún)的對(duì)抗學(xué)習(xí)(QAL)和基于查詢(xún)的自訓(xùn)練(QST)。
在DA-BEV框架中,為了捕獲圖像視圖特征中較少的領(lǐng)域差異,引入了一個(gè)圖像視圖特征解碼器 ,以及一組可學(xué)習(xí)的圖像視圖查詢(xún) 。圖像視圖查詢(xún) 和圖像視圖特征 之間的交互產(chǎn)生了圖像視圖查詢(xún)特征 ,可以用下式表示:
然后,將查詢(xún)特征 輸入到多標(biāo)簽分類(lèi)頭中,以預(yù)測(cè)每個(gè)對(duì)象類(lèi)別的概率。其中通過(guò)多標(biāo)簽分類(lèi)損失函數(shù)進(jìn)行訓(xùn)練,如下所示:
其中, 表示圖像視圖多標(biāo)簽分類(lèi)注釋。
為了捕獲BEV特征中的全局3D信息,直接使用現(xiàn)成的BEV查詢(xún) ,這些查詢(xún)與BEV特征交互,生成解碼的BEV查詢(xún)特征 。由于BEV特征編碼了相機(jī)配置,而 是用3D物體注釋訓(xùn)練的,所以解碼的BEV查詢(xún)特征 包含了豐富的全局3D信息,包括物體在3D BEV空間中的位置。這有助于適應(yīng)那些在BEV空間中幾乎不捕獲全局3D信息的圖像視圖特征。
Query-based Adversarial Learning (QAL)
在Query-based Adversarial Learning (QAL)中,提出的方法利用從圖像視圖特征或BEV特征中查詢(xún)得到的有用信息來(lái)規(guī)范化對(duì)方的對(duì)抗學(xué)習(xí)。具體來(lái)說(shuō),QAL使用兩個(gè)域分類(lèi)器來(lái)分別測(cè)量圖像視圖查詢(xún)特征和BEV查詢(xún)特征的域間距離,并利用測(cè)量得到的域間距離進(jìn)行相互規(guī)范化。
QAL的關(guān)鍵在于同時(shí)減輕圖像視圖特征中的局部2D信息和BEV特征中的全局3D信息的域間差異,這兩者對(duì)于在3D空間中定位和識(shí)別物體和背景都至關(guān)重要。此外,2D圖像視圖查詢(xún)特征的對(duì)抗學(xué)習(xí)涉及較少的3D信息,其中BEV查詢(xún)特征可以通過(guò)提供豐富的全局3D信息來(lái)有效地規(guī)范化它。
具體來(lái)說(shuō),域分類(lèi)器 和 被用來(lái)測(cè)量2D圖像視圖和3D BEV特征的域間距離。QAL的相互規(guī)范化可以表述為以下?lián)p失函數(shù):
其中 是用于跨域?qū)R的廣泛采用的對(duì)抗學(xué)習(xí)損失函數(shù)。
Query-based Self-training (QST)
在Query-based Self-training (QST)中,提出的方法利用從圖像視圖特征和BEV特征中查詢(xún)得到的有用信息來(lái)規(guī)范化它們的自訓(xùn)練。直觀地說(shuō),解碼的圖像視圖查詢(xún)特征捕獲了豐富的2D語(yǔ)義和位置信息,這些信息在域間具有較少的差異,而解碼的BEV查詢(xún)特征則捕獲了BEV空間中的豐富全局3D信息。因此,這兩種特征互補(bǔ),共同有效地規(guī)范化自訓(xùn)練。
QST首先利用來(lái)自圖像視圖或BEV特征的預(yù)測(cè)來(lái)去噪另一方的預(yù)測(cè)。然后,QST通過(guò)積累去噪后的預(yù)測(cè),獲取全局類(lèi)別分布,并進(jìn)一步利用它來(lái)促進(jìn)偽標(biāo)簽的生成。生成的偽標(biāo)簽方法具有三個(gè)特點(diǎn):1)閾值是根據(jù)圖像視圖和BEV特征捕獲的2D和3D信息動(dòng)態(tài)確定的;2)通過(guò)為每個(gè)類(lèi)別選擇相同百分比的偽標(biāo)簽來(lái)緩解類(lèi)別不平衡問(wèn)題;3)它是在線的,不需要額外的推理輪次。
QST的訓(xùn)練損失可以表述為:
總體目標(biāo)
綜上所述,提出的DA-BEV的整體訓(xùn)練目標(biāo)可以表述為以下公式:
其中
這一目標(biāo)結(jié)合了圖像視圖特征和BEV特征的對(duì)抗學(xué)習(xí)和自訓(xùn)練,以實(shí)現(xiàn)跨Domain Adaptation。
相關(guān)實(shí)驗(yàn)
這個(gè)實(shí)驗(yàn)表格展示了在不同照明條件下,針對(duì)純視覺(jué)BEV感知的無(wú)監(jiān)督領(lǐng)Domain Adaptation的結(jié)果。具體來(lái)說(shuō),實(shí)驗(yàn)關(guān)注的是從白天到夜晚的場(chǎng)景轉(zhuǎn)換。評(píng)估指標(biāo)包括了不同類(lèi)別的平均精度(Average Precision, AP)以及整體的平均精度(mAP)和標(biāo)準(zhǔn)化檢測(cè)分?jǐn)?shù)(Normalized Detection Score, NDS)。實(shí)驗(yàn)比較了四種方法:Source Only、SFA、MTTrans、STM3D和本文提出的DA-BEV。
- 類(lèi)別細(xì)分的AP:表格中展示了對(duì)于不同類(lèi)別(如汽車(chē)、卡車(chē)、建筑車(chē)輛、公共汽車(chē)等)的檢測(cè)精度。這些細(xì)分的AP指標(biāo)重要的是,它們揭示了模型在識(shí)別不同類(lèi)型的物體上的性能,這在實(shí)際應(yīng)用中是非常關(guān)鍵的,因?yàn)椴煌?lèi)型的物體對(duì)于感知系統(tǒng)的響應(yīng)可能會(huì)有很大不同。
- 整體的mAP和NDS:整體的mAP是所有類(lèi)別AP的平均值,提供了一個(gè)整體的性能指標(biāo)。NDS是一種綜合評(píng)估,不僅考慮了檢測(cè)精度,還可能考慮了其他因素如位置準(zhǔn)確度、大小估計(jì)等。這兩個(gè)指標(biāo)給出了一個(gè)更全面的性能評(píng)估。
- 方法比較:
- Source Only 是基線方法,沒(méi)有進(jìn)行領(lǐng)Domain Adaptation。
- SFA、MTTrans、STM3D 是其他領(lǐng)Domain Adaptation方法。
- DA-BEV (Ours) 是本文提出的方法。
- 分析:
在大多數(shù)類(lèi)別上,DA-BEV的表現(xiàn)優(yōu)于其他方法,特別是在“汽車(chē)”、“卡車(chē)”和“公共汽車(chē)”等類(lèi)別上,這表明DA-BEV在進(jìn)行領(lǐng)Domain Adaptation時(shí)能更好地維持或提高對(duì)這些類(lèi)別的識(shí)別能力。
對(duì)于“拖車(chē)”和“建筑車(chē)輛”等類(lèi)別的檢測(cè)依然是一個(gè)挑戰(zhàn),因?yàn)檫@些類(lèi)別的AP值普遍較低。
在整體mAP和NDS上,DA-BEV也顯著優(yōu)于其他方法,表明其在不同照明條件下的領(lǐng)Domain Adaptation性能整體更佳。
這個(gè)實(shí)驗(yàn)結(jié)果表明DA-BEV在進(jìn)行無(wú)監(jiān)督領(lǐng)Domain Adaptation,特別是在照明條件變化較大的情況下,能夠有效提高3D物體檢測(cè)的性能。
上圖展示了DA-BEV框架在跨天氣條件下(即晴天到雨天)進(jìn)行3D物體檢測(cè)的定性結(jié)果。左邊的六個(gè)小圖呈現(xiàn)了多相機(jī)視角下的3D預(yù)測(cè)結(jié)果,每個(gè)視角的圖像中都有黃色的3D邊界框標(biāo)注著檢測(cè)到的車(chē)輛。右邊是鳥(niǎo)瞰圖(BEV)視角的預(yù)測(cè)結(jié)果,其中橙色框表示預(yù)測(cè)位置,藍(lán)色框代表實(shí)際的地面真相(Ground Truth)。在BEV圖中,我們可以看到預(yù)測(cè)框和真實(shí)框的對(duì)比,能夠直觀地評(píng)估模型預(yù)測(cè)的準(zhǔn)確性。例如,圖中的一個(gè)交叉標(biāo)記(X)指出了一個(gè)錯(cuò)誤預(yù)測(cè)的位置,這種可視化有助于理解模型在不同環(huán)境條件下的表現(xiàn)和適應(yīng)性。
這張表格進(jìn)行了對(duì)白天到夜間適應(yīng)中的參數(shù)分析。表格列出了不同的閾值參數(shù)()和指數(shù)移動(dòng)平均參數(shù)()對(duì)模型平均精度(mAP)的影響。從左邊的表格可以看出,當(dāng)閾值參數(shù) 從10%增加到20%時(shí),mAP從18.24增加到20.27,然后在25%時(shí)有所下降到19.57,這可能表明在一定范圍內(nèi)提高閾值可以改進(jìn)性能,但超過(guò)某個(gè)點(diǎn)后性能會(huì)下降。右邊的表格顯示,隨著 參數(shù)的增加,mAP先是增加然后又略微下降,這表明了模型對(duì)于參數(shù)選擇的敏感性,以及在訓(xùn)練過(guò)程中保持參數(shù)的平衡是提高性能的關(guān)鍵。
另一張表格測(cè)試了DA-BEV方法在不同網(wǎng)絡(luò)骨架上的泛化能力。實(shí)驗(yàn)考慮了三種不同的骨架:R50-C5、R50-P4和VoV-P4。在沒(méi)有Domain Adaptation(Source Only)的情況下,這三種骨架的mAP分別是10.63、11.61和15.93。使用DA-BEV方法后,所有骨架的性能都有所提高,分別達(dá)到了13.03、14.22和20.27。這表明DA-BEV能夠在不同的網(wǎng)絡(luò)架構(gòu)上提供一致的性能增益,從而驗(yàn)證了其泛化能力。
總體來(lái)看,這些信息表明DA-BEV是一個(gè)有效的框架,能夠在不同的天氣和光照條件下實(shí)現(xiàn)跨Domain Adaptation,并且具有良好的泛化能力。定性結(jié)果展示了模型在復(fù)雜環(huán)境中的實(shí)際應(yīng)用性能,而定量結(jié)果則提供了參數(shù)選擇和模型設(shè)計(jì)對(duì)性能影響的深入分析。
討論
這篇論文提出的DA-BEV方法在跨域3D物體檢測(cè)任務(wù)中展現(xiàn)了顯著的優(yōu)勢(shì),尤其是在處理不同光照和天氣條件下的場(chǎng)景適應(yīng)問(wèn)題上。通過(guò)引入基于查詢(xún)的自訓(xùn)練和對(duì)抗學(xué)習(xí),DA-BEV能夠有效地利用圖像視圖和BEV特征之間的互補(bǔ)性,從而改善了模型在目標(biāo)域上的性能。這在跨天氣條件,如從白天到夜間的適應(yīng)任務(wù)中,尤為重要,因?yàn)楣庹兆兓瘜?duì)感知系統(tǒng)的影響很大。
定性分析表明,DA-BEV可以在多個(gè)相機(jī)視角中精確地識(shí)別和定位物體,并且在鳥(niǎo)瞰圖中準(zhǔn)確地重建3D場(chǎng)景。這一能力對(duì)于實(shí)際應(yīng)用如自動(dòng)駕駛和機(jī)器人導(dǎo)航是非常關(guān)鍵的,因?yàn)樗鼈冃枰诟鞣N環(huán)境條件下都能準(zhǔn)確地感知周?chē)沫h(huán)境。此外,該方法在不同的網(wǎng)絡(luò)骨架上都表現(xiàn)出良好的泛化能力,這意味著它可以與不同的網(wǎng)絡(luò)架構(gòu)集成,提高現(xiàn)有系統(tǒng)的適應(yīng)性。
然而,DA-BEV方法也有其局限性。例如,它在某些特定類(lèi)別,如拖車(chē)和建筑車(chē)輛的檢測(cè)上,性能仍然有限,這可能是因?yàn)檫@些類(lèi)別在數(shù)據(jù)集中的表示較少或者它們?cè)诓煌庹諚l件下的外觀變化更加顯著。此外,雖然定性結(jié)果令人印象深刻,但在鳥(niǎo)瞰圖中仍有少數(shù)誤差,這表明模型在理解復(fù)雜場(chǎng)景方面仍有改進(jìn)空間。
結(jié)論
在本文中,我們提出了DA-BEV,這是首個(gè)領(lǐng)域自適應(yīng)的純視覺(jué)BEV框架,它通過(guò)利用圖像視圖特征和BEV特征的互補(bǔ)性來(lái)解決領(lǐng)域自適應(yīng)BEV的挑戰(zhàn)。DA-BEV引入了基于查詢(xún)的對(duì)抗學(xué)習(xí)(QAL)和基于查詢(xún)的自我訓(xùn)練(QST),其中QAL/QST利用從圖像視圖特征或BEV特征中查詢(xún)得到的有用信息來(lái)規(guī)范化另一個(gè)的對(duì)抗學(xué)習(xí)。廣泛的實(shí)驗(yàn)展示了DA-BEV在各種數(shù)據(jù)集和任務(wù)上的卓越領(lǐng)域自適應(yīng)BEV感知性能。展望未來(lái),我們將通過(guò)引入它們的時(shí)間信息來(lái)進(jìn)一步探索圖像視圖和BEV特征的互補(bǔ)性。、
原文鏈接:https://mp.weixin.qq.com/s/GSB8DX2VX6ROh6c-juRgMA