自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

BEV感知任務(wù)真的很穩(wěn)定嗎?極端情況下怎么樣?30+SOTA算法全面探析~

人工智能 智能汽車
毫無(wú)疑問(wèn)當(dāng)下自動(dòng)駕駛量產(chǎn)的關(guān)鍵詞就是BEV感知,作為感知的核心模塊,其在不同條件下的魯棒性仍然沒(méi)有得到充分的評(píng)估!今天自動(dòng)駕駛之心為大家分享的RoboBEV,評(píng)估了33個(gè)最先進(jìn)的基于BEV的感知模型,全面涵蓋了檢測(cè)、地圖分割、深度估計(jì)和占用預(yù)測(cè)等多個(gè)任務(wù)!

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

寫(xiě)在前面

BEV表示方法的進(jìn)步在車載3D感知領(lǐng)域展現(xiàn)出了巨大的潛力。然而,盡管這些方法在標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中取得了令人矚目的成果,但其在不同條件下的魯棒性仍然沒(méi)有得到充分的評(píng)估。本研究提出了RoboBEV,一個(gè)設(shè)計(jì)用于評(píng)估BEV算法魯棒性的全面基準(zhǔn)套件。該套件包含了多種相機(jī)損壞類型,每種類型都在三個(gè)嚴(yán)重程度級(jí)別上進(jìn)行了考察?;鶞?zhǔn)還考慮了使用多模態(tài)模型時(shí)發(fā)生的完整傳感器故障的影響。通過(guò)RoboBEV評(píng)估了33個(gè)最先進(jìn)的基于BEV的感知模型,這些模型涵蓋了檢測(cè)、地圖分割、深度估計(jì)和占用預(yù)測(cè)等任務(wù)。分析揭示了模型在分布內(nèi)數(shù)據(jù)集上的性能與其對(duì)分布外挑戰(zhàn)的韌性之間的顯著相關(guān)性。實(shí)驗(yàn)結(jié)果還強(qiáng)調(diào)了諸如預(yù)訓(xùn)練和無(wú)需深度的BEV轉(zhuǎn)換等策略在增強(qiáng)對(duì)分布外數(shù)據(jù)的魯棒性方面的有效性。此外觀察到,利用廣泛的時(shí)間信息可以顯著提高模型的魯棒性?;谟^察,設(shè)計(jì)了一種基于CLIP模型的有效魯棒性增強(qiáng)策略。本研究的見(jiàn)解為未來(lái)BEV模型的發(fā)展鋪平了道路,這些模型將無(wú)縫結(jié)合準(zhǔn)確性與現(xiàn)實(shí)世界中的魯棒性。

基于深度神經(jīng)網(wǎng)絡(luò)的3D感知方法已經(jīng)取得了革命性的突破,在一系列要求嚴(yán)格的基準(zhǔn)測(cè)試中表現(xiàn)出色。其中,以相機(jī)為中心的方法在受歡迎程度上已經(jīng)超越了基于激光雷達(dá)的方法,這主要是因?yàn)榍罢呔哂幸恍﹥?yōu)勢(shì),如降低了部署成本、提高了計(jì)算效率,以及能夠提供密集的語(yǔ)義洞察。這些進(jìn)步的核心在于鳥(niǎo)瞰視角(BEV)表示,它提供了三大顯著優(yōu)勢(shì):

  • 它促進(jìn)了從多視圖圖像中的統(tǒng)一學(xué)習(xí);
  • 它鼓勵(lì)了一種在物理上可解釋的方法,用于跨時(shí)間實(shí)例融合信息;
  • 其輸出域與多個(gè)下游應(yīng)用(如預(yù)測(cè)和規(guī)劃)無(wú)縫對(duì)齊,這強(qiáng)化了以視覺(jué)為中心的3D感知框架的性能指標(biāo);

然而,這種BEV感知方法論的繁榮景象并非沒(méi)有挑戰(zhàn)。盡管這些算法具有明顯的優(yōu)勢(shì),但它們?cè)诿鎸?duì)不符合情境或未預(yù)見(jiàn)到的場(chǎng)景時(shí)的魯棒性仍然缺乏足夠的考察。這種疏忽尤其令人擔(dān)憂,因?yàn)樵S多這些算法預(yù)計(jì)將在自動(dòng)駕駛等安全關(guān)鍵領(lǐng)域運(yùn)行。傳統(tǒng)上,算法的魯棒性可以分為對(duì)抗性魯棒性它涉及最壞情況場(chǎng)景和分布偏移下的魯棒性,后者考察平均情況下的性能,并在一定程度上反映了現(xiàn)實(shí)世界條件。

雖然3D感知模型的對(duì)抗性魯棒性已經(jīng)得到了研究,但本項(xiàng)工作旨在探索一個(gè)較少涉足的領(lǐng)域:以BEV為中心的3D感知系統(tǒng)在面臨自然、通常不可預(yù)測(cè)的干擾時(shí)的魯棒性。為了彌補(bǔ)現(xiàn)有的知識(shí)空白,這里提出了一個(gè)名為RoboBEV的全面基準(zhǔn)測(cè)試。該基準(zhǔn)測(cè)試評(píng)估了BEV感知在面對(duì)自然干擾時(shí)的魯棒性,這些干擾包括外部環(huán)境、內(nèi)部傳感器和時(shí)間因素。外部環(huán)境包括各種光照和天氣條件,這些條件通過(guò)融入亮度、暗度、霧和雪等干擾類型來(lái)模擬。此外,輸入可能受到由傳感器引起的內(nèi)部因素的干擾,如運(yùn)動(dòng)模糊和顏色量化。我們還為基于BEV的時(shí)間融合策略提出了兩種新穎的連續(xù)空間干擾,即camera崩潰和幀丟失。此外,還考慮了針對(duì)在多模態(tài)輸入上訓(xùn)練的相機(jī)-激光雷達(dá)融合模型的完全傳感器故障。該研究涉及對(duì)與真實(shí)世界自動(dòng)駕駛應(yīng)用高度相關(guān)的多樣化非分布干擾設(shè)置的全面調(diào)查,圖1總結(jié)了我們?cè)诨鶞?zhǔn)測(cè)試中研究的多樣化BEV感知任務(wù)和干擾類型。

圖片

借助提出的RoboBEV基準(zhǔn)測(cè)試,這里對(duì)33個(gè)BEV感知模型在不同嚴(yán)重程度下的干擾進(jìn)行了全面分析。最后,基于觀察結(jié)果,提出了利用CLIP主干網(wǎng)絡(luò)并將其適應(yīng)于BEV感知任務(wù),以提高模型的魯棒性。主要貢獻(xiàn)總結(jié)如下:

  1. 介紹了RoboBEV,一個(gè)全面的基準(zhǔn)測(cè)試套件,用于評(píng)估在各種自然干擾下BEV感知的魯棒性。
  2. 進(jìn)行了大量實(shí)驗(yàn),以評(píng)估30個(gè)基于camera的和3個(gè)基于camera-lidar融合的BEV感知算法的性能。這些算法在八種不同的干擾下進(jìn)行了評(píng)估,每種干擾都在三個(gè)不同的嚴(yán)重程度下應(yīng)用,共涉及四個(gè)感知任務(wù)。
  3. 研究通過(guò)深入分析導(dǎo)致干擾場(chǎng)景下魯棒性的因素,提供了有價(jià)值的見(jiàn)解,為未來(lái)的模型設(shè)計(jì)提供了啟示。主要觀察結(jié)果是:i) 絕對(duì)性能與干擾下的性能有很強(qiáng)的相關(guān)性。然而,隨著標(biāo)準(zhǔn)性能的提高,相對(duì)魯棒性并不一定增加;ii) 模型預(yù)訓(xùn)練與無(wú)深度BEV轉(zhuǎn)換相結(jié)合具有很大潛力來(lái)增強(qiáng)魯棒性;iii) 利用長(zhǎng)而豐富的時(shí)間信息在很大程度上增強(qiáng)了魯棒性。
  4. 基于觀察,提出了利用CLIP模型作為主干網(wǎng)絡(luò)來(lái)進(jìn)一步提高BEV感知模型的魯棒性。
  5. 將數(shù)據(jù)集和基準(zhǔn)測(cè)試工具包公開(kāi),旨在鼓勵(lì)研究社區(qū)復(fù)制和擴(kuò)展我們的發(fā)現(xiàn)。

BEV感知的一些基礎(chǔ)回顧

1)Model Pre-Training

在過(guò)去的幾年里,預(yù)訓(xùn)練已經(jīng)在各種任務(wù)的計(jì)算機(jī)視覺(jué)模型中提高了性能。在基于camera的3D感知領(lǐng)域,使用FCOS3D權(quán)重初始化ResNet主干網(wǎng)絡(luò)已成為標(biāo)準(zhǔn)做法。為了穩(wěn)定訓(xùn)練過(guò)程,F(xiàn)COS3D在微調(diào)過(guò)程中將深度權(quán)重從0.2調(diào)整到1。另一種普遍的方法是在DDAD15M數(shù)據(jù)集上訓(xùn)練VoVNet-V2主干網(wǎng)絡(luò),目標(biāo)是深度估計(jì),然后使用nuScenes訓(xùn)練集對(duì)其進(jìn)行微調(diào)以進(jìn)行檢測(cè)。從語(yǔ)義上講,這些預(yù)訓(xùn)練技術(shù)可以分為兩類:語(yǔ)義預(yù)訓(xùn)練和深度預(yù)訓(xùn)練。此外,M-BEV引入了健壯的mask圖像預(yù)訓(xùn)練技術(shù),旨在增強(qiáng)在缺少傳感器數(shù)據(jù)場(chǎng)景中模型的魯棒性。

2)Temporal Fusion

自動(dòng)駕駛的動(dòng)態(tài)環(huán)境要求精確估計(jì)運(yùn)動(dòng)實(shí)體的速度,這對(duì)單一幀輸入來(lái)說(shuō)是一個(gè)挑戰(zhàn)。這揭示了時(shí)間線索在增強(qiáng)視覺(jué)系統(tǒng)感知能力方面的重要性。先前的研究已經(jīng)開(kāi)創(chuàng)了各種方法來(lái)利用這些時(shí)間線索。例如,BEVFormer 集成歷史數(shù)據(jù)并利用時(shí)間交叉注意力來(lái)從多時(shí)間戳圖像中聚合BEV特征。同時(shí),BEVDet4D 通過(guò)將來(lái)自多個(gè)幀的特征附加在一起來(lái)融入時(shí)間細(xì)微差別,而SOLOFusion 則通過(guò)合并廣泛的歷史數(shù)據(jù)來(lái)尋求更全面的時(shí)間建模。然而,這些復(fù)雜的時(shí)間模型在受損條件下的韌性仍然在很大程度上尚未得到探索。

3)Camera-LiDAR融合

BEV范式簡(jiǎn)化了來(lái)自各種輸入模態(tài)的特征融合。雖然一些算法僅專注于從圖像中構(gòu)建BEV表示,但文獻(xiàn)中相當(dāng)一部分作品都主張采用統(tǒng)一的BEV空間。這有助于對(duì)齊從圖像和點(diǎn)云中提取的特征。這里深入探討了這類多模態(tài)融合算法的性能,特別是在圖像受損但激光雷達(dá)機(jī)制仍保持良好狀態(tài)的情況下。此外,還解決了一個(gè)常見(jiàn)場(chǎng)景,即模型使用多模態(tài)輸入進(jìn)行訓(xùn)練,但部署在僅裝備有其中一種傳感器的車輛上。為了評(píng)估魯棒性,我們?cè)u(píng)估了模型在完全傳感器故障條件下的性能,即缺失相機(jī)或激光雷達(dá)的情況。

4)BEV View Transformation

BEV轉(zhuǎn)換領(lǐng)域的研究工作可以根據(jù)是否使用深度估計(jì)技術(shù)來(lái)劃分。一派研究在其系統(tǒng)中嵌入了一個(gè)獨(dú)立的深度估計(jì)分支。由于從圖像預(yù)測(cè)3D框存在固有的挑戰(zhàn),這些模型首先預(yù)測(cè)每個(gè)像素的深度圖。然后,這個(gè)深度圖就像一個(gè)指南針,將圖像特征引導(dǎo)到它們正確的3D坐標(biāo)上。后續(xù)的BEV轉(zhuǎn)換過(guò)程通常采用自下而上的方法。另一種,是那些利用預(yù)定義的目標(biāo)查詢或精簡(jiǎn)proposal以自上而下的方式整理2D特征的模型。雖然這兩種范式在良性數(shù)據(jù)集上都展現(xiàn)出了它們的優(yōu)勢(shì),但通過(guò)考察它們?cè)谑軗p數(shù)據(jù)上的有效性來(lái)進(jìn)一步拓展視野。

Benchmark設(shè)計(jì)

1)數(shù)據(jù)生成

我們的主要提議是nuScenes-C基準(zhǔn)數(shù)據(jù)集,它是通過(guò)在nuScenes數(shù)據(jù)集的驗(yàn)證集中引入損壞而創(chuàng)建的。我們的數(shù)據(jù)集包含了八種不同的損壞類型,模擬了外部環(huán)境因素、傳感器引起的失真以及我們時(shí)間損壞所帶來(lái)的挑戰(zhàn)。將每種損壞類型分為三級(jí)強(qiáng)度:簡(jiǎn)單、中等和困難。這些嚴(yán)重程度級(jí)別確保了在存在挑戰(zhàn)的同時(shí),它們不會(huì)完全破壞性能,從而保持發(fā)現(xiàn)的相關(guān)性和完整性。此外,在每個(gè)嚴(yán)重程度級(jí)別內(nèi)引入了變化,以確保多樣性?;鶞?zhǔn)包含866,736張圖像,每張圖像的分辨率為1600×900像素。這里還考慮了模擬相機(jī)-激光雷達(dá)融合算法中完全傳感器失效的場(chǎng)景。在模擬相機(jī)缺失時(shí),每個(gè)像素都被設(shè)置為零。為了模擬激光雷達(dá)讀數(shù)的缺失,僅保留了[-45, 45]度前視場(chǎng)(FOV)內(nèi)的數(shù)據(jù)點(diǎn)。這樣的設(shè)計(jì)選擇基于我們的觀察,即當(dāng)激光雷達(dá)讀數(shù)完全缺失時(shí),經(jīng)過(guò)多模態(tài)訓(xùn)練的模型會(huì)遭受顯著的性能下降。

2)自然失真

圖1展示了損壞分類的視覺(jué)指南。大體上,專注于三種損壞類別。首先,通過(guò)亮度、暗度、霧和雪來(lái)模擬由外部環(huán)境動(dòng)態(tài)引起的損壞,如光照變化或極端氣象條件??紤]到大部分訓(xùn)練數(shù)據(jù)是在相對(duì)良性的條件下捕獲的,在這些極端條件下測(cè)試模型至關(guān)重要。其次,傳感器驅(qū)動(dòng)的失真可能會(huì)損壞收集的圖像。高速運(yùn)動(dòng)可能會(huì)產(chǎn)生模糊,或者內(nèi)存保護(hù)策略可能會(huì)迫使圖像進(jìn)行量化。為了模仿這些現(xiàn)實(shí)世界中的挑戰(zhàn),整合了運(yùn)動(dòng)模糊和顏色量化。最后引入了相機(jī)故障,其中由于硬件問(wèn)題,整個(gè)圖像集或隨機(jī)幀會(huì)被遺漏,這由創(chuàng)新性的相機(jī)崩潰和幀丟失損壞所捕捉。這些過(guò)程的圖示在圖1中進(jìn)行了可視化。我們可視化了在合成圖像上的像素直方圖分析,如圖2所示。一個(gè)顯著的現(xiàn)象是,雖然運(yùn)動(dòng)模糊損壞引起的像素分布變化很小,但仍然導(dǎo)致了顯著的性能下降。

圖片

3)魯棒Metrics

遵循官方nuScenes指標(biāo)在nuScenes-C數(shù)據(jù)集上計(jì)算魯棒性指標(biāo)。報(bào)告了nuScenes檢測(cè)得分(NDS)和平均精度均值(mAP),以及平均平移誤差(mATE)、平均尺度誤差(mASE)、平均方向誤差(mAOE)、平均速度誤差(mAVE)和平均屬性誤差(mAAE)。

為了更好地比較不同BEV檢測(cè)器的魯棒性,基于NDS引入了兩個(gè)新的指標(biāo)。第一個(gè)指標(biāo)是平均損壞誤差(mCE),用于測(cè)量候選模型與基線模型相比的相對(duì)魯棒性:

圖片

其中,i表示損壞類型,l表示嚴(yán)重級(jí)別;N表示基準(zhǔn)中的損壞類型數(shù)量。應(yīng)該注意的是,可以選擇不同的基線模型。在這項(xiàng)工作中,選擇了DETR3D作為基線模型,因?yàn)樗峁┝顺錾腂EV檢測(cè)性能。為了比較nuScenes-C和標(biāo)準(zhǔn)nuScenes數(shù)據(jù)集之間的性能差異,定義了一個(gè)簡(jiǎn)單的平均恢復(fù)率(mRR)指標(biāo),該指標(biāo)按以下方式在三個(gè)嚴(yán)重級(jí)別上計(jì)算:

圖片

Benchmark實(shí)現(xiàn)

1)Camera-Only Benchmark

對(duì)nuScenes-C數(shù)據(jù)集上的30個(gè)BEV模型進(jìn)行了詳盡的基準(zhǔn)分析。調(diào)查主要結(jié)果匯總在表2中,分析結(jié)果顯示,所有模型在損壞數(shù)據(jù)集上的性能都有所下降。

圖片

在檢查nuScenes-C數(shù)據(jù)集及其“干凈”對(duì)照數(shù)據(jù)集的絕對(duì)性能時(shí),出現(xiàn)了一個(gè)明顯的趨勢(shì)。在標(biāo)準(zhǔn)數(shù)據(jù)集上表現(xiàn)出色的BEV檢測(cè)器在面臨分布外數(shù)據(jù)集時(shí)也往往能展現(xiàn)出值得稱贊的性能,這一趨勢(shì)在圖3a中得到了直觀體現(xiàn)。然而,更仔細(xì)地觀察這些結(jié)果揭示了一個(gè)更復(fù)雜的情況。盡管檢測(cè)器在“干凈”數(shù)據(jù)集上表現(xiàn)平行,但在面對(duì)不同類型的損壞時(shí)卻表現(xiàn)出不同的魯棒性。例如,BEVerse(swin-s)在相機(jī)崩潰時(shí)表現(xiàn)出很強(qiáng)的韌性,而PETR(vov)在雪天條件下表現(xiàn)良好。然而,兩者在黑暗環(huán)境中都表現(xiàn)不佳。

調(diào)查還進(jìn)一步突出了不同損壞情況下韌性率的一個(gè)潛在弱點(diǎn)。盡管mCE指標(biāo)在nuScenes和nuScenes-C數(shù)據(jù)集之間顯示出線性相關(guān)性,但mRR指標(biāo)揭示了具有可比基線性能的模型之間存在顯著差異。這表明一些模型可能對(duì)nuScenes數(shù)據(jù)集存在過(guò)擬合現(xiàn)象,從而降低了它們對(duì)nuScenes-C數(shù)據(jù)集的適應(yīng)性。例如,盡管Sparse4D在“干凈”數(shù)據(jù)集上優(yōu)于DETR3D,但在所有損壞類別的mRR指標(biāo)上卻表現(xiàn)不佳。此外,DETR3D在黑暗條件下表現(xiàn)出色,與BEVerse(swin-t)形成鮮明對(duì)比。盡管BEVerse(swin-t)在清潔條件下表現(xiàn)強(qiáng)勁,但在黑暗中僅實(shí)現(xiàn)了12%的相對(duì)性能。因此,對(duì)尖端模型進(jìn)行全面評(píng)估對(duì)于完全評(píng)估它們的能力至關(guān)重要。

圖片

我們的研究還擴(kuò)展到了相關(guān)任務(wù),包括以BEV為中心的地圖分割、深度估計(jì)和占用預(yù)測(cè),相關(guān)結(jié)果如表4所示。遵循了[25]中的設(shè)置,報(bào)告了車輛地圖視圖分割結(jié)果的交并比(IoU)。對(duì)于深度估計(jì),使用了絕對(duì)相對(duì)差異(Abs Rel)評(píng)分,而對(duì)于語(yǔ)義占用預(yù)測(cè),使用了平均交并比(mIoU)。這些結(jié)果涵蓋了多種感知任務(wù),為BEV模型的能力和限制提供了豐富的視角。值得注意的是,許多以BEV為中心的感知模型在特定的損壞情況下(如黑暗和雪天)表現(xiàn)不佳。這揭示了BEV模型之間的一種共同弱點(diǎn),降低了它們?cè)诂F(xiàn)實(shí)場(chǎng)景中的可靠性。

圖片

2)Camera-LiDAR Fusion Benchmark

本文研究了camera受損而激光雷達(dá)正常工作的場(chǎng)景,這在現(xiàn)實(shí)世界中經(jīng)常發(fā)生。例如,激光雷達(dá)點(diǎn)云捕獲在很大程度上不受光照變化的影響,而camera捕獲在光線不足的情況下可能會(huì)降低質(zhì)量。這里故意排除了像雪和霧這樣的條件,因?yàn)樗鼈兛赡軙?huì)對(duì)camera和激光雷達(dá)的讀數(shù)引入噪聲,這些研究的結(jié)果如表5所示。有趣的是,即使在camera數(shù)據(jù)受損的情況下,多模態(tài)融合模型也能保持高性能。當(dāng)提供正常的激光雷達(dá)和受損的camera輸入時(shí),BEVFusion在大多數(shù)類型的camera損壞情況下(除了黑暗條件)都持續(xù)優(yōu)于僅使用激光雷達(dá)的模型,具有顯著更高的NDS評(píng)分0.6928。這證實(shí)了即使在camera數(shù)據(jù)不是最佳的情況下,使用激光雷達(dá)數(shù)據(jù)的有效性。

然而,在某些情況下,受損的camera輸入會(huì)對(duì)模型的性能產(chǎn)生不利影響。例如,在camera崩潰和運(yùn)動(dòng)模糊等條件下,將camera特征納入模型的益處微乎其微。此外,在存在黑暗損壞的情況下,受損的camera特征不僅無(wú)法提供有用信息,而且還會(huì)降低激光雷達(dá)特征的有效性,導(dǎo)致NDS評(píng)分從0.6928下降到0.6787。因此,提高多模態(tài)融合模型對(duì)輸入損壞的魯棒性成為未來(lái)研究的關(guān)鍵方向。

多模態(tài)融合模型通常使用來(lái)自camera和激光雷達(dá)傳感器的數(shù)據(jù)進(jìn)行訓(xùn)練。然而,部署的模型必須能夠在其中一個(gè)傳感器出現(xiàn)故障時(shí)也能正常工作。我們使用僅來(lái)自單一模態(tài)的輸入來(lái)評(píng)估我們的多模態(tài)模型的性能,結(jié)果如表6所示。在模擬camera故障時(shí),將所有像素值設(shè)置為零。對(duì)于激光雷達(dá)傳感器故障,發(fā)現(xiàn)當(dāng)所有點(diǎn)數(shù)據(jù)都缺失時(shí)(即NDS降至零),沒(méi)有模型能夠正常工作。因此,僅保留車輛前方[-45, 45]度范圍內(nèi)的點(diǎn),并丟棄其他所有點(diǎn)。

研究結(jié)果表明,多模態(tài)模型對(duì)激光雷達(dá)輸入的依賴程度過(guò)高。在激光雷達(dá)數(shù)據(jù)缺失的場(chǎng)景中,BEVFusion和Transfusion的mAP指標(biāo)分別下降了89%和95%。相比之下,缺少圖像數(shù)據(jù)導(dǎo)致的性能下降幅度要小得多。這一現(xiàn)象強(qiáng)調(diào)了在訓(xùn)練階段,點(diǎn)云特征可能會(huì)對(duì)模型產(chǎn)生不成比例的影響,從而在感知任務(wù)中主導(dǎo)基于圖像的特征。這種對(duì)激光雷達(dá)數(shù)據(jù)的依賴給多模態(tài)感知模型帶來(lái)了顯著的脆弱性,尤其是因?yàn)榧す饫走_(dá)傳感器在雨、雪、霧等惡劣天氣條件下容易數(shù)據(jù)損壞。這些結(jié)果促使我們進(jìn)一步研究如何增強(qiáng)多模態(tài)感知系統(tǒng)的魯棒性,特別是當(dāng)一種感知模態(tài)完全缺失時(shí)。

3)有效性評(píng)估與魯棒性改進(jìn)

這里研究了在訓(xùn)練階段將損壞作為數(shù)據(jù)增強(qiáng)策略的使用。為了系統(tǒng)地評(píng)估這種方法的有效性,在基準(zhǔn)測(cè)試中對(duì)五個(gè)模型應(yīng)用了損壞增強(qiáng),結(jié)果詳見(jiàn)表9。研究結(jié)果表明,損壞增強(qiáng)顯著提高了我們提出的數(shù)據(jù)集中針對(duì)語(yǔ)義損壞的性能,特別是對(duì)那些原本給模型帶來(lái)顯著挑戰(zhàn)的損壞類型(例如,運(yùn)動(dòng)模糊、雪)。然而,通過(guò)添加傳感器損壞場(chǎng)景(如缺少攝像頭信息)來(lái)增強(qiáng)訓(xùn)練數(shù)據(jù),并沒(méi)有顯著提高模型的魯棒性。這一結(jié)果強(qiáng)調(diào)了未來(lái)研究需要開(kāi)發(fā)更復(fù)雜的模塊,以處理不完整輸入場(chǎng)景的重要性。

圖片圖片

最近的研究表明,在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)集上以無(wú)監(jiān)督方式訓(xùn)練的基礎(chǔ)模型,與在常規(guī)數(shù)據(jù)集(如ImageNet)上訓(xùn)練的模型相比,表現(xiàn)出顯著的泛化能力。受這些發(fā)現(xiàn)的啟發(fā),我們探索了將基礎(chǔ)模型的泛化能力轉(zhuǎn)移到BEV感知任務(wù)中的潛力。研究了在我們的模型中利用CLIP主干網(wǎng)絡(luò)的三種不同方法:(1) 在訓(xùn)練過(guò)程中凍結(jié)主干網(wǎng)絡(luò),僅訓(xùn)練檢測(cè)頭;(2) 對(duì)主干網(wǎng)絡(luò)和檢測(cè)頭進(jìn)行微調(diào);(3) 先凍結(jié)主干網(wǎng)絡(luò)并訓(xùn)練檢測(cè)頭,然后對(duì)整個(gè)模型進(jìn)行微調(diào),因?yàn)橄惹暗墓ぷ鞅砻?,盡管端到端的微調(diào)可以提高分布內(nèi)性能,但可能會(huì)降低在分布外數(shù)據(jù)集上的魯棒性。

圖片

這三種方法如圖4所示,結(jié)果如表10所示。首先觀察到的是,CLIP對(duì)于BEV感知任務(wù)并未得到很好的優(yōu)化,這表現(xiàn)在當(dāng)我們凍結(jié)CLIP主干網(wǎng)絡(luò)時(shí),良性性能較低。此外,使用隨機(jī)初始化的檢測(cè)頭進(jìn)行端到端的微調(diào)幾乎沒(méi)有帶來(lái)任何改進(jìn)。有趣的是,當(dāng)應(yīng)用損壞增強(qiáng)時(shí),CLIP主干網(wǎng)絡(luò)對(duì)基準(zhǔn)模型的改進(jìn)微乎其微。mRR(平均召回率)的改進(jìn)僅為0.56,而配備損壞增強(qiáng)時(shí),mRR甚至更低。最后,我們的兩階段訓(xùn)練在有效提高性能的同時(shí),也將CLIP的魯棒性轉(zhuǎn)移到了BEV感知任務(wù)上,尤其是配備損壞增強(qiáng)時(shí)。魯棒性的提升明顯超過(guò)了端到端微調(diào)的CLIP。例如,在暗光、霧天和雪天條件下,NDS(歸一化駕駛得分)分別提高了23.1%、11.8%和15.8%。

圖片

分析和討論

1)Depth Estimation

無(wú)深度信息的BEV變換展現(xiàn)出更好的魯棒性。分析揭示,當(dāng)面對(duì)損壞的圖像時(shí),基于深度的方法會(huì)遭受嚴(yán)重的性能下降,如圖6c和6d所示。此外,還進(jìn)行了一項(xiàng)比較研究,以評(píng)估在損壞條件下BEVDepth的中間深度估計(jì)結(jié)果。為此,計(jì)算了“干凈”輸入與損壞輸入之間的均方誤差(MSE)。發(fā)現(xiàn)表明,脆弱性與深度估計(jì)錯(cuò)誤之間存在明確的關(guān)聯(lián),如圖3c所示。雪和暗光損壞會(huì)顯著影響準(zhǔn)確的深度估計(jì),導(dǎo)致最大的性能下降。這些結(jié)果進(jìn)一步支持了我們的結(jié)論,即如果深度估計(jì)不夠準(zhǔn)確,基于深度的方法的性能可能會(huì)受到嚴(yán)重影響。損壞條件下的深度估計(jì)結(jié)果可以從圖5中看到,與“干凈”輸入相比,在某些損壞(例如雪)下我們可以看到顯著的差異。

圖片

2)Model Pre-Training

預(yù)訓(xùn)練在各種語(yǔ)義損壞上提高了魯棒性,但對(duì)時(shí)間損壞沒(méi)有幫助。這些策略在提高模型魯棒性方面的有效性如圖6a和圖6b所示,其中利用預(yù)訓(xùn)練的模型在很大程度上優(yōu)于未使用的模型。為了進(jìn)行對(duì)照比較,我們使用FCOS3D模型作為初始化,重新實(shí)現(xiàn)了BEVDet (r101)模型。如圖10所示,結(jié)果表明,即使預(yù)訓(xùn)練模型在“干凈”數(shù)據(jù)上的NDS較低(0.3780 vs. 0.3877),預(yù)訓(xùn)練仍然可以顯著提高各種損壞(除了霧)下的mRR。在顏色量化、運(yùn)動(dòng)模糊和暗光損壞下,mRR指標(biāo)分別提高了22.5%、17.2%和27.8%。值得注意的是,預(yù)訓(xùn)練主要改善了大多數(shù)語(yǔ)義損壞,但對(duì)時(shí)間損壞沒(méi)有改善。盡管如此,經(jīng)過(guò)預(yù)訓(xùn)練的BEVDet仍然在很大程度上落后于無(wú)深度信息的同類模型。因此,我們可以得出結(jié)論,預(yù)訓(xùn)練與無(wú)深度信息的鳥(niǎo)瞰圖變換相結(jié)合,為模型提供了強(qiáng)大的魯棒性。最近,M-BEV提出了mask預(yù)訓(xùn)練任務(wù),以增強(qiáng)在不完整傳感器輸入下的魯棒性。我們將mask預(yù)訓(xùn)練的PETR與其相應(yīng)的基線進(jìn)行了比較。結(jié)果如表11所示,發(fā)現(xiàn)M-BEV最能有效地提高對(duì)不完整傳感器輸出的魯棒性,并揭示了掩碼圖像建模預(yù)訓(xùn)練在BEV感知任務(wù)中的潛力。

圖片

3)Temporal Fusion

在受到干擾的情況下的性能。融合更長(zhǎng)的時(shí)序信息在很大程度上有助于增強(qiáng)魯棒性。特別關(guān)注利用時(shí)序信息的模型在時(shí)序干擾下的表現(xiàn)。與僅使用短期和長(zhǎng)期版本的模型相比,融合了更廣泛和更豐富的時(shí)序信息的SOLOFusion模型表現(xiàn)極佳。在相機(jī)崩潰的情況下,僅使用短期和僅使用長(zhǎng)期版本的模型的恢復(fù)率性能相近(65.04 vs. 65.13)。然而,融合版本將恢復(fù)率提高到了70.73,這是所有候選模型中最高的。類似地,在幀丟失干擾下,融合版本相比于其他兩個(gè)版本將恢復(fù)率提高了近10%。此外,其長(zhǎng)期版本的RR指標(biāo)在廣泛的干擾類型上均優(yōu)于短期版本,這表明利用更長(zhǎng)的時(shí)序信息具有巨大的潛力。

為了進(jìn)一步研究時(shí)序融合對(duì)增強(qiáng)干擾魯棒性的影響,使用BEVFormer模型來(lái)評(píng)估與“干凈”的時(shí)序輸入相比,有時(shí)序信息整合和沒(méi)有時(shí)序信息整合時(shí)的特征誤差。我們計(jì)算了帶有時(shí)序信息和不帶有時(shí)序信息的受損輸入與帶有時(shí)序信息的“干凈”輸入之間的均方誤差(MSE),結(jié)果如圖12所示。注意到,在時(shí)序融合模型中(由藍(lán)色條表示),隨著時(shí)間的推移,誤差呈現(xiàn)增加的趨勢(shì),這歸因于連續(xù)受損輸入下的誤差累積。盡管如此,時(shí)序融合始終在幀之間展現(xiàn)出誤差緩解效果。

然而,我們發(fā)現(xiàn)并非所有使用時(shí)間融合的模型在相機(jī)崩潰和幀丟失的情況下都表現(xiàn)出更好的魯棒性。這種魯棒性與如何融合歷史幀以及使用了多少幀高度相關(guān),這強(qiáng)調(diào)了從更廣泛的角度評(píng)估時(shí)間融合策略的重要性。結(jié)果如圖7所示。盡管如此,時(shí)間融合仍然是增強(qiáng)時(shí)間魯棒性的潛在方法,因?yàn)榫哂凶畹蛽p壞誤差(或最高恢復(fù)率)的模型始終是那些使用時(shí)間信息的模型。

4)Backbone

Swin Transformer 對(duì)光照變化更為敏感;VoVNet-V2 對(duì)雪天氣的魯棒性更強(qiáng),而 ResNet 在廣泛的干擾情況下表現(xiàn)出更好的魯棒性。盡管 ResNet [120] 和 VoVNet [63] 在標(biāo)準(zhǔn)性能上相近,但基于 ResNet 的檢測(cè)器在各種干擾情況下始終表現(xiàn)出更高的魯棒性,如圖 8 所示。相反,VoVNet 主干網(wǎng)絡(luò)在雪天氣干擾下始終表現(xiàn)出更好的魯棒性。此外,基于 Swin Transformer [45] 的 BEVDet [3] 對(duì)光照條件的變化(例如,明亮和黑暗)表現(xiàn)出顯著的脆弱性。在圖 9 中可以找到清晰的比較。受到 [119] 的啟發(fā),我們計(jì)算了在良性輸入和干擾輸入下,由主干模型提取的特征空間中的 Gramian 矩陣?;谶@些計(jì)算,我們計(jì)算了“干凈”輸入和干擾輸入之間 Gramian 矩陣的相對(duì)誤差。

5)Corruptions

像素分布偏移與模型性能下降之間的關(guān)系并不直接。我們從nuScenes數(shù)據(jù)集中抽取了300張圖像來(lái)計(jì)算像素分布,并將像素直方圖可視化在圖2中。有趣的是,運(yùn)動(dòng)模糊引起的像素分布偏移最小,但卻導(dǎo)致了相對(duì)較大的性能下降。另一方面,亮度偏移將像素分布推向更高的值,而霧通過(guò)將像素值向更集中的區(qū)域移動(dòng)使精細(xì)特征變得更模糊。然而,這兩種干擾只導(dǎo)致了最小的性能差距,這表明模型的魯棒性并不簡(jiǎn)單地與像素分布相關(guān)。

6)Detailed Metrics

在圖像損壞的情況下,速度預(yù)測(cè)錯(cuò)誤會(huì)放大,并且歸因和尺度誤差在不同模型之間存在差異。雖然我們的研究主要報(bào)告了nuScenes檢測(cè)得分(NDS)指標(biāo),但圖11中展示了關(guān)于模型魯棒性的額外見(jiàn)解。我們發(fā)現(xiàn),包含時(shí)間信息的模型(如BEVFormer 和BEVerse)的平均絕對(duì)速度誤差(mAVE)顯著低于不包含時(shí)間信息的模型。然而,即使是具有時(shí)間融合的模型也無(wú)法免受圖像損壞的不利影響;特別是,在輕微光照變化的情況下,速度預(yù)測(cè)錯(cuò)誤也會(huì)顯著增加。圖11b和11f表明,運(yùn)動(dòng)模糊損壞對(duì)BEVFormer和BEVerse的速度預(yù)測(cè)都有不利影響,揭示了這些包含時(shí)間數(shù)據(jù)的模型存在的顯著脆弱性。此外,對(duì)歸因和尺度誤差的進(jìn)一步分析揭示了模型之間的顯著異質(zhì)性。無(wú)深度模型在這些指標(biāo)上表現(xiàn)出一致的性能,而基于深度的模型則顯示出明顯的變異性。這一觀察強(qiáng)調(diào)了基于深度的方法對(duì)圖像損壞的高度敏感性,并強(qiáng)調(diào)了需要進(jìn)一步研究以增強(qiáng)其魯棒性的必要性。

圖片

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2010-02-23 16:21:24

Python Win

2010-01-20 10:14:53

C++程序

2010-03-10 11:14:56

智能交換機(jī)

2010-03-17 14:50:06

智能交換機(jī)

2019-11-05 09:20:06

SQLiteLinux

2013-04-08 15:39:15

程序員

2018-10-30 12:44:04

Linux系統(tǒng)內(nèi)存

2023-06-30 09:33:37

自動(dòng)駕駛技術(shù)

2010-03-10 16:51:21

以太網(wǎng)交換機(jī)

2019-01-21 13:56:52

2013-12-11 09:29:02

2024-04-17 09:56:24

算法模型

2018-07-09 08:35:45

Windows 10WindowsBug

2014-10-24 10:10:33

UbuntuUbuntu 14.1

2022-11-02 08:55:43

Gofor 循環(huán)存儲(chǔ)

2010-08-30 10:37:04

云計(jì)算

2010-03-02 17:22:46

Android技術(shù)

2016-04-21 09:43:33

編程音樂(lè)

2016-11-15 09:43:56

大數(shù)據(jù)數(shù)據(jù)工程師

2017-08-24 08:18:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)