自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

如何提升小計算量的BEV模型性能?也許DistillBEV是個答案!

人工智能 新聞
DistillBEV提出通過訓(xùn)練基于多目 BEV 的學(xué)生檢測器模仿訓(xùn)練有素的基于 LiDAR 的教師檢測器的特征來增強其表示學(xué)習(xí)。并提出了有效的平衡策略,以強制學(xué)生專注于從老師那里學(xué)習(xí)關(guān)鍵特征,并將知識轉(zhuǎn)移到具有時間融合的多尺度層。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

筆者的個人理解

BEV模型今年被越來越多自動駕駛公司落地上車,雖然Nvidia的Orin平臺和地平線的J5系列算力都比較大,但由于功能模型較多,很多公司都在想辦法將模型做小,但小模型計算量的減少會導(dǎo)致性能下降,那么如何提升小模型性能呢?領(lǐng)域常見的方法主要是半監(jiān)督和蒸餾。今天的主角是知識蒸餾任務(wù),蒸餾又分為同構(gòu)蒸餾和異構(gòu)蒸餾,由于現(xiàn)在大多方案是純視覺,通過點云大模型蒸餾視覺小模型受到了許多團隊的認可,是一種無痛漲點的方法。

如何設(shè)計蒸餾模型呢

多目BEV 3D感知方案由于相機的較低成本使其在自動駕駛領(lǐng)域大規(guī)模生產(chǎn)中成為主流,單/多目 BEV 和基于 LiDAR 的 3D 目標(biāo)檢測之間存在明顯的性能差距。一個關(guān)鍵原因是 LiDAR 可以捕獲準(zhǔn)確的深度和其他幾何測量結(jié)果,而僅從圖像輸入推斷此類 3D 信息是非常具有挑戰(zhàn)性的。DistillBEV提出通過訓(xùn)練基于多目 BEV 的學(xué)生檢測器模仿訓(xùn)練有素的基于 LiDAR 的教師檢測器的特征來增強其表示學(xué)習(xí)。并提出了有效的平衡策略,以強制學(xué)生專注于從老師那里學(xué)習(xí)關(guān)鍵特征,并將知識轉(zhuǎn)移到具有時間融合的多尺度層。DistillBEV提出了 BEV 中的跨模式蒸餾,它自然地適用于 LiDAR 和基于多目 BEV 的探測器之間的知識傳輸。除此之外,有效的平衡設(shè)計,使學(xué)生能夠?qū)W⒂趯W(xué)習(xí)多尺度和時間融合的教師的關(guān)鍵特征。DistillBEV的方法比學(xué)生模型有了顯著改進,在 nuScenes 上實現(xiàn)了最先進的性能。

知識蒸餾在檢測任務(wù)中為什么重要

基于相機

該領(lǐng)域的許多方法基于單目視覺范式,如FCOS3D和DD3D,類似于2D目標(biāo)檢測。最近,基于多目的BEV(鳥瞰圖)框架因其固有的優(yōu)點而成為趨勢。在這個框架中,視圖轉(zhuǎn)換模塊起著將多視圖圖像特征轉(zhuǎn)換為BEV的基礎(chǔ)性作用。一些方法采用逆透視映射或多層感知器來執(zhí)行從透視視圖到BEV的轉(zhuǎn)換。引入LSS來通過相應(yīng)的逐bin深度分布提升圖像特征的方法如BEVDet,BEVDet4D和BEVDepth。BEVFormer中提出,利用交叉注意力來查找和匯聚跨目的圖像特征。此外,BEV表示提供了在多個時間戳上改善目標(biāo)檢測和運動狀態(tài)估計的更理想的場景特征連接。BEVDet4D和BEVDepth通過空間對齊融合先前和當(dāng)前的特征,而BEVFormer通過軟注意力進行時間上的融合。

基于Lidar

由于該領(lǐng)域的大多數(shù)方法將不規(guī)則點云轉(zhuǎn)換為規(guī)則網(wǎng)格,如柱狀物或體素,因此自然而然地在BEV中提取特征。VoxelNet對每個體素內(nèi)聚合的點特征應(yīng)用3D卷積。SECOND利用稀疏的3D卷積提高計算效率。PointPillars提出將高度維度折疊并使用2D卷積以進一步減少推理延遲。CenterPoint是一種流行的無錨點方法,將目標(biāo)表示為點。PillarNeXt表明,基于柱狀物的模型在架構(gòu)和訓(xùn)練方面的現(xiàn)代化設(shè)計在準(zhǔn)確性和延遲方面都優(yōu)于體素對應(yīng)物。廣泛使用融合多個傳感器來增強檢測性能。MVP是CenterPoint的傳感器融合版本,通過虛擬圖像點增強。

知識蒸餾

這項技術(shù)最初是為了通過將來自較大教師模型的信息傳遞給緊湊的學(xué)生模型來進行網(wǎng)絡(luò)壓縮而提出的。該領(lǐng)域中的大多數(shù)方法最初是為圖像分類而設(shè)計的,但對于圖像目標(biāo)檢測的改進卻很少。最近一些方法已成功地將知識蒸餾應(yīng)用于2D目標(biāo)檢測。然而,對于3D目標(biāo)檢測的蒸餾研究較少,特別是當(dāng)教師和學(xué)生模型來自不同模態(tài)時。與DistillBEV提出的方法最相關(guān)的工作是BEVDistill,該工作引入了一種密集的前景引導(dǎo)特征模仿和一種稀疏的實例級蒸餾,以從激光雷達傳遞空間知識到多目3D目標(biāo)檢測。與這種方法相比,DistillBEV的方法通過引入?yún)^(qū)域分解和自適應(yīng)縮放實現(xiàn)了更精細的蒸餾。此外,DistillBEV的設(shè)計適應(yīng)多尺度蒸餾,可以增強在不同特征抽象層面上的跨模態(tài)知識傳遞。

怎么設(shè)計一個BEV下的蒸餾網(wǎng)絡(luò)

區(qū)域分解

根據(jù)GT以及teacher與student之間的差異程度進行區(qū)域劃分,著重學(xué)習(xí)有GT區(qū)域和diff區(qū)域

在 2D 目標(biāo)檢測中由于前景和背景區(qū)域之間的不平衡,簡單地在教師和學(xué)生之間進行特征對齊很難取得改進。這種現(xiàn)象在 3D 目標(biāo)檢測中更為嚴(yán)重,因為絕大多數(shù) 3D 空間沒有目標(biāo)。通過對 BEV 特征圖的統(tǒng)計發(fā)現(xiàn),平均不到 30% 的像素是非空的,意味著其中只有一小部分包含感興趣的目標(biāo)。為了進行有效的知識遷移,DistillBEV引入了區(qū)域分解來指導(dǎo)學(xué)生應(yīng)重點關(guān)注關(guān)鍵區(qū)域,而不是平等對待所有區(qū)域。具體來說,將特征圖分為四種類型:真陽性(TP)、假陽性(FP)、真陰性(TN)和假陰性(FN)。因此,定義區(qū)域分解掩模:

其中是特征圖上的坐標(biāo),用來控制 FP 區(qū)域中像素的相對重要性。

這種分解使DistillBEV的方法能夠靈活地為不同區(qū)域分配不同的重要性??紤]地面真值框覆蓋的區(qū)域(即 TP 和 FN 區(qū)域的并集)是很簡單的,它們準(zhǔn)確地傳達了前景目標(biāo)的特征。然而,DistillBEV也以不同于 TN 區(qū)域的方式對待 FP 區(qū)域。當(dāng)教師模型在某些區(qū)域產(chǎn)生高激活時,即使它們是 FP(例如,一根桿子被誤檢測為行人),鼓勵學(xué)生模型模仿此類特征響應(yīng)仍然有利于整體 3D 幾何學(xué)習(xí)??梢酝ㄟ^對教師檢測器和地面真實標(biāo)簽生成的置信度熱圖進行閾值化來找到 FP 區(qū)域:

其中和分別對應(yīng)于從教師模型和地面實況獲得的熱圖,是熱圖閾值化的超參數(shù)。

尺度自適應(yīng)

目標(biāo)面積越大,越縮放(大的前景),F(xiàn)P,TN區(qū)域(背景)被縮放,生成weight map約束損失

在 BEV 中從教師向?qū)W生提取知識的另一個挑戰(zhàn)是各種目標(biāo)尺寸的巨大跨度。例如,從鳥瞰角度看,一輛公共汽車的體積是行人的幾十倍。此外,墻壁和植物等背景淹沒了非空白區(qū)域。因此,背景目標(biāo)和巨大的前景目標(biāo)將主導(dǎo)蒸餾損失,因為更多的特征來自于它們。希望反映對蒸餾損失具有相似貢獻的不同大小的目標(biāo)或類別。引入自適應(yīng)縮放因子來實現(xiàn)此目標(biāo):

其中  是 BEV 中邊界框長度為  和寬度為  的第 k 個GT(TP 或 FN),   分別表示落入 FP 和 TN 區(qū)域的像素數(shù)。

空間注意力

由teacher的空間注意力以及student的多尺度自適應(yīng)后(尺度對齊)的空間注意力構(gòu)成一張attention map用于后續(xù)約束損失

DistillBEV采用基于提取的教師和學(xué)生特征的空間注意力圖來進一步選擇更多信息豐富的特征來關(guān)注??臻g注意力圖的構(gòu)建方式如下:

是特征圖,是沿著channel維度的特征圖的平均池化結(jié)果,是 softmax 對所有空間位置的歸一化注意力,τ是調(diào)整分布熵的溫度。DistillBEV通過考慮教師  和學(xué)生  的特征圖來獲得最終的空間注意力圖:

其中,是teacher特征圖到student特征圖的自適應(yīng)模塊。

多尺度蒸餾

蒸餾(尺度對齊后的)多尺度,但是區(qū)域劃分基于有語義表達能力的head層

網(wǎng)絡(luò)中不同深度的層編碼不同的抽象特征,結(jié)合了不同級別的特征,可以更好地檢測各種大小的對象。為了實現(xiàn)教師和學(xué)生之間的全面對齊,DistillBEV采用這種思想對基于CNN的模型進行多尺度的特征蒸餾。但教師和學(xué)生網(wǎng)絡(luò)是分別設(shè)計的不同的架構(gòu),使得找到中間特征對應(yīng)關(guān)系變得非常重要。例如,教師中的 BEV 特征圖通常是學(xué)生中 BEV 特征圖大小的 2 倍或 4 倍。簡單地對齊相同分辨率的特征會導(dǎo)致特征抽象級別的不兼容。因此,DistillBEV引入了一個由上采樣和投影層組成的輕量級適應(yīng)模塊,以在與類似級別的教師特征對齊之前映射學(xué)生特征。還發(fā)現(xiàn),早期層的特征模仿不利于蒸餾,這是因為點云和圖像之間的模態(tài)差距引起的表示差異在早期階段仍然很大。因此,DistillBEV僅在 BEV 的最后一個編碼層(即 pre-head 特征)識別和利用 FP 區(qū)域。這種設(shè)置效果最好,推測是因為最后一層出現(xiàn)的高級語義特征可以更好地表達 FP 區(qū)域。

蒸餾損失

上述設(shè)計均被用于雷達teacher對相機student的損失部分

DistillBEV用包括分類和回歸的原始損失以及整體蒸餾損失來訓(xùn)練學(xué)生網(wǎng)絡(luò),首先定義教師  和學(xué)生  之間第  個蒸餾層的特征模仿?lián)p失

其中,,是區(qū)域分解掩模的邏輯補,表示自適應(yīng)縮放因子,是空間注意力圖,αβ是對這兩項進行加權(quán)的超參數(shù)。

DistillBEV利用注意力模仿?lián)p失來強制學(xué)生學(xué)習(xí)生成注意力模式,與教師相似,因此關(guān)注教師網(wǎng)絡(luò)認為更重要的空間位置:

總損失:

其中 是選擇執(zhí)行蒸餾的層數(shù),λ控制兩個損失函數(shù)之間的相對重要性。

時間融合的蒸餾

多相機 BEV 中表示的一項理想特性是促進多個時間戳特征的融合。利用時間融合開發(fā)的方法通過利用重要的動態(tài)線索極大地改進了 3D 對象檢測和運動估計。至于基于激光雷達的模型,通常的做法是通過自運動補償直接將過去的掃描轉(zhuǎn)換到當(dāng)前坐標(biāo)系來融合多個點云,并將相對時間戳添加到每個點的測量中。因此,在DistillBEV的方法中進行時態(tài)知識遷移是很自然的,因為教師可以很容易地與使用時態(tài)信息的學(xué)生兼容。在實踐中,對基于單幀和多幀的學(xué)生模型采用統(tǒng)一的教師模型,以通過時間融合進行蒸餾。

DistillBEV優(yōu)勢在哪里?

我們在大規(guī)模自動駕駛基準(zhǔn)測試nuScenes上進行了評估。該數(shù)據(jù)集包括大約20秒的1,000個場景,由32束激光雷達和20Hz和10Hz頻率下的6個目捕獲。對于3D目標(biāo)檢測,總共有10個類別,標(biāo)注以2Hz的頻率提供。按照標(biāo)準(zhǔn)評估劃分,分別使用700、150和150個場景進行訓(xùn)練、驗證和測試。遵循官方評估指標(biāo),包括平均精度(mAP)和nuScenes檢測分?jǐn)?shù)(NDS)作為主要指標(biāo)。還使用mATE、mASE、mAOE、mAVE和mAAE來測量平移、尺度、方向、速度和屬性相關(guān)的錯誤。

教師和學(xué)生模型 為了驗證DistillBEV方法的普適性,考慮了各種教師和學(xué)生模型。采用流行的CenterPoint或其傳感器融合版本MVP作為教師模型。至于學(xué)生模型,選擇BEVDet、BEVDet4D、BEVDepth和BEVFormer作為代表性的學(xué)生模型,它們代表了從CNN到Transformer、從base版本到時間("4D" 以融合時間)和空間("Depth" 以增強可信賴深度估計)擴展的廣泛范圍的學(xué)生模型。這些模型共同形成8種不同的教師-學(xué)生組合。

在PyTorch中實現(xiàn),并使用8個NVIDIA Tesla V100 GPU進行網(wǎng)絡(luò)訓(xùn)練,批量大小為64。采用AdamW作為優(yōu)化器,學(xué)習(xí)率采用2e-4的余弦調(diào)度。所有模型均經(jīng)過24個時期的訓(xùn)練,采用CBGS策略。遵循BEVDet和BEVDepth,在圖像和BEV空間中都應(yīng)用了數(shù)據(jù)增強。按照標(biāo)準(zhǔn)評估協(xié)議設(shè)置檢測范圍為[-51.2m, 51.2m]×[-51.2m, 51.2m]。ResNet-50在ImageNet-1K上預(yù)先訓(xùn)練,用作圖像的骨干網(wǎng)絡(luò),圖像大小處理為256×704,除非另有說明。采用通過教師的參數(shù)初始化學(xué)生的檢測頭,以實現(xiàn)更快的收斂。

Main Results

nuScenes驗證集上基于多個base采用DistillBEV結(jié)果:

圖片

nuScenes驗證集:

nuScenes測試集:

Ablation Studies

Visualization

參考:DistillBEV: Boosting Multi-Camera 3D Object Detection with Cross-Modal Knowledge Distillation

原文鏈接:https://mp.weixin.qq.com/s/qlHnKpCDrbP4WQs9GCxXLA

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2024-09-27 10:31:22

2023-02-21 14:16:42

2017-05-02 21:03:04

深度學(xué)習(xí)幾何學(xué)人工智能

2017-05-02 09:54:03

深度學(xué)習(xí)幾何學(xué)計算機

2021-12-02 07:02:16

API性能設(shè)計

2011-11-30 21:59:41

ibmdwDojo

2023-08-16 17:44:38

2021-05-11 12:30:21

PyTorch代碼Python

2025-01-26 07:10:00

Web 應(yīng)用Next.js代碼分割

2023-12-27 08:22:34

框架3D檢測

2024-03-08 12:35:27

AI模型

2023-03-01 15:14:48

數(shù)據(jù)集機器學(xué)習(xí)

2019-07-24 08:55:09

APP重設(shè)計界面

2019-06-11 15:25:03

JSON性能前端

2012-04-13 10:00:04

LINQ

2022-08-30 10:58:45

ViteEsbuild前端

2024-06-11 00:09:00

JavaScript模式變量

2009-03-22 19:19:15

多核多核服務(wù)器多核歷史

2010-03-19 09:22:37

至強5600

2015-02-05 09:47:52

Web性能Web開發(fā)
點贊
收藏

51CTO技術(shù)棧公眾號