用于激光雷達(dá)點(diǎn)云自監(jiān)督預(yù)訓(xùn)練SOTA!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
論文思路:
masked autoencoding已經(jīng)成為文本、圖像和最近的點(diǎn)云的Transformer模型的一個(gè)成功的預(yù)訓(xùn)練范例。原始的汽車數(shù)據(jù)集適合進(jìn)行自監(jiān)督的預(yù)訓(xùn)練,因?yàn)榕c3D目標(biāo)檢測(OD)等任務(wù)的標(biāo)注相比,它們的收集成本通常較低。然而,針對(duì)點(diǎn)云的masked autoencoders的開發(fā)僅僅集中在合成和室內(nèi)數(shù)據(jù)上。因此,現(xiàn)有的方法已經(jīng)將它們的表示和模型定制為小而稠密的點(diǎn)云,具有均勻的點(diǎn)密度。在這項(xiàng)工作中,本文研究了在汽車設(shè)置中對(duì)點(diǎn)云進(jìn)行的masked autoencoding,這些點(diǎn)云是稀疏的,并且在同一場景中,點(diǎn)云的密度在不同的物體之間可以有很大的變化。為此,本文提出了Voxel-MAE,這是一種為體素表示而設(shè)計(jì)的簡單的masked autoencoding預(yù)訓(xùn)練方案。本文對(duì)基于Transformer三維目標(biāo)檢測器的主干進(jìn)行了預(yù)訓(xùn)練,以重建masked體素并區(qū)分空體素和非空體素。本文的方法提高了具有挑戰(zhàn)性的nuScenes數(shù)據(jù)集上1.75 mAP和1.05 NDS的3D OD性能。此外,本文表明,通過使用Voxel-MAE進(jìn)行預(yù)訓(xùn)練,本文只需要40%的帶注釋數(shù)據(jù)就可以超過隨機(jī)初始化的等效數(shù)據(jù)。
主要貢獻(xiàn):
本文提出了Voxel-MAE(一種在體素化的點(diǎn)云上部署MAE-style的自監(jiān)督預(yù)訓(xùn)練的方法),并在大型汽車點(diǎn)云數(shù)據(jù)集nuScenes上對(duì)其進(jìn)行了評(píng)估。本文的方法是第一個(gè)使用汽車點(diǎn)云Transformer主干的自監(jiān)督預(yù)訓(xùn)練方案。
本文針對(duì)體素表示定制本文的方法,并使用一組獨(dú)特的重建任務(wù)來捕捉體素化點(diǎn)云的特征。
本文證明了本文的方法數(shù)據(jù)高效,并且減少了對(duì)帶注釋數(shù)據(jù)的需求。通過預(yù)訓(xùn)練,當(dāng)只使用40%的帶注釋的數(shù)據(jù)時(shí),本文的性能優(yōu)于全監(jiān)督的數(shù)據(jù)。
此外,本文發(fā)現(xiàn)Voxel-MAE在mAP中將基于Transformer檢測器的性能提高了1.75個(gè)百分點(diǎn),在NDS中將其性能提高了1.05個(gè)百分點(diǎn),與現(xiàn)有的自監(jiān)督方法相比,其性能提高了2倍。
網(wǎng)絡(luò)設(shè)計(jì):
這項(xiàng)工作的目的是將MAE-style的預(yù)訓(xùn)練擴(kuò)展到體素化的點(diǎn)云。核心思想仍然是使用編碼器從對(duì)輸入的部分觀察中創(chuàng)建豐富的潛在表示,然后使用解碼器重構(gòu)原始輸入,如圖2所示。經(jīng)過預(yù)訓(xùn)練后,編碼器被用作3D目標(biāo)檢測器的主干。但是,由于圖像和點(diǎn)云之間的基本差異,需要對(duì)Voxel-MAE的有效訓(xùn)練進(jìn)行一些修改。
圖2:本文的Voxel-MAE方法。首先,用固定的體素大小對(duì)點(diǎn)云進(jìn)行體素化。圖中的體素大小已被夸大,以實(shí)現(xiàn)可視化的目的。在訓(xùn)練前,很大一部分(70%)的非空體素被隨機(jī)mask掉了。然后,編碼器只應(yīng)用于可見體素,使用嵌入[46]的動(dòng)態(tài)體素特征嵌入這些體素。masked非空體素和隨機(jī)選擇的空體素使用相同的可學(xué)習(xí)mask tokens嵌入。然后,解碼器對(duì)mask tokens序列和編碼的可見體素序列進(jìn)行處理,以重構(gòu)masked點(diǎn)云并區(qū)分空體素和非空體素。在預(yù)訓(xùn)練之后,丟棄解碼器,并將編碼器應(yīng)用于unmasked點(diǎn)云。
圖1:MAE(左)將圖像劃分為固定大小的不重疊的patches?,F(xiàn)有的masked點(diǎn)建模方法(中)通過使用最遠(yuǎn)點(diǎn)采樣和k近鄰創(chuàng)建固定數(shù)量的點(diǎn)云patches。本文的方法(右)使用非重疊體素和動(dòng)態(tài)數(shù)量的點(diǎn)。
實(shí)驗(yàn)結(jié)果:
引用:
Hess G, Jaxing J, Svensson E, et al. Masked autoencoder for self-supervised pre-training on lidar point clouds[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2023: 350-359.