自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tr id="seqek"></tr>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

用于激光雷達(dá)點(diǎn)云自監(jiān)督預(yù)訓(xùn)練SOTA！

作者：汽車人 2023-09-06 09:59:12

人工智能新聞

本文證明了本文的方法數(shù)據(jù)高效，并且減少了對(duì)帶注釋數(shù)據(jù)的需求。通過預(yù)訓(xùn)練，當(dāng)只使用40%的帶注釋的數(shù)據(jù)時(shí)，本文的性能優(yōu)于全監(jiān)督的數(shù)據(jù)。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

論文思路：

masked autoencoding已經(jīng)成為文本、圖像和最近的點(diǎn)云的Transformer模型的一個(gè)成功的預(yù)訓(xùn)練范例。原始的汽車數(shù)據(jù)集適合進(jìn)行自監(jiān)督的預(yù)訓(xùn)練，因?yàn)榕c3D目標(biāo)檢測(OD)等任務(wù)的標(biāo)注相比，它們的收集成本通常較低。然而，針對(duì)點(diǎn)云的masked autoencoders的開發(fā)僅僅集中在合成和室內(nèi)數(shù)據(jù)上。因此，現(xiàn)有的方法已經(jīng)將它們的表示和模型定制為小而稠密的點(diǎn)云，具有均勻的點(diǎn)密度。在這項(xiàng)工作中，本文研究了在汽車設(shè)置中對(duì)點(diǎn)云進(jìn)行的masked autoencoding，這些點(diǎn)云是稀疏的，并且在同一場景中，點(diǎn)云的密度在不同的物體之間可以有很大的變化。為此，本文提出了Voxel-MAE，這是一種為體素表示而設(shè)計(jì)的簡單的masked autoencoding預(yù)訓(xùn)練方案。本文對(duì)基于Transformer三維目標(biāo)檢測器的主干進(jìn)行了預(yù)訓(xùn)練，以重建masked體素并區(qū)分空體素和非空體素。本文的方法提高了具有挑戰(zhàn)性的nuScenes數(shù)據(jù)集上1.75 mAP和1.05 NDS的3D OD性能。此外，本文表明，通過使用Voxel-MAE進(jìn)行預(yù)訓(xùn)練，本文只需要40%的帶注釋數(shù)據(jù)就可以超過隨機(jī)初始化的等效數(shù)據(jù)。

主要貢獻(xiàn)：

本文提出了Voxel-MAE(一種在體素化的點(diǎn)云上部署MAE-style的自監(jiān)督預(yù)訓(xùn)練的方法)，并在大型汽車點(diǎn)云數(shù)據(jù)集nuScenes上對(duì)其進(jìn)行了評(píng)估。本文的方法是第一個(gè)使用汽車點(diǎn)云Transformer主干的自監(jiān)督預(yù)訓(xùn)練方案。

本文針對(duì)體素表示定制本文的方法，并使用一組獨(dú)特的重建任務(wù)來捕捉體素化點(diǎn)云的特征。

本文證明了本文的方法數(shù)據(jù)高效，并且減少了對(duì)帶注釋數(shù)據(jù)的需求。通過預(yù)訓(xùn)練，當(dāng)只使用40%的帶注釋的數(shù)據(jù)時(shí)，本文的性能優(yōu)于全監(jiān)督的數(shù)據(jù)。

此外，本文發(fā)現(xiàn)Voxel-MAE在mAP中將基于Transformer檢測器的性能提高了1.75個(gè)百分點(diǎn)，在NDS中將其性能提高了1.05個(gè)百分點(diǎn)，與現(xiàn)有的自監(jiān)督方法相比，其性能提高了2倍。

網(wǎng)絡(luò)設(shè)計(jì)：

這項(xiàng)工作的目的是將MAE-style的預(yù)訓(xùn)練擴(kuò)展到體素化的點(diǎn)云。核心思想仍然是使用編碼器從對(duì)輸入的部分觀察中創(chuàng)建豐富的潛在表示，然后使用解碼器重構(gòu)原始輸入，如圖2所示。經(jīng)過預(yù)訓(xùn)練后，編碼器被用作3D目標(biāo)檢測器的主干。但是，由于圖像和點(diǎn)云之間的基本差異，需要對(duì)Voxel-MAE的有效訓(xùn)練進(jìn)行一些修改。

圖2:本文的Voxel-MAE方法。首先，用固定的體素大小對(duì)點(diǎn)云進(jìn)行體素化。圖中的體素大小已被夸大，以實(shí)現(xiàn)可視化的目的。在訓(xùn)練前，很大一部分(70%)的非空體素被隨機(jī)mask掉了。然后，編碼器只應(yīng)用于可見體素，使用嵌入[46]的動(dòng)態(tài)體素特征嵌入這些體素。masked非空體素和隨機(jī)選擇的空體素使用相同的可學(xué)習(xí)mask tokens嵌入。然后，解碼器對(duì)mask tokens序列和編碼的可見體素序列進(jìn)行處理，以重構(gòu)masked點(diǎn)云并區(qū)分空體素和非空體素。在預(yù)訓(xùn)練之后，丟棄解碼器，并將編碼器應(yīng)用于unmasked點(diǎn)云。

圖1:MAE(左)將圖像劃分為固定大小的不重疊的patches?，F(xiàn)有的masked點(diǎn)建模方法(中)通過使用最遠(yuǎn)點(diǎn)采樣和k近鄰創(chuàng)建固定數(shù)量的點(diǎn)云patches。本文的方法(右)使用非重疊體素和動(dòng)態(tài)數(shù)量的點(diǎn)。

實(shí)驗(yàn)結(jié)果：

引用：

Hess G, Jaxing J, Svensson E, et al. Masked autoencoder for self-supervised pre-training on lidar point clouds[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2023: 350-359.

責(zé)任編輯：張燕妮來源：自動(dòng)駕駛之心

雷達(dá)技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="q1gd9"><i id="q1gd9"></i></blockquote>