UniPAD:通用自動(dòng)駕駛預(yù)訓(xùn)練模式!各類感知任務(wù)都可支持
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
最近,新論文推陳出新的速度著實(shí)太快有點(diǎn)讀不過(guò)來(lái)的感覺(jué)??梢钥吹降氖牵Z(yǔ)言視覺(jué)多模態(tài)大模型融合已經(jīng)是業(yè)界共識(shí)了,UniPad 這篇文章就比較有代表性,多模態(tài)的輸入,類世界模型的預(yù)訓(xùn)練基座模型,同時(shí)又方便擴(kuò)展到多個(gè)傳統(tǒng)視覺(jué)應(yīng)用。并且還解決了將大語(yǔ)言模型的預(yù)訓(xùn)練方法用到 3D 場(chǎng)景的問(wèn)題,所以給統(tǒng)一的感知基座大模型提供了可能。
UniPAD 是一種基于 MAE 和 3D rendering 的自監(jiān)督學(xué)習(xí)方法,可以訓(xùn)練一個(gè)性能優(yōu)秀的基座模型,繼而可以在該模型上微調(diào)訓(xùn)練下游諸如深度估計(jì)、目標(biāo)檢測(cè)、分割等諸多任務(wù)。因?yàn)樵摴ぷ髟O(shè)計(jì)了一個(gè)統(tǒng)一的 3D 空間表示方法,使得它可以輕松地融入到 2D 和 3D 框架中,體現(xiàn)了較大的靈活性,這是很符合基座模型應(yīng)該的定位的。
閱讀時(shí)的思考與疑問(wèn)點(diǎn):
掩碼自編碼技術(shù) 和 3D 可微分渲染技術(shù)的關(guān)系是什么?簡(jiǎn)單說(shuō):掩碼自編碼是為了利用 Autoencoder 的自監(jiān)督訓(xùn)練能力,渲染技術(shù)是為了生成圖片后和原始圖片之間進(jìn)行損失函數(shù)計(jì)算并進(jìn)行監(jiān)督訓(xùn)練。所以邏輯還是很清晰的。
這篇文章在使用基座模型預(yù)訓(xùn)練的方法,再微調(diào)下游的檢測(cè)方法和分割方法。這個(gè)方法也可以幫助理解當(dāng)下的大模型與下游任務(wù)的配合方法。
看起來(lái)是沒(méi)有結(jié)合時(shí)序信息的。畢竟純視覺(jué) 50.2 的 NuScenes NDS 目前在帶時(shí)序的檢測(cè)方法(StreamPETR、Sparse4D 等)比較中還是弱了一些。所以 4D 的 MAE 方法,也是值得一試的,其實(shí) GAIA-1 已經(jīng)提到了類似的思路。
運(yùn)算量與內(nèi)存使用量如何?
具體方法:
UniPAD 隱式地編碼了 3D 空間信息,這里主要受到了掩碼自編碼(MAE、VoxelMAE 等)的啟發(fā),本文利用了生成式的 mask 來(lái)完成體素特征的加強(qiáng),用來(lái)重建場(chǎng)景中連續(xù)的 3D 形狀結(jié)構(gòu)以及它們?cè)?2D 平面上的復(fù)雜外觀特征。
在我們的實(shí)驗(yàn)中,UniPAD的優(yōu)越性得到了充分體現(xiàn)。相較于傳統(tǒng)的激光雷達(dá)、攝像頭,以及激光雷達(dá)-攝像頭融合基線,UniPAD 分別提高了 9.1、7.7 和 6.9 的 NDS 。值得一提的是,在nuScenes驗(yàn)證集上,我們的預(yù)訓(xùn)練流程為3D目標(biāo)檢測(cè)實(shí)現(xiàn)了73.2的NDS,并在3D語(yǔ)義分割任務(wù)上取得了79.4的 mIoU 分?jǐn)?shù),與之前的方法相比,取得了最好的成績(jī)。
整體架構(gòu):
整體架構(gòu)。該框架 LiDar 和多鏡頭圖片作為輸入,這些多模態(tài)數(shù)據(jù)會(huì)通過(guò)掩蔽生成器(Mask Generator)被填充為零。被掩碼遮蔽的 embedding 會(huì)被轉(zhuǎn)換到體素空間,在這樣的 3D 空間中通過(guò)渲染技術(shù)生成RGB或深度預(yù)測(cè)結(jié)果。這時(shí)沒(méi)有被掩碼遮蔽的原始圖像就可以做為生成數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)了。
Mask Generator
這里的 Masked AutoEncoder 的 mask 是通過(guò) Mask Generator 來(lái)生成的。可以理解為通過(guò)數(shù)據(jù)增量的方式來(lái)提高了訓(xùn)練難度,以寄希望于增強(qiáng)模型的表示能力和泛化能力。引入了一個(gè) Mask 生成器,通過(guò)有選擇性地遮擋某些區(qū)域,同時(shí)還區(qū)分了點(diǎn)云數(shù)據(jù)和圖像數(shù)據(jù)。在點(diǎn)云數(shù)據(jù)中,采用了分塊遮罩(block-wise masking)的策略;對(duì)于圖像,采用了稀疏卷積(sparse convolution)的方法,只在可見(jiàn)區(qū)域進(jìn)行計(jì)算。當(dāng)輸入數(shù)據(jù)被 mask 掉后,后續(xù)的編碼特征在對(duì)應(yīng)的被 mask 區(qū)域會(huì)被設(shè)置為 0,從而在模型的處理中被忽略,同時(shí)也為后續(xù)的監(jiān)督學(xué)習(xí)提供了可以用來(lái)預(yù)測(cè)目標(biāo)以及其對(duì)應(yīng)的 groundtruth 。
統(tǒng)一的表示形式
為了使預(yù)訓(xùn)練方法適用于各種不同的數(shù)據(jù)模態(tài),尋找一個(gè)統(tǒng)一的表示形式就很重要。過(guò)往 BEV 和 OCC 等方法都在尋找一個(gè)統(tǒng)一的標(biāo)識(shí)形式,將3D點(diǎn)投影到圖像平面中會(huì)導(dǎo)致深度信息的丟失,而將它們合并到 BEV 鳥(niǎo)瞰圖中則會(huì)遺漏與高度相關(guān)的細(xì)節(jié)。所以本文提出將兩種模態(tài)都轉(zhuǎn)換為3D體積空間,也就是類似 OCC 類似的 3D 體素空間。
渲染方法:
可微分渲染技術(shù)應(yīng)該是作者認(rèn)為論文最大的亮點(diǎn)了,本文通過(guò)類似 NERF 的采樣射線穿過(guò)多視圖圖像或點(diǎn)云,通過(guò)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)預(yù)測(cè)每個(gè) 3D 點(diǎn)的顏色或深度,最后再通過(guò)射線穿過(guò)的路徑獲取 2D 的映射。這樣可以更好地利用圖像中的幾何或紋理線索,提高模型的學(xué)習(xí)能力和應(yīng)用范圍。
我們將場(chǎng)景表示為 SDF(implicit signed distance function field),當(dāng)輸入是采樣點(diǎn)的 3D 坐標(biāo) P(沿射線的相應(yīng)深度 D)與 F(the feature embedding can be extracted from the volumetric representation by trilinear interpolation)時(shí),SDF 可以看做一個(gè) MLP ,來(lái)預(yù)測(cè)采樣點(diǎn)的 SDF 值。這里 F 可以理解為 P 點(diǎn)所在的 encode 編碼。繼而得到輸出:N(condition the color field on the surface normal)和 H(geometry feature vector),這時(shí)就可以通過(guò)一個(gè)以 P、D、F、N、H 為輸入的 MLP 獲取到 3D 采樣點(diǎn)的 RGB 值和深度值,再通過(guò)射線疊加 3D 采樣點(diǎn)到 2D 空間就得到了渲染結(jié)果。而這里射線 Ray 的采用方法,和 Nerf 的方法基本相同。
渲染方法還需要進(jìn)行內(nèi)存開(kāi)支的優(yōu)化工作,這里先按下不表。不過(guò)這個(gè)問(wèn)題是個(gè)比較關(guān)鍵的落地問(wèn)題。
Mask 與渲染方法的本質(zhì)是訓(xùn)練一個(gè) pretrain 模型,pretrain 是可以沒(méi)有后續(xù)分支的就可以根據(jù)預(yù)測(cè) mask 來(lái)完成訓(xùn)練。pretrain 的后續(xù)工作會(huì)分別通過(guò)不同的分支產(chǎn)生 rgb 和 depth 預(yù)測(cè),也就是后續(xù)可以再通過(guò) det/seg 等任務(wù)結(jié)合的時(shí)候去微調(diào),也就實(shí)現(xiàn)了一種即插即用的能力。
Loss 損失函數(shù):
Loss 函數(shù)并不復(fù)雜。
實(shí)驗(yàn)結(jié)果:
和近期其他工作對(duì)比:
其實(shí) GAIA-1 已經(jīng)在用時(shí)序上的 Mask AutoEncoder 思路,只不過(guò)作為監(jiān)督數(shù)據(jù)的是不同時(shí)刻的一整幀數(shù)據(jù),但是 UniPAD 則是在 3D 空間中去隨機(jī)摳出一部分 mask 來(lái)監(jiān)督預(yù)測(cè)。倒是蠻期待能看到兩者結(jié)合的方法的。
另外,UniPAD 完全可以看成是一種多模態(tài)大模型的嘗試,也可以看做是一種世界模型。雖然文章中沒(méi)有非常強(qiáng)調(diào)這些。
總結(jié):
本文應(yīng)該算是 3D 領(lǐng)域較為新穎的 Masked Autoencoder 方法了。因?yàn)?MAE 方法是用在了基座模型預(yù)訓(xùn)練階段,所以支持了多個(gè)不同模態(tài)的信息,所以自然而然的可以擴(kuò)展到微調(diào)下游很多任務(wù),這和 LLM 的設(shè)計(jì)思路非常的接近,都注重于在預(yù)訓(xùn)練階段捕捉多模態(tài)信息,為各種任務(wù)提供統(tǒng)一的基礎(chǔ)。這種方法為3D領(lǐng)域的研究提供了新的思路和可能性。
該方法不僅在3D領(lǐng)域具有潛力,還可以擴(kuò)展到 4D 時(shí)序領(lǐng)域,以及優(yōu)化其內(nèi)存與計(jì)算量等方面還可以產(chǎn)生很多新的工作,為未來(lái)的研究提供了新的思路和可能性。
原文鏈接:https://mp.weixin.qq.com/s/e_reCS-Lwr-KVF80z56_ow