SparseOcc:全稀疏3D全景占用預(yù)測(cè)(語(yǔ)義+實(shí)例雙任務(wù))
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
論文:Fully Sparse 3D Panoptic Occupancy Prediction
鏈接:https://arxiv.org/pdf/2312.17118.pdf
這篇論文的出發(fā)點(diǎn)是什么?
占用預(yù)測(cè)在自動(dòng)駕駛領(lǐng)域發(fā)揮著關(guān)鍵作用。先前的方法通常構(gòu)建密集的3D Volume,忽略了場(chǎng)景的固有稀疏性,這導(dǎo)致了高計(jì)算成本。此外,這些方法僅限于語(yǔ)義占用,無(wú)法區(qū)分不同的實(shí)例。為了利用稀疏性并確保實(shí)例感知,作者引入了一種新的完全稀疏全景占用網(wǎng)絡(luò),稱(chēng)為SparseOcc。SparseOcc最初從視覺(jué)輸入重建稀疏的3D表示。隨后,它使用稀疏實(shí)例查詢(xún)來(lái)從稀疏3D表示預(yù)測(cè)每個(gè)目標(biāo)實(shí)例。
此外,作者還建立了第一個(gè)以視覺(jué)為中心的全景占用基準(zhǔn)。SparseOcc在Occ3D nus數(shù)據(jù)集,通過(guò)實(shí)現(xiàn)26.0的mIoU,同時(shí)保持25.4 FPS的實(shí)時(shí)推理速度。通過(guò)結(jié)合前8幀的時(shí)間建模,SparseOcc進(jìn)一步提高了其性能,實(shí)現(xiàn)了30.9的mIoU,代碼后面將開(kāi)源。
SparseOcc的結(jié)構(gòu)和流程
SparseOcc由兩個(gè)步驟組成。首先,作者提出了一種稀疏體素解碼器來(lái)重建場(chǎng)景的稀疏幾何結(jié)構(gòu),它只對(duì)場(chǎng)景的非自由區(qū)域進(jìn)行建模,從而顯著節(jié)省了計(jì)算資源。其次,設(shè)計(jì)了一個(gè)mask transformer,它使用稀疏實(shí)例查詢(xún)來(lái)預(yù)測(cè)稀疏空間中每個(gè)目標(biāo)的mask和標(biāo)簽。
此外,作者還進(jìn)一步提出了mask-guide的稀疏采樣,以避免mask變換中的密集交叉注意。因此SparseOcc可以同時(shí)利用上述兩種稀疏特性,形成完全稀疏的架構(gòu),因?yàn)樗炔灰蕾?lài)于密集的3D特征,也不具有稀疏到密集的全局注意力操作。同時(shí),SparseOcc可以區(qū)分場(chǎng)景中的不同實(shí)例,將語(yǔ)義占用和實(shí)例占用統(tǒng)一為全景占用!
設(shè)計(jì)的稀疏體素解碼器如圖4所示。通常,它遵循從粗到細(xì)的結(jié)構(gòu),但采用一組稀疏的體素標(biāo)記作為輸入。在每個(gè)層的末尾,我們估計(jì)每個(gè)體素的占用分?jǐn)?shù),并基于預(yù)測(cè)的分?jǐn)?shù)進(jìn)行稀疏化。在這里,有兩種稀疏化方法,一種是基于閾值(例如,僅保持分?jǐn)?shù)>0.5),另一種是根據(jù)top-k。在這項(xiàng)工作中,作者選擇top-k,因?yàn)殚撝堤幚頃?huì)導(dǎo)致樣本長(zhǎng)度不相等,影響訓(xùn)練效率。k是與數(shù)據(jù)集相關(guān)的參數(shù),通過(guò)以不同分辨率對(duì)每個(gè)樣本中非自由體素的最大數(shù)量進(jìn)行計(jì)數(shù)而獲得,稀疏化后的體素標(biāo)記將用作下一層的輸入!
時(shí)序建模。先前的密集占用方法通常將歷史BEV/3D特征warp到當(dāng)前時(shí)間戳,并使用可變形注意力或3D卷積來(lái)融合時(shí)間信息。然而,這種方法不適用于我們的情況,因?yàn)?D特征是稀疏的。為了處理這一問(wèn)題,作者利用采樣點(diǎn)的靈活性,將它們wrap到以前的時(shí)間戳來(lái)對(duì)圖像特征進(jìn)行采樣。來(lái)自多個(gè)時(shí)間戳的采樣特征通過(guò)自適應(yīng)混合進(jìn)行疊加和聚合。
loss設(shè)計(jì):對(duì)每一層都進(jìn)行監(jiān)督。由于在這一步中重建了一個(gè)類(lèi)不可知的占用,使用二進(jìn)制交叉熵(BCE)損失來(lái)監(jiān)督占用頭。只監(jiān)督一組稀疏的位置(根據(jù)預(yù)測(cè)的占用率),這意味著在早期階段丟棄的區(qū)域?qū)⒉粫?huì)受到監(jiān)督。
此外,由于嚴(yán)重的類(lèi)別不平衡,模型很容易被比例較大的類(lèi)別所支配,如地面,從而忽略場(chǎng)景中的其他重要元素,如汽車(chē)、人等。因此,屬于不同類(lèi)別的體素被分配不同的損失權(quán)重。例如,屬于類(lèi)c的體素分配有的損失權(quán)重為:
其中Mi是GT中屬于第i類(lèi)的體素的數(shù)量!
mask引導(dǎo)的稀疏采樣。mask transformer的一個(gè)簡(jiǎn)單基線是使用Mask2Former中的mask交叉注意模塊。然而,它涉及關(guān)鍵點(diǎn)的所有位置,這可能是非常繁重的計(jì)算。在這里,作者設(shè)計(jì)了一個(gè)簡(jiǎn)單的替代方案。給定前一個(gè)(l?1)Transformer解碼器層的mask預(yù)測(cè),通過(guò)隨機(jī)選擇掩碼內(nèi)的體素來(lái)生成一組3D采樣點(diǎn)。這些采樣點(diǎn)被投影到圖像以對(duì)圖像特征進(jìn)行采樣。此外,我們的稀疏采樣機(jī)制通過(guò)簡(jiǎn)單地warp采樣點(diǎn)(如在稀疏體素解碼器中所做的那樣)使時(shí)間建模更容易。
實(shí)驗(yàn)結(jié)果
Occ3D nuScenes數(shù)據(jù)集上的3D占用預(yù)測(cè)性能?!?f”意味著融合來(lái)自7+1幀的時(shí)間信息。本文的方法在較弱的設(shè)置下實(shí)現(xiàn)了與以前的方法相同甚至更高的性能!
原文鏈接:https://mp.weixin.qq.com/s/CX18meq6DZcIhi0_DElfMw