UniOcc:將以視覺為中心的占用預(yù)測與幾何和語義渲染大一統(tǒng)!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
原標(biāo)題: UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering
論文鏈接:https://arxiv.org/pdf/2306.09117.pdf
論文思路:
在這份技術(shù)報(bào)告中,本文提出了本文的解決方案,命名為UniOCC,用于在CVPR 2023 nuScenes Open Dataset Challenge中以視覺為中心的3D占用預(yù)測軌道?,F(xiàn)有的占用預(yù)測方法主要側(cè)重于使用三維占用標(biāo)簽優(yōu)化三維volume空間的投影特征。然而,這些標(biāo)簽的生成過程非常復(fù)雜和昂貴(依賴于3D語義標(biāo)注),并且受體素分辨率的限制,它們不能提供細(xì)粒度的空間語義。為了解決這一限制,本文提出了一種新的統(tǒng)一占用(UniOcc)預(yù)測方法,明確施加空間幾何約束,并通過體射線渲染(volume ray rendering)補(bǔ)充細(xì)粒度語義監(jiān)督。本文的方法顯著提高了模型的性能,并在降低人工標(biāo)注成本方面展示了良好的潛力??紤]到標(biāo)注3D占用的費(fèi)力性,本文進(jìn)一步提出了深度感知的Teacher Student(DTS)框架,以提高使用無標(biāo)記數(shù)據(jù)的預(yù)測精度。本文的解決方案在官方單模型排行榜上獲得51.27% mIoU,在本次挑戰(zhàn)賽中排名第三。
網(wǎng)絡(luò)設(shè)計(jì):
在這一挑戰(zhàn)中,本文提出了UniOcc,這是一種利用體渲染(volume rendering)來統(tǒng)一二維和三維表示監(jiān)督的通用解決方案,改進(jìn)了多攝像機(jī)占用預(yù)測模型。本文沒有設(shè)計(jì)新的模型架構(gòu),而是將重點(diǎn)放在以通用和即插即用的方式增強(qiáng)現(xiàn)有模型[3,18,20]上。
本文將占用表示提升到NeRF-style表示[1,15,21],允許使用體渲染(volume rendering)生成2D語義和深度地圖。這使本文能夠在2D像素級(jí)別上執(zhí)行細(xì)粒度的監(jiān)督。通過對(duì)通過三維體素的射線進(jìn)行采樣,得到所渲染的二維像素語義和深度信息。這種幾何遮擋關(guān)系和語義一致性約束的顯式集成為模型提供了顯式的指導(dǎo),并確保遵守這些約束。
值得一提的是,UniOcc有潛力減少對(duì)昂貴的3D語義標(biāo)注的依賴。在沒有3D占用標(biāo)簽的情況下,僅使用本文的體渲染(volume rendering)監(jiān)督進(jìn)行訓(xùn)練的模型,甚至比使用3D標(biāo)簽監(jiān)督進(jìn)行訓(xùn)練的模型表現(xiàn)更好。這突出了減少對(duì)昂貴的3D語義標(biāo)注的依賴的令人興奮的潛力,因?yàn)閳鼍氨硎究梢灾苯訌呢?fù)擔(dān)得起的2D分割標(biāo)簽學(xué)習(xí)。此外,利用SAM[6]和[14,19]等先進(jìn)技術(shù),還可以進(jìn)一步降低二維分割標(biāo)注的成本。
本文還介紹了深度感知Teacher Student(DTS)框架,這是一種自監(jiān)督的訓(xùn)練方法。與經(jīng)典的Mean Teacher[16]不同,DTS增強(qiáng)了教師模型的深度預(yù)測,在利用無標(biāo)記數(shù)據(jù)的同時(shí)實(shí)現(xiàn)穩(wěn)定和有效的訓(xùn)練。此外,本文應(yīng)用了一些簡單而有效的技術(shù)來提高模型的性能。這包括在訓(xùn)練中使用visible masks,使用更強(qiáng)的預(yù)先訓(xùn)練的骨干,增加體素分辨率,以及實(shí)現(xiàn)Test-Time Augmentation(TTA)。
圖1。本文的UniOcc框架的概述。
圖2。深度感知的Teacher-Student框架。
實(shí)驗(yàn)結(jié)果:
引用:
Pan, M., Liu, L., Liu, J., Huang, P., Wang, L., Zhang, S., Xu, S., Lai, Z., & Yang, K. (2023). UniOcc: Unifying Vision-Centric 3D Occupancy Prediction with Geometric and Semantic Rendering. ArXiv. /abs/2306.09117
原文鏈接:https://mp.weixin.qq.com/s/iLPHMtLzc5z0f4bg_W1vIg