首篇僅使用2D標(biāo)簽訓(xùn)練多視圖3D占用模型的新范式
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
【RenderOcc,首篇僅使用2D標(biāo)簽訓(xùn)練多視圖3D占用模型的新范式】作者從多視圖圖像中提取NeRF風(fēng)格的3D體積表示,并使用體積渲染技術(shù)來建立2D重建,從而實現(xiàn)從2D語義和深度標(biāo)簽的直接3D監(jiān)督,減少了對昂貴的3D占用標(biāo)注的依賴。大量實驗表明,RenderOcc的性能與使用3D標(biāo)簽完全監(jiān)督的模型相當(dāng),突顯了這種方法在現(xiàn)實世界應(yīng)用中的重要性。已開源。
題目: RenderOcc: Vision-Centric 3D Occupancy Prediction with 2DRendering Supervision
作者單位: 北京大學(xué),小米汽車,港中文MMLAB
開源地址: GitHub - pmj110119/RenderOcc
3D占用預(yù)測在機器人感知和自動駕駛領(lǐng)域具有重要前景,它將3D場景量化為帶有語義標(biāo)簽的網(wǎng)格單元。最近的工作主要利用3D體素空間中的完整占用標(biāo)簽進行監(jiān)督。然而,昂貴的標(biāo)注過程和有時模糊的標(biāo)簽嚴(yán)重限制了3D占用模型的可用性和可擴展性。為了解決這個問題,作者提出了RenderOcc,這是一種僅使用2D標(biāo)簽訓(xùn)練3D占用模型的新范式。具體而言,作者從多視圖圖像中提取NeRF風(fēng)格的3D體積表示,并使用體積渲染技術(shù)來建立2D重建,從而實現(xiàn)從2D語義和深度標(biāo)簽的直接3D監(jiān)督。此外,作者引入了一種輔助光線方法來解決自動駕駛場景中的稀疏視點問題,該方法利用順序幀為每個目標(biāo)構(gòu)建全面的2D渲染。RenderOcc是第一次嘗試僅使用2D標(biāo)簽來訓(xùn)練多視圖3D占用模型,從而減少了對昂貴的3D占用標(biāo)注的依賴。大量實驗表明,RenderOcc的性能與使用3D標(biāo)簽完全監(jiān)督的模型相當(dāng),突顯了這種方法在現(xiàn)實世界應(yīng)用中的重要性。
網(wǎng)絡(luò)結(jié)構(gòu):
圖 1.RenderOcc 代表了一種新的訓(xùn)練范例。與之前專注于使用昂貴的 3D 占用標(biāo)簽進行監(jiān)督的工作不同,本文提出的 RenderOcc 利用 2D 標(biāo)簽來訓(xùn)練 3D 占用網(wǎng)絡(luò)。通過 2D 渲染監(jiān)督,該模型受益于細粒度 2D 像素級語義和深度監(jiān)督。
圖2.RenderOcc的總體框架。本文通過 2D 到 3D 網(wǎng)絡(luò)提取體積特征并預(yù)測每個體素的密度和語義。因此,本文生成了語義密度場(Semantic Density Field),它可以執(zhí)行體積渲染來生成渲染的 2D 語義和深度。對于Rays GT的生成,本文從相鄰幀中提取輔助光線來補充當(dāng)前幀的光線,并使用所提出的加權(quán)光線采樣策略來凈化它們。然后,本文用光線 GT 和 {,} 計算損失,實現(xiàn)2D標(biāo)簽的渲染監(jiān)督。
圖3。輔助光線: 單幀圖像不能很好地捕捉物體的多視圖信息。兩個相鄰的相機之間只有很小的重疊區(qū)域,視角的差異是有限的。通過引入來自相鄰幀的輔助光線,該模型將顯著地受益于多視圖一致性約束。
實驗結(jié)果:
原文鏈接:https://mp.weixin.qq.com/s/WzI8mGoIOTOdL8irXrbSPQ