FlashOcc:占用預(yù)測新思路,精度、效率和內(nèi)存占用新SOTA!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
原標(biāo)題:FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin
論文鏈接:https://arxiv.org/pdf/2311.12058.pdf
作者單位:大連理工大學(xué) Houmo AI 阿德萊德大學(xué)
論文思路:
鑒于能夠緩解 3D 目標(biāo)檢測中普遍存在的長尾缺陷和復(fù)雜形狀缺失的能力,占用預(yù)測已成為自動(dòng)駕駛系統(tǒng)的關(guān)鍵組成部分。然而,三維體素級表示的處理不可避免地會(huì)在內(nèi)存和計(jì)算方面引入大量開銷,阻礙了迄今為止的占用預(yù)測方法的部署。與使模型變得更大、更復(fù)雜的趨勢相反,本文認(rèn)為理想的框架應(yīng)該對不同的芯片進(jìn)行部署友好,同時(shí)保持高精度。為此,本文提出了一種即插即用范例,即 FlashOCC,以鞏固快速且節(jié)省內(nèi)存的占用預(yù)測,同時(shí)保持高精度。特別是,本文的 FlashOCC 基于當(dāng)代體素級占用預(yù)測方法做出了兩項(xiàng)改進(jìn)。首先,特征保留在 BEV 中,從而能夠使用高效的 2D 卷積層進(jìn)行特征提取。其次,引入通道到高度變換(channel-to-height transformation) ,將 BEV 的輸出 logits 提升到 3D 空間。本文將 FlashOCC 應(yīng)用于具有挑戰(zhàn)性的 Occ3D-nuScenes 基準(zhǔn)的各種占用預(yù)測基線,并進(jìn)行廣泛的實(shí)驗(yàn)來驗(yàn)證其有效性。結(jié)果證實(shí)了本文的即插即用范例在精度、運(yùn)行時(shí)效率和內(nèi)存成本方面優(yōu)于以前最先進(jìn)的方法,展示了其部署潛力。該代碼將可供使用。
網(wǎng)絡(luò)設(shè)計(jì):
受 sub-pixel convolution 技術(shù)[26]的啟發(fā),其中圖像上采樣被通道重新排列所取代,從而實(shí)現(xiàn)了通道到空間的特征轉(zhuǎn)換。相應(yīng)地,在本文的工作中,本文的目標(biāo)是有效地實(shí)現(xiàn)通道到高度的特征轉(zhuǎn)換。鑒于 BEV 感知任務(wù)的進(jìn)步,其中 BEV 表示中的每個(gè)像素都包含有關(guān)相應(yīng) pillar 中沿高度維度的所有對象的信息,本文直觀地利用通道到高度變換(channel-to-height transformation) 將扁平化的 BEV 特征重塑為三維體素級別占用 logits。因此,本文專注于以通用和即插即用的方式增強(qiáng)現(xiàn)有模型,而不是開發(fā)新穎的模型架構(gòu),如圖1 (a)所示。具體來說,本文直接用 2D 卷積替換當(dāng)代方法中的 3D 卷積,并用通過 2D 卷積獲得的 BEV 級特征的通道到高度變換(channel-to-height transformation) 替換從 3D 卷積輸出導(dǎo)出的占用 logits。這些模型不僅實(shí)現(xiàn)了準(zhǔn)確性和時(shí)間消耗之間的最佳權(quán)衡,而且還表現(xiàn)出了出色的部署兼容性。
FlashOcc 成功地以極高的精度成功完成了實(shí)時(shí)環(huán)視 3D 占用預(yù)測,代表了該領(lǐng)域的開創(chuàng)性貢獻(xiàn)。此外,它還展現(xiàn)了跨不同車載平臺(tái)部署的增強(qiáng)的多功能性,因?yàn)樗恍枰嘿F的體素級特征處理,其中避免了 view transformer 或 3D(可變形)卷積算子。如圖2所示,F(xiàn)lashOcc的輸入數(shù)據(jù)由環(huán)視圖像組成,而輸出是密集的占用預(yù)測結(jié)果。盡管本文的FlashOcc專注于以通用和即插即用的方式增強(qiáng)現(xiàn)有模型,但它仍然可以分為五個(gè)基本模塊:(1)2D圖像編碼器,負(fù)責(zé)從多相機(jī)圖像中提取圖像特征。(2) 視圖轉(zhuǎn)換模塊,有助于將 2D 感知視圖圖像特征映射到 3D BEV 表示。(3) BEV 編碼器,負(fù)責(zé)處理 BEV 特征信息。(4) 占用預(yù)測模塊,預(yù)測每個(gè)體素的分割標(biāo)簽。(5) 一個(gè)可選的時(shí)間融合模塊,旨在集成歷史信息以提高性能。
圖 1.(a) 說明了如何以即插即用的方式實(shí)現(xiàn)所提出的 FlashOcc?,F(xiàn)代方法使用 3D-Conv 處理的體素級 3D 特征來預(yù)測占用率。相比之下,本文的插件替代模型通過 (1) 用 2D-Conv 替換 3D-Conv 以及 (2) 用通道到高度變換(channel-to-height transformation) 替換從 3D-Conv 導(dǎo)出的占用 logits,實(shí)現(xiàn)快速且節(jié)省內(nèi)存的占用預(yù)測通過 2D-Conv 獲取的 BEV 級特征??s寫“Conv”代表卷積。(b) 舉例說明了準(zhǔn)確性與速度、推理內(nèi)存消耗和訓(xùn)練持續(xù)時(shí)間等因素之間的權(quán)衡。
圖 2. 該圖說明了 FlashOcc 的總體架構(gòu),最好以彩色方式查看并具有縮放功能。虛線框指定的區(qū)域表示存在可更換模塊。每個(gè)可更換模塊的特征形狀分別由代表 2D 圖像、BEV 級和體素級特征的圖標(biāo)表示。淺藍(lán)色區(qū)域?qū)?yīng)于可選的時(shí)間融合模塊,其使用取決于紅色開關(guān)的激活。
圖 4. 3D 體素級表示處理和本文的插件替換之間的架構(gòu)比較。
實(shí)驗(yàn)結(jié)果:
總結(jié):
本文介紹了一種稱為 FlashOCC 的即插即用方法,旨在實(shí)現(xiàn)快速且內(nèi)存高效的占用預(yù)測。它直接用 2D 卷積替換基于體素的占用方法中的 3D 卷積,并結(jié)合通道到高度變換(channel-to-height transformation) 將扁平化的 BEV 特征重塑為占用 logits。FlashOCC 的有效性和通用性已在多種體素級占用預(yù)測方法中得到證明。大量的實(shí)驗(yàn)證明了這種方法在精度、時(shí)間消耗、內(nèi)存效率和部署友好性方面優(yōu)于以前最先進(jìn)的方法。據(jù)本文所知,本文是第一個(gè)將 sub-pixel 范式(Channel-to-Height)應(yīng)用于占用任務(wù)的,專門利用 BEV 級特征,完全避免使用計(jì)算 3D(可變形)卷積或 transformer 模塊??梢暬Y(jié)果令人信服地證明 FlashOcc 成功保留了高度信息。在未來的工作中,本文將探索將本文的FlashOcc集成到自動(dòng)駕駛的感知管道中,旨在實(shí)現(xiàn)高效的 on-chip 部署。
引用:
Yu, Z., Shu, C., Deng, J., Lu, K., Liu, Z., Yu, J., Yang, D., Li, H., & Chen, Y. (2023). FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin. ArXiv. /abs/2311.12058
原文鏈接:https://mp.weixin.qq.com/s/JDPlWj8FnZffJZc9PIsvXQ