一覽Occ與自動(dòng)駕駛的前世今生!首篇綜述全面匯總特征增強(qiáng)/量產(chǎn)部署/高效標(biāo)注三大主題
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫在前面&筆者的個(gè)人理解
近年來,自動(dòng)駕駛因其在減輕駕駛員負(fù)擔(dān)和提高駕駛安全方面的潛力而越來越受到關(guān)注?;谝曈X的三維占用預(yù)測是一種新興的感知任務(wù),適用于具有成本效益的自動(dòng)駕駛感知系統(tǒng),它可以根據(jù)圖像輸入預(yù)測自動(dòng)駕駛汽車周圍三維體素網(wǎng)格的空間占用狀態(tài)和語義。盡管許多研究已經(jīng)證明,與以物體為中心的感知任務(wù)相比,3D占用預(yù)測具有更大的優(yōu)勢(shì),但仍缺乏專門針對(duì)這一快速發(fā)展的領(lǐng)域的綜述。本文首先介紹了基于視覺的三維占用預(yù)測的背景,并討論了這項(xiàng)任務(wù)中的挑戰(zhàn)。其次,我們從特征增強(qiáng)、部署友好性和標(biāo)簽效率三個(gè)方面全面調(diào)查了基于視覺的3D占用預(yù)測的進(jìn)展,并深入分析了每類方法的潛力和挑戰(zhàn)。最后總結(jié)了當(dāng)前的研究趨勢(shì),并提出了一些鼓舞人心的未來展望。
開源鏈接:https://github.com/zya3d/Awesome-3D-Occupancy-Prediction
總結(jié)來說,本文的主要貢獻(xiàn)如下:
- 據(jù)我們所知,這篇論文是第一篇針對(duì)基于視覺的自動(dòng)駕駛3D占用預(yù)測方法的全面綜述。
- 本文從特征增強(qiáng)、計(jì)算友好和標(biāo)簽高效三個(gè)角度對(duì)基于視覺的三維占用預(yù)測方法進(jìn)行了結(jié)構(gòu)總結(jié),并對(duì)不同類別的方法進(jìn)行了深入分析和比較。
- 本文提出了基于視覺的3D占用預(yù)測的一些鼓舞人心的未來展望,并提供了一個(gè)定期更新的github存儲(chǔ)庫來收集相關(guān)論文、數(shù)據(jù)集和代碼。
圖3顯示了基于視覺的3D占用預(yù)測方法的時(shí)序概述,圖4顯示了相應(yīng)的分層結(jié)構(gòu)分類法。
相關(guān)背景
真值生成
生成GT標(biāo)簽是3D占用預(yù)測的一個(gè)挑戰(zhàn)。盡管許多3D感知數(shù)據(jù)集,如nuScenes和Waymo,提供了激光雷達(dá)點(diǎn)分割標(biāo)簽,但這些標(biāo)簽是稀疏的,難以監(jiān)督密集的3D占用預(yù)測任務(wù)。Wei等人已經(jīng)證明了使用密集占用作為GT的重要性。最近的一些研究集中在使用稀疏激光雷達(dá)點(diǎn)分割注釋生成密集的3D占用注釋,為3D占用預(yù)測任務(wù)提供一些有用的數(shù)據(jù)集和基準(zhǔn)。
3D占用預(yù)測任務(wù)中的GT標(biāo)簽表示3D空間中的每個(gè)體素是否被占用以及被占用體素的語義標(biāo)簽。由于三維空間中有大量的體素,因此很難手動(dòng)標(biāo)記每個(gè)體素。一種常見的做法是對(duì)現(xiàn)有的3D點(diǎn)云分割任務(wù)的地面實(shí)況進(jìn)行體素化,然后根據(jù)體素中點(diǎn)的語義標(biāo)簽通過投票生成3D占用預(yù)測的GT。然而,通過這種方式生成的地面實(shí)況是稀疏的。如圖1所示,在道路等未標(biāo)記為已占用的地方,仍有許多已占用的體素。監(jiān)督具有這種稀疏地面實(shí)況的模型將導(dǎo)致模型性能下降。因此,一些工作研究如何自動(dòng)或半自動(dòng)生成高質(zhì)量的密集3D占用注釋。
如圖2所示,生成密集的三維占用注釋通常包括以下四個(gè)步驟:
- 取連續(xù)的原始激光雷達(dá)幀,將激光雷達(dá)點(diǎn)分割為靜態(tài)背景和動(dòng)態(tài)前景。
- 在靜態(tài)背景上疊加連續(xù)的激光雷達(dá)幀,并基于定位信息進(jìn)行運(yùn)動(dòng)補(bǔ)償,以對(duì)齊多幀點(diǎn)云,從而獲得更密集的點(diǎn)云。在動(dòng)態(tài)前景上疊加連續(xù)的激光雷達(dá)幀,根據(jù)目標(biāo)幀和目標(biāo)id對(duì)齊動(dòng)態(tài)前景的點(diǎn)云,使其更加密集。注意,盡管點(diǎn)云相對(duì)密集,但體素化后仍有一些間隙,需要進(jìn)一步處理。
- 合并前景和背景點(diǎn)云,然后對(duì)它們進(jìn)行體素化,并使用投票機(jī)制來確定體素的語義,從而產(chǎn)生相對(duì)密集的體素注釋。
- 通過后處理對(duì)上一步中獲得的體素進(jìn)行細(xì)化,以實(shí)現(xiàn)更密集、更精細(xì)的注釋,作為GT。
數(shù)據(jù)集
在本小節(jié)中,我們介紹了一些常用于3D占用預(yù)測的開源、大規(guī)模數(shù)據(jù)集,表1中給出了它們之間的比較。
NUYv2數(shù)據(jù)集由來自各種室內(nèi)場景的視頻序列組成,由Microsoft Kinect的RGB和Depth相機(jī)拍攝。它包含1449對(duì)密集標(biāo)記的對(duì)齊RGB和深度圖像,以及來自3個(gè)城市的407024個(gè)未標(biāo)記幀。雖然主要用于室內(nèi)使用,不適合自動(dòng)駕駛場景,但一些研究已將該數(shù)據(jù)集用于3D占用預(yù)測。
SemanticKITTI是一個(gè)廣泛用于3D占用預(yù)測的數(shù)據(jù)集,包括來自KITTI數(shù)據(jù)集的22個(gè)序列和43000多個(gè)幀。它通過覆蓋未來的幀、分割體素和通過點(diǎn)投票分配標(biāo)簽來創(chuàng)建密集的3D占用注釋。此外,它通過追蹤光線來檢查汽車的每個(gè)位姿,傳感器可以看到哪些體素,并在訓(xùn)練和評(píng)估過程中忽略不可見的體素。然而,由于它是基于KITTI數(shù)據(jù)集的,因此它只使用來自前置攝像頭的圖像作為輸入,而后續(xù)數(shù)據(jù)集通常使用多視圖圖像。如表2所示,我們?cè)赟emanticKITTI數(shù)據(jù)集上收集了現(xiàn)有方法的評(píng)估結(jié)果。
NuScenes占用率是基于戶外環(huán)境的大規(guī)模自動(dòng)駕駛數(shù)據(jù)集NuScenes構(gòu)建的3D占用率預(yù)測數(shù)據(jù)集。它包含850個(gè)序列、200000個(gè)幀和17個(gè)語義類別。數(shù)據(jù)集最初使用增強(qiáng)和凈化(AAP)管道生成粗略的3D占用標(biāo)簽,然后通過手動(dòng)增強(qiáng)來細(xì)化標(biāo)簽。此外,它還引入了OpenOccupancy,這是周圍語義占用感知的第一個(gè)基準(zhǔn),以評(píng)估先進(jìn)的3D占用預(yù)測方法。
隨后,Tian等人在nuScenes和Waymo自動(dòng)駕駛數(shù)據(jù)集的基礎(chǔ)上,進(jìn)一步構(gòu)建了用于3D占用預(yù)測的Occ3D nuScene斯和Occ3D Waymo數(shù)據(jù)集。他們引入了一種半自動(dòng)標(biāo)簽生成管道,該管道利用現(xiàn)有的標(biāo)記3D感知數(shù)據(jù)集,并根據(jù)其可見性識(shí)別體素類型。此外,他們還建立了大規(guī)模3D占用預(yù)測的Occ3d基準(zhǔn),以加強(qiáng)不同方法的評(píng)估和比較。如表2所示,我們?cè)贠cc3D nuScenes數(shù)據(jù)集上收集了現(xiàn)有方法的評(píng)估結(jié)果。
此外,與Occ3D裸體和裸體占用類似,OpenOcc也是一個(gè)基于裸體數(shù)據(jù)集為3D占用預(yù)測構(gòu)建的數(shù)據(jù)集。它包含850個(gè)序列、34149個(gè)幀和16個(gè)類。請(qǐng)注意,該數(shù)據(jù)集提供了八個(gè)前景目標(biāo)的額外注釋,這有助于下游任務(wù),如運(yùn)動(dòng)規(guī)劃。
關(guān)鍵挑戰(zhàn)
盡管近年來基于視覺的三維占用預(yù)測取得了重大進(jìn)展,但它仍然面臨著來自特征表示、實(shí)際應(yīng)用和注釋成本的限制。對(duì)于這項(xiàng)任務(wù),有三個(gè)關(guān)鍵挑戰(zhàn):(1)從2D視覺輸入中獲得完美的3D特征是困難的?;谝曈X的3D占有率預(yù)測的目標(biāo)是僅從圖像輸入實(shí)現(xiàn)對(duì)3D場景的詳細(xì)感知和理解,然而圖像中固有的深度和幾何信息的缺失對(duì)直接從中學(xué)習(xí)3D特征表示提出了重大挑戰(zhàn)。(2)三維空間中繁重的計(jì)算負(fù)載。3D占用預(yù)測通常需要使用3D體素特征來表示環(huán)境空間,這不可避免地涉及用于特征提取的3D卷積等操作,這大大增加了計(jì)算和內(nèi)存開銷,并阻礙了實(shí)際部署。(3)昂貴的細(xì)粒度注釋。3D占用預(yù)測涉及預(yù)測高分辨率體素的占用狀態(tài)和語義類別,但實(shí)現(xiàn)這一點(diǎn)通常需要對(duì)每個(gè)體素進(jìn)行細(xì)粒度的語義注釋,這既耗時(shí)又昂貴,給這項(xiàng)任務(wù)帶來了瓶頸。
針對(duì)這些關(guān)鍵挑戰(zhàn),基于視覺的自動(dòng)駕駛?cè)S占用預(yù)測研究工作逐步形成了特征增強(qiáng)、部署友好和標(biāo)簽高效三條主線。特征增強(qiáng)方法通過優(yōu)化網(wǎng)絡(luò)的特征表示能力來緩解3D空間輸出和2D空間輸入之間的差異。部署友好的方法旨在通過設(shè)計(jì)簡潔高效的網(wǎng)絡(luò)架構(gòu),顯著降低資源消耗,同時(shí)確保性能。即使在注釋不足或完全不存在的情況下,高效標(biāo)簽方法也有望實(shí)現(xiàn)令人滿意的性能。接下來,我們將圍繞這三個(gè)分支全面概述當(dāng)前的方法。
特征增強(qiáng)方法
基于視覺的3D占用預(yù)測的任務(wù)涉及從2D圖像空間預(yù)測3D體素空間的占用狀態(tài)和語義信息,這對(duì)從2D視覺輸入獲得完美的3D特征提出了關(guān)鍵挑戰(zhàn)。為了解決這個(gè)問題,一些方法從特征增強(qiáng)的角度改進(jìn)了占用預(yù)測,包括從鳥瞰圖(BEV)、三視角圖(TPV)和三維體素表示中學(xué)習(xí)。
BEV-based methods
一種有效的學(xué)習(xí)占用率的方法是基于鳥瞰圖(BEV),它提供了對(duì)遮擋不敏感的特征,并包含一定的深度幾何信息。通過學(xué)習(xí)強(qiáng)BEV表示,可以實(shí)現(xiàn)穩(wěn)健的3D占用場景重建。首先使用2D骨干網(wǎng)絡(luò)從視覺輸入中提取圖像特征,然后通過視點(diǎn)變換獲得BEV特征,并最終基于BEV特征表示完成3D占用預(yù)測?;贐EV的方法如圖5所示。
一種直接的方法是利用來自其他任務(wù)的BEV學(xué)習(xí),例如在3D對(duì)象檢測中使用BEVDet和BEVFormer等方法。為了擴(kuò)展這些占用學(xué)習(xí)方法,可以在訓(xùn)練過程中加入或更換占用頭,以獲得最終結(jié)果。這種自適應(yīng)允許將占用估計(jì)集成到現(xiàn)有的基于BEV的框架中,從而能夠同時(shí)檢測和重建場景中的3D占用。基于強(qiáng)大的基線BEVFormer,OccTransformer采用數(shù)據(jù)增強(qiáng)來增加訓(xùn)練數(shù)據(jù)的多樣性,以提高模型泛化能力,并利用強(qiáng)大的圖像主干從輸入數(shù)據(jù)中提取更多信息特征。它還引入了3D Unet Head,以更好地捕捉場景的空間信息,并引入了額外的損失函數(shù)來改進(jìn)模型優(yōu)化。
TPV-based methods
雖然與圖像相比,基于BEV的表示具有某些優(yōu)勢(shì),因?yàn)樗鼈儽举|(zhì)上提供了3D空間的自上而下的投影,但它們固有地缺乏僅使用單個(gè)平面來描述場景的細(xì)粒度3D結(jié)構(gòu)的能力?;谌暯牵═PV)的方法利用三個(gè)正交投影平面對(duì)3D環(huán)境進(jìn)行建模,進(jìn)一步增強(qiáng)了視覺特征對(duì)占用預(yù)測的表示能力。首先,使用2D骨干網(wǎng)絡(luò)從視覺輸入中提取圖像特征。隨后,將這些圖像特征提升到三視圖空間,最終基于三個(gè)投影視點(diǎn)的特征表示實(shí)現(xiàn)3D占用預(yù)測?;贐EV的方法如圖7所示。
除了BEV功能外,TPVFormer還以相同的方式生成前視圖和側(cè)視圖中的功能。每個(gè)平面從不同的視角對(duì)3D環(huán)境進(jìn)行建模,并且它們的組合提供了對(duì)整個(gè)3D結(jié)構(gòu)的全面描述。具體來說,為了獲得三維空間中一個(gè)點(diǎn)的特征,我們首先將其投影到三個(gè)平面中的每一個(gè)平面上,并使用雙線性插值來獲得每個(gè)投影點(diǎn)的特征。然后,我們將三個(gè)投影特征總結(jié)為三維點(diǎn)的合成特征。因此,TPV表示可以以任意分辨率描述3D場景,并為3D空間中的不同點(diǎn)生成不同的特征。它進(jìn)一步提出了一種基于變換器的編碼器(TPVFormer),以有效地從2D圖像中獲得TPV特征,并在TPV網(wǎng)格查詢和相應(yīng)的2D圖像特征之間執(zhí)行圖像交叉關(guān)注,從而將2D信息提升到3D空間。最后,TPV特征之間的交叉視圖混合注意力實(shí)現(xiàn)了三個(gè)平面之間的交互。TPVFormer的總體架構(gòu)如圖8所示。
Voxel-based methods
除了將3D空間轉(zhuǎn)換為投影透視(如BEV或TPV)之外,還存在直接對(duì)3D體素表示進(jìn)行操作的方法。這些方法的一個(gè)關(guān)鍵優(yōu)勢(shì)是能夠直接從原始3D空間學(xué)習(xí),最大限度地減少信息損失。通過利用原始三維體素?cái)?shù)據(jù),這些方法可以有效地捕捉和利用完整的空間信息,從而更準(zhǔn)確、更全面地了解占用情況。首先,使用2D骨干網(wǎng)絡(luò)提取圖像特征,然后,使用專門設(shè)計(jì)的基于卷積的機(jī)制來橋接2D和3D表示,或者使用基于查詢的方法來直接獲得3D表示。最后,基于所學(xué)習(xí)的3D表示,使用3D占用頭來完成最終預(yù)測?;隗w素的方法如圖9所示。
Convolution-based methods
一種方法是利用專門設(shè)計(jì)的卷積架構(gòu)來彌合從2D到3D的差距,并學(xué)習(xí)3D占用表示。這種方法的一個(gè)突出例子是采用U-Net架構(gòu)作為特征橋接的載體。U-Net架構(gòu)采用編碼器-解碼器結(jié)構(gòu),在上采樣和下采樣路徑之間具有跳躍連接,保留低級(jí)別和高級(jí)別特征信息以減輕信息損失。通過不同深度的卷積層,U-Net結(jié)構(gòu)可以提取不同尺度的特征,幫助模型捕捉圖像中的局部細(xì)節(jié)和全局上下文信息,從而增強(qiáng)模型對(duì)復(fù)雜場景的理解,從而進(jìn)行有效的占用預(yù)測。
Monoscene利用U-net進(jìn)行基于視覺的3D占用預(yù)測。它引入了一種稱為二維特征視線投影(FLoSP)的機(jī)制,該機(jī)制利用特征透視投影將二維特征投影到三維空間上,并根據(jù)成像原理和相機(jī)參數(shù)計(jì)算二維特征上三維特征空間中每個(gè)點(diǎn)的坐標(biāo),以對(duì)三維特征空間的特征進(jìn)行采樣。這種方法將2D特征提升到統(tǒng)一的3D特征圖中,并作為連接2D和3D U-net的關(guān)鍵組件。Monoscene還提出了一個(gè)插入在3D UNet瓶頸處的3D上下文關(guān)系先驗(yàn)(3D CRP)層,該層學(xué)習(xí)n向體素到體素的語義場景關(guān)系圖。這為網(wǎng)絡(luò)提供了一個(gè)全局感受場,并由于關(guān)系發(fā)現(xiàn)機(jī)制而提高了空間語義意識(shí)。Monoscene的總體架構(gòu)如圖10所示。
Query-based methods
從3D空間學(xué)習(xí)的另一種方式涉及生成一組查詢以捕捉場景的表示。在該方法中,使用基于查詢的技術(shù)來生成查詢建議,然后將其用于學(xué)習(xí)3D場景的綜合表示。隨后,應(yīng)用圖像上的交叉注意和自注意機(jī)制來細(xì)化和增強(qiáng)所學(xué)習(xí)的表征。這種方法不僅增強(qiáng)了對(duì)場景的理解,而且能夠在3D空間中進(jìn)行準(zhǔn)確的重建和占用預(yù)測。此外,基于查詢的方法提供了更大的靈活性來基于不同的數(shù)據(jù)源和查詢策略進(jìn)行調(diào)整和優(yōu)化,從而能夠更好地捕獲本地和全局上下文信息,從而促進(jìn)3D占用預(yù)測表示。
深度可以作為選擇占用查詢的有價(jià)值的先驗(yàn),在Voxformer中,估計(jì)的深度被用作預(yù)測占用和選擇相關(guān)查詢的先驗(yàn)。只有占用的查詢用于使用可變形注意力從圖像中收集信息。更新后的查詢提議和掩蔽的令牌然后被組合以重建體素特征。Voxformer從RGB圖像中提取2D特征,然后利用一組稀疏的3D體素查詢來索引這些2D特征,使用相機(jī)投影矩陣將3D位置鏈接到圖像流。具體而言,體素查詢是3D網(wǎng)格形狀的可學(xué)習(xí)參數(shù),旨在使用注意力機(jī)制將圖像中的特征查詢到3D體積中。整個(gè)框架是由類不可知的提議和特定于類的分段組成的兩階段級(jí)聯(lián)。階段1生成類不可知的查詢建議,而階段2采用類似于MAE的架構(gòu)將信息傳播到所有體素。最后,對(duì)體素特征進(jìn)行上采樣以進(jìn)行語義分割。VoxFormer的總體架構(gòu)如圖11所示。
Occ3D nuScenes數(shù)據(jù)集上特征增強(qiáng)方法的性能比較如表3所示。結(jié)果表明,直接處理體素表示的方法通常能夠?qū)崿F(xiàn)強(qiáng)大的性能,因?yàn)樗鼈冊(cè)谟?jì)算過程中不會(huì)遭受顯著的信息損失。此外,盡管基于BEV的方法只有一個(gè)投影視點(diǎn)用于特征表示,但由于鳥瞰圖中包含的豐富信息以及它們對(duì)遮擋和比例變化的不敏感性,它們?nèi)匀豢梢詫?shí)現(xiàn)可比較的性能。此外,通過從多個(gè)互補(bǔ)視圖重建3D信息,基于三視角視圖(TPV)的方法能夠減輕潛在的幾何模糊性,并捕捉更全面的場景背景,從而實(shí)現(xiàn)有效的3D占用預(yù)測。值得注意的是,F(xiàn)B-OCC同時(shí)利用了前向和后向視圖轉(zhuǎn)換模塊,使它們能夠相互增強(qiáng),以獲得更高質(zhì)量的純電動(dòng)汽車表示,并取得了優(yōu)異的性能。這表明,通過有效的特征增強(qiáng),基于BEV的方法在改善3D占用預(yù)測方面也有很大的潛力。
部署友好方法
由于其廣泛的范圍和復(fù)雜的數(shù)據(jù)性質(zhì),直接從3D空間學(xué)習(xí)占用表示是極具挑戰(zhàn)性的。與3D體素表示相關(guān)的高維度和密集的計(jì)算使得學(xué)習(xí)過程對(duì)資源的要求很高,這不利于實(shí)際部署應(yīng)用。因此,設(shè)計(jì)部署友好的3D表示的方法旨在降低計(jì)算成本并提高學(xué)習(xí)效率。本節(jié)介紹了解決3D場景占用估計(jì)中計(jì)算挑戰(zhàn)的方法,重點(diǎn)是開發(fā)準(zhǔn)確高效的方法,而不是直接處理整個(gè)3D空間。所討論的技術(shù)包括透視分解和從粗到細(xì)的細(xì)化,這些技術(shù)已在最近的工作中得到證明,以提高3D占用預(yù)測的計(jì)算效率。
Perspective decomposition methods
通過將視點(diǎn)信息從3D場景特征中分離出來或?qū)⑵渫队暗浇y(tǒng)一的表示空間中,可以有效地降低計(jì)算復(fù)雜度,使模型更加穩(wěn)健和可推廣。這種方法的核心思想是將三維場景的表示與視點(diǎn)信息解耦,從而減少特征學(xué)習(xí)過程中需要考慮的變量數(shù)量,降低計(jì)算復(fù)雜度。解耦視點(diǎn)信息使模型能夠更好地泛化,適應(yīng)不同的視點(diǎn)變換,而無需重新學(xué)習(xí)整個(gè)模型。
為了解決從整個(gè)3D空間學(xué)習(xí)的計(jì)算負(fù)擔(dān),一種常見的方法是使用鳥瞰圖(BEV)和三視角圖(TPV)表示。通過將3D空間分解為這些單獨(dú)的視圖表示,計(jì)算復(fù)雜度顯著降低,同時(shí)仍然捕獲用于占用預(yù)測的基本信息。關(guān)鍵思想是首先從BEV和TPV的角度學(xué)習(xí),然后通過結(jié)合從這些不同視圖中獲得的見解來恢復(fù)完整的3D占用信息。與直接從整個(gè)3D空間學(xué)習(xí)相比,這種透視分解策略允許更高效和有效的占用估計(jì)。
Coarse-to-fine methods
直接從大規(guī)模3D空間學(xué)習(xí)高分辨率細(xì)粒度全局體素特征是耗時(shí)且具有挑戰(zhàn)性的。因此,一些方法已經(jīng)開始探索采用從粗到細(xì)的特征學(xué)習(xí)范式。具體而言,網(wǎng)絡(luò)最初從圖像中學(xué)習(xí)粗略的表示,然后細(xì)化和恢復(fù)整個(gè)場景的細(xì)粒度表示。這兩步過程有助于實(shí)現(xiàn)對(duì)場景占用率的更準(zhǔn)確和有效的預(yù)測。
OpenOccupancy采用兩步方法來學(xué)習(xí)3D空間中的占用表示。如圖14所示。
預(yù)測3D占用率需要詳細(xì)的幾何表示,并且利用所有3D體素標(biāo)記與多視圖圖像中的ROI進(jìn)行交互將產(chǎn)生顯著的計(jì)算和內(nèi)存成本。如圖15所示,Occ3D提出了一種增量令牌選擇策略,在交叉注意力計(jì)算過程中選擇性地選擇前景和不確定的體素令牌,從而在不犧牲精度的情況下實(shí)現(xiàn)自適應(yīng)高效計(jì)算。具體地,在每個(gè)金字塔層的開始,每個(gè)體素標(biāo)記被輸入到二進(jìn)制分類器中,以預(yù)測體素是否為空,由二進(jìn)制地面實(shí)況占用圖來監(jiān)督以訓(xùn)練分類器。PanoOcc提出在聯(lián)合學(xué)習(xí)框架內(nèi)無縫集成對(duì)象檢測和語義分割,促進(jìn)對(duì)3D環(huán)境的更全面理解。該方法利用體素查詢來聚合來自多幀和多視圖圖像的時(shí)空信息,將特征學(xué)習(xí)和場景表示合并為統(tǒng)一的占用表示。此外,它通過引入占用稀疏性模塊來探索3D空間的稀疏性,該模塊在從粗到細(xì)的上采樣過程中逐漸稀疏占用,顯著提高了存儲(chǔ)效率。
Occ3D nuScenes數(shù)據(jù)集上部署友好方法的性能比較如表4所示。由于結(jié)果是從不同的論文中收集的,在主干、圖像大小和計(jì)算平臺(tái)方面存在差異,因此只能得出一些初步結(jié)論。通常,在類似的實(shí)驗(yàn)設(shè)置下,由于信息丟失較少,從粗到細(xì)的方法在性能方面優(yōu)于透視分解方法,而透視分解通常表現(xiàn)出更好的實(shí)時(shí)性能和更低的內(nèi)存使用率。此外,采用較重主干和處理較大圖像的模型可以獲得更好的精度,但也會(huì)削弱實(shí)時(shí)性能。盡管FlashOcc和FastOcc等方法的輕量級(jí)版本已經(jīng)接近實(shí)際部署的要求,但它們的準(zhǔn)確性還需要進(jìn)一步提高。對(duì)于部署友好的方法,透視分解策略和從粗到細(xì)策略都致力于在保持3D占用預(yù)測準(zhǔn)確性的同時(shí),不斷減少計(jì)算負(fù)載。
Label-efficient methods
在現(xiàn)有的創(chuàng)建精確占用標(biāo)簽的方法中,有兩個(gè)基本步驟。第一個(gè)是收集與多視圖圖像相對(duì)應(yīng)的激光雷達(dá)點(diǎn)云,并進(jìn)行語義分割注釋。另一種是利用動(dòng)態(tài)物體的跟蹤信息,通過復(fù)雜的算法融合多幀點(diǎn)云。這兩個(gè)步驟都相當(dāng)昂貴,這限制了占用網(wǎng)絡(luò)利用自動(dòng)駕駛場景中大量多視圖圖像的能力。近年來,神經(jīng)輻射場(Nerf)在二維圖像繪制中得到了廣泛的應(yīng)用。有幾種方法以類似Nerf的方式將預(yù)測的三維占用繪制成二維地圖,并在沒有細(xì)粒度標(biāo)注或激光雷達(dá)點(diǎn)云參與的情況下訓(xùn)練占用網(wǎng)絡(luò),這顯著降低了數(shù)據(jù)標(biāo)注的成本。
Annotation-free methods
SimpleOccupancy首先通過視圖變換從圖像特征中生成場景的顯式3D體素特征,然后按照Nerf風(fēng)格的方式將其渲染為2D深度圖。二維深度圖由激光雷達(dá)點(diǎn)云生成的稀疏深度圖監(jiān)督。深度圖還用于合成用于自我監(jiān)督的環(huán)繞圖像。UniOcc使用兩個(gè)單獨(dú)的MLP將3D體素logits轉(zhuǎn)換為體素的密度和體素的語義logits。之后,UniOCC按照一般的體積渲染來獲得多視圖深度圖和語義圖,如圖17所示。這些2D地圖由分割的LiDAR點(diǎn)云生成的標(biāo)簽進(jìn)行監(jiān)督。RenderOcc從多視圖圖像中構(gòu)建類似于NeRF的3D體積表示,并使用先進(jìn)的體積渲染技術(shù)來生成2D渲染,該技術(shù)可以僅使用2D語義和深度標(biāo)簽來提供直接的3D監(jiān)督。通過這種2D渲染監(jiān)督,該模型通過分析來自各種相機(jī)截頭體的光線交點(diǎn)來學(xué)習(xí)多視圖一致性,從而更深入地了解3D空間中的幾何關(guān)系。此外,它引入了輔助光線的概念,以利用來自相鄰幀的光線來增強(qiáng)當(dāng)前幀的多視圖一致性約束,并開發(fā)了一種動(dòng)態(tài)采樣訓(xùn)練策略來過濾未對(duì)準(zhǔn)的光線。為了解決動(dòng)態(tài)和靜態(tài)類別之間的不平衡問題,OccFlowNet進(jìn)一步引入了占用流,基于3D邊界框預(yù)測每個(gè)動(dòng)態(tài)體素的場景流。使用體素流,可以將動(dòng)態(tài)體素移動(dòng)到時(shí)間幀中的正確位置,從而無需在渲染過程中進(jìn)行動(dòng)態(tài)對(duì)象過濾。在訓(xùn)練過程中,使用流對(duì)正確預(yù)測的體素和邊界框內(nèi)的體素進(jìn)行轉(zhuǎn)換,以與時(shí)間幀中目標(biāo)位置對(duì)齊,然后使用基于距離的加權(quán)插值進(jìn)行網(wǎng)格對(duì)齊。
上述方法消除了對(duì)顯式3D占用注釋的需要,大大減少了手動(dòng)注釋的負(fù)擔(dān)。然而,他們?nèi)匀灰蕾嚰す饫走_(dá)點(diǎn)云來提供深度或語義標(biāo)簽來監(jiān)督渲染的地圖,這還不能實(shí)現(xiàn)3D占用預(yù)測的完全自監(jiān)督框架。
LiDAR-free methods
OccNerf不利用激光雷達(dá)點(diǎn)云來提供深度和語義標(biāo)簽。相反,如圖18所示,它使用參數(shù)化占用字段來處理無邊界的室外場景,重新組織采樣策略,并使用體積渲染將占用字段轉(zhuǎn)換為多相機(jī)深度圖,最終通過多幀光度一致性進(jìn)行監(jiān)督。此外,該方法利用預(yù)先訓(xùn)練的開放詞匯語義分割模型來生成2D語義標(biāo)簽,監(jiān)督該模型將語義信息傳遞給占用字段。幕后使用單一視圖圖像序列來重建駕駛場景。它將輸入圖像的截頭體特征視為密度場,并渲染其他視圖的合成。通過專門設(shè)計(jì)的圖像重建損失來訓(xùn)練整個(gè)模型。SelfOcc預(yù)測BEV或TPV特征的帶符號(hào)距離場值,以渲染2D深度圖。此外,原始顏色和語義圖也由多視圖圖像序列生成的標(biāo)簽進(jìn)行渲染和監(jiān)督。
這些方法避開了對(duì)來自激光雷達(dá)點(diǎn)云的深度或語義標(biāo)簽的必要性。相反,他們利用圖像數(shù)據(jù)或預(yù)訓(xùn)練的模型來獲得這些標(biāo)簽,從而實(shí)現(xiàn)3D占用預(yù)測的真正的自監(jiān)督框架。盡管這些方法可以實(shí)現(xiàn)最符合實(shí)際應(yīng)用經(jīng)驗(yàn)的訓(xùn)練模式,但仍需進(jìn)一步探索才能獲得令人滿意的性能。
表5顯示了Occ3D nuScenes數(shù)據(jù)集上標(biāo)簽高效方法的性能比較。大多數(shù)無注釋方法使用2D渲染監(jiān)督作為顯式3D占用監(jiān)督的補(bǔ)充,并獲得了一定的性能改進(jìn)。其中,UniOcc和RadOcc甚至在所有方法中分別獲得了3和4的優(yōu)異排名,充分證明了無注釋機(jī)制可以促進(jìn)額外有價(jià)值信息的提取。當(dāng)僅采用2D渲染監(jiān)督時(shí),它們?nèi)匀豢梢詫?shí)現(xiàn)相當(dāng)?shù)木龋f明了節(jié)省顯式3D占用注釋成本的可行性。無激光雷達(dá)的方法為3D占用預(yù)測建立了一個(gè)全面的自我監(jiān)督框架,進(jìn)一步消除了對(duì)標(biāo)簽和激光雷達(dá)數(shù)據(jù)的需求。然而,由于點(diǎn)云本身缺乏精確的深度和幾何信息,其性能受到極大限制。
未來展望
在上述方法的推動(dòng)下,我們總結(jié)了當(dāng)前的趨勢(shì),并提出了幾個(gè)重要的研究方向,這些方向有可能從數(shù)據(jù)、方法和任務(wù)的角度顯著推進(jìn)基于視覺的自動(dòng)駕駛3D占用預(yù)測領(lǐng)域。
數(shù)據(jù)層面
獲取充足的真實(shí)駕駛數(shù)據(jù)對(duì)于提高自動(dòng)駕駛感知系統(tǒng)的整體能力至關(guān)重要。數(shù)據(jù)生成是一種很有前途的途徑,因?yàn)樗粫?huì)產(chǎn)生任何獲取成本,并提供了根據(jù)需要操縱數(shù)據(jù)多樣性的靈活性。雖然一些方法利用文本等提示來控制生成的駕駛數(shù)據(jù)的內(nèi)容,但它們不能保證空間信息的準(zhǔn)確性。相比之下,3D Occupancy提供了場景的細(xì)粒度和可操作的表示,與點(diǎn)云、多視圖圖像和BEV布局相比,有助于可控的數(shù)據(jù)生成和空間信息顯示。WoVoGen提出了體積感知擴(kuò)散,可以將3D占用映射到逼真的多視圖圖像。在對(duì)3D占用進(jìn)行修改后,例如添加一棵樹或更換一輛汽車,擴(kuò)散模型將合成相應(yīng)的新駕駛場景。修改后的三維占用記錄了三維位置信息,保證了合成數(shù)據(jù)的真實(shí)性。
自動(dòng)駕駛的世界模型越來越突出,它提供了一個(gè)簡單而優(yōu)雅的框架,增強(qiáng)了模型基于環(huán)境輸入觀測來理解整個(gè)場景并直接輸出合適的動(dòng)態(tài)場景演化數(shù)據(jù)的能力。鑒于其能夠熟練地詳細(xì)表示整個(gè)駕駛場景數(shù)據(jù),利用3D占用率作為世界模型中的環(huán)境觀測具有明顯的優(yōu)勢(shì)。如圖19所示,OccWorld選擇3D占用率作為世界模型的輸入,并使用類似GPT的模塊來預(yù)測未來的3D占用率數(shù)據(jù)應(yīng)該是什么樣子。UniWorld利用了現(xiàn)成的基于BEV的3D occ-pancy模型,但通過處理過去的多視圖圖像來預(yù)測未來的3D占用數(shù)據(jù),這也構(gòu)建了一個(gè)世界模型。然而,無論機(jī)制如何,生成的數(shù)據(jù)和真實(shí)數(shù)據(jù)之間不可避免地存在領(lǐng)域差距。為了解決這個(gè)問題,一種可行的方法是將3D占用預(yù)測與新興的3D人工智能生成內(nèi)容(3D AIGC)方法相結(jié)合,以生成更真實(shí)的場景數(shù)據(jù),而另一種方法是將領(lǐng)域自適應(yīng)方法相結(jié)合以縮小領(lǐng)域差距。
方法論層面
當(dāng)涉及到3D占用預(yù)測方法時(shí),在我們之前概述的類別中,存在著需要進(jìn)一步關(guān)注的持續(xù)挑戰(zhàn):功能增強(qiáng)方法、部署友好方法和標(biāo)簽高效方法。特征增強(qiáng)方法需要朝著顯著提高性能的方向發(fā)展,同時(shí)保持可控的計(jì)算資源消耗。部署友好的方法應(yīng)該記住,減少內(nèi)存使用和延遲,同時(shí)確保將性能下降降至最低。標(biāo)簽高效的方法應(yīng)該朝著減少昂貴的注釋需求的方向發(fā)展,同時(shí)實(shí)現(xiàn)令人滿意的性能。最終目標(biāo)可能是實(shí)現(xiàn)一個(gè)統(tǒng)一的框架,該框架結(jié)合了功能增強(qiáng)、部署友好性和標(biāo)簽效率,以滿足實(shí)際自動(dòng)駕駛應(yīng)用的期望。
此外,現(xiàn)有的單智能體自動(dòng)駕駛感知系統(tǒng)天生無法解決關(guān)鍵問題,如對(duì)遮擋的敏感性、遠(yuǎn)程感知能力不足和視野有限,這使得實(shí)現(xiàn)全面的環(huán)境意識(shí)具有挑戰(zhàn)性。為了克服單智能體的瓶頸,多智能體協(xié)同感知方法開辟了一個(gè)新的維度,允許車輛與其他交通元素共享互補(bǔ)信息,以獲得對(duì)周圍環(huán)境的整體感知。如圖20所示,多智能體協(xié)同3D占用預(yù)測方法利用協(xié)同感知和學(xué)習(xí)的力量進(jìn)行3D占用預(yù)測,通過在連接的自動(dòng)化車輛之間共享特征,能夠更深入地了解3D道路環(huán)境。CoHFF是第一個(gè)基于視覺的協(xié)作語義占用預(yù)測框架,它通過語義和occupancy任務(wù)特征的混合融合,以及車輛之間共享的壓縮正交注意力特征,改進(jìn)了局部3D語義占用預(yù)測,在性能上顯著優(yōu)于單車系統(tǒng)。然而,這種方法往往需要同時(shí)與多個(gè)代理進(jìn)行通信,面臨準(zhǔn)確性和帶寬之間的矛盾。因此,確定哪些代理最需要協(xié)調(diào),以及確定最有價(jià)值的協(xié)作領(lǐng)域,以實(shí)現(xiàn)準(zhǔn)確性和速度之間的最佳平衡,是一個(gè)有趣的研究方向。
任務(wù)層面
在當(dāng)前的3D占用基準(zhǔn)中,某些類別具有明確的語義,如“汽車”、“行人”和“卡車”。相反,“人造”和“植被”等其他類別的語義往往是模糊和籠統(tǒng)的。這些類別包含了廣泛的未定義語義,應(yīng)該細(xì)分為更細(xì)粒度的類別,以提供駕駛場景的詳細(xì)描述。此外,對(duì)于以前從未見過的未知類別,它們通常被視為一般障礙,無法根據(jù)人類提示靈活擴(kuò)展新的類別感知。對(duì)于這個(gè)問題,開放詞匯任務(wù)在2D圖像感知方面表現(xiàn)出了強(qiáng)大的性能,并且可以擴(kuò)展到改進(jìn)3D占用預(yù)測任務(wù)。OVO提出了一個(gè)支持開放詞匯表3D占用預(yù)測的框架。它利用凍結(jié)的2D分割器和文本編碼器來獲得開放詞匯的語義參考。然后,采用三個(gè)不同級(jí)別的比對(duì)來提取3D占用模型,使其能夠進(jìn)行開放詞匯預(yù)測。POP-3D設(shè)計(jì)了一個(gè)自監(jiān)督框架,在強(qiáng)大的預(yù)訓(xùn)練視覺語言模型的幫助下,結(jié)合了三種模式。它方便了諸如零樣本占用分割和基于文本的3D檢索之類的開放式詞匯任務(wù)。
感知周圍環(huán)境的動(dòng)態(tài)變化對(duì)于自動(dòng)駕駛中下游任務(wù)的安全可靠執(zhí)行至關(guān)重要。雖然3D占用預(yù)測可以基于當(dāng)前觀測提供大規(guī)模場景的密集占用表示,但它們大多局限于表示當(dāng)前3D空間,并且不考慮周圍物體沿時(shí)間軸的未來狀態(tài)。最近,人們提出了幾種方法來進(jìn)一步考慮時(shí)間信息,并引入4D占用預(yù)測任務(wù),這在真實(shí)的自動(dòng)駕駛場景中更實(shí)用。Cam4Occ首次使用廣泛使用的nuScenes數(shù)據(jù)集為4D占用率預(yù)測建立了一個(gè)新的基準(zhǔn)。該基準(zhǔn)包括不同的指標(biāo),用于分別評(píng)估一般可移動(dòng)物體(GMO)和一般靜態(tài)物體(GSO)的占用預(yù)測。此外,它還提供了幾個(gè)基線模型來說明4D占用預(yù)測框架的構(gòu)建。盡管開放詞匯3D占用預(yù)測任務(wù)和4D占用預(yù)測任務(wù)旨在從不同角度增強(qiáng)開放動(dòng)態(tài)環(huán)境中自動(dòng)駕駛的感知能力,但它們?nèi)匀槐灰暈楠?dú)立的任務(wù)進(jìn)行優(yōu)化。模塊化的基于任務(wù)的范式,其中多個(gè)模塊具有不一致的優(yōu)化目標(biāo),可能導(dǎo)致信息丟失和累積錯(cuò)誤。將開集動(dòng)態(tài)占用預(yù)測與端到端自動(dòng)駕駛?cè)蝿?wù)相結(jié)合,將原始傳感器數(shù)據(jù)直接映射到控制信號(hào)是一個(gè)很有前途的研究方向。