澳門大學最新!CVPR'24 ALOcc:自適應(yīng)再出山,精度與速度的完美均衡!
寫在前面 & 筆者的個人理解
基于視覺的語義占用和流量預測在為自動駕駛等現(xiàn)實世界任務(wù)提供時空線索方面發(fā)揮著至關(guān)重要的作用?,F(xiàn)有方法優(yōu)先考慮更高的精度,以滿足這些任務(wù)的需求。在這項工作中,通過引入一系列針對3D語義占用預測和流量估計的有針對性的改進來提高性能。首先引入了一種具有深度去噪技術(shù)的遮擋感知自適應(yīng)提升機制,以提高二維到三維特征變換的魯棒性,減少對深度先驗的依賴。其次通過利用共享的語義原型來聯(lián)合約束2D和3D特征,加強了3D特征與其原始2D模態(tài)之間的語義一致性。這與基于置信度和類別的采樣策略相輔相成,以應(yīng)對3D空間中的長尾挑戰(zhàn)。為了減輕語義和流量聯(lián)合預測中的特征編碼負擔,我們提出了一種基于BEV成本量的預測方法,該方法通過成本量將流量和語義特征聯(lián)系起來,并采用分類回歸監(jiān)督方案來解決動態(tài)場景中不同的流量標度。本文的純卷積架構(gòu)框架名為ALOcc,在速度和精度之間實現(xiàn)了最佳權(quán)衡,在多個基準測試中取得了最先進的結(jié)果。在Occ3D和沒有相機可見mask的訓練中,我們的ALOcc在RayIoU方面實現(xiàn)了2.5%的絕對增益,同時使用相同的輸入大小(256×704)和ResNet-50,以與SOTA速度相當?shù)乃俣冗\行。ALOcc在CVPR24占用率和流量預測競賽中也獲得了第二名。
- 開源鏈接:https://github.com/cdb342/ALOcc
總結(jié)來說,本文的主要貢獻如下:
- 介紹了一種二維到三維的自適應(yīng)提升方法,該方法通過自適應(yīng)權(quán)重調(diào)整將二維信號轉(zhuǎn)換為遮擋和稀疏區(qū)域,同時結(jié)合深度去噪以防止收斂到局部最優(yōu)值。
- 提出了一種基于BEV的成本量方法用于占用流量預測,減輕了多任務(wù)設(shè)置中的特征編碼負擔,并通過組合分類和回歸增強了流量預測。
- 提出了共享語義原型,將類間關(guān)系從2D轉(zhuǎn)移到3D,通過選擇性原型訓練和不確定性感知采樣來緩解類不平衡問題。
- 對多個語義占用和流量預測基準的綜合評估表明,與當前的SOTA相比,它有了持續(xù)的改進。我們提供多種模型變體,我們的實時版本優(yōu)于現(xiàn)有的實時方法。
相關(guān)工作回顧
語義場景完成(SSC)致力于從給定的輸入中重建和語義完成3D場景。早期的研究主要集中在室內(nèi)場景,預測有限場景中的占用率和語義標簽。隨后的研究逐漸將注意力轉(zhuǎn)移到復雜的戶外環(huán)境,尤其是在駕駛環(huán)境中。SSC的本質(zhì)是它能夠感知未被觀察到的事物,用精確的語義洞察力填補部分觀察中的空白。最近的方法,如VoxFormer,采用了一種兩階段的方法,首先預測占用率,然后對占用的片段進行語義預測。OccFormer引入了一個用于3D編碼的雙路徑Transformer子模塊,并采用了一種基于查詢的分割方法。
基于視覺的3D占用預測領(lǐng)域與SSC密切相關(guān),但強調(diào)多視角聯(lián)合感知,這對自主導航至關(guān)重要。占用率預測要求將復雜的3D場景描繪成細粒度的元素,以便熟練地導航動態(tài)駕駛環(huán)境。TPVFormer等最初的工作采用稀疏點云進行監(jiān)督,利用空間注意力進行粒度預測。后續(xù)的工作,如OccNet、SurroundOcc、Occ3D和Openccupancy,基于時間信息和實例級標簽構(gòu)建了更密集的占用標注。一些研究借鑒了顯式幾何預測方法來促進二維到三維視圖的轉(zhuǎn)換。此外,最近的研究引入了3D占用流預測,該預測側(cè)重于每體素動力學,擴展了3D場景理解的能力。然而,之前的研究缺乏一個連貫的評估框架,通常在孤立的基準(如Occ3D或Opencc)上進行實驗,或者使用單一指標(如mIoU或RayIoU)比較性能。在這項工作中,我們提出了一種統(tǒng)一的方法,該方法在語義占用預測和占用流預測任務(wù)中都表現(xiàn)出色,并通過綜合評估指標進行了驗證。
ALOcc方法介紹
Revisiting Depth-based LSS
作為基于視覺的占用預測的核心模塊,2D到3D視圖轉(zhuǎn)換過程可表述為:
Occlusion-Aware Adaptive Lifting
我們通過引入從表面到遮擋區(qū)域的概率轉(zhuǎn)移來增強基于深度的LSS。我們首先用基于概率的軟填充方法取代了基于硬舍入的填充策略。如圖3所示,我們使用三線性插值將點(x,y,z)的概率擴散到VCS中的八個相鄰點上。插值計算八個概率值:
對于這兩種情況,我們構(gòu)建了一個從可見部分到遮擋部分的概率轉(zhuǎn)移矩陣。對于前一種遮擋,我們設(shè)計了條件概率,將表面概率轉(zhuǎn)化為遮擋長度概率。給定像素點x的離散深度概率,我們采用相同的bin劃分進行離散遮擋長度預測。我們引入貝葉斯條件概率將離散深度概率轉(zhuǎn)換為離散遮擋長度概率:
因此,我們只需要估計深度di到較大深度位置的條件概率。
深度概率在2D到3D語義轉(zhuǎn)換中的主要作用可能會導致由于初始深度估計不準確而導致的次優(yōu)模型收斂。為了減輕這種情況,我們引入了一種類似于目標檢測算法中查詢?nèi)ピ氲娜ピ氩僮?。該方法利用GT深度概率來指導早期模型訓練。我們采用GT和預測深度的加權(quán)平均值來指導訓練中的自適應(yīng)lifting過程。地面真實深度的權(quán)重初始化為1,并按照余弦退火策略逐漸減小到0。這可以表述為:
Semantic Prototype-based Occupancy Head
在2D到3D特征轉(zhuǎn)換之后,我們使用共享原型增強了2D和3D特征之間的語義對齊。如圖4所示,我們?yōu)槊總€類初始化一個語義原型,該原型同時作為2D和3D特征損失計算中的類權(quán)重。這種共享原型方法創(chuàng)建了一個鏈接2D和3D語義的快捷方式,促進了跨維度的一致特征表示。
給定每個類的原型,解碼語義占用的直觀方法是計算體素特征和原型之間的相似性,然后進行交叉熵監(jiān)督。然而,由于駕駛場景中語義類別的高度傾斜分布,這種方法不是最優(yōu)的。為了解決這種不平衡,我們提出了一種原型獨立損失,該損失僅考慮每個場景的地面真實占用圖中存在的類。
我們通過基礎(chǔ)事實提取所有現(xiàn)有語義類別的原型(包括空類的嵌入),并計算這些原型和3D特征之間的內(nèi)積以生成類掩碼。為了進一步加強尾部類別的訓練,我們采用了一種基于不確定性和類先驗的采樣技術(shù)。我們使用從內(nèi)積導出的每原型logit圖作為每體素不確定性的度量。這種不確定性和類先驗形成多項式分布。然后,我們根據(jù)此分布從整個占用圖中采樣K個體素。損失僅在采樣點上計算。最終的3D感知損失被表述為二進制交叉熵和diceA損失的組合:
BEV Cost Volume-based Occupancy Flow Prediction
如圖2所示,我們也從編碼的體積特征中解碼了占用流?;旧?,流量網(wǎng)絡(luò)將占用流量預測為:
具體來說,我們對高度為0到4米的體積特征進行平均,以創(chuàng)建一個以前景為中心的BEV特征,如圖5所示。我們對BEV特征進行降采樣,以增加感受野,同時減少計算開銷。然后,我們使用相機參數(shù)將前一幀的BEV特征包裹到當前幀的坐標系中,并在每個點周圍的多個假設(shè)點處將其與當前幀特征進行匹配。通過計算每對特征之間的余弦相似度來構(gòu)建成本量:
為了提高我們的模型預測不同尺度流量值的能力,我們提出了一種結(jié)合回歸和分類的混合方法。我們根據(jù)從訓練集中得出的最大和最小流量值將流量值劃分為多個區(qū)間。我們的流量水頭預測了流入每個料倉的流量的可能性。連續(xù)流量預測公式為bin中心值的加權(quán)和:
實驗結(jié)果
結(jié)論
本文探討了基于視覺的3D語義占用和流量預測的挑戰(zhàn)。我們提出了一種基于遮擋感知的自適應(yīng)提升方法,輔以深度去噪,以提高二維到三維視圖轉(zhuǎn)換過程的適應(yīng)性和魯棒性。為了進一步改進語義占用學習,我們引入了一種基于語義原型的占用頭,該占用頭將2D和3D語義對齊,并結(jié)合硬樣本挖掘技術(shù)來緩解長尾問題。此外,我們提出了一種基于BEV成本量的方法來促進占用流學習,減少了同時表示語義和流的特征負擔。對Occ3D和Opencc數(shù)據(jù)集進行的評估表明,我們的方法優(yōu)于當前的SOTA解決方案。受益于我們方法的輕量級特性,我們提供了多種模型版本:我們性能最高的模型比其他性能相當?shù)姆椒ǜ?,而我們速度最快的模型比速度相似的方法具有更?yōu)的性能。