港理工OccProphet:純視覺(jué)Occ SOTA!速度提升至2.6倍,內(nèi)存占用減少60%
本文分享一篇由香港理工大學(xué)最近公開(kāi)的發(fā)表于ICLR2025的論文『OccProphet: Pushing Efficiency Frontier of Camera-Only 4D Occupancy Forecasting with Observer-Forecaster-Refiner Framework』。作者在文中提出了一個(gè)輕量級(jí)的觀察器-預(yù)報(bào)器-細(xì)化器框架OccProphet來(lái)實(shí)現(xiàn)高效的未來(lái)4D占用預(yù)測(cè)。OccProphet在nuScenes、 Lyft-Level5和nuScenes-Occupancy等多個(gè)數(shù)據(jù)集上取得最先進(jìn)的4D占用預(yù)測(cè)性能,成本減少近80%!相比此前最先進(jìn)的方法,OccProphet性能提升至1.2倍,速度提升至2.6倍,內(nèi)存占用減少近60%,僅需24G顯存即可完成訓(xùn)練和推理。代碼即將開(kāi)源。
- 論文鏈接:https://arxiv.org/abs/2502.15180
- 代碼鏈接:https://github.com/JLChen-C/OccProphet
圖1:(左)OccProphet示意圖。OccProphet僅接收多相機(jī)視頻輸入,并生成未來(lái)時(shí)刻的占用;(右)相比于Cam4DOcc,OccProphet性能提升約20%,速度提升約160%
動(dòng)機(jī)
提升自動(dòng)駕駛車輛對(duì)動(dòng)態(tài)環(huán)境的感知與預(yù)測(cè)能力,是自動(dòng)駕駛安全性和可靠性的迫切需求。傳統(tǒng)的占據(jù)感知(Occupancy Perception)方法通過(guò)學(xué)習(xí)空間中的占據(jù)狀態(tài),能夠理解環(huán)境的當(dāng)前和過(guò)去狀態(tài),而無(wú)法預(yù)測(cè)未來(lái)動(dòng)態(tài)。事實(shí)上,預(yù)測(cè)未來(lái)場(chǎng)景對(duì)于安全駕駛和避免碰撞至關(guān)重要。
這篇文章研究基于相機(jī)的占用預(yù)測(cè)(Occupancy Forecasting),能夠理解自動(dòng)駕駛車輛周圍環(huán)境的動(dòng)態(tài)變化,并對(duì)未來(lái)進(jìn)行合理預(yù)測(cè)。考慮到現(xiàn)有的基于相機(jī)的占據(jù)預(yù)測(cè)方法(例如Cam4DOcc)計(jì)算成本高,不具備在計(jì)算資源受限的邊緣設(shè)備(例如自動(dòng)駕駛車輛)的部署能力,這篇文章的主要?jiǎng)訖C(jī)在于開(kāi)發(fā)一種輕量且高效的框架——OccProphet。
它僅僅使用環(huán)視圖片序列作為輸入,能準(zhǔn)確預(yù)測(cè)未來(lái)時(shí)刻的4D占據(jù)(時(shí)間維度+空間維度)。在輕量化處理上,OccProphet引入了三大精簡(jiǎn)模塊(Observer、Forecaster 和 Refiner),并采用高效的4D特征聚合與三元組注意力融合策略,旨在在顯著降低計(jì)算需求的同時(shí)提升預(yù)測(cè)的準(zhǔn)確性。這一進(jìn)步,首次展現(xiàn)了4D占用感知在自動(dòng)駕駛車輛上部署的可行性。
方法詳解
如圖2所示,OccProphet 是一種新型的僅基于攝像頭的占據(jù)預(yù)測(cè)框架,它不管在訓(xùn)練階段還是推理階段都是計(jì)算友好的。
圖2:OccProphet概述。它接收來(lái)自環(huán)視攝像頭的多幀圖像作為輸入,并輸出未來(lái)的占用情況或占用流動(dòng)。OccProphet由四個(gè)關(guān)鍵組件組成:觀察器(Observer)、預(yù)報(bào)器(Forecaster)、細(xì)化器(Refiner)和預(yù)測(cè)器(Predictor)。觀察器模塊負(fù)責(zé)聚合時(shí)空信息。預(yù)報(bào)器模塊有條件地生成未來(lái)場(chǎng)景的初步表示。這些初步表示通過(guò)細(xì)化器模塊進(jìn)行細(xì)化。最后,預(yù)測(cè)器模塊產(chǎn)生對(duì)未來(lái)占用或占用流的最終預(yù)測(cè)。
- 觀察器(Observer)模塊:高效且有效地聚合多幀觀測(cè)(即多幀3D體素特征)中的時(shí)空信息。
- 預(yù)報(bào)器(Forecaster)模塊:在 Observer 的輸出基礎(chǔ)上,自適應(yīng)地預(yù)測(cè)未來(lái)狀態(tài),從而確保在各種交通狀況下的靈活性。
- 細(xì)化器(Refiner)模塊:通過(guò)促進(jìn)幀間交互,進(jìn)一步提升這些預(yù)測(cè)的質(zhì)量。
- 預(yù)測(cè)器(Predictor):將經(jīng)過(guò)優(yōu)化的未來(lái)狀態(tài)解碼為占用或占用流。
OccProphet 在創(chuàng)新性方面主要做出了以下貢獻(xiàn):
- 一種新穎的僅基于攝像頭的占用預(yù)測(cè)框架,在訓(xùn)練和推理過(guò)程中都兼具高效性和有效性,適用于車載部署。
- 一個(gè)輕量級(jí)的觀察器-預(yù)報(bào)器-細(xì)化器框架。觀察器(Observer)模塊從歷史觀測(cè)中提取時(shí)空特征;預(yù)報(bào)器(Forecaster)模塊有條件地預(yù)測(cè)粗略的未來(lái)狀態(tài);細(xì)化器(Refiner)模塊則進(jìn)一步提升預(yù)測(cè)準(zhǔn)確性。
- 實(shí)驗(yàn)結(jié)果表明,OccProphet在預(yù)測(cè)準(zhǔn)確性上更勝一籌,同時(shí)其計(jì)算成本不到Cam4DOcc的一半。這些優(yōu)勢(shì)在nuScenes、Lyft-Level5以及nuScenes-Occupancy數(shù)據(jù)集上均得到了驗(yàn)證。
關(guān)鍵組件
觀察器(Observer)
Efficient 4D Aggregation(高效4D聚合)
圖3:高效4D聚合模塊
Tripling-Attention Fusion(三元組注意力融合)
圖4:三元組注意力融合(左)和三元組分解操作(右)
三元組注意力融合模塊(TAF)專為促進(jìn)多個(gè)三維特征間的時(shí)空交互而設(shè)計(jì),通過(guò)提出的三三元組分解操作進(jìn)一步降低計(jì)算成本。該操作旨在從三個(gè)互補(bǔ)且緊湊的角度理解三維空間,從而以較低的計(jì)算成本保留三維場(chǎng)景信息。具體而言,三元組分解操作將三維特征分解為場(chǎng)景、高度和BEV三個(gè)分支,分別壓縮三維特征至一維或二維特征,減少后續(xù)計(jì)算開(kāi)銷。場(chǎng)景分支提取全局上下文,提供對(duì)場(chǎng)景的整體理解;高度分支保留垂直細(xì)節(jié),作為2D BEV分支的補(bǔ)充線索,增強(qiáng)三維幾何信息的表現(xiàn)能力。
預(yù)報(bào)器 (Forecaster)
圖5:預(yù)報(bào)器的結(jié)構(gòu)
細(xì)化器(Refiner)
實(shí)驗(yàn)
網(wǎng)絡(luò)的訓(xùn)練使用4塊(至少1塊)RTX4090 GPU,測(cè)試使用1塊RTX4090 GPU(24G顯存)。
實(shí)驗(yàn)結(jié)果表明,OccProphet在預(yù)測(cè)準(zhǔn)確性和效率上均表現(xiàn)出色,在三個(gè)數(shù)據(jù)集上相對(duì)于最先進(jìn)的Cam4DOcc模型,其占用預(yù)測(cè)準(zhǔn)確性分別提升了4%~18%,同時(shí)運(yùn)行速度提高了約1.6倍,計(jì)算成本降低了58%~78%。
定性實(shí)驗(yàn)
圖6:Cam4DOcc與OccProphet的定性實(shí)驗(yàn)
Cam4DOcc和OccProphet在未來(lái)2秒內(nèi)的占用預(yù)測(cè)可視化。紅色虛線矩形表明OccProphet的結(jié)果相比Cam4DOcc的結(jié)果與真實(shí)標(biāo)注更加一致。第一行結(jié)果表明OccProphet在低光照條件下具有較強(qiáng)的適應(yīng)性。
定量實(shí)驗(yàn)
圖7:不同表征形式之間的比較
采用E4A表征在性能上優(yōu)于BEV和TPV表征,且參數(shù)更少,計(jì)算成本僅略有增加。
圖8:在細(xì)粒度的一般運(yùn)動(dòng)物體和一般靜態(tài)物體上的4D占用預(yù)測(cè)性能
OccProphet在細(xì)粒度的4D占用預(yù)測(cè)上具有明顯優(yōu)勢(shì)。
圖9:模型復(fù)雜度的比較
與Cam4DOcc相比,OccProphet的參數(shù)量、內(nèi)存占用和FLOPs均降低了58%-78%,同時(shí)OccProphet在未來(lái)幀的平均IoU上實(shí)現(xiàn)了相對(duì)4%的提升,并且其FPS達(dá)到了Cam4DOcc的2.6倍。
更多定性和定量實(shí)驗(yàn)及分析見(jiàn)論文。OccProphet將激勵(lì)在高效占用預(yù)測(cè)及其車載部署等領(lǐng)域的更多研究。
結(jié)論
本文提出了OccProphet,這是一種用于占用預(yù)測(cè)的全新純視覺(jué)框架。該框架采用了一個(gè)Observer Forecaster Refiner管道,專門(mén)用于高效和有效的培訓(xùn)和推理。這種效率和有效性是通過(guò)4D聚合和對(duì)低分辨率特征進(jìn)行三重注意力融合來(lái)實(shí)現(xiàn)的。實(shí)驗(yàn)結(jié)果證明了OccProphet在預(yù)測(cè)準(zhǔn)確性和效率方面的優(yōu)越性。在三個(gè)數(shù)據(jù)集上,它在占用率預(yù)測(cè)方面比最先進(jìn)的Cam4DOcc高出4%至18%,同時(shí)運(yùn)行速度提高了2.6倍,計(jì)算成本降低了58%-78%。我們希望OccProphet能夠推動(dòng)未來(lái)在高效占用率預(yù)測(cè)及其在車載部署中的應(yīng)用方面的研究。