港理工OccProphet：純視覺(jué)Occ SOTA！速度提升至2.6倍，內(nèi)存占用減少60%

作者：Junliang Chen等 2025-02-26 10:24:47

本文提出了OccProphet，這是一種用于占用預(yù)測(cè)的全新純視覺(jué)框架。

本文分享一篇由香港理工大學(xué)最近公開(kāi)的發(fā)表于ICLR2025的論文『OccProphet: Pushing Efficiency Frontier of Camera-Only 4D Occupancy Forecasting with Observer-Forecaster-Refiner Framework』。作者在文中提出了一個(gè)輕量級(jí)的觀察器-預(yù)報(bào)器-細(xì)化器框架OccProphet來(lái)實(shí)現(xiàn)高效的未來(lái)4D占用預(yù)測(cè)。OccProphet在nuScenes、 Lyft-Level5和nuScenes-Occupancy等多個(gè)數(shù)據(jù)集上取得最先進(jìn)的4D占用預(yù)測(cè)性能，成本減少近80%！相比此前最先進(jìn)的方法，OccProphet性能提升至1.2倍，速度提升至2.6倍，內(nèi)存占用減少近60%，僅需24G顯存即可完成訓(xùn)練和推理。代碼即將開(kāi)源。

論文鏈接：https://arxiv.org/abs/2502.15180
代碼鏈接：https://github.com/JLChen-C/OccProphet

圖1：（左）OccProphet示意圖。OccProphet僅接收多相機(jī)視頻輸入，并生成未來(lái)時(shí)刻的占用；（右）相比于Cam4DOcc，OccProphet性能提升約20%，速度提升約160%

動(dòng)機(jī)

提升自動(dòng)駕駛車輛對(duì)動(dòng)態(tài)環(huán)境的感知與預(yù)測(cè)能力，是自動(dòng)駕駛安全性和可靠性的迫切需求。傳統(tǒng)的占據(jù)感知（Occupancy Perception）方法通過(guò)學(xué)習(xí)空間中的占據(jù)狀態(tài),能夠理解環(huán)境的當(dāng)前和過(guò)去狀態(tài)，而無(wú)法預(yù)測(cè)未來(lái)動(dòng)態(tài)。事實(shí)上，預(yù)測(cè)未來(lái)場(chǎng)景對(duì)于安全駕駛和避免碰撞至關(guān)重要。

這篇文章研究基于相機(jī)的占用預(yù)測(cè)（Occupancy Forecasting），能夠理解自動(dòng)駕駛車輛周圍環(huán)境的動(dòng)態(tài)變化，并對(duì)未來(lái)進(jìn)行合理預(yù)測(cè)。考慮到現(xiàn)有的基于相機(jī)的占據(jù)預(yù)測(cè)方法（例如Cam4DOcc）計(jì)算成本高，不具備在計(jì)算資源受限的邊緣設(shè)備（例如自動(dòng)駕駛車輛）的部署能力，這篇文章的主要?jiǎng)訖C(jī)在于開(kāi)發(fā)一種輕量且高效的框架——OccProphet。

它僅僅使用環(huán)視圖片序列作為輸入，能準(zhǔn)確預(yù)測(cè)未來(lái)時(shí)刻的4D占據(jù)（時(shí)間維度+空間維度）。在輕量化處理上，OccProphet引入了三大精簡(jiǎn)模塊（Observer、Forecaster 和 Refiner），并采用高效的4D特征聚合與三元組注意力融合策略，旨在在顯著降低計(jì)算需求的同時(shí)提升預(yù)測(cè)的準(zhǔn)確性。這一進(jìn)步，首次展現(xiàn)了4D占用感知在自動(dòng)駕駛車輛上部署的可行性。

方法詳解

如圖2所示，OccProphet 是一種新型的僅基于攝像頭的占據(jù)預(yù)測(cè)框架，它不管在訓(xùn)練階段還是推理階段都是計(jì)算友好的。

圖2：OccProphet概述。它接收來(lái)自環(huán)視攝像頭的多幀圖像作為輸入，并輸出未來(lái)的占用情況或占用流動(dòng)。OccProphet由四個(gè)關(guān)鍵組件組成：觀察器（Observer）、預(yù)報(bào)器（Forecaster）、細(xì)化器（Refiner）和預(yù)測(cè)器（Predictor）。觀察器模塊負(fù)責(zé)聚合時(shí)空信息。預(yù)報(bào)器模塊有條件地生成未來(lái)場(chǎng)景的初步表示。這些初步表示通過(guò)細(xì)化器模塊進(jìn)行細(xì)化。最后，預(yù)測(cè)器模塊產(chǎn)生對(duì)未來(lái)占用或占用流的最終預(yù)測(cè)。圖2：OccProphet概述。它接收來(lái)自環(huán)視攝像頭的多幀圖像作為輸入，并輸出未來(lái)的占用情況或占用流動(dòng)。OccProphet由四個(gè)關(guān)鍵組件組成：觀察器（Observer）、預(yù)報(bào)器（Forecaster）、細(xì)化器（Refiner）和預(yù)測(cè)器（Predictor）。觀察器模塊負(fù)責(zé)聚合時(shí)空信息。預(yù)報(bào)器模塊有條件地生成未來(lái)場(chǎng)景的初步表示。這些初步表示通過(guò)細(xì)化器模塊進(jìn)行細(xì)化。最后，預(yù)測(cè)器模塊產(chǎn)生對(duì)未來(lái)占用或占用流的最終預(yù)測(cè)。

觀察器（Observer）模塊：高效且有效地聚合多幀觀測(cè)（即多幀3D體素特征）中的時(shí)空信息。
預(yù)報(bào)器（Forecaster）模塊：在 Observer 的輸出基礎(chǔ)上，自適應(yīng)地預(yù)測(cè)未來(lái)狀態(tài)，從而確保在各種交通狀況下的靈活性。
細(xì)化器（Refiner）模塊：通過(guò)促進(jìn)幀間交互，進(jìn)一步提升這些預(yù)測(cè)的質(zhì)量。
預(yù)測(cè)器（Predictor）：將經(jīng)過(guò)優(yōu)化的未來(lái)狀態(tài)解碼為占用或占用流。

OccProphet 在創(chuàng)新性方面主要做出了以下貢獻(xiàn)：

一種新穎的僅基于攝像頭的占用預(yù)測(cè)框架，在訓(xùn)練和推理過(guò)程中都兼具高效性和有效性，適用于車載部署。
一個(gè)輕量級(jí)的觀察器-預(yù)報(bào)器-細(xì)化器框架。觀察器（Observer）模塊從歷史觀測(cè)中提取時(shí)空特征；預(yù)報(bào)器（Forecaster）模塊有條件地預(yù)測(cè)粗略的未來(lái)狀態(tài)；細(xì)化器（Refiner）模塊則進(jìn)一步提升預(yù)測(cè)準(zhǔn)確性。
實(shí)驗(yàn)結(jié)果表明，OccProphet在預(yù)測(cè)準(zhǔn)確性上更勝一籌，同時(shí)其計(jì)算成本不到Cam4DOcc的一半。這些優(yōu)勢(shì)在nuScenes、Lyft-Level5以及nuScenes-Occupancy數(shù)據(jù)集上均得到了驗(yàn)證。

關(guān)鍵組件

觀察器（Observer）

Efficient 4D Aggregation（高效4D聚合）

圖3：高效4D聚合模塊

Tripling-Attention Fusion（三元組注意力融合）

圖4：三元組注意力融合（左）和三元組分解操作（右）

三元組注意力融合模塊（TAF）專為促進(jìn)多個(gè)三維特征間的時(shí)空交互而設(shè)計(jì)，通過(guò)提出的三三元組分解操作進(jìn)一步降低計(jì)算成本。該操作旨在從三個(gè)互補(bǔ)且緊湊的角度理解三維空間，從而以較低的計(jì)算成本保留三維場(chǎng)景信息。具體而言，三元組分解操作將三維特征分解為場(chǎng)景、高度和BEV三個(gè)分支，分別壓縮三維特征至一維或二維特征，減少后續(xù)計(jì)算開(kāi)銷。場(chǎng)景分支提取全局上下文，提供對(duì)場(chǎng)景的整體理解；高度分支保留垂直細(xì)節(jié)，作為2D BEV分支的補(bǔ)充線索，增強(qiáng)三維幾何信息的表現(xiàn)能力。

預(yù)報(bào)器（Forecaster）

圖5：預(yù)報(bào)器的結(jié)構(gòu)

細(xì)化器（Refiner）

實(shí)驗(yàn)

網(wǎng)絡(luò)的訓(xùn)練使用4塊（至少1塊）RTX4090 GPU，測(cè)試使用1塊RTX4090 GPU（24G顯存）。

實(shí)驗(yàn)結(jié)果表明，OccProphet在預(yù)測(cè)準(zhǔn)確性和效率上均表現(xiàn)出色，在三個(gè)數(shù)據(jù)集上相對(duì)于最先進(jìn)的Cam4DOcc模型，其占用預(yù)測(cè)準(zhǔn)確性分別提升了4%～18%，同時(shí)運(yùn)行速度提高了約1.6倍，計(jì)算成本降低了58%～78%。

定性實(shí)驗(yàn)

圖6：Cam4DOcc與OccProphet的定性實(shí)驗(yàn)

Cam4DOcc和OccProphet在未來(lái)2秒內(nèi)的占用預(yù)測(cè)可視化。紅色虛線矩形表明OccProphet的結(jié)果相比Cam4DOcc的結(jié)果與真實(shí)標(biāo)注更加一致。第一行結(jié)果表明OccProphet在低光照條件下具有較強(qiáng)的適應(yīng)性。

定量實(shí)驗(yàn)

圖7：不同表征形式之間的比較

采用E4A表征在性能上優(yōu)于BEV和TPV表征，且參數(shù)更少，計(jì)算成本僅略有增加。

圖8：在細(xì)粒度的一般運(yùn)動(dòng)物體和一般靜態(tài)物體上的4D占用預(yù)測(cè)性能

OccProphet在細(xì)粒度的4D占用預(yù)測(cè)上具有明顯優(yōu)勢(shì)。

圖9：模型復(fù)雜度的比較

與Cam4DOcc相比，OccProphet的參數(shù)量、內(nèi)存占用和FLOPs均降低了58%-78%，同時(shí)OccProphet在未來(lái)幀的平均IoU上實(shí)現(xiàn)了相對(duì)4%的提升，并且其FPS達(dá)到了Cam4DOcc的2.6倍。

更多定性和定量實(shí)驗(yàn)及分析見(jiàn)論文。OccProphet將激勵(lì)在高效占用預(yù)測(cè)及其車載部署等領(lǐng)域的更多研究。

結(jié)論

本文提出了OccProphet，這是一種用于占用預(yù)測(cè)的全新純視覺(jué)框架。該框架采用了一個(gè)Observer Forecaster Refiner管道，專門(mén)用于高效和有效的培訓(xùn)和推理。這種效率和有效性是通過(guò)4D聚合和對(duì)低分辨率特征進(jìn)行三重注意力融合來(lái)實(shí)現(xiàn)的。實(shí)驗(yàn)結(jié)果證明了OccProphet在預(yù)測(cè)準(zhǔn)確性和效率方面的優(yōu)越性。在三個(gè)數(shù)據(jù)集上，它在占用率預(yù)測(cè)方面比最先進(jìn)的Cam4DOcc高出4%至18%，同時(shí)運(yùn)行速度提高了2.6倍，計(jì)算成本降低了58%-78%。我們希望OccProphet能夠推動(dòng)未來(lái)在高效占用率預(yù)測(cè)及其在車載部署中的應(yīng)用方面的研究。

責(zé)任編輯：張燕妮來(lái)源：自動(dòng)駕駛之心