重新思考軌跡預(yù)測 | 復(fù)旦提出PIFM:如何將規(guī)劃引入預(yù)測?
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
寫在前面 && 筆者理解
傳統(tǒng)的自動駕駛主要可以分為感知、預(yù)測、規(guī)控三個大的部分,其中預(yù)測模塊承擔(dān)著十分重要的角色,為下游規(guī)劃路徑提供重要的信息。然而,現(xiàn)實世界駕駛環(huán)境的復(fù)雜性,其中包括多個動態(tài)智能體(如車輛和行人)之間的相互作用,給預(yù)測造成了不小的挑戰(zhàn)。這其中有一個重要任務(wù)就是軌跡預(yù)測,這涉及到基于它們當(dāng)前的狀態(tài)和環(huán)境來預(yù)測周圍智能體的未來移動。
傳統(tǒng)上,運動預(yù)測模型預(yù)測單個智能體的軌跡,而沒有考慮它們之間的相互依賴性。在多智能體環(huán)境中,這種方法會導(dǎo)致次優(yōu)的預(yù)測,因為它并不能捕捉到智能體之間的復(fù)雜交互。為了克服這些限制,最近的工作開始將規(guī)劃信息納入軌跡預(yù)測過程,允許系統(tǒng)做出更明智的決策。
- 論文鏈接:https://arxiv.org/pdf/2410.19639
在過去幾年,自動駕駛的軌跡預(yù)測也有了顯著的發(fā)展,許多方法利用多模態(tài)融合技術(shù)來提高準(zhǔn)確性。比較早期模型依賴于歷史軌跡和地圖數(shù)據(jù),通常將這些輸入結(jié)合起來做預(yù)測。近期的工作會使用基于transformer的架構(gòu),引入了注意力機制以更好地整合這些不同的模態(tài)。這些模型大大提高了自動駕駛系統(tǒng)的預(yù)測能力,尤其是在智能體與其環(huán)境動態(tài)交互的場景中。另外,Planning-aware模型也作為提高軌跡預(yù)測的有效方法之一,比如:PiP和PRIME明確地將規(guī)劃信息集成到預(yù)測框架中,允許系統(tǒng)在軌跡生成過程中考慮未來的目標(biāo)。然而,這些方法通常因為處理數(shù)據(jù)所涉及的計算復(fù)雜性,在實時多智能體場景中表現(xiàn)并不理想。因此,基于擴散的模型最近被提出來解決這些問題,同時減少計算負(fù)擔(dān),同時保持高預(yù)測性能。
在這項工作中,作者提出了軌跡信息規(guī)劃擴散(Trajectory-Informed Planning Diffusion,TIP-D)模型,該模型基于擴散框架的優(yōu)勢,并直接將規(guī)劃特征集成到運動預(yù)測過程中,目的是結(jié)合規(guī)劃信息來提高軌跡預(yù)測的準(zhǔn)確性和可解釋性。作者的方法能夠通過利用交叉注意力機制動態(tài)融合規(guī)劃特征與環(huán)境數(shù)據(jù),同時預(yù)測多個智能體的軌跡。此外,TIP-D模型在計算復(fù)雜性上實現(xiàn)了顯著降低,與現(xiàn)有的最先進方法相比降低了80%以上,同時在復(fù)雜的多智能體駕駛場景中保持了高準(zhǔn)確性。
相關(guān)工作
多模態(tài)融合
在運動預(yù)測中,準(zhǔn)確的軌跡預(yù)測依賴于不同信息模態(tài)的整合,例如智能體的歷史軌跡和地圖數(shù)據(jù)。為了更好地捕捉運動動態(tài)的復(fù)雜性,最近的研究擴展到包括規(guī)劃軌跡、交通狀態(tài)和車道方向等額外模態(tài)。這些增強旨在提供對動態(tài)環(huán)境更全面的理解,允許模型以更高的準(zhǔn)確性預(yù)測軌跡。Wayformer優(yōu)化注意力機制以提高計算效率,而Scene Transformer使用統(tǒng)一的架構(gòu)有效管理多智能體交互。同樣,LatentFormer采用基于Transformer的方法,結(jié)合潛在變量來提高預(yù)測精度。這些策略證明了整合多個信息模態(tài)對于更準(zhǔn)確、更可靠的運動預(yù)測的有效性。
Planning-aware運動預(yù)測
Planning-aware軌跡預(yù)測是多模態(tài)預(yù)測方法的一個關(guān)鍵方面,其中包含動態(tài)車輛信息的規(guī)劃特征被整合到高級編碼特征中。例如,PiP引入了一個雙模塊系統(tǒng),其中規(guī)劃耦合模塊將未來規(guī)劃注入交互特征中,目標(biāo)融合模塊編碼和解碼智能體之間的未來交互。PRIME通過使用基于模型的場景上下文進一步優(yōu)化這種方法,通過查詢各種張量生成保證可行性的未來軌跡。TPP專注于通過整合來自自我運動采樣器的樹狀結(jié)構(gòu)規(guī)劃結(jié)果來改進規(guī)劃軌跡,盡管它仍然使用采樣器的輸出作為直接輸入,而不是與地圖交互。此外,像Multipath++這樣的模型已經(jīng)證明了這些技術(shù)在運動預(yù)測挑戰(zhàn)中實現(xiàn)最先進的性能的有效性,特別是通過使用有效整合這些多模態(tài)信息源的先進注意力和基于擴散的模型。作者的方法進一步發(fā)展了這一概念,實現(xiàn)了與Multipath++幾乎相當(dāng)?shù)男阅?,同時參數(shù)數(shù)量極少。
方法論
輸入表示
模型使用多模態(tài)嵌入策略將各種數(shù)據(jù)源,如歷史軌跡、高清地圖和規(guī)劃軌跡,轉(zhuǎn)換為統(tǒng)一的高維空間。這確保了模型能夠捕捉到準(zhǔn)確軌跡預(yù)測所需的復(fù)雜的空間和時間關(guān)系。
模型架構(gòu)和融合機制
訓(xùn)練目標(biāo)
作者將損失函數(shù)制定為多項任務(wù)損失的總和,并使用輔助學(xué)習(xí)方法來平衡它們。在訓(xùn)練階段,作者還使用了聯(lián)合損失來平衡最終輸出和預(yù)測頭部的輸出,遵循TrackFormer的方法。
實驗及結(jié)果
數(shù)據(jù)集
Argoverse 數(shù)據(jù)集包含 324,000 個場景,包括詳細(xì)的軌跡序列、傳感器數(shù)據(jù)(如 3D 激光雷達(dá)和攝像頭圖片)以及高清地圖。數(shù)據(jù)集被劃分為訓(xùn)練集、驗證集和測試集,并支持軌跡預(yù)測的多模態(tài)融合。用于評估模型準(zhǔn)確性和預(yù)測能力的指標(biāo)包括最小平均位移誤差(Minimum Average Displacement Error, minADE)、最小最終位移誤差(Minimum Final Displacement Error, minFDE)、未命中率(Miss Rate, MR)和布里爾分?jǐn)?shù)。
指標(biāo)
實驗結(jié)果
作者將提出的方法與最先進的Planning-aware運動預(yù)測技術(shù)進行比較,包括 PIP 和 PRIME 。PRIME 作為基準(zhǔn),作者的方法顯示出顯著的改進:minFDE 提高了 14.10%,minADE 提高了 30.33%,p-minADE 提高了 2.59%。作者的方法還優(yōu)于基于圖神經(jīng)網(wǎng)絡(luò)的方法,如 LaneGCN 、VDC 和 HGO。與基于擴散的方法如 mmdiffusion 和 Scenediffusion 相比,作者的方法取得了更優(yōu)越的結(jié)果,與 Multipath++ 相比參數(shù)數(shù)量減少了 84.43%。
總之,作者提出的方法在 Argoverse 數(shù)據(jù)集上表現(xiàn)出色,實現(xiàn)了更高的預(yù)測準(zhǔn)確性和效率,同時顯著減少了參數(shù)數(shù)量和計算開銷。
消融研究
作者在 Argoverse 數(shù)據(jù)集上使用 minFDE、minADE、Brier-minFDE 和 Brier-minADE 進行了消融研究,以 mmdiffusion 作為基線。Planning-Aware Encoder,整合 PreFusion-D,改進了 minFDE、minADE、Brier-minFDE 和 Brier-minADE,分別提高了 7.81%、0.24%、1.87% 和 0.33%。擴展聯(lián)合損失改進了 minFDE 0.24% 和 minADE 1.45%。為所有智能體添加回歸導(dǎo)致了進一步的增益,分別為 0.82% 和 1.47%。
寫在最后
本文提出了一個Planning-aware的堆疊擴散網(wǎng)絡(luò),這是運動預(yù)測中的一個新框架。Planning-aware擴散預(yù)測未來軌跡時會使用多模態(tài)特征,尤其是先前的規(guī)劃特征。為了獲得更好的融合性能,作者設(shè)計并探索了四個融合模塊,將規(guī)劃信息聚合到堆疊擴散中。作者還提出了一種新的損失函數(shù),迫使網(wǎng)絡(luò)關(guān)注可行駛區(qū)域。在 Argoverse 運動預(yù)測基準(zhǔn)測試中進行的實驗證明了作者模型的有效性。