NeurlPS'24開(kāi)源 | RealMotion:連續(xù)自動(dòng)駕駛中的運(yùn)動(dòng)預(yù)測(cè)
0. 論文信息
標(biāo)題:Motion Forecasting in Continuous Driving
作者:Nan Song, Bozhou Zhang, Xiatian Zhu, Li Zhang
機(jī)構(gòu):Fudan University、University of Surrey
原文鏈接:https://arxiv.org/abs/2410.06007
代碼鏈接:https://github.com/fudan-zvg/RealMotion
1. 導(dǎo)讀
由于每個(gè)智能體的下一步行動(dòng)有許多可能性以及它們?cè)诳臻g和時(shí)間上的復(fù)雜交互,自動(dòng)駕駛中智能體的運(yùn)動(dòng)預(yù)測(cè)極具挑戰(zhàn)性。在實(shí)際應(yīng)用中,隨著自動(dòng)駕駛汽車(chē)的移動(dòng),運(yùn)動(dòng)預(yù)測(cè)會(huì)重復(fù)不斷地發(fā)生。然而,現(xiàn)有的預(yù)測(cè)方法通常獨(dú)立處理一定范圍內(nèi)的每個(gè)駕駛場(chǎng)景,完全忽略了連續(xù)駕駛場(chǎng)景之間的情境和上下文關(guān)系。這極大地簡(jiǎn)化了預(yù)測(cè)任務(wù),使得解決方案在實(shí)踐中不是最佳的和低效的。為了解決這一基本限制,我們提出了一種新的連續(xù)駕駛運(yùn)動(dòng)預(yù)測(cè)框架,名為RealMotion。它包括兩個(gè)完整的場(chǎng)景級(jí)流:(1)場(chǎng)景上下文流漸進(jìn)地累積歷史場(chǎng)景信息直到當(dāng)前時(shí)刻,捕捉場(chǎng)景元素之間的時(shí)間交互關(guān)系。(2)代理軌跡流通過(guò)順序轉(zhuǎn)發(fā)過(guò)去的預(yù)測(cè)來(lái)優(yōu)化當(dāng)前的預(yù)測(cè)。此外,還引入了數(shù)據(jù)重組策略,以縮小現(xiàn)有基準(zhǔn)和現(xiàn)實(shí)應(yīng)用之間的差距,與我們的網(wǎng)絡(luò)保持一致。這些方法能夠更廣泛地利用跨空間和時(shí)間的動(dòng)態(tài)運(yùn)動(dòng)的情境和漸進(jìn)的洞察力。在不同設(shè)置的Argoverse系列上的大量實(shí)驗(yàn)表明,我們的RealMotion實(shí)現(xiàn)了最先進(jìn)的性能,以及高效的真實(shí)世界推理的優(yōu)勢(shì)。
2. 引言
運(yùn)動(dòng)預(yù)測(cè)是當(dāng)代自動(dòng)駕駛系統(tǒng)中的關(guān)鍵要素,它使自動(dòng)駕駛車(chē)輛能夠預(yù)測(cè)周?chē)黧w(agent)的運(yùn)動(dòng)模式。這一預(yù)測(cè)對(duì)于確保駕駛的安全性和可靠性至關(guān)重要。然而,眾多復(fù)雜因素,包括隨機(jī)的道路狀況和交通參與者多樣化的運(yùn)動(dòng)模式,使得解決這一任務(wù)頗具挑戰(zhàn)性。近期的研究聚焦于表征和建模的研究,同時(shí)越來(lái)越重視精確的軌跡預(yù)測(cè)。此外,該領(lǐng)域還越來(lái)越關(guān)注多主體預(yù)測(cè)這一更具挑戰(zhàn)性但更有價(jià)值的子任務(wù)。這些進(jìn)展共同推動(dòng)了近年來(lái)運(yùn)動(dòng)預(yù)測(cè)領(lǐng)域的顯著進(jìn)步。推薦課程:面向自動(dòng)駕駛領(lǐng)域的3D點(diǎn)云目標(biāo)檢測(cè)全棧學(xué)習(xí)路線(xiàn)!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)。
我們提出了一種用于連續(xù)駕駛的高效上下文運(yùn)動(dòng)預(yù)測(cè)框架,名為RealMotion。它包含兩個(gè)用于場(chǎng)景狀態(tài)轉(zhuǎn)換的流:(1)場(chǎng)景上下文流,該流逐步累積歷史場(chǎng)景上下文,捕捉場(chǎng)景元素之間的時(shí)間交互,并應(yīng)對(duì)復(fù)雜的駕駛情況。(2)主體軌跡流,該流持續(xù)優(yōu)化車(chē)輛等動(dòng)態(tài)主體的預(yù)測(cè),考慮時(shí)間一致性約束,并捕捉精確的運(yùn)動(dòng)意圖。每個(gè)流都利用專(zhuān)門(mén)設(shè)計(jì)的交叉注意力機(jī)制來(lái)轉(zhuǎn)換場(chǎng)景狀態(tài)并實(shí)現(xiàn)其功能。
3. 效果展示
我們意識(shí)到現(xiàn)有方法孤立地處理運(yùn)動(dòng)預(yù)測(cè)任務(wù),即它們將有限范圍內(nèi)的每個(gè)獨(dú)立駕駛場(chǎng)景視為互不相關(guān)的個(gè)體,忽略了在真實(shí)情況下,任何自動(dòng)駕駛車(chē)輛在行駛過(guò)程中,運(yùn)動(dòng)預(yù)測(cè)本質(zhì)上都是時(shí)間上相互關(guān)聯(lián)的。這意味著先前的方法忽略了連續(xù)場(chǎng)景之間的駕駛上下文,以及來(lái)自先前駕駛時(shí)段的相應(yīng)潛在有用信息(圖1)。
4. 主要貢獻(xiàn)
我們的貢獻(xiàn)總結(jié)如下:(i)我們從實(shí)際應(yīng)用的角度出發(fā)解決運(yùn)動(dòng)預(yù)測(cè)問(wèn)題,這使得能夠提取和利用有價(jià)值的情境知識(shí)和漸進(jìn)知識(shí)。(ii)我們引入了RealMotion,這是一種新穎的運(yùn)動(dòng)預(yù)測(cè)方法,它隨時(shí)間順序利用場(chǎng)景上下文和預(yù)測(cè)的主體運(yùn)動(dòng)狀態(tài),同時(shí)保持較低的現(xiàn)實(shí)世界推理延遲。(iii)為了支持在現(xiàn)有基準(zhǔn)上的連續(xù)駕駛設(shè)置,我們實(shí)現(xiàn)了一種數(shù)據(jù)重組策略來(lái)生成場(chǎng)景序列,緊密模擬現(xiàn)實(shí)世界中的駕駛場(chǎng)景。在Argoverse系列數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)表明,在不同設(shè)置下,RealMotion均達(dá)到了最先進(jìn)的性能。
5. 方法
鑒于現(xiàn)有基準(zhǔn)測(cè)試與實(shí)際應(yīng)用之間的差異,我們的首要步驟是對(duì)這些數(shù)據(jù)集進(jìn)行重新組織,將每個(gè)樣本場(chǎng)景轉(zhuǎn)換為連續(xù)序列,以模擬連續(xù)的真實(shí)駕駛場(chǎng)景。具體而言,我們通過(guò)將智能體軌跡均勻分割為較短的片段并采樣局部地圖元素(參見(jiàn)圖2),來(lái)回顧性地檢查每個(gè)獨(dú)立場(chǎng)景。具體來(lái)說(shuō),我們首先沿著歷史幀步驟選擇幾個(gè)分割點(diǎn)Ti。然后,從這些點(diǎn)分別向過(guò)去和未來(lái)延伸,生成等長(zhǎng)的軌跡片段。歷史和未來(lái)步驟的數(shù)量分別由最小分割點(diǎn)和真實(shí)軌跡的長(zhǎng)度決定。此外,在每個(gè)分割點(diǎn),我們?yōu)楦信d趣的智能體聚合一定范圍內(nèi)的周?chē)悄荏w和局部地圖,形成一系列子場(chǎng)景。這種重新組織方式能夠自由利用原始元素,從而在場(chǎng)景層面為模型優(yōu)化提供有價(jià)值的環(huán)境信息和漸進(jìn)見(jiàn)解。因此,現(xiàn)有方法也可以引入這種新型數(shù)據(jù)結(jié)構(gòu)并從中受益。
如圖3所示,我們的RealMotion方法包括編碼器、解碼器、場(chǎng)景上下文流和智能體軌跡流。遵循編碼器-解碼器結(jié)構(gòu),這兩個(gè)流被設(shè)計(jì)為執(zhí)行時(shí)序建模,重點(diǎn)關(guān)注時(shí)間維度上的上下文信息和軌跡預(yù)測(cè)。
6. 實(shí)驗(yàn)結(jié)果
7. 總結(jié) & 局限性
在本文中,我們計(jì)劃從更貼近實(shí)際的連續(xù)駕駛角度出發(fā)來(lái)解決運(yùn)動(dòng)預(yù)測(cè)任務(wù)。這本質(zhì)上相較于之前的設(shè)定,將運(yùn)動(dòng)預(yù)測(cè)功能置于了一個(gè)更廣泛的場(chǎng)景背景中。我們進(jìn)一步提出了RealMotion,這是一個(gè)專(zhuān)為支持在時(shí)空上連續(xù)進(jìn)行預(yù)測(cè)動(dòng)作而設(shè)計(jì)的通用框架。我們框架的關(guān)鍵組件包括場(chǎng)景上下文流和代理軌跡流,這兩者都以序列化的方式工作,并逐步捕捉時(shí)間關(guān)系。我們?cè)诙喾N設(shè)定下進(jìn)行了廣泛的實(shí)驗(yàn),全面證明了RealMotion超越了當(dāng)前最先進(jìn)的性能水平,從而為快速發(fā)展的自動(dòng)駕駛領(lǐng)域中的安全可靠運(yùn)動(dòng)預(yù)測(cè)提供了一個(gè)有前景的方向。
我們數(shù)據(jù)處理方法的一個(gè)明顯限制是需要足夠數(shù)量的歷史幀來(lái)進(jìn)行序列化。因此,它不適用于如Waymo Open Dataset等僅提供10幀歷史軌跡的短期基準(zhǔn)測(cè)試。此外,現(xiàn)有的數(shù)據(jù)集通常提供的歷史信息與真實(shí)世界場(chǎng)景差異較大且有限,這阻礙了我們的序列化設(shè)計(jì)充分發(fā)揮其優(yōu)勢(shì)。因此,我們期望在未來(lái)的工作中將我們的框架集成到序列化的自動(dòng)駕駛系統(tǒng)中,以最大化流式設(shè)計(jì)的效益。