卡耐基梅隆大學 | 世界模型終將驅(qū)動自動駕駛！全新SOTA規(guī)劃算法

作者：自動駕駛Daily 2024-07-11 11:40:18

今天分享一篇卡耐基梅隆大學團隊基于自適應世界模型的自動駕駛規(guī)劃工作！

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

寫在前面&筆者的個人理解

運動規(guī)劃對于復雜城市環(huán)境中的安全航行至關(guān)重要。從歷史上看，運動規(guī)劃器（MP）是在仿真環(huán)境（如CARLA）進行評估的。然而，這種合成基準并不能捕捉現(xiàn)實世界中的多智能體交互。最近發(fā)布的MP基準測試nuPlan通過使用閉環(huán)仿真邏輯增強現(xiàn)實世界的駕駛?cè)罩緛斫鉀Q這一限制，有效地將固定數(shù)據(jù)集變成了反應仿真器。我們分析了nuPlan記錄日志的特征，發(fā)現(xiàn)每個城市都有自己獨特的駕駛行為，這表明穩(wěn)健的規(guī)劃者必須適應不同的環(huán)境。我們學習使用BehaviorNet對這種獨特的行為進行建模，BehaviorNetwork是一種圖卷積神經(jīng)網(wǎng)絡(luò)（GCNN），它使用從最近觀察到的代理歷史中導出的特征來預測反應性代理行為；憑直覺，一些激進的agent可能會尾隨車輛，而其他agent則可能不會。為了對這些現(xiàn)象進行建模，BehaviorNet預測代理的運動控制器的參數(shù)，而不是預測其時空軌跡（就像大多數(shù)預測者所做的那樣）。最后，我們介紹了AdaptiveDriver，這是一種基于模型預測控制（MPC）的規(guī)劃器，它以Behav-iorNet的預測為條件展開不同的世界模型。我們的大量實驗表明，AdaptiveDriver在nuPlan閉環(huán)規(guī)劃基準上取得了最先進的結(jié)果，將測試誤差從6.4%降低到4.6%，即使應用于從未見過的城市。

項目主頁：https://arunbalajeev.github.io/world_models_planning/world_model_paper.html

總結(jié)來說，本文的主要貢獻如下：

我們證明，每個城市都有自己獨特的駕駛行為，適應這些不同的環(huán)境會顯著提高規(guī)劃性能。此外，我們發(fā)現(xiàn)一個城市的行為甚至會有所不同，從而激勵我們下一步的貢獻。
我們提出了BehaviorNet，這是一種圖卷積神經(jīng)網(wǎng)絡(luò)（GCNN），它使用最近在周圍場景中觀察到的代理的特征來預測參數(shù)化為IDM控制的駕駛行為。
本文介紹了AdaptiveDriver，這是一款基于模型預測控制（MPC）的規(guī)劃器，它可以展開并執(zhí)行自適應世界模型，以在各種環(huán)境中安全導航，在nuPlan上實現(xiàn)最先進的閉環(huán)規(guī)劃性能。

相關(guān)工作回顧

基于規(guī)則的規(guī)劃。盡管最近的工作側(cè)重于通過預測目標條件下的路線點、成本量和獎勵函數(shù)來學習穩(wěn)健的政策，但基于規(guī)則的規(guī)劃者仍然優(yōu)于基于實際數(shù)據(jù)的學習方法?；谝?guī)則的規(guī)劃者得到了很好的研究，并因其安全保障和可解釋性而被廣泛采用。給定當前位置、速度和到引導車輛的距離，基于規(guī)則的規(guī)劃者估計縱向加速度，以安全地朝著目標前進。智能駕駛員模型（IDM）是一種用于車輛運動規(guī)劃的經(jīng)典非學習算法，它依靠基于圖的搜索來到達目標，同時使用PID速度控制器來避免與其他車輛碰撞。Dauner等人通過對多個軌跡進行采樣并展開等速世界模型來升級IDM，以選擇成本最低的最優(yōu)軌跡。這改進了碰撞避免，而不會導致過于保守的運動計劃。

軌跡優(yōu)化。運動規(guī)劃通常被定義為手工設(shè)計的成本函數(shù)的優(yōu)化問題，然后將其最小化以生成最優(yōu)軌跡。為了簡化這一過程，成本函數(shù)采用平方目標函數(shù)，或?qū)⒁?guī)劃任務劃分為橫向和縱向部分。通常使用A*、RRT和動態(tài)規(guī)劃等方法來搜索最優(yōu)解。CoverNet生成一組軌跡，并根據(jù)成本函數(shù)對其進行評估，選擇成本最低的軌跡。雖然這些方法由于其并行性、可解釋性和功能保證而具有吸引力，但當應用于真實世界的場景時，它們并不健壯，需要進行重大的超參數(shù)調(diào)整。傳統(tǒng)的軌跡優(yōu)化方法通常旨在計算從初始配置到期望目標配置的完整軌跡。然而，考慮到駕駛環(huán)境固有的動態(tài)和不確定性，無法提前預測精確的長期運動計劃。因此，模型預測控制（MPC）近年來在實時路徑規(guī)劃中獲得了突出地位，因為它采用迭代成本最小化策略為每個時間步長選擇局部最優(yōu)軌跡。這使得基于MPC的算法能夠快速適應環(huán)境的變化。

數(shù)據(jù)驅(qū)動的仿真。近年來，利用CARLA、AirSim等模擬器環(huán)境的可用性，出現(xiàn)了許多基于學習的規(guī)劃者。然而，目前的仿真環(huán)境是有限的，因為它們依賴于游戲引擎生成的合成數(shù)據(jù)，并且視覺逼真度不足。重要的是，他們?nèi)狈θ媾嘤柡驮u估所需的駕駛場景的必要多樣性。為了解決這些限制，提出了多智能體行為模型，用于生成多樣化和現(xiàn)實的交通模擬。最近，推出了Waymo模擬agent挑戰(zhàn)，通過將所有仿真代理的軌跡與其地面實況軌跡進行比較來評估模擬器。此外，CommonRoad提供了一個駕駛數(shù)據(jù)集和規(guī)劃基準，它結(jié)合了真實世界的數(shù)據(jù)和基于規(guī)則的啟發(fā)式方法。相比之下，nuPlan通過閉環(huán)模擬邏輯增強了真實世界的駕駛?cè)罩?，有效地將固定?shù)據(jù)集變成了反應式模擬器。nuPlan發(fā)布了來自拉斯維加斯、波士頓、匹茲堡和新加坡等多個城市的1300小時真實駕駛?cè)罩?。在每個城市開車都會帶來一系列獨特的駕駛挑戰(zhàn)。例如，拉斯維加斯有許多高密度的上下車地點，每個方向有8條平行車道的十字路口。在波士頓，司機們傾向于雙停車，這給規(guī)劃帶來了獨特的挑戰(zhàn)。

Planning With An Ensemble of World Models

在本節(jié)中，我們分析了PDM-C的局限性，并提出了AdaptiveDriver，這是一種模型預測控制的替代實例，在nuPlan基準上實現(xiàn)了最先進的閉環(huán)規(guī)劃性能。

nuPlan在反應仿真中評估規(guī)劃者。nuPlan通過閉環(huán)模擬邏輯增強了真實世界的駕駛?cè)罩?，允許其他代理對自我車輛做出反應。代理以基于其軌跡歷史的初始速度實例化，并將從記錄的駕駛?cè)罩局兄匦履M其空間軌跡。所有代理的封閉世界模擬邏輯用固定的目標速度（h0）、最小間隙（h1）、車頭時距（h2）、最大加速度（h3）和最大減速度（h4）初始化。

理解PDM-C的局限性。PDM-C是一種最先進的基于規(guī)則的規(guī)劃器，它改進了智能駕駛員模型（IDM），這是一種沿參考路徑使用簡單縱向PID速度控制器的跟車算法。PDM-C通過用不同的縱向速度和橫向偏移調(diào)制IDM的參考路徑來生成候選軌跡，在內(nèi)部展開其他代理的世界模型，并選擇使該世界模型的成本函數(shù)最小化的軌跡，將IDM升級為基于MPC的規(guī)劃器。值得注意的是，PDM-C使用了一個更簡單的“軌道上的世界”內(nèi)部世界模型，其中其他代理是無反應的，在推出過程中以恒定速度移動。盡管具有恒定速度預測的“軌道上的世界”模型可能適用于短期預測，但它無法正確模擬多智能體的相互作用，如車道變更、車道合并和紅綠燈停車。

用BehaviorNet預測未來Agent行為。我們通過學習使用BehaviorNet預測未來的代理行為，改進了“軌道上的世界”模型。我們通過編碼自車輛周圍半徑為R的矢量化道路圖和所有附近代理的兩秒軌跡歷史，對每個場景的獨特駕駛特征進行建模。BehaviorNet由幾個多尺度圖卷積和注意力模塊組成，后面是一個全連接層，用于預測IDM控制參數(shù)。我們在補充中進一步描述了BehaviorNet的架構(gòu)。值得注意的是，與傳統(tǒng)的預測器不同，BehaviorNet直接預測IDM控制參數(shù)，然后可以用來展開反應世界模型。

學習自適應行為參數(shù)。我們用過去的代理軌跡和目標IDM控制參數(shù)的配對例子來訓練BehaviorNet，這些參數(shù)最能解釋未來的代理行為。我們通過使用網(wǎng)格搜索擬合訓練日志來優(yōu)化目標IDM參數(shù)：

Training Log-BehaviorNet。盡管每個城市都有不同的駕駛特征，但代理人在一個城市內(nèi)的行為仍然不同。例如，波士頓的司機可能會在市內(nèi)使用尾門，但在高速公路上駕駛時更容易造成事故。為了對此進行建模，我們只需在每個單獨的訓練日志上優(yōu)化Eq.1。圖3（a）用tSNE可視化了一組特定于日志的IDM參數(shù){}，按城市進行顏色編碼。我們沒有訓練BehaviorNet來直接回歸這些參數(shù)，而是將問題重新定義為一個簡單的離散分類任務。具體來說，我們將{}的集合聚類為K個聚類，并用K路softmax損失訓練BehaviorNet。我們將此網(wǎng)絡(luò)稱為日志行為網(wǎng)絡(luò)，與城市行為網(wǎng)絡(luò)形成對比。圖3-b）將學習到的行為集群與（a）中的原始城市“集群”進行了比較。圖3-（c）繪制了兩個不同集群的最小間隙分布，表明每個集群松散地對應于原型行為，如“攻擊性”或“被動”。我們調(diào)整行為集群的數(shù)量（K），以便最大化nuPlan val集上的C3性能。有趣的是，最優(yōu)數(shù)量（16）遠大于不同城市的數(shù)量（4）。重要的是，我們表明，與城市特定模型相比，城市不可知集群的泛化能力更強，尤其是在從未見過的城市上進行評估時。

將學習的先驗納入基于規(guī)則的規(guī)劃器。盡管像PDM-C這樣的基于規(guī)則的規(guī)劃者在真實數(shù)據(jù)上仍然優(yōu)于基于學習的方法，但它們無法在世界模型的推出中準確地對未來的代理行為建模。我們的目標是通過AdaptiveDriver（參見圖4）彌合基于規(guī)則和學習的規(guī)劃者之間的差距，AdaptiveDrive是一種模型預測控制（MPC）規(guī)劃者，使用行為參數(shù)預測來提高世界模型推出的質(zhì)量。值得注意的是，盡管AdaptiveDriver和PDM-C都是基于MPC的規(guī)劃者的實例，但我們的模型（1）使用了一個反應世界模型，該模型（2）使用從過去的代理行為中導出的特征來適應每個日志。

實驗

結(jié)論

在本文中，我們證明了每個城市都有自己獨特的駕駛行為（例如，波士頓司機比匹茲堡司機更傾向于尾門），并學習使用BehaviorNet對獨特的駕駛特征進行建模。我們提出了AdaptiveDriver，這是一種模型預測控制（MPC），它以BehaviorNet的預測為條件展開并執(zhí)行特定行為的世界模型，并在nuPlan閉環(huán)反應基準上實現(xiàn)最先進的性能。

責任編輯：張燕妮來源：自動駕駛之心

自動駕駛模型

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

卡耐基梅隆大學 | 世界模型終將驅(qū)動自動駕駛！全新SOTA規(guī)劃算法

寫在前面&筆者的個人理解

相關(guān)工作回顧

Planning With An Ensemble of World Models

實驗

結(jié)論

卡耐基梅隆大學 | 世界模型終將驅(qū)動自動駕駛！全新SOTA規(guī)劃算法