自動(dòng)駕駛存在不確定性的運(yùn)動(dòng)規(guī)劃:基于強(qiáng)化學(xué)習(xí)的方法
arXiv上2021年10月1日上傳的論文“Motion Planning for Autonomous Vehicles in the Presence of Uncertainty Using Reinforcement Learning“,作者來(lái)自加拿大的華為諾亞實(shí)驗(yàn)室和魁北克大學(xué)。
存在不確定性的運(yùn)動(dòng)規(guī)劃是開(kāi)發(fā)自動(dòng)駕駛車(chē)的主要挑戰(zhàn)之一。本文專(zhuān)注于有限的視野、遮擋和傳感距離限制導(dǎo)致的感知不確定性。通常是考慮遮擋區(qū)域或傳感器感知范圍之外的隱藏目標(biāo)這個(gè)假設(shè)來(lái)解決這個(gè)問(wèn)題,保證被動(dòng)安全。然而,這可能導(dǎo)致保守的規(guī)劃和昂貴的計(jì)算,特別是需要考慮大量假設(shè)目標(biāo)存在時(shí)。
作者提出一種基于 強(qiáng)化學(xué)習(xí) (RL) 的解決方案,對(duì)最壞情況結(jié)果通過(guò)優(yōu)化處理不確定性。這種方法和傳統(tǒng)的 RL 形成對(duì)比,傳統(tǒng) RL代理只是試圖最大化平均預(yù)期獎(jiǎng)勵(lì),是不安全和魯棒的做法,而該方法建立在 分布RL (Distributional RL) 之上,其策略?xún)?yōu)化方法最大化隨機(jī)結(jié)果的下限。這種修正方式可以應(yīng)用于一系列 RL 算法。作為概念驗(yàn)證,這里應(yīng)用于兩種不同的 RL 算法, Soft Actor-Critic (SAC) 和 Deep Q-Network(DQN) 。
該方法針對(duì)兩個(gè)具有挑戰(zhàn)性的駕駛場(chǎng)景進(jìn)行評(píng)估,即 遮擋情況下的行人穿越 和 有限視野的彎曲道路 。該算法用 SUMO 交通模擬器進(jìn)行訓(xùn)練和評(píng)估。與傳統(tǒng)的 RL 算法相比,所提出的方法用于生成更好的運(yùn)動(dòng)規(guī)劃行為,與人類(lèi)的駕駛風(fēng)格相當(dāng)。
RL方法主要有兩種:基于價(jià)值和基于策略。本文分別討論兩種方法的不確定性問(wèn)題。
分布RL (論文“ Distributional reinforcement learning with quantile regression ,” AA Conference on Artificial Intelligence, 2018)旨在估計(jì)每個(gè)狀態(tài)-動(dòng)作對(duì)可能結(jié)果的分布。 通過(guò)訪問(wèn)獎(jiǎng)勵(lì)分布,可以將一個(gè)狀態(tài)的價(jià)值指定為其可能結(jié)果的最壞情況(下限)。
在RL中估計(jì)隨機(jī)變量分布的一種有效方法是 分位數(shù)回歸 ( Quantile Regression,QR) ,用 N 個(gè)分位數(shù)定義的分布,其第一個(gè)分位數(shù)是可能的獎(jiǎng)勵(lì)近似下限。這種方法, QR-DQN ,可以應(yīng)用于任何包含價(jià)值函數(shù)的RL算法。 為此,需要增強(qiáng)價(jià)值函數(shù),估計(jì) N 個(gè)分位數(shù),近似其分布。
用分位數(shù)回歸(QR)來(lái)估計(jì)分位數(shù)價(jià)值時(shí),回歸過(guò)程會(huì)得到價(jià)值從最低到最高的排序。 因此,直接使用第一個(gè)價(jià)值作為下限估計(jì)。這個(gè)方法,稱(chēng)為 保守QR-DQN(CQR-DQN) 。
另一種 RL 算法 SAC(見(jiàn)論文“ Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor ,” ICLR 2018),遵循 Actor-Critic 框架。它 訓(xùn)練 Q -網(wǎng)絡(luò)估計(jì)遵循策略的價(jià)值,并訓(xùn)練策略最大化 Q -值。 這里用分位數(shù)回歸(QR)擴(kuò)展 SAC,即 QR-SAC 。
實(shí)際上,Q -網(wǎng)絡(luò)被擴(kuò)展估計(jì)分位數(shù)。 然后類(lèi)似于 QR-DQN,估計(jì)狀態(tài)-動(dòng)作對(duì)的 Q-值,即分位數(shù)第一個(gè)價(jià)值作為下限估計(jì)。依此,修改QR-DQN的分布Bellman方程,可以得到Critic的分布SAC Bellman更新規(guī)則。該方法,稱(chēng)為 保守QR-SAC(CQR-SAC) 。
在輸入的感知中,OGM 提供有關(guān)遮擋區(qū)域的信息,道路網(wǎng)絡(luò)的光柵圖像,識(shí)別道路使用者可能存在的位置。 此外,希望運(yùn)動(dòng)規(guī)劃器從 OGM 中感知目標(biāo),無(wú)需提供場(chǎng)景目標(biāo)的任何明確信息。為解決這個(gè)運(yùn)動(dòng)規(guī)劃問(wèn)題,在 Frenet 框架搜索最佳軌跡。 這類(lèi)似于 Frenet 框架的傳統(tǒng)運(yùn)動(dòng)規(guī)劃方法。
在 Frenet 框架中,沿著車(chē)道中心的軌跡變?yōu)橹本€軌跡, 簡(jiǎn)化了搜索空間。每個(gè)軌跡包括當(dāng)前速度、當(dāng)前橫向偏距、最終速度和最終橫向偏距。該軌跡建立之后,車(chē)輛速度和橫向位置在預(yù)定的時(shí)間內(nèi)按照一階指數(shù)軌跡從初始值逐漸變化到最終值。
RL智體的輸入包括 2 幀 (當(dāng)前和之前時(shí)刻)OGM、道路網(wǎng)絡(luò)的當(dāng)前幀和當(dāng)前速度,獎(jiǎng)勵(lì)定義為安全、舒適度和移動(dòng)性等方面。
一個(gè)思路,從RL角度來(lái)看,如果智體動(dòng)作被定義為軌跡,假設(shè)智體在未來(lái)狀態(tài)的動(dòng)作與當(dāng)前狀態(tài)的動(dòng)作相同,那么評(píng)估軌跡等效于估計(jì) Q-值。這樣的算法分別記做 (CQR-DQN,CQR-SAC)價(jià)值版 。
另一個(gè)思路,在 RL 公式中未來(lái)狀態(tài)的動(dòng)作(軌跡)取決于智體策略,在知道未來(lái)動(dòng)作可能與當(dāng)前動(dòng)作不同的情況下進(jìn)行評(píng)估。 如果遵循智體策略,分配給狀態(tài)-動(dòng)作對(duì)的 Q-值是預(yù)期的獎(jiǎng)勵(lì)。這樣的算法分別記做 (CQR-DQN,CQR-SAC)策略版 。
遵循和評(píng)估一個(gè)策略帶來(lái)更大靈活性,并且運(yùn)動(dòng)規(guī)劃器可能會(huì)找到更好的解決方案。如圖所示說(shuō)明在評(píng)估軌跡與策略時(shí)要評(píng)估的路徑:
實(shí)驗(yàn)分兩個(gè)場(chǎng)景。一是如圖的行人過(guò)馬路,有遮擋:
二是如圖彎曲道路造成的遮擋:
實(shí)驗(yàn)采用SUMO模擬。比較的RL方法包括:SAC, QR-SAC, CQR-SAC策略版, CQR-SAC價(jià)值版, DQN, QR-DQN, CQR-DQN策略版, CQR-DQN價(jià)值版。
作為基準(zhǔn)的規(guī)則方法有:固定fixed、幼稚naive和覺(jué)察 aware三種。
- 固定法 限速行駛,不考慮其他目標(biāo)。
- 幼稚法 忽略遮擋,限速行駛,除非在其行駛路徑看到一個(gè)目標(biāo)。 這種情況下,它會(huì)以恒定減速度剎車(chē),最高可達(dá) -4 [m/s2],結(jié)果是在目標(biāo)前停住。
- 覺(jué)察法 采用知道遮擋的 IADSR 算法(論文“ What lies in the shadows? safe and computation-aware motion planning for autonomous vehicles using intent-aware dynamic shadow regions ,” ICRA, 2019)。 假設(shè)一個(gè)目標(biāo)存在于遮擋區(qū)域,如果一個(gè)目標(biāo)從遮擋區(qū)域出現(xiàn),那么它剎車(chē)減速(以 -4 [m/s2] 減速度)到完全停止而不會(huì)發(fā)生碰撞。 此外,覺(jué)察法還會(huì)遠(yuǎn)離遮擋機(jī)動(dòng)以增加遮擋附近的視野。
實(shí)驗(yàn)結(jié)果比較如下:其中下標(biāo)Pai是策略版,下標(biāo)Tao是價(jià)值版。
這項(xiàng)工作針對(duì)由遮擋引起不確定性的運(yùn)動(dòng)規(guī)劃問(wèn)題,討論在實(shí)際 RL 問(wèn)題中,采用最大化最壞情況獎(jiǎng)勵(lì)的策略如何更好地匹配所需行為,利用分布RL 最大化最壞情況獎(jiǎng)勵(lì)而不是平均獎(jiǎng)勵(lì)。用分位數(shù)回歸(QR)擴(kuò)展 SAC 和 DQN,找到優(yōu)化最壞情況的動(dòng)作。
用 SUMO 模擬環(huán)境設(shè)計(jì)和評(píng)估一組遮擋情況下的自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃器。提出基于 CQR-SAC和 CQR-DQN 的運(yùn)動(dòng)規(guī)劃器,避免與被遮擋視圖發(fā)生碰撞,無(wú)需微調(diào)獎(jiǎng)勵(lì)函數(shù)。
未來(lái)的工作想應(yīng)用于更復(fù)雜和多樣化的環(huán)境,包括交叉路口、環(huán)形交叉路口以及包含移動(dòng)車(chē)輛的場(chǎng)景。工作期望是,自車(chē)智體可以從其他車(chē)輛的行為隱式地推斷出遮擋區(qū)域的狀態(tài)。