面向無信號(hào)交叉口的自動(dòng)駕駛解決方案!涵蓋強(qiáng)化學(xué)習(xí)的超全綜述!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫在前面&筆者的個(gè)人理解
目前,自動(dòng)駕駛系統(tǒng)的發(fā)展愈發(fā)的成熟,但在無信號(hào)交叉路口的自動(dòng)駕駛技術(shù)仍然被認(rèn)為是機(jī)器學(xué)習(xí)的一個(gè)具有挑戰(zhàn)性的應(yīng)用,因?yàn)樘幚砭哂懈叨炔淮_定性的復(fù)雜多智能體場(chǎng)景對(duì)于模型而言還是非常復(fù)雜的。因此,如何在這些無信號(hào)的交叉路口等安全關(guān)鍵環(huán)境中實(shí)現(xiàn)決策過程的自動(dòng)化涉及場(chǎng)景理解以及學(xué)習(xí)穩(wěn)健的駕駛行為相關(guān)的多個(gè)抽象層次,以使自動(dòng)駕駛車輛能夠進(jìn)行高效的導(dǎo)航。
對(duì)于自動(dòng)駕駛系統(tǒng)的決策任務(wù)而言,采用了層級(jí)的結(jié)構(gòu)進(jìn)行表示。各個(gè)層級(jí)分別包括規(guī)劃下一步要去哪里、根據(jù)車載傳感器的觀察結(jié)果在短期和長期時(shí)間范圍內(nèi)做出決策、在同一環(huán)境中與其他智能體交互的影響下做出決策、確保車輛控制安全可靠、從駕駛歷史信息和自然的人類駕駛風(fēng)格中學(xué)習(xí)、與其他車輛協(xié)調(diào)共同執(zhí)行某些任務(wù)。然而,在城市交叉路口的背景下,要使自動(dòng)駕駛汽車能夠在如此復(fù)雜的環(huán)境中安全高效地行駛,需要高度的自主性。但是對(duì)于目前的自動(dòng)駕駛汽車,即使是完全自動(dòng)駕駛的汽車,也無法始終完全安全行駛,也無法保證由于關(guān)鍵的決策錯(cuò)誤而實(shí)現(xiàn)無碰撞的操作。
在無信號(hào)交叉口做出決策是一個(gè)非常棘手的過程。復(fù)雜的駕駛行為和交通控制信號(hào)的消失使得對(duì)其他交叉口用戶的運(yùn)動(dòng)推斷極具挑戰(zhàn)性,如下圖所示。
不同類型的無信號(hào)燈的交叉路口
基于此,目前在學(xué)術(shù)界和工業(yè)界已經(jīng)進(jìn)行了大量研究來探討提高無信號(hào)交叉口駕駛安全性的算法。根據(jù)我們的深入調(diào)查,我們發(fā)現(xiàn)所提出的決策算法可以分為三大類:合作方法,包括博弈論、基于啟發(fā)式的方法和混合方法。然而,上述這些方法由于需要調(diào)整的規(guī)則數(shù)量眾多,因此設(shè)計(jì)此類規(guī)則以適應(yīng)各種可能的交叉情況是一個(gè)繁瑣的過程?;跈C(jī)器學(xué)習(xí)的方法,尤其是強(qiáng)化學(xué)習(xí)方法,側(cè)重于從車輛與交叉路口環(huán)境之間的交互中學(xué)習(xí)駕駛策略。目前,有不少的文獻(xiàn)中已經(jīng)廣泛研究了應(yīng)用現(xiàn)代基于強(qiáng)化學(xué)習(xí)的方法來學(xué)習(xí)無信號(hào)交叉口的最佳駕駛策略。
但是與現(xiàn)有的關(guān)于自動(dòng)駕駛汽車強(qiáng)化學(xué)習(xí)的綜述論文相比,我們的論文方法綜述更加地關(guān)注基于強(qiáng)化學(xué)習(xí)的決策技術(shù),特別是針對(duì)無信號(hào)交叉口這一領(lǐng)域,該領(lǐng)域尚未在文獻(xiàn)中得到全面涵蓋?;诖?,本文將聚焦于在與無信號(hào)交叉口自動(dòng)駕駛汽車行為運(yùn)動(dòng)規(guī)劃相關(guān)的各個(gè)方面。
論文鏈接:https://www.arxiv.org/pdf/2409.13144
不確定性下的自動(dòng)駕駛
無信號(hào)交叉口其他交叉口車輛運(yùn)動(dòng)預(yù)測(cè)的不確定性是由以下因素引起的
- 路口使用者的未知意圖:其他路口參與者的運(yùn)動(dòng)與自身車輛的未來軌跡高度相關(guān)。因此,為了實(shí)現(xiàn)安全的路口導(dǎo)航,必須獲得路口用戶的精確運(yùn)動(dòng)預(yù)測(cè)。推斷意圖的主要困難來自于未知當(dāng)前狀態(tài)和隱藏變量的內(nèi)在不確定性,即未知的最終目的地及其不可預(yù)見的未來縱向路徑,以及它們與主體車輛交互的可能性。
- 傳感器觀測(cè)的噪聲特性:從安裝的傳感器收集的測(cè)量值相關(guān)的噪聲為決策問題增加了另一層不確定性。
- 環(huán)境遮擋、感知受限:環(huán)境障礙和遮擋會(huì)阻礙準(zhǔn)確觀察場(chǎng)景的能力。
下圖展示了在四向無信號(hào)交叉口這些不確定性的來源示例。在設(shè)計(jì)復(fù)雜交叉路口環(huán)境中基于學(xué)習(xí)的決策方案時(shí)考慮這些不確定性對(duì)于自車安全穿越交叉路口至關(guān)重要。
在交叉路口穿越場(chǎng)景中,自主車輛需要處理與接近車輛相關(guān)的幾種不確定性
駕駛員意圖推理
準(zhǔn)確推斷和預(yù)測(cè)無信號(hào)交叉口處駕駛員的意圖對(duì)于解決事故原因和確保如此多樣化的多智能體環(huán)境中的道路安全至關(guān)重要。為了開發(fā)DII應(yīng)用的算法,人們進(jìn)行了多項(xiàng)研究。這些算法將意圖推理問題作為分類問題來解決,其中意圖根據(jù)駕駛行為進(jìn)行分類,這些DII方法可以分為兩類:基于索引的方法和基于學(xué)習(xí)的方法。在基于索引的方法中,安全指標(biāo)用于檢查交叉路口的駕駛行為,以制定風(fēng)險(xiǎn)評(píng)估方案。另外一類基于經(jīng)典機(jī)器學(xué)習(xí)分類技術(shù)也已被用于意圖推理應(yīng)用當(dāng)中。
近年來,受建模序列任務(wù)方面的有效性的啟發(fā),研究人員采用了深度結(jié)構(gòu)化的循環(huán)神經(jīng)網(wǎng)絡(luò)來確定無信號(hào)交叉口處駕駛員的意圖。下表總結(jié)了所調(diào)查的基于深度學(xué)習(xí)的意圖推理方案,強(qiáng)調(diào)了它們的研究目標(biāo)和重要特性。
決策挑戰(zhàn)
由于深層結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)在處理大型部分可觀察狀態(tài)-動(dòng)作空間方面的優(yōu)勢(shì),主要研究方向是開發(fā)基于學(xué)習(xí)的方案,以解決與自主穿越無信號(hào)交叉口相關(guān)的問題。因此,我們主要調(diào)研并介紹開發(fā)基于學(xué)習(xí)的不確定性決策算法所涉及的主要設(shè)計(jì)挑戰(zhàn),以及對(duì)相關(guān)最新解決方案的回顧。
(1)部分可觀測(cè)性
在真實(shí)的多智能體自動(dòng)駕駛環(huán)境中,智能體對(duì)其所交互的環(huán)境的信息不完整。因此,在這樣的環(huán)境中設(shè)計(jì)一個(gè)強(qiáng)大的決策框架被認(rèn)為是一個(gè)棘手的問題。在實(shí)際過程中,這類問題通常被建模為POMDP,學(xué)習(xí)一種駕駛策略以提供安全的操作,同時(shí)考慮到推斷意圖和運(yùn)動(dòng)規(guī)劃過程中固有的隨機(jī)性。下圖展示了利用設(shè)計(jì)的LSTM網(wǎng)絡(luò)架構(gòu)來處理POMDP并表示四向停車無信號(hào)交叉口的決策問題。
通過上圖可以看出,每個(gè)時(shí)間戳的動(dòng)作輸出是根據(jù)每個(gè)單獨(dú)時(shí)間戳中網(wǎng)絡(luò)的第一個(gè)LSTM和全連接層的觀察輸入獲得的。隨后,通過將前一步處的動(dòng)作與當(dāng)前步驟的觀察作為第二個(gè)LSTM和全連接層的輸入來生成Q值。
(2)連續(xù)動(dòng)作空間中的訓(xùn)練
在現(xiàn)實(shí)的自動(dòng)駕駛中,需要自主代理的持續(xù)動(dòng)作才能安全、高效地完成導(dǎo)航任務(wù)。為了確保所用模型和能力的收斂性,我們必須以魯棒的方式來處理這些連續(xù)的空間。某些研究者采用了深度確定性策略梯度DDPG,用于在四向無信號(hào)交叉口環(huán)境中生成連續(xù)動(dòng)作,而不是離散的動(dòng)作。
下圖展示了利用深度強(qiáng)化學(xué)習(xí)與基于安全的連續(xù)控制相結(jié)合的方法,用于學(xué)習(xí)自動(dòng)駕駛和防撞應(yīng)用的最佳策略。由于這類集成策略很好的證明了在學(xué)習(xí)高速公路無碰撞駕駛策略方面的實(shí)用性,因此將這種高級(jí)深度強(qiáng)化學(xué)習(xí)方案與控制律相結(jié)合對(duì)于解決無信號(hào)交叉口框架內(nèi)的連續(xù)控制問題至關(guān)重要。
既實(shí)現(xiàn)了基于Value的方法,又實(shí)現(xiàn)了基于Policy方法的示意圖
(3)在高維狀態(tài)-動(dòng)作空間中進(jìn)行訓(xùn)練
深度強(qiáng)化學(xué)習(xí)的核心是執(zhí)行迭代優(yōu)化過程來學(xué)習(xí)特定任務(wù)的策略。然而,隨著狀態(tài)-動(dòng)作空間變大,迭代次數(shù)會(huì)呈指數(shù)增長。相關(guān)論文中提出一種CPPO網(wǎng)絡(luò)框架,用于增強(qiáng)無信號(hào)交叉口自動(dòng)駕駛汽車的標(biāo)準(zhǔn)PPO算法,詳細(xì)的網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示。
此外,還有一些工作是基于圖網(wǎng)絡(luò)進(jìn)行實(shí)現(xiàn)的,但是某些論文中提出,當(dāng)前基于圖的方法的局限性,這些方法無法涵蓋整個(gè)道路網(wǎng)絡(luò),并且過度依賴手工制作的特征來進(jìn)行車輛間交互建模,如下圖所示。
通過上圖可以看出,為了解決這些缺點(diǎn),作者提出了一個(gè)框架,該框架可以在異構(gòu)有向圖中捕獲道路網(wǎng)絡(luò)和交通參與者的復(fù)雜性。這種表示可以處理不同的元素,例如,各種類型的車輛、行人、騎自行車的人、交通標(biāo)志等及其獨(dú)特的屬性,從而捕捉道路網(wǎng)絡(luò)及其用戶的復(fù)雜性,而傳統(tǒng)圖表可能無法捕捉到全部范圍并依賴于靜態(tài)的手工制作的特征。然后,該圖被巧妙地轉(zhuǎn)換為具有可學(xué)習(xí)邊緣的更簡(jiǎn)單的車輛圖,表示連接車輛的路線。這使得強(qiáng)化學(xué)習(xí)算法能夠在簡(jiǎn)化但有效的環(huán)境表示上運(yùn)行,重點(diǎn)關(guān)注車輛在道路上行駛時(shí)的動(dòng)態(tài)交互。相關(guān)的實(shí)驗(yàn)驗(yàn)證表明,具有可學(xué)習(xí)邊緣特征的所提方案的性能得到了顯著改善。這種增強(qiáng)表明車輛關(guān)系的表示更有效。
討論和研究方向
根據(jù)相關(guān)論文的深入調(diào)查,可以得出結(jié)論,最先進(jìn)的決策方案?jìng)?cè)重于高級(jí)決策層,即行為路徑規(guī)劃的高級(jí)推理,而忽略了先前提出的其他低級(jí)層,包括低級(jí)運(yùn)動(dòng)規(guī)劃和控制。此外,沒有研究在真實(shí)駕駛環(huán)境中的實(shí)施和測(cè)試。實(shí)際上,由于領(lǐng)域不匹配,基于模擬的環(huán)境中強(qiáng)化模型的收斂并不一定能確保在現(xiàn)實(shí)場(chǎng)景中的可推廣性?,F(xiàn)實(shí)世界的觀察在相關(guān)噪聲序列和車輛動(dòng)力學(xué)響應(yīng)方面有所不同。因此,我們建議基于這些見解來進(jìn)行相關(guān)研究的途徑,以期推動(dòng)研究領(lǐng)域的發(fā)展。
運(yùn)動(dòng)規(guī)劃與低級(jí)控制集成
許多研究論文利用MPC原理探討了城市無信號(hào)交叉口的運(yùn)動(dòng)規(guī)劃問題和控制。從實(shí)際角度來看,在城市自動(dòng)駕駛中實(shí)現(xiàn)精確決策需要將考慮車輛動(dòng)力學(xué)的運(yùn)動(dòng)規(guī)劃和低級(jí)控制層與基于強(qiáng)化學(xué)習(xí)的行為規(guī)劃器相結(jié)合。這種集成對(duì)于確?;趶?qiáng)化學(xué)習(xí)的行為規(guī)劃器操作可行至關(guān)重要。因此,在學(xué)習(xí)交叉路口穿越策略時(shí)結(jié)合運(yùn)動(dòng)規(guī)劃層將確??尚械牟僮骱透弑U娑?,同時(shí)考慮到橫向和縱向動(dòng)力學(xué)。
此外,我們也將基于SAC的行為路徑規(guī)劃層與基于MPC的運(yùn)動(dòng)規(guī)劃層的集成論文匯總在了下表中,該類方法可以實(shí)現(xiàn)更快的收斂速度和更高的成功率。
正如我們強(qiáng)調(diào)的分層決策的重要性,它集成了決策層,用于在復(fù)雜的多智能體環(huán)境中學(xué)習(xí)遍歷策略,這些原則可以應(yīng)用于應(yīng)對(duì)更復(fù)雜的無信號(hào)交叉口環(huán)境所帶來的挑戰(zhàn),這些交叉口環(huán)境的特點(diǎn)是遮擋和環(huán)境障礙阻礙了準(zhǔn)確感知的實(shí)現(xiàn)。此外,在具有各種形狀和幾何形狀的交叉口環(huán)境中,還有潛力提高模型的準(zhǔn)確性和導(dǎo)航能力。
真實(shí)世界實(shí)驗(yàn)驗(yàn)證
如下表所示,大多數(shù)回顧過的方案都已在基于模擬的環(huán)境中進(jìn)行了測(cè)試。這可能是有效的,因?yàn)閺?qiáng)化學(xué)習(xí)技術(shù)需要收集大量基于現(xiàn)實(shí)世界的訓(xùn)練數(shù)據(jù),這會(huì)耗費(fèi)大量的精力和時(shí)間。
實(shí)際上,從建模傳感器流式傳輸?shù)哪M觀測(cè)數(shù)據(jù)與真實(shí)數(shù)據(jù)具有不同的數(shù)據(jù)分布,這可能導(dǎo)致無法在未見過的真實(shí)數(shù)據(jù)上進(jìn)行泛化。模擬數(shù)據(jù)分布與真實(shí)數(shù)據(jù)分布之間的差異,例如合成圖像生成或車輛動(dòng)力學(xué)中的不準(zhǔn)確性,被稱為現(xiàn)實(shí)差距。眾所周知,在沒有明確考慮現(xiàn)實(shí)差距的情況下,在模擬中訓(xùn)練的代理很難遷移到真實(shí)環(huán)境。為了糾正這個(gè)問題,引入了模擬到真實(shí)的遷移學(xué)習(xí)技術(shù),以進(jìn)一步促進(jìn)在真實(shí)環(huán)境中訓(xùn)練強(qiáng)化學(xué)習(xí)方法。本文重點(diǎn)介紹了一些已在現(xiàn)實(shí)場(chǎng)景中得到驗(yàn)證的技術(shù),以及認(rèn)為在理論上或在機(jī)器人技術(shù)的其他領(lǐng)域很有前景但需要在現(xiàn)實(shí)場(chǎng)景中真實(shí)大小的車輛進(jìn)行實(shí)驗(yàn)驗(yàn)證的其他技術(shù)。在那些具有驗(yàn)證結(jié)果的技術(shù)中,我們引入了域隨機(jī)化和域自適應(yīng)。雖然沒有在模擬之外進(jìn)行測(cè)試,但對(duì)抗性強(qiáng)化學(xué)習(xí)技術(shù)表現(xiàn)出對(duì)環(huán)境擾動(dòng)的改進(jìn)的魯棒性。
受到GAN的啟發(fā),人們甚至可以對(duì)抗性地?cái)_亂環(huán)境,以誤導(dǎo)和破壞代理的穩(wěn)定性。這種行為如下圖所示,在自動(dòng)駕駛中尤為明顯,因?yàn)樽詣?dòng)駕駛參與者的出錯(cuò)率預(yù)計(jì)遠(yuǎn)低于人類錯(cuò)誤率。此外,自動(dòng)駕駛駕駛員必須以人類從高層決策角度認(rèn)可的方式行事。因此,風(fēng)險(xiǎn)規(guī)避算法是必要的,以避免可能被視為不必要的風(fēng)險(xiǎn)和危險(xiǎn)。
如上圖的子圖(b)所示,基線算法將傾向于風(fēng)險(xiǎn)更高的駕駛習(xí)慣。隨著方案的引入,訓(xùn)練有素的代理的表現(xiàn)更符合人類的行為和決策,如子圖(d)和(e)所示。
結(jié)論
本論文整體回顧了與無信號(hào)交叉口決策相關(guān)的挑戰(zhàn)的各個(gè)方面,重點(diǎn)關(guān)注基于學(xué)習(xí)的相關(guān)算法模型。從解決的駕駛場(chǎng)景、所涉及的挑戰(zhàn)、提出的基于學(xué)習(xí)的設(shè)計(jì)以及在模擬和現(xiàn)實(shí)環(huán)境中的驗(yàn)證等方面討論了這些工作。