學(xué)習(xí)一個(gè)魯棒多智體RL駕駛策略來減少交通堵塞
2021年12月3日在arXiv上傳的論文“Learning a Robust Multiagent Driving Policy for Traffic Congestion Reduction“,作者是美國德州奧斯丁分校和GM研發(fā)實(shí)驗(yàn)室。
自動(dòng)和自主駕駛汽車(AV)的出現(xiàn)為系統(tǒng)級目標(biāo)創(chuàng)造了機(jī)會(huì),例如減少交通擁堵。可以在各種模擬場景中學(xué)習(xí)多智體減少擁塞的駕駛策略。雖然最初POC是集中控制器的小型封閉交通網(wǎng)絡(luò),但最近現(xiàn)實(shí)的環(huán)境已經(jīng)證明成功,其中分散控制策略運(yùn)行在車輛進(jìn)入和離開的開放道路網(wǎng)絡(luò)。然而,這些駕駛策略大多是訓(xùn)練的相同條件下進(jìn)行測試的,尚未經(jīng)過不同交通狀況的魯棒性全面測試,而這是實(shí)際場景的關(guān)鍵要求。本文提出了一種可學(xué)習(xí)的多智體駕駛策略,對各種開放網(wǎng)絡(luò)交通條件具有魯棒性,包括車輛流量、自動(dòng)駕駛車在交通中的比例、布局和各種合并道路幾何等。
考慮一個(gè)有主路和合并路的道路網(wǎng)絡(luò),如圖所示。有車輛加入和離開網(wǎng)絡(luò),交通由人工駕駛和自動(dòng)駕駛車輛組成。
假設(shè)人類駕駛員是自私的,并最優(yōu)自己的出行時(shí)間,而自動(dòng)駕駛車輛(AV)則是利他的(altruistic),愿意減少交通擁堵。目標(biāo)是制定一種駕駛策略,控制每個(gè)AV,提高交通吞吐量(流出量)。策略可以通過手工編程或?qū)W習(xí)編碼。強(qiáng)化學(xué)習(xí)(RL)已被證明能產(chǎn)生更好的策略,因此是首選方法。
減少擁堵的駕駛政策既可以是集中式,根據(jù)全球系統(tǒng)信息同時(shí)控制所有車輛,也可以是分散式的,每輛車根據(jù)其局部觀測獨(dú)立控制。沒有車-車通信的分散式策略最現(xiàn)實(shí),主要依賴于自身感知和駕駛能力,該文就采用這個(gè)。為了提高數(shù)據(jù)和計(jì)算效率,降低過擬合的風(fēng)險(xiǎn),所有AV都學(xué)習(xí)并執(zhí)行單一共享的駕駛策略,學(xué)習(xí)的參數(shù)量相對較少。
該多智體交通擁堵緩解問題可以描述為一個(gè)離散時(shí)間、有限的分散式部分可觀測馬爾可夫決策過程(DecPOMDP)。一個(gè)分散式、共享的駕駛策略是,在行動(dòng)空間的一個(gè)概率密度函數(shù),隨機(jī)地將每個(gè)智體的局部觀測映射至駕駛行為。
狀態(tài)轉(zhuǎn)換隱式地由開源軟件SUMO的模擬環(huán)境控制。SUMO模擬人類駕駛模型對人類車輛運(yùn)動(dòng)進(jìn)行建模,參數(shù)化并改變駕駛特性,如變道時(shí)的攻擊性。SUMO還有強(qiáng)制車輛遵守安全規(guī)則和限速的機(jī)制。用加州大學(xué)伯克利分校的Flow軟件與SUMO進(jìn)行交互,F(xiàn)low提供OpenAI Gym環(huán)境做為SUMO的包裝,便于與各種強(qiáng)化學(xué)習(xí)(RL)算法實(shí)現(xiàn)交互,可指定進(jìn)入每條道路的車輛數(shù)(流入量,車輛/小時(shí)),獲取網(wǎng)絡(luò)中車輛的位置和速度,控制每輛車的加速度,并測量流入量、流出量(車輛/小時(shí))和平均速度(米/秒)。
基于與SUMO交互的Flow框架,使用近策略優(yōu)化(PPO)算法開發(fā)分散式駕駛策略。本文根據(jù)作者以前論文(“Scalable multiagent driving policies for reducing traffic congestion“,arXiv,2021)采用的AV模型,對每個(gè)AV使用觀測和獎(jiǎng)勵(lì)設(shè)計(jì)。每個(gè)AV的觀測結(jié)果如下所示:
- 自車前后的最近車速度和距離,
- 當(dāng)前車輛的速度,
- 從智體到下一個(gè)合并點(diǎn)的距離,
- 下一輛合并車輛的速度及其到合并路口的距離(假設(shè)其由車輛的攝像頭/雷達(dá)得到,或由一些全球基礎(chǔ)設(shè)施計(jì)算得到,與所有車輛共享)。
每個(gè)觀測值,都通過其最大可能值,規(guī)范化成[0,1]的范圍。而獎(jiǎng)勵(lì)函數(shù)定義為:
為了證明性能,將每個(gè)經(jīng)過訓(xùn)練的策略與人類基準(zhǔn)方法進(jìn)行比較,其中網(wǎng)絡(luò)中的所有車輛,都由SUMO提供的人類駕駛模型控制。每個(gè)人駕駛的車輛貪婪地最大化其速度,同時(shí)保持跟其領(lǐng)車預(yù)期的時(shí)間間隔。這種明確制定的策略不能很好地處理緊急合流車輛,可能導(dǎo)致潛在交通擁堵。
該文重點(diǎn)學(xué)習(xí)一種魯棒的AV控制策略,可在一系列現(xiàn)實(shí)交通條件下減少交通擁堵,其特點(diǎn)是:
- 主流入率:主干道的流入交通量(車輛/小時(shí));
- 合并流入率:合并路的流入交通量(車輛/小時(shí));
- AV位置:AV在交通流中出現(xiàn)的位置;AV,可以在模擬的人類駕駛車輛中,均勻或隨機(jī)地出現(xiàn);
- AV滲入率:自主控制車輛的百分比;
- 合并道路幾何:兩個(gè)合并交叉點(diǎn)之間的距離。
將合并流入速率固定為 200 車輛/小時(shí),并將主流入率范圍設(shè)置為 [1600, 2000] 車輛/小時(shí)(模擬中造成從低到高的擁塞),AV 滲透率 (AVP) 在 [0, 40]% 以內(nèi)。AV位置可以是隨機(jī)的,也可以是均勻的。為均勻放置,每N輛人類駕駛車輛就會(huì)放置一個(gè)AV。對隨機(jī)放置,AV被隨機(jī)放置在模擬的人類駕駛車輛中。合并道路幾何包括距離在 [200, 800] 米之間變化的一次或兩次合并。
雖然現(xiàn)實(shí)世界中減少擁堵駕駛策略需要在各種交通條件下有效地運(yùn)行,但大多數(shù)工作,在和策略訓(xùn)練相同的條件下,進(jìn)行測試。在現(xiàn)實(shí)世界中,對每種條件組合,部署單獨(dú)的策略是不切實(shí)際的。因此這里主要目標(biāo)是,要了解學(xué)習(xí)對現(xiàn)實(shí)世界交通條件變化采取魯棒性的單一駕駛策略是否可行,明白如何找到此類策略。
基于RL駕駛策略的性能,取決于訓(xùn)練時(shí)的交通狀況。做改變此類訓(xùn)練條件的詳細(xì)實(shí)驗(yàn)發(fā)現(xiàn),在高流入量、中等AV滲透率和隨機(jī)車輛放置條件下,訓(xùn)練的策略對各種實(shí)際感興趣的現(xiàn)實(shí)條件具有魯棒性。結(jié)果是在比較了30個(gè)策略后得出的,每項(xiàng)策略都是在多種交通條件組合下進(jìn)行訓(xùn)練的。在3.7 GHz Intel 12核i7處理器上,每個(gè)策略的訓(xùn)練大約需要7小時(shí)。每個(gè)策略使用相同的100個(gè)隨機(jī)種子進(jìn)行100次評估,每次評估大約需要1小時(shí)。
將交通條件沿其定義維度離散化為總共30種具有代表性的條件組合:考慮主流入為1650, 1850和2000車輛/小時(shí),車輛在主路上“均勻”或“隨機(jī)”布置。在均勻車輛布置中,兩輛RL車輛之間的車輛數(shù)量是固定的,而在隨機(jī)車輛布置中,所有車輛隨機(jī)分布在主路上。將訓(xùn)練AV滲透率分為五個(gè)級別:10%、30%、50%、80%、100%?;?×2×5離散化,訓(xùn)練了30個(gè)策略,每種條件組合一個(gè)策略。
然后,在前面提到的交通條件對每個(gè)經(jīng)過訓(xùn)練的策略進(jìn)行評估,得出相應(yīng)的數(shù)據(jù)點(diǎn),描述產(chǎn)生的流出量和平均速度。這些數(shù)據(jù)點(diǎn)用以下約定進(jìn)行標(biāo)記。數(shù)據(jù)點(diǎn)的標(biāo)簽由兩部分組成:(i)待評估策略的訓(xùn)練條件,以及(ii)策略的評估條件。這個(gè)策略的訓(xùn)練條件表示車輛安置、主流入量、合并流入量和AV滲透率,以“-”分隔。例如,“random-2000-200-30”表示在隨機(jī)車輛安置下訓(xùn)練的策略,主流入量為2000輛/小時(shí),合并流入量為200輛/小時(shí),AV滲透率為30%。
在訓(xùn)練和評估期間,AV可以均勻或隨機(jī)地放置在交通中。在現(xiàn)實(shí)世界部署經(jīng)過訓(xùn)練的策略時(shí),典型的AV布局是隨機(jī)的,除非AV運(yùn)營商特意地均勻分布AV。雖然均勻布局很難部署,但可能更容易訓(xùn)練,因?yàn)樯蓴?shù)據(jù)的熵較低。
這些策略子集性能如圖所示:
紅色曲線表示在隨機(jī)車輛放置情況下訓(xùn)練策略的評估結(jié)果,藍(lán)色曲線表示在均勻車輛放置情況下訓(xùn)練策略的結(jié)果。在隨機(jī)車輛布置(圖a)和均勻車輛布置(圖b)下,用流出量和平均速度這兩個(gè)指標(biāo)對這些策略策進(jìn)行評估。在評估隨機(jī)放置或均勻放置時(shí),隨機(jī)放置訓(xùn)練的策略優(yōu)于人類基準(zhǔn)方法以及均勻放置訓(xùn)練的策略。具體而言,圖a中的結(jié)果證實(shí)了一種直覺,即隨機(jī)車輛安置進(jìn)行評估時(shí),在隨機(jī)車輛安置下訓(xùn)練策略應(yīng)比在均勻車輛安置下訓(xùn)練的政策具有更好的性能。然而,與直覺相反,訓(xùn)練時(shí)隨機(jī)放置也會(huì)在均勻放置測試時(shí)產(chǎn)生更穩(wěn)健的策略。假設(shè)這種性能的提高是由于隨機(jī)放置RL車輛時(shí)收集的數(shù)據(jù)更加多樣化。
先驗(yàn)而言,目前尚不清楚AV滲透率對于提高訓(xùn)練策略魯棒性的理想方法是什么。一方面,由于更多AV收集更多的數(shù)據(jù),訓(xùn)練期間較高的AV滲透率有望通過收集更多訓(xùn)練數(shù)據(jù)找到更好的策略。另一方面,一個(gè)較小AV滲透率在訓(xùn)練過程中學(xué)習(xí)一個(gè)控制之下系統(tǒng)的策略,并且當(dāng)添加更多AV時(shí),期望它與一個(gè)過度控制之下系統(tǒng)一起工作。
在一系列AV滲透率下訓(xùn)練了不同的策略,對其在不同AV滲透率和主流入量下的表現(xiàn)進(jìn)行全面比較。評估結(jié)果的代表如圖所示:
圖a–圖c顯示,當(dāng)確定主流入量時(shí),在AV滲透率 30%(紅色曲線)下訓(xùn)練策略在不同AV滲透率下評估,其流出量和平均速度都具有競爭力,在各種評估AV滲透率中都具有最佳性能。如果修正AV滲透率,但在評估期間改變主流入量,那么圖d–圖f表明,在AV滲透率30%下訓(xùn)練策略,與不同AV滲透率下訓(xùn)練策略相比,仍然具有顯著優(yōu)勢。
可以假設(shè),這些中等AV滲透率在訓(xùn)練期間表現(xiàn)最好,因?yàn)椋╥)策略經(jīng)過良好訓(xùn)練,有足夠的AV收集訓(xùn)練數(shù)據(jù);(ii)有一定數(shù)量的人類駕駛車輛,所學(xué)的策略,對減少這些人類駕駛車輛造成的交通擠塞,是有用的。
對于所選擇的車輛布置和AV滲透率,剩下的問題是,是否能夠確定訓(xùn)練期間使用的最佳主流入量。實(shí)驗(yàn)發(fā)現(xiàn)較高的主流入量帶來更魯棒的策略。
根據(jù)AV滲透率30%和不同主流入量,對經(jīng)過訓(xùn)練策略進(jìn)行全面比較。評估結(jié)果的代表如圖所示:
在評估期間確定主流入量和不同的AV滲透率時(shí),圖a–圖c顯示,在主流入量2000輛/小時(shí)(綠色曲線)下訓(xùn)練的策略,在流出量和平均速度方面,都比在AV滲透率 30%和不同主流入量下訓(xùn)練的其他策略,有更好的表現(xiàn)。類似地,如果在評估期間固定AV滲透率但改變主流入量,則在主流入量2000輛/小時(shí)下訓(xùn)練的策略在所有用AV滲透率 30%訓(xùn)練的策略也具有最佳性能。
可以假設(shè),在最高流入量下訓(xùn)練策略優(yōu)于其他策略,因?yàn)檩^高的主流入量在訓(xùn)練時(shí)產(chǎn)生更多不同的車輛密度。具體而言,模擬動(dòng)力學(xué)可導(dǎo)致高流入量,包括密集車輛放置和稀疏車輛放置,而較低的主流入量往往導(dǎo)致稀疏車輛分布。
進(jìn)一步分析策略對其他現(xiàn)實(shí)條件的魯棒性。
自動(dòng)駕駛車輛充當(dāng)駕駛策略的控制器,用來影響交通流。如果道路上AV太少,該策略可能無法影響交通流。隨著AV數(shù)量的增加,影響流量的能力增加。一個(gè)實(shí)際問題是,為了實(shí)現(xiàn)統(tǒng)計(jì)上顯著的擁塞減少效果,需要多少AV。
為進(jìn)行敏感性分析,首先采用先前的最佳策略(random-2000-200-30),然后將其性能與不同評估AV穿透率下的人類基準(zhǔn)方法進(jìn)行比較。在相同流入量和AV滲透率情況下評估,收集選定策略和人類基準(zhǔn)方法的流出量。結(jié)果如圖所示:
隨著在評估期間增加AVs數(shù)量,流出量性能也會(huì)增加。與純?nèi)祟惢鶞?zhǔn)方法相比,為了確定顯著改善所需的最小AV量,進(jìn)行獨(dú)立樣本t-test,收集p-value,其確定所選策略流出量是否比純?nèi)祟惢鶞?zhǔn)方法統(tǒng)計(jì)上顯著改善。用p- value 0.001作為顯著性截?cái)?,?dāng)部署時(shí)AV滲透率量大于或等于2%時(shí),所選策略的性能明顯優(yōu)于人類基準(zhǔn)方法。
發(fā)現(xiàn)最魯棒的策略,即random-2000-200-30,是在單車道、單合并場景中學(xué)習(xí)的。選更復(fù)雜道路結(jié)構(gòu),兩條不同距離的合并路,測試該策略對此的魯棒性??紤]圖中兩條合并道路的交通網(wǎng)絡(luò)。
實(shí)驗(yàn)中,第一個(gè)合并匝道位于模擬主路起點(diǎn)500米處,第二個(gè)合并匝道位于第一個(gè)合并匝道之后200、400、600或800米處,主路總長1500米,合并路總長250米。測試random-2000-200-30策略,采用隨機(jī)AV放置,主流入量為1800輛/小時(shí),合并流入量為200輛/小時(shí),采取一系列AV滲透率和兩條合并路之間的上述間距。
結(jié)果如圖所示:
其中藍(lán)色曲線顯示待測試策略的性能,紅色曲線顯示人類基準(zhǔn)方法的性能。random-2000-200-30策略比人類基準(zhǔn)方法更好,即使合并閘道距離僅200米。當(dāng)增加這兩個(gè)入口匝道之間距離時(shí),性能會(huì)提高。當(dāng)距離較小時(shí),第二個(gè)合并匝道處的交通擁堵會(huì)干擾第一個(gè)合并匝道處的交通流,但是靠近第一個(gè)匝道的RL車輛無法觀測這些。隨著增加這兩個(gè)合并匝道之間的距離,這種干擾會(huì)減少,靠近這兩個(gè)合并匝道的交通流AV可以越來越獨(dú)立地處理。因此,當(dāng)這兩個(gè)合并匝道距離變得更遠(yuǎn)時(shí),AV的決策過程類似于單一合并道路的決策過程—只需要考慮下一個(gè)進(jìn)入路口的交通流。相應(yīng)地,所選擇的策略有效地減少雙匝道場景的交通擁堵;隨著這兩個(gè)閘道之間距離的增加,其性能也會(huì)提高。
本文提出了一種學(xué)習(xí)減少擁堵的駕駛策略,在道路合并場景中,在實(shí)際感興趣的交通條件下魯棒地執(zhí)行。具體而言,該策略降低了AV滲透率0%-40%的擁堵,減少了1600輛/小時(shí)(輕度擁堵)至2000輛/小時(shí)(重度擁堵)的交通流量,還有交通中隨機(jī)AV設(shè)置以及兩條不同距離合并的道路。發(fā)現(xiàn)該策略的過程包括(i)通過掃描實(shí)際感興趣的交通條件空間來生成測試基準(zhǔn),(ii)在隨機(jī)AV放置和掃描車輛流入空間和AV滲透率產(chǎn)生的條件組合上訓(xùn)練30個(gè)駕駛策略,以及(iii)選擇性能最高的策略。
雖然最近人們對開發(fā)通用的魯棒RL訓(xùn)練方法越來越感興趣,但是實(shí)驗(yàn)發(fā)現(xiàn),隨機(jī)化AV設(shè)置,以及交通條件空間上搜索有效的訓(xùn)練設(shè)置,可以有效地實(shí)現(xiàn)魯棒性。