端到端的自動(dòng)駕駛離我們還有多遠(yuǎn)?
端到端自動(dòng)駕駛是一種很有前途的模式,因?yàn)樗荛_了與模塊化系統(tǒng)相關(guān)的缺點(diǎn),比如較高的系統(tǒng)復(fù)雜性。自動(dòng)駕駛超越了傳統(tǒng)的交通模式,提前主動(dòng)識(shí)別關(guān)鍵事件,確保乘客的安全,并提供舒適的交通環(huán)境,特別是在高度隨機(jī)和可變的交通環(huán)境中。本文全面回顧了端到端自動(dòng)駕駛技術(shù)。
首先闡述了自動(dòng)駕駛?cè)蝿?wù)的分類,包含端到端神經(jīng)網(wǎng)絡(luò)的使用,涵蓋了從感知到控制的整個(gè)駕駛過程,同時(shí)解決了現(xiàn)實(shí)世界應(yīng)用中遇到的關(guān)鍵挑戰(zhàn)。分析了端到端自動(dòng)駕駛的最新發(fā)展,并根據(jù)基本原理、方法和核心功能對研究進(jìn)行了分類。這些類別包括感知輸入、主要輸出和輔助輸出、從模仿到強(qiáng)化學(xué)習(xí)的學(xué)習(xí)方法以及模型評估技術(shù)。本文還調(diào)查了包括對可解釋性和安全性方面的詳細(xì)討論。最后評估了最先進(jìn)的技術(shù),確定了挑戰(zhàn),并探索了未來的可能性。
Fig. 1: The number of articles in the Web of Science databasecontaining the keywords ‘End-to-End’ and ‘Autonomous Driving’ from 2014 to 2022 illustrates the increasing trend in the research community.
總結(jié)來說本文的主要貢獻(xiàn)如下:
- 這是第一篇專門探討使用深度學(xué)習(xí)的端到端自動(dòng)駕駛的綜述論文。我們對基本原理、方法和功能進(jìn)行了全面分析,深入研究了該領(lǐng)域的最新技術(shù)進(jìn)步;
- 我們提出了一個(gè)詳細(xì)的分類(圖2),基于輸入模式、輸出模式和基本的學(xué)習(xí)方法。此外還對安全性和可解釋性方面進(jìn)行了全面檢查,以識(shí)別和解決特定領(lǐng)域的挑戰(zhàn);
- 我們提出了一個(gè)基于開環(huán)和閉環(huán)評估的評估框架。此外還總結(jié)了一份公開可用的數(shù)據(jù)集和仿真的匯總列表。最后評估了最近的方法,并探索了有趣的未來可能性。
Fig. 2: The charts illustrate statistics of the papers included in this survey according to learning approaches (section V),environment being utilized for training (sections IX, X), input modality (section III), and output modality (section IV)
01 端到端系統(tǒng)體系結(jié)構(gòu)
通常,模塊化系統(tǒng)被稱為中間范式,并被構(gòu)建為離散組件的管道(圖3),連接傳感器輸入和運(yùn)動(dòng)輸出。模塊化系統(tǒng)的核心過程包括感知、定位、建圖、規(guī)劃和車輛控制。模塊化流水線首先將原始傳感器數(shù)據(jù)輸入到感知模塊,用于障礙物檢測,并通過定位模塊進(jìn)行定位。隨后進(jìn)行規(guī)劃和預(yù)測,以確定車輛的最佳和安全行程。最后控制器生成安全操縱的命令。模塊化系統(tǒng)的詳細(xì)概述可在補(bǔ)充材料中找到。
Fig. 3: Comparison between End-to-End and modular pipelines. End-to-End is a single pipeline that generates the control signal directly from perception input, whereas a modular pipeline consists of various sub-modules, each with taskspecific functionalities.
另一方面,直接感知或端到端驅(qū)動(dòng)直接從傳感器輸入輸出自車運(yùn)動(dòng)。它優(yōu)化了駕駛管道(圖3),繞過了與感知和規(guī)劃相關(guān)的子任務(wù),允許像人類一樣不斷學(xué)習(xí)感知和行動(dòng)。Pomerleau Alvinn首次嘗試了端到端駕駛,該公司訓(xùn)練了一個(gè)三層傳感器運(yùn)動(dòng)全連接網(wǎng)絡(luò)來輸出汽車的方向。端到端駕駛基于傳感器輸入輸出自車運(yùn)動(dòng),這種運(yùn)動(dòng)可以是各種形式的。然而,最突出的是相機(jī)、LiDAR、導(dǎo)航命令、和車輛動(dòng)力學(xué),如速度。這種感知信息被用作主干模型的輸入,主干模型負(fù)責(zé)生成控制信號。自車運(yùn)動(dòng)可以包含不同類型的運(yùn)動(dòng),如加速、轉(zhuǎn)彎、轉(zhuǎn)向和蹬踏。此外,許多模型還輸出附加信息,例如安全機(jī)動(dòng)的成本圖、可解釋的輸出或其他輔助輸出。
端到端駕駛有兩種主要方法:要么通過強(qiáng)化學(xué)習(xí)(RL)探索和改進(jìn)駕駛模型,要么使用模仿學(xué)習(xí)(IL)以監(jiān)督的方式訓(xùn)練駕駛模型,以模仿人類駕駛行為。監(jiān)督學(xué)習(xí)范式旨在從專家演示中學(xué)習(xí)駕駛風(fēng)格,作為模型的訓(xùn)練示例。然而,擴(kuò)展基于IL的自動(dòng)駕駛系統(tǒng)具有挑戰(zhàn)性,因?yàn)椴豢赡芨采w學(xué)習(xí)階段的每個(gè)實(shí)例。另一方面,RL的工作原理是通過與環(huán)境的互動(dòng),隨著時(shí)間的推移最大化累積獎(jiǎng)勵(lì),網(wǎng)絡(luò)根據(jù)其行為做出駕駛決策以獲得獎(jiǎng)勵(lì)或處罰。雖然RL模型訓(xùn)練是在線進(jìn)行的,并且可以在訓(xùn)練過程中探索環(huán)境,但與模仿學(xué)習(xí)相比,它在利用數(shù)據(jù)方面的效果較差。表I總結(jié)了端到端駕駛的最新方法。
02 輸入模態(tài)
1)相機(jī):基于相機(jī)的方法在端到端驅(qū)動(dòng)中顯示出了有希望的結(jié)果。例如,Toromanoff等通過在城市環(huán)境中使用基于視覺的方法贏得 CARLA 2019自動(dòng)駕駛挑戰(zhàn)賽。使用單目和雙目是圖像到控制端到端駕駛的自然輸入方式。
2)激光雷達(dá):自動(dòng)駕駛的另一個(gè)重要輸入源是LiDAR傳感器。LiDAR能夠抵抗光照條件,并提供準(zhǔn)確的距離估計(jì)。相比其他感知傳感器,激光雷達(dá)數(shù)據(jù)最豐富,提供的空間信息最全面。它利用激光來檢測距離并生成點(diǎn)云,點(diǎn)云是空間的3D表示,其中每個(gè)點(diǎn)都包含反射傳感器激光束的表面的(x,y,z)坐標(biāo)。在定位車輛時(shí),生成里程測量結(jié)果至關(guān)重要。許多技術(shù)利用LiDAR在鳥瞰圖 (BEV)、高清 (HD)地圖和SLAM中進(jìn)行特征映射。這些定位技術(shù)可以分為基于配準(zhǔn)的方法、基于特征的方法和基于學(xué)習(xí)的方法。
3)多模態(tài):多模態(tài)在關(guān)鍵感知任務(wù)中優(yōu)于單模態(tài),并且特別適合自動(dòng)駕駛應(yīng)用,因?yàn)樗Y(jié)合了多傳感器數(shù)據(jù)。根據(jù)何時(shí)組合多傳感器信息,信息利用可分為三大類。在早期融合中,傳感器數(shù)據(jù)先進(jìn)行組合,然后再將其輸入可學(xué)習(xí)的端到端系統(tǒng)。在中期融合中,信息融合是在一些預(yù)處理階段或一些特征提取之后完成的。在后期融合中,輸入被單獨(dú)處理,它們的輸出被融合并由另一層進(jìn)一步處理。
4)語義表示:端到端模型也可以將語義表示作為輸入。這種表示側(cè)重于學(xué)習(xí)車輛及其環(huán)境的幾何和語義信息。
它通常涉及將各種感知傳感器的幾何特征投影到圖像空間,例如鳥瞰圖和范圍視圖。雖然原始RGB圖像包含所有可用信息,但事實(shí)證明,顯式合并預(yù)定義的表示并將其用作附加輸入可以增強(qiáng)模型的彈性。Chen等在學(xué)習(xí)的語義圖上采用循環(huán)注意力機(jī)制來預(yù)測車輛控制。此外,一些研究利用語義分割作為導(dǎo)航目的的附加表示。
5)導(dǎo)航輸入:端到端駕駛模型可以包含高級導(dǎo)航指令或?qū)W⒂谔囟ǖ膶?dǎo)航子任務(wù),例如車道維護(hù)和縱向控制。導(dǎo)航輸入可以源自路徑規(guī)劃器或?qū)Ш矫睢B窂绞怯扇忠?guī)劃器提供的全球定位系統(tǒng)(GPS)坐標(biāo)中的一系列離散端點(diǎn)位置定義的。TCP模型接收相關(guān)的導(dǎo)航指令,例如留在車道上、左/右轉(zhuǎn)和目標(biāo),以生成控制動(dòng)作,如圖4(c)所示。FlowDriveNet考慮了全局規(guī)劃器的離散導(dǎo)航命令和導(dǎo)航目標(biāo)的坐標(biāo)。除了上述輸入之外,端到端模型還包含車輛動(dòng)力學(xué),例如自車輛速度。圖4(b)說明了NEAT如何利用速度特征來生成航路點(diǎn)。
Fig. 4: The input-output representation of various End-to-End models: (a) Considered RGB image and LiDAR BEV representations as inputs to the multi-modal fusion transformer [7] and predicts the differential ego-vehicle waypoints. (b) NEAT [12] inputs the image patch and velocity features to obtain a waypoint for each time-step used by PID controllers for driving. (c) TCP [13] takes input image i, navigation information g, current speed v, to generate the control actions guided by the trajectory branch and control branch. (d) LAV [10] uses an image-only input and predicts multi-modal future trajectories used for braking and handling traffic signs and obstacles. (e) UniAD [9] generates attention mask visualization which shows how much attention is paid to the goal lane as well as the critical agents that are yielding to the ego-vehicle. (f) ST-P3 [33] outputs the sub cost map from the prediction module (darker color indicates a smaller cost value). By incorporating the occupancy probability field and leveraging pre-existing knowledge, the cost function effectively balances safety considerations for the final trajectory.
03 輸出模態(tài)
通常端到端自動(dòng)駕駛系統(tǒng)輸出控制命令、航跡點(diǎn)或軌跡。此外,它還可能產(chǎn)生額外的表示,例如成本圖和輔助輸出。圖4說明了一些輸出模式。
a) 航跡點(diǎn):預(yù)測未來航跡點(diǎn)是一種更高級別的輸出模式。幾位作者使用自回歸路點(diǎn)網(wǎng)絡(luò)來預(yù)測差分路點(diǎn)。軌跡也可以表示坐標(biāo)系中的航路點(diǎn)序列。使用模型預(yù)測控制(MPC)和比例積分微分(PID)將網(wǎng)絡(luò)的輸出航路點(diǎn)轉(zhuǎn)換為低級轉(zhuǎn)向和加速度??v向控制器考慮連續(xù)時(shí)間步路點(diǎn)之間矢量的加權(quán)平均值的大小,而橫向控制器考慮它們的方向。理想的航跡點(diǎn)取決于所需的速度、位置和旋轉(zhuǎn)。橫向距離和角度必須最小化,以最大化獎(jiǎng)勵(lì)(或最小化偏差)。利用航跡點(diǎn)作為輸出的好處是它們不受車輛幾何形狀的影響。此外,控制器更容易分析航跡點(diǎn)以獲取轉(zhuǎn)向等控制命令。連續(xù)形式的航跡點(diǎn)可以轉(zhuǎn)化為特定的軌跡。
b) 懲罰函數(shù):為了車輛的安全操縱,許多軌跡和航跡點(diǎn)都是可能的。成本用于在可能性中選擇最佳的一種。它根據(jù)最終用戶定義的參數(shù)(例如安全性、行駛距離、舒適度等)為每個(gè)軌跡分配權(quán)重(正分或負(fù)分)。Zeng等采用神經(jīng)運(yùn)動(dòng)規(guī)劃器,使用成本量來預(yù)測未來的軌跡。Hu等采用了一種成本函數(shù),該函數(shù)利用學(xué)習(xí)到的占用概率場(由分割圖(圖4(f))表示)和交通規(guī)則等先驗(yàn)知識(shí)來選擇成本最小的軌跡。
c)直接控制和加速:大多數(shù)端到端模型在特定時(shí)間戳提供轉(zhuǎn)向角和速度作為輸出。輸出控制需要根據(jù)車輛的動(dòng)力學(xué)進(jìn)行校準(zhǔn),確定適當(dāng)?shù)霓D(zhuǎn)彎轉(zhuǎn)向角度以及在可測量距離處停止所需的制動(dòng)。
d) 輔助輸出:輔助輸出可以為模型的運(yùn)行和駕駛動(dòng)作的確定提供附加信息。幾種類型的輔助輸出包括分割圖、BEV圖、車輛的未來占用率以及可解釋的特征圖。如圖 4(e) 和 (f) 所示,這些輸出為端到端管道提供了附加功能,并幫助模型學(xué)習(xí)更好的表示。輔助輸出還有助于解釋模型的行為,因?yàn)槿藗兛梢岳斫庑畔⒉⑼茢嗄P蜎Q策背后的原因。
04 學(xué)習(xí)方法
以下是端到端駕駛的不同學(xué)習(xí)方式。
模仿學(xué)習(xí)
模仿學(xué)習(xí)(IL)基于從專家演示中學(xué)習(xí)的原則,通常由人類執(zhí)行。這些演示訓(xùn)練系統(tǒng)模仿專家在各種場景(例如車輛控制)中的行為。大規(guī)模的專家駕駛數(shù)據(jù)集很容易獲得,可以通過模仿學(xué)習(xí)利用這些數(shù)據(jù)集來訓(xùn)練按照類人標(biāo)準(zhǔn)執(zhí)行的模型(見圖 5)。Alvinn 是模仿學(xué)習(xí)在端到端自動(dòng)駕駛車輛系統(tǒng)中的第一個(gè)應(yīng)用,展示了以高達(dá)55英里/小時(shí)的速度駕駛汽車的能力。它經(jīng)過訓(xùn)練,可以使用從人類駕駛員收集的實(shí)時(shí)訓(xùn)練數(shù)據(jù)來預(yù)測轉(zhuǎn)向角。行為克?。˙C)、直接策略學(xué)習(xí)(DPL)和逆強(qiáng)化學(xué)習(xí)(IRL)是模仿學(xué)習(xí)在自動(dòng)駕駛領(lǐng)域的延伸。
Fig. 5: Vehicle maneuvers, represented by a triplet of steering angle, throttle, and brake, depend on a high-level route navigation command (e.g., turn-left, turn-right, go-straight, continue), as well as perception data (e.g., RGB image) and vehicle state measurements (e.g., speed). These inputs guide the specific actions taken by the vehicle, enabling it to navigate the environment effectively through conditional imitation learning [32].
模仿學(xué)習(xí)的主要目標(biāo)是訓(xùn)練一個(gè)策略,將每個(gè)給定狀態(tài)映射到相應(yīng)的動(dòng)作(圖 5),盡可能接近給定的專家策略,給定具有狀態(tài)動(dòng)作對的專家數(shù)據(jù)集:
1)行為克?。盒袨榭寺∈潜O(jiān)督模仿學(xué)習(xí)任務(wù),其目標(biāo)是將專家分布中的每個(gè)狀態(tài)-動(dòng)作組合視為獨(dú)立同分布(IID)示例,并最大限度地減少訓(xùn)練策略的模仿?lián)p失:
行為克隆假設(shè)專家的行為可以通過觀察得到充分解釋,因?yàn)樗?xùn)練模型根據(jù)訓(xùn)練數(shù)據(jù)集直接從輸入數(shù)據(jù)映射到輸出數(shù)據(jù)(圖6)。然而在現(xiàn)實(shí)場景中,有許多潛在變量影響和控制駕駛代理。因此有效地學(xué)習(xí)這些變量至關(guān)重要。
Fig. 6: Behavior cloning [23] is a perception-to-action driving model that learns behavior reflex for various driving scenarios. The agent acquires the ability to integrate expert policies in a context-dependent and task-optimized manner, allowing it to drive confidently
2)直接策略學(xué)習(xí):與將傳感器輸入映射到控制命令的模仿學(xué)習(xí)相反,直接策略學(xué)習(xí)旨在直接學(xué)習(xí)將輸入映射到駕駛行為的最優(yōu)策略。它使智能體能夠探索周圍環(huán)境并發(fā)現(xiàn)新穎且高效的駕駛策略。相比之下,行為克隆受到訓(xùn)練數(shù)據(jù)集的限制,僅包含特定行為,在新場景上可能表現(xiàn)不佳。在線模仿學(xué)習(xí)算法DAGGER提供了針對級聯(lián)錯(cuò)誤的魯棒性并提高了泛化性。然而,直接策略學(xué)習(xí)的主要缺點(diǎn)是在培訓(xùn)過程中持續(xù)需要專家的參與,這既昂貴又低效。
3)逆強(qiáng)化學(xué)習(xí):逆強(qiáng)化學(xué)習(xí)(IRL)旨在通過獎(jiǎng)勵(lì)函數(shù)推斷潛在的特定行為。基于特征的IRL教授高速公路場景中的不同駕駛方式。人類提供的示例用于學(xué)習(xí)不同的獎(jiǎng)勵(lì)函數(shù)以及與道路使用者交互的能力。最大熵(MaxEnt)逆強(qiáng)化學(xué)習(xí)是基于最大熵原理的基于特征的IRL的擴(kuò)展。該范例有力地解決了獎(jiǎng)勵(lì)模糊性并處理次優(yōu)化。主要缺點(diǎn)是 IRL 算法的運(yùn)行成本昂貴。它們對計(jì)算的要求也很高,在訓(xùn)練過程中不穩(wěn)定,并且可能需要更長的時(shí)間才能收斂到較小的數(shù)據(jù)集。需要更高效的計(jì)算方法來獲得獎(jiǎng)勵(lì)函數(shù)。
強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)(RL)是解決分布轉(zhuǎn)移問題的一種有前途的方法。它的目標(biāo)是通過與環(huán)境交互來隨著時(shí)間的推移最大化累積獎(jiǎng)勵(lì),并且網(wǎng)絡(luò)根據(jù)其行為做出駕駛決策以獲得獎(jiǎng)勵(lì)或懲罰。IL無法處理與訓(xùn)練數(shù)據(jù)集顯著不同的新情況。然而,強(qiáng)化學(xué)習(xí)對于這個(gè)問題很魯邦,因?yàn)樗谟?xùn)練期間探索了所有相關(guān)場景。強(qiáng)化學(xué)習(xí)涵蓋各種模型,包括基于價(jià)值的模型,例如深度Q網(wǎng)絡(luò)(DQN),基于actor-critic的模型,例如深度確定性策略梯度(DDPG)和異步優(yōu)勢行動(dòng)者批評家(A3C),最大熵模型,例如Soft Actor Critic(SAC),以及基于策略的優(yōu)化方法,例如信任區(qū)域策略優(yōu)化(TRPO)和近端策略優(yōu)化(PPO)。
Liang展示了第一個(gè)有效的基于視覺的驅(qū)動(dòng)管道的強(qiáng)化學(xué)習(xí)方法,其性能優(yōu)于當(dāng)時(shí)的模塊化管道。他們的方法基于深度確定性策略梯度(DDPG),這是actor-critic算法的擴(kuò)展版本。
最近,人機(jī)循環(huán)(HITL)方法在文獻(xiàn)中引起了關(guān)注。這些方法的前提是專家論證為實(shí)現(xiàn)高回報(bào)政策提供了寶貴的指導(dǎo)。一些研究的重點(diǎn)是將人類專業(yè)知識(shí)融入到傳統(tǒng)強(qiáng)化學(xué)習(xí)或IL 范式的訓(xùn)練過程中。EGPO就是一個(gè)這樣的例子,它旨在開發(fā)一種專家指導(dǎo)的策略優(yōu)化技術(shù),其中專家策略監(jiān)督學(xué)習(xí)代理。
Fig. 7: RL-based learning method for training the agent to drive optimally: (a) Illustrating the reinforcement learning expert [28] that maps the BEV to the low-level driving actions; the expert can also provide supervision to the imitation learning agent. (b) Human-in-the-loop learning [41] allows the agent to explore the environment, and in danger scenarios, the human expert takes over the control and provides the safe demonstration.
HACO允許智能體探索危險(xiǎn)環(huán)境,同時(shí)確保訓(xùn)練安全。在這種方法中,人類專家可以干預(yù)并指導(dǎo)代理避免潛在的有害情況或不相關(guān)的行為(見圖7(b))。一般來說,專家可以為模仿學(xué)習(xí)或強(qiáng)化學(xué)習(xí)提供高級別的監(jiān)督。最初可以使用模仿學(xué)習(xí)來教授策略,然后使用強(qiáng)化學(xué)習(xí)來完善策略,這有助于減少強(qiáng)化學(xué)習(xí)所需的大量訓(xùn)練時(shí)間。
其他學(xué)習(xí)方法
明確設(shè)計(jì)具有部分組件的端到端系統(tǒng)的學(xué)習(xí)方法涵蓋各種方法,包括多任務(wù)學(xué)習(xí)、面向目標(biāo)的學(xué)習(xí)和SP-T3等特定技術(shù)。此外,像PPGeo這樣的自監(jiān)督學(xué)習(xí)框架利用未標(biāo)記的駕駛視頻來建模駕駛策略。這些方法旨在訓(xùn)練能夠有效處理多個(gè)任務(wù)的模型,針對特定目標(biāo)進(jìn)行優(yōu)化,并結(jié)合專門的技術(shù)來增強(qiáng)端到端系統(tǒng)的性能和功能。
05 學(xué)習(xí)從模擬器到真實(shí)的域適應(yīng)
可以在虛擬引擎中構(gòu)建大規(guī)模虛擬場景,從而更輕松地收集大量數(shù)據(jù)。然而,虛擬數(shù)據(jù)和現(xiàn)實(shí)世界數(shù)據(jù)之間仍然存在顯著的領(lǐng)域差異,這給創(chuàng)建和實(shí)現(xiàn)虛擬數(shù)據(jù)集帶來了挑戰(zhàn)。通過利用領(lǐng)域適應(yīng)原理,我們可以直接從模擬器中提取關(guān)鍵特征,并將從源領(lǐng)域?qū)W到的知識(shí)轉(zhuǎn)移到由準(zhǔn)確的現(xiàn)實(shí)世界數(shù)據(jù)組成的目標(biāo)領(lǐng)域。
H-Divergence 框架通過對抗學(xué)習(xí)域分類器和檢測器來解決視覺和實(shí)例級別的域差距。Zhang提出了一種模擬器-真實(shí)交互策略,利用源域和目標(biāo)域之間的差異。作者創(chuàng)建了兩個(gè)組件來協(xié)調(diào)全球和本地層面的差異,并確保它們之間的整體一致性。隨后逼真的合成圖像可用于訓(xùn)練端到端模型。
一些工作利用虛擬LiDAR數(shù)據(jù)。Sallab對來自CARLA的虛擬LiDAR點(diǎn)云進(jìn)行學(xué)習(xí),并利用CycleGAN將樣式從虛擬域轉(zhuǎn)移到真實(shí)的KITTI數(shù)據(jù)集。關(guān)于規(guī)劃和決策差異,Pan提出了在具有現(xiàn)實(shí)框架的模擬環(huán)境中學(xué)習(xí)駕駛策略,然后再將其應(yīng)用于現(xiàn)實(shí)世界。
06 安全性
確保端到端自動(dòng)駕駛系統(tǒng)的安全是一項(xiàng)復(fù)雜的挑戰(zhàn)。雖然這些系統(tǒng)具有高性能潛力,但為了維護(hù)整個(gè)管道的安全,一些考慮因素和方法至關(guān)重要。首先使用涵蓋廣泛場景(包括罕見和危急情況)的多樣化、高質(zhì)量數(shù)據(jù)來訓(xùn)練系統(tǒng)。[23]表明,針對關(guān)鍵場景的培訓(xùn)有助于系統(tǒng)學(xué)習(xí)穩(wěn)健且安全的行為,并為其應(yīng)對環(huán)境條件和潛在危險(xiǎn)做好準(zhǔn)備。這些場景包括十字路口處無保護(hù)的轉(zhuǎn)彎、行人從遮擋區(qū)域出現(xiàn)、激進(jìn)的變道以及其他安全啟發(fā)法,如圖 8(b) 和 (c) 所示。
Fig. 8: Demonstration of safe driving methods: (a) InterFuser [8] processes multisensorial information to detect adversarial events, which are then used by the controller to constrain driving actions within safe sets. (b) KING [6] improves collision avoidance using scenario generation. The image shows the ego vehicle (shown in red) maintaining a safe distance during a lane merge in the presence of an adversarial agent (shown in blue). (c) In the same context, the image illustrates the vehicle slowing down to avoid collision.
將安全約束和規(guī)則集成到端到端系統(tǒng)中是另一個(gè)重要方面。系統(tǒng)可以通過在學(xué)習(xí)或后處理系統(tǒng)輸出期間納入安全考慮因素來優(yōu)先考慮安全行為。安全約束包括安全成本函數(shù)、避免不安全的操作和避免碰撞策略。Zeng等明確負(fù)責(zé)安全規(guī)劃的成本量。為了避免不安全的操作,Zhang等消除不安全的航點(diǎn),Shao等引入InterFuser(圖8(a)),它僅約束安全集中的動(dòng)作,并僅引導(dǎo)最安全的動(dòng)作。上述約束確保系統(tǒng)在預(yù)定義的安全邊界內(nèi)運(yùn)行。
實(shí)施額外的安全模塊和測試機(jī)制(表 II、表 III)可增強(qiáng)系統(tǒng)的安全性。對系統(tǒng)行為的實(shí)時(shí)監(jiān)控可以檢測異常或安全操作偏差。Wu等提出了一種軌跡+控制模型,可以預(yù)測長范圍內(nèi)的安全軌跡。Hu等還采用目標(biāo)規(guī)劃器來確保安全。這些機(jī)制確保系統(tǒng)能夠檢測并響應(yīng)異?;蛞馔馇闆r,從而降低發(fā)生事故或不安全行為的風(fēng)險(xiǎn)。
如表二所示,對抗打擊方法被用于端到端駕駛測試,以評估輸出控制信號的正確性。這些測試方法旨在識(shí)別漏洞并評估針對對手的穩(wěn)健性。端到端測試表 (III) 確定給定場景內(nèi)的正確控制決策。變質(zhì)測試通過驗(yàn)證不同天氣和照明條件下轉(zhuǎn)向角度的一致性來解決預(yù)言機(jī)問題。它提供了一種可靠的方法來確保轉(zhuǎn)向角保持穩(wěn)定且不受這些因素的影響。差異測試通過比較同一場景的推理結(jié)果,揭示了不同 DNN 模型之間的不一致。如果模型產(chǎn)生不同的結(jié)果,則表明系統(tǒng)中存在意外行為和潛在問題?;谀P偷念A(yù)言機(jī)采用經(jīng)過訓(xùn)練的概率模型來評估和預(yù)測真實(shí)場景中的潛在風(fēng)險(xiǎn)。通過監(jiān)視環(huán)境,它可以識(shí)別系統(tǒng)可能無法充分處理的情況。
安全指標(biāo)提供了評估自動(dòng)駕駛系統(tǒng)性能的定量措施,并評估系統(tǒng)在安全方面的功能。碰撞時(shí)間 (TTC)、沖突指數(shù) (CI)、碰撞潛在指數(shù) (CPI)、反應(yīng)時(shí)間 (TTR) 等一些指標(biāo)可以提供各種方法的安全性能之間的額外客觀比較并識(shí)別區(qū)域 需要改進(jìn)的地方。安全指標(biāo)對于監(jiān)控和開發(fā)安全可靠的駕駛解決方案至關(guān)重要。表IV 提供了這些指標(biāo)的詳細(xì)描述。
07 可解釋性
可解釋性是指理解代理邏輯的能力,重點(diǎn)關(guān)注用戶如何解釋模型輸入和輸出之間的關(guān)系。它包含兩個(gè)主要概念:可解釋性,涉及解釋的可理解性;完整性,涉及通過解釋詳盡地定義模型的行為。Cui等區(qū)分了對自動(dòng)駕駛汽車的三種信心:透明度,指的是人預(yù)見和理解車輛操作的能力;技術(shù)能力,與了解車輛性能有關(guān);情況管理,其中涉及用戶可以隨時(shí)重新獲得車輛控制權(quán)的概念。根據(jù)哈斯皮爾等人的說法,當(dāng)人類參與時(shí),解釋起著至關(guān)重要的作用,因?yàn)榻忉屪詣?dòng)駕駛汽車行為的能力會(huì)顯著影響消費(fèi)者的信任,而這對于廣泛接受這項(xiàng)技術(shù)至關(guān)重要。
關(guān)于模仿和強(qiáng)化學(xué)習(xí)方法正在進(jìn)行大量研究,重點(diǎn)是提供模型行為解釋的解釋能力。為了描述事后解釋方法,已經(jīng)確定了兩類(圖 9):局部方法(VIII-A),它解釋對特定動(dòng)作實(shí)例的預(yù)測;全局方法(VIII-B),它解釋 模型作為一個(gè)整體。
Fig. 9: Categorization of Explainability Approaches.
Local explanations
1)Post-hoc顯著性方法:事后顯著性技術(shù)試圖解釋像素的哪些部分對模型的輸出影響最大。這些方法提供了一個(gè)顯著性圖,說明模型做出最重要決策的位置。
Post-hoc顯著性方法主要關(guān)注駕駛架構(gòu)的感知組件。這些局部預(yù)測被用作視覺注意力圖,并使用線性組合與學(xué)習(xí)參數(shù)相結(jié)合來做出最終決策。雖然基于注意力的方法通常被認(rèn)為可以提高神經(jīng)網(wǎng)絡(luò)的透明度,但應(yīng)該注意的是,學(xué)習(xí)到的注意力權(quán)重可能與多個(gè)特征表現(xiàn)出弱相關(guān)性。在測量駕駛過程中的不同輸入特征時(shí),注意力權(quán)重可以提供準(zhǔn)確的預(yù)測??傮w而言,評估注意力機(jī)制的事后有效性具有挑戰(zhàn)性,并且通常依賴于主觀的人類評估。
Fig. 10: Explainability Methods: (a) PlanT [15] visualization showing the attention given to the agent in various scenarios. (b) Using InterFuser [8], failure cases can be visualized by integrating three RGB views and a predicted object density map. The orange boxes indicate objects that pose a collision risk to the ego-vehicle. The object density map offers predictions for the current traffic scene (t0) and future traffic scenes at 1-second (t1) and 2-second (t2) intervals.
2)反事實(shí)解釋:顯著性方法側(cè)重于回答“哪里”的問題,識(shí)別對模型決策有影響的輸入位置。相比之下,反事實(shí)解釋通過尋找輸入中改變模型預(yù)測的微小變化來解決“什么”問題。
由于輸入空間由語義維度組成并且是可修改的,因此評估輸入組件的因果關(guān)系很簡單。Li等最近提出了一種用于識(shí)別風(fēng)險(xiǎn)對象的因果推理技術(shù)。語義輸入提供了高級對象表示,使其比像素級表示更易于解釋。
在端到端驅(qū)動(dòng)中,轉(zhuǎn)向、油門和制動(dòng)驅(qū)動(dòng)輸出可以通過提供反事實(shí)解釋的輔助輸出來補(bǔ)充。Chitta等提出使用 A* 規(guī)劃器的可解釋的輔助輸出。Shao等設(shè)計(jì)了一個(gè)系統(tǒng),如圖10(b)所示,它生成一個(gè)安全思維導(dǎo)圖,在中間對象密度圖的幫助下推斷潛在的故障。
Global explanations
全局解釋旨在通過描述模型所擁有的知識(shí)來提供對模型行為的整體理解。它們分為模型翻譯(VIII-B1)和表示解釋技術(shù)(VIII-B2),用于分析全局解釋。
1)模型翻譯:模型翻譯的目標(biāo)是將信息從原始模型轉(zhuǎn)移到本質(zhì)上可解釋的不同模型。這涉及訓(xùn)練一個(gè)可解釋的模型來模擬輸入輸出關(guān)系。最近的研究探索了將深度學(xué)習(xí)模型轉(zhuǎn)化為決策樹、基于規(guī)則的模型或因果模型。然而,這種方法的一個(gè)局限性是可解釋的翻譯模型與原始自動(dòng)駕駛模型之間可能存在差異。
2)解釋表示:解釋表示旨在解釋模型結(jié)構(gòu)在不同尺度上捕獲的信息。神經(jīng)元的激活可以通過檢查最大化其活動(dòng)的輸入模式來理解。例如,可以使用梯度上升或生成網(wǎng)絡(luò)對輸入進(jìn)行采樣。
08 評估
End-to-End系統(tǒng)的評估分為開環(huán)評估和閉環(huán)評估。使用真實(shí)世界的基準(zhǔn)數(shù)據(jù)集(例如KITTI和 nuScenes)評估開環(huán)。它將系統(tǒng)的駕駛行為與專家的行為進(jìn)行比較并測量偏差 MinADE、MinFDE、L2 誤差和沖突率 [58] 等指標(biāo)是表I中列出的一些評估指標(biāo)。相比之下,閉環(huán)評估直接評估受控現(xiàn)實(shí)世界或受控現(xiàn)實(shí)世界中的系統(tǒng)。通過允許其獨(dú)立駕駛并學(xué)習(xí)安全駕駛操作來模擬設(shè)置。
在端到端駕駛系統(tǒng)的開環(huán)評估中,系統(tǒng)的輸入(例如相機(jī)圖像或激光雷達(dá)數(shù)據(jù))被提供給系統(tǒng)。所產(chǎn)生的輸出(例如轉(zhuǎn)向命令和車輛速度)將根據(jù)預(yù)定義的駕駛行為進(jìn)行評估。開環(huán)評估中常用的評估指標(biāo)包括衡量系統(tǒng)遵循期望軌跡或駕駛行為的能力,例如預(yù)測軌跡和實(shí)際軌跡之間的均方誤差或系統(tǒng)保持在該軌跡內(nèi)的時(shí)間百分比 所需軌跡的一定距離。其他評估指標(biāo)也可用于評估系統(tǒng)在特定駕駛場景中的性能,例如系統(tǒng)導(dǎo)航交叉路口、處理障礙物或執(zhí)行車道變換的能力。
最近的大多數(shù)端到端系統(tǒng)都是在閉環(huán)設(shè)置中進(jìn)行評估的,例如LEADERBOARD和NOCRASH [79]。表V比較了 CARLA 公共排行榜上所有最先進(jìn)的方法。CARLA 排行榜分析意環(huán)境中的自動(dòng)駕駛系統(tǒng)。車輛的任務(wù)是完成一組指定的路線,其中包括意外穿越行人或突然變道等危險(xiǎn)場景。排行榜衡量車輛在規(guī)定時(shí)間內(nèi)在給定城鎮(zhèn)路線上成功行駛的距離以及發(fā)生違規(guī)的次數(shù)。有幾個(gè)指標(biāo)可以讓您全面了解駕駛系統(tǒng),如下所述:
- 路線完成 (RC):測量車輛可以完成的距離的百分比;
- 違規(guī)分?jǐn)?shù)/罰分(IS):是跟蹤違規(guī)行為并匯總違規(guī)罰分的幾何級數(shù)。車輛的起始分?jǐn)?shù)為1.0,然后根據(jù)違規(guī)處罰進(jìn)一步降低分?jǐn)?shù)。它衡量客服人員開車不造成違規(guī)的頻率;
- 駕駛分?jǐn)?shù)(DS):是一個(gè)主要指標(biāo),計(jì)算為路線完成度與違規(guī)處罰的乘積。它衡量按每條路線的違規(guī)行為加權(quán)的路線完成率。
有評估違規(guī)行為的具體指標(biāo),每次違規(guī)發(fā)生時(shí),每個(gè)指標(biāo)都會(huì)應(yīng)用懲罰系數(shù)。與行人的碰撞、與其他車輛的碰撞、與靜態(tài)元素的碰撞、碰撞布局、紅燈違規(guī)、停車標(biāo)志違規(guī)和越野違規(guī)是使用的一些指標(biāo)。
09 數(shù)據(jù)集和仿真
數(shù)據(jù)集
在端到端模型中,數(shù)據(jù)的質(zhì)量和豐富性是模型訓(xùn)練的關(guān)鍵方面。訓(xùn)練數(shù)據(jù)不是使用不同的超參數(shù),而是影響模型性能的最關(guān)鍵因素。輸入模型的信息量決定了它產(chǎn)生的結(jié)果類型。我們根據(jù)傳感器模式(包括攝像頭、激光雷達(dá)、GNSS 和動(dòng)力學(xué))總結(jié)了自動(dòng)駕駛數(shù)據(jù)集。數(shù)據(jù)集的內(nèi)容包括城市駕駛、交通和不同的路況。天氣條件也會(huì)影響模型的性能。一些數(shù)據(jù)集,例如 ApolloScape,捕獲從晴天到下雪的所有天氣條件。表六提供了詳細(xì)信息。
仿真和工具集
端到端駕駛和學(xué)習(xí)管道的標(biāo)準(zhǔn)測試需要先進(jìn)的軟件模擬器來處理信息并為其各種功能得出結(jié)論。此類駕駛系統(tǒng)的試驗(yàn)成本高昂,而且在公共道路上進(jìn)行測試受到嚴(yán)格限制。模擬環(huán)境有助于在道路測試之前訓(xùn)練特定的算法/模塊。像Carla這樣的模擬器可以根據(jù)實(shí)驗(yàn)要求靈活地模擬環(huán)境,包括天氣條件、交通流量、道路代理等。模擬器在生成安全關(guān)鍵場景方面發(fā)揮著至關(guān)重要的作用,并有助于模型泛化以檢測和預(yù)測 防止此類情況的發(fā)生。
表七比較了廣泛使用的端到端驅(qū)動(dòng)管道訓(xùn)練平臺(tái)。MATLAB/Simulink用于各種設(shè)置;它包含高效的繪圖函數(shù),并且能夠與其他軟件(例如CarSim])進(jìn)行聯(lián)合仿真,從而簡化了不同設(shè)置的創(chuàng)建。PreScan可以模擬現(xiàn)實(shí)世界的環(huán)境,包括天氣條件,這是MATLAB和CarSim所缺乏的。它還支持MATLAB Simulink接口,使建模更加有效。Gazebo以其高通用性和與ROS的輕松連接而聞名。與CARLA和LGSVL模擬器相比,使用Gazebo創(chuàng)建模擬環(huán)境需要機(jī)械工作。CARLA和LGSVL提供高質(zhì)量的模擬框架,需要GPU處理單元以適當(dāng)?shù)乃俣群蛶俾蔬\(yùn)行。CARLA基于Unreal引擎構(gòu)建,而LGSVL基于Unity游戲引擎。該API允許用戶訪問CARLA和LGSVL中的各種功能,從開發(fā)可定制的傳感器到地圖生成。LGSVL一般通過各種橋連接到驅(qū)動(dòng)堆棧,而CARLA允許通過ROS和Autoware進(jìn)行內(nèi)置橋連接。
10 未來研究方向
- 1)學(xué)習(xí)魯棒性:目前端到端自動(dòng)駕駛的研究主要集中在強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)方法。強(qiáng)化學(xué)習(xí)通過與模擬環(huán)境交互來訓(xùn)練智能體,而IL則向?qū)<抑悄荏w學(xué)習(xí),無需進(jìn)行廣泛的環(huán)境交互。然而IL中的分布變化和RL中的計(jì)算不穩(wěn)定等挑戰(zhàn)凸顯了進(jìn)一步改進(jìn)的必要性。多任務(wù)學(xué)習(xí)也是一種令人印象深刻的方法,但需要在自動(dòng)駕駛研究中進(jìn)一步探索。
- 2)增強(qiáng)安全性:安全性是開發(fā)端到端自動(dòng)駕駛系統(tǒng)的關(guān)鍵因素。確保車輛的行為安全并準(zhǔn)確預(yù)測不確定行為是安全研究的關(guān)鍵方面。一個(gè)有效的系統(tǒng)應(yīng)該能夠處理各種駕駛情況,從而提供舒適可靠的交通。為了促進(jìn)端到端方法的廣泛采用,必須完善安全約束并提高其有效性。
- 3)提高模型可解釋性:可解釋性的缺乏對端到端驅(qū)動(dòng)的發(fā)展提出了新的挑戰(zhàn)。然而人們正在不斷努力,通過設(shè)計(jì)和生成可解釋的語義特征來解決這個(gè)問題。這些努力在性能和可解釋性方面都顯示出有希望的改進(jìn)。盡管如此,設(shè)計(jì)新穎的方法來解釋導(dǎo)致失敗的模型操作并提供潛在的解決方案還需要進(jìn)一步的進(jìn)展。未來的研究還可以探索改進(jìn)反饋機(jī)制的方法,讓用戶了解決策過程并增強(qiáng)對端到端駕駛系統(tǒng)可靠性的信心。
11 結(jié)論
在過去的幾年里,由于與傳統(tǒng)的模塊化自動(dòng)駕駛相比,端到端自動(dòng)駕駛的設(shè)計(jì)簡單,人們對它產(chǎn)生了濃厚的興趣。在端到端駕駛研究呈指數(shù)級增長的推動(dòng)下,我們首次對使用深度學(xué)習(xí)的端到端自動(dòng)駕駛進(jìn)行了全面調(diào)查。該調(diào)查論文不僅有助于理解端到端自動(dòng)駕駛,而且可以作為該領(lǐng)域未來研究的指南。
我們開發(fā)了一種分類法,根據(jù)模式、學(xué)習(xí)和培訓(xùn)方法對研究進(jìn)行分類。此外,我們還研究了利用領(lǐng)域適應(yīng)方法來優(yōu)化訓(xùn)練過程的潛力。此外,本文還介紹了一個(gè)包含開環(huán)和閉環(huán)評估的評估框架,可以對系統(tǒng)性能進(jìn)行全面分析。為了促進(jìn)該領(lǐng)域的進(jìn)一步研究和開發(fā),我們編制了公開可用的數(shù)據(jù)集和模擬器的匯總列表。本文還探討了不同文章提出的有關(guān)安全性和可解釋性的潛在解決方案。盡管端到端方法的性能令人印象深刻,但仍需要在安全性和可解釋性方面繼續(xù)探索和改進(jìn),以實(shí)現(xiàn)更廣泛的技術(shù)接受。