SafetyNet:自動駕駛中機器學(xué)習(xí)策略的安全規(guī)劃方法
arXiv上2021年9月28日上傳論文“SafetyNet: Safe planning for real-world self-driving vehicles using machine-learned policies“,來自Level 5, Toyota收購的Lyft自動駕駛團(tuán)隊。
本文介紹的是,通過來自于專家演示的訓(xùn)練,實現(xiàn)一個安全自動駕駛控制系統(tǒng)。因為機器學(xué)習(xí)(ML)方法存在安全問題,風(fēng)險不可預(yù)測,故此加入一個基于規(guī)則的退卻層(rule-based fallback layer),對ML決策做健全檢查(sanity checks),這樣可減少ML規(guī)劃器的碰撞95%。整個實驗采用300小時的駕駛數(shù)據(jù)做模仿學(xué)習(xí)(IL),并在三番市進(jìn)行了測試。
更多信息參見 Autonomy 2.0 - 2022-SafetyNet
代碼 GitHub - lyft/l5kit: L5Kit - level5.lyft.com
如圖是SafeNet的基本框架:ML規(guī)劃給出軌跡預(yù)測,通過一個fallback layer進(jìn)行驗證。
下面的圖像是一個SafeNet在三番市區(qū)進(jìn)行自動駕駛的例子:
如圖是模型的架構(gòu)圖:類似谷歌WayMo的VectorNet,一個分級圖網(wǎng)絡(luò);采用PointNet網(wǎng)絡(luò)進(jìn)行輸入信息(車輛姿態(tài)和大小,其他智體的姿態(tài)、大小和目標(biāo)類型,HD地圖的靜態(tài)信息和動態(tài)信息,以及路線規(guī)劃routing)的局部編碼,基于Transformer做全局嵌入推理智體和地圖特征之間的交互。這個結(jié)構(gòu)會通過運動解碼器做控制信號,基于自行車模型。
網(wǎng)絡(luò)訓(xùn)練基于模仿學(xué)習(xí),加入擾動,擴展分布減少covariance shift的影響。損失函數(shù)考慮曲率kt和抖動jt的因素改進(jìn)舒適度,即
這里補充一下運動解碼器的模型如下:
在fallback層,考慮幾個維度進(jìn)行軌跡評估:
- dynamic feasibility :包括約束的longitudinal jerk, longitudinal acceleration, curvature, curvature rate, lateral acceleration, 和 steering jerk (curvature rate X velocity);
- legality:交通規(guī)則,比如stop sign、紅燈、離開道路或者讓路等等
- collision probability:碰撞檢測
這樣給軌跡做標(biāo)記【Feasible, Infeasible】,最后產(chǎn)生一個最接近ML預(yù)測軌跡的Feasible結(jié)果。
訓(xùn)練規(guī)模如此:
fallback層的影響:
實驗的性能比較:ML規(guī)劃和ML規(guī)劃+fallback層
SafetyNet將 ML 規(guī)劃器與基于規(guī)則的系統(tǒng)fallback層相結(jié)合,與純基于機器學(xué)習(xí)的系統(tǒng)相比,安全性和舒適性指標(biāo)得到改進(jìn),在具有挑戰(zhàn)性的舊金山街道測試。
今后可將fallback層細(xì)化,不那么保守,不增加被動性。另外,可以借鑒基于模型的強化學(xué)習(xí) (RL) 、離線 RL 或數(shù)據(jù)驅(qū)動模擬的閉環(huán)訓(xùn)練等進(jìn)行改進(jìn)。