端到端自動駕駛中軌跡引導(dǎo)的控制預(yù)測:一個簡單有力的基線方法TCP
arXiv論文“Trajectory-guided Control Prediction for End-to-end Autonomous Driving: A Simple yet Strong Baseline“, 2022年6月,上海AI實驗室和上海交大。
當(dāng)前的端到端自主駕駛方法要么基于規(guī)劃軌跡運行控制器,要么直接執(zhí)行控制預(yù)測,這跨越了兩個研究領(lǐng)域。鑒于二者之間潛在的互利,本文主動探索兩個的結(jié)合,稱為TCP (Trajectory-guided Control Prediction)。具體來說,集成方法有兩個分支,分別用于軌跡規(guī)劃和直接控制。軌跡支路預(yù)測未來軌跡,而控制支路涉及一種新的多步預(yù)測方案,推理當(dāng)前動作和未來狀態(tài)之間的關(guān)系。這兩個支路相連,以便控制支路在每個時間步從軌跡支路接收相應(yīng)的引導(dǎo)。然后將兩個分支輸出融合,實現(xiàn)互補優(yōu)勢。
在具有挑戰(zhàn)性場景的閉環(huán)城市駕駛環(huán)境中使用Carla模擬器進行評估。即使單目攝像機輸入,該方法在CARLA官方排行榜排名第一。源代碼和數(shù)據(jù)將開源:https://github.com/OpenPerceptionX/TCP
選擇Roach(“End-to-end urban driving by imitating a reinforcement learning coach“. ICCV, 2021)作為專家。Roach是由RL訓(xùn)練的一個簡單模型,具有特權(quán)信息,包括道路、車道、路線、車輛、行人、交通燈和車站,所有這些都被渲染為2D BEV圖像。與手工規(guī)則(hand-crafted)專家相比,這種基于學(xué)習(xí)的專家可以傳遞除直接監(jiān)督信號外的更多信息。具體來說,有一個特征損失,這迫使學(xué)生模型的最終輸出頭之前的潛特征與專家相似。一個價值損失也被添加為學(xué)生模型的輔助任務(wù),以預(yù)測預(yù)期回報(return)。
如圖所示,整個架構(gòu)由輸入編碼階段和兩個后續(xù)分支組成:輸入圖像i通過基于CNN的圖像編碼器,例如ResNet,生成特征地圖F。同時,導(dǎo)航信息g與當(dāng)前速度v串聯(lián)形成測量輸入m,然后基于MLP的測量編碼器將m作為其輸入并輸出測量特征jm。編碼特征然后由兩個分支共享,用于后續(xù)軌跡和控制預(yù)測。具體來說,控制支路是一種新的多步預(yù)測設(shè)計,具有來自軌跡支路的引導(dǎo)。最后,采用了一種基于場景的融合方案,將兩種輸出范式的最佳者結(jié)合起來。
如圖所示,TCP通過學(xué)習(xí)注意圖來尋求軌跡規(guī)劃分支的幫助,從編碼的特征圖中提取重要信息。兩個分支(軌跡和控制)之間交互增強了這兩個密切相關(guān)輸出范式的一致性,并進一步闡述了多任務(wù)學(xué)習(xí)(MTL)精神。具體地說,利用圖像編碼器F在時間步長t提取2D特征圖 ,來自控制分支和軌跡分支的相應(yīng)隱藏狀態(tài)用于計算注意圖。
信息表示特征被輸入到策略頭中,該策略頭在所有時間t步之間共享,預(yù)測相應(yīng)的控制動作。注意,對于初始步驟,僅用測量特征來計算初始注意圖,并將注意圖像特征與測量特征相結(jié)合,形成初始特征向量。為了保證特征確實描述該步驟的狀態(tài)并包含用于控制預(yù)測的重要信息,在每個步驟中添加了一個特征損失,以便初始特征向量也接近專家的特征。
TCP框架有兩種形式的輸出表示:規(guī)劃軌跡和預(yù)測控制。為了進一步結(jié)合,設(shè)計了一種基于場景的融合策略,如算法1偽代碼所示。
具體來說,將α表示為組合權(quán)重,其值在0到0.5之間,根據(jù)先驗belief,在某種情況下一種表示更適合,通過權(quán)重α取平均值,將軌跡和控制預(yù)測的結(jié)果結(jié)合起來,更合適的一個占據(jù)更多權(quán)重(1 ? α)。注意,組合權(quán)重α確實不需要是常數(shù)或?qū)ΨQ的,這意味著可以在不同的情況下將其設(shè)置為不同值,或者針對特定的控制信號設(shè)置為不同值。在實驗中,根據(jù)自車是否拐彎來選擇場景,這意味著,如果拐彎,場景是控制特有的,否則是軌跡特有的。
實驗結(jié)果如下: