Think2Drive:首個用于自動駕駛的基于模型的RL方法(上海交大)
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
在CARLA v2中以專家級的熟練程度運行。
題目:Think2Drive: Efficient Reinforcement Learning by Thinking in Latent World Model for Quasi-Realistic Autonomous Driving (in CARLA-v2)
作者單位:上海交通大學
現(xiàn)實世界中的自動駕駛(AD),尤其是城市駕駛,涉及許多corner case。最近發(fā)布的AD仿真器CARLA v2在駕駛場景中增加了39個常見事件,并提供了比CARLA v1更接近真實的測試平臺。這給社區(qū)帶來了新的挑戰(zhàn),到目前為止,還沒有文獻報告CARLA v2中的新場景取得了任何成功,因為現(xiàn)有的工作大多都必須依賴于特定規(guī)則進行規(guī)劃,但它們無法涵蓋CARLA v2中更復雜的情況。這項工作主動直接訓練一個規(guī)劃器,希望能夠靈活有效地處理corner case,認為這也是AD的未來方向。據(jù)我們所知,我們開發(fā)了第一個基于模型的強化學習方法,名為Think2Drive,用于AD,具有一個世界模型來學習環(huán)境的轉(zhuǎn)變,然后它充當神經(jīng)仿真器來訓練規(guī)劃器。這種范式極大地提高了訓練效率,因為世界模型中的低維狀態(tài)空間和張量的并行計算。
結(jié)果,Think2Drive能夠在單個A6000 GPU上進行3天的訓練后,在CARLA v2中以專家級的熟練程度運行,據(jù)我們所知,迄今為止尚未報告有關(guān)CARLA v2的成功(100%的路線完成)。還提出了CornerCase-Repository,這是一個支持通過場景評估駕駛模型的基準。此外,提出了一個新的平衡指標來評估性能,包括路線完成、違規(guī)次數(shù)和場景密度,以便駕駛分數(shù)可以提供更多關(guān)于實際駕駛表現(xiàn)的信息。
實驗結(jié)果
寫在最后
歡迎star和follow我們的倉庫,里面包含了BEV/多模態(tài)融合/Occupancy/毫米波雷達視覺感知/車道線檢測/3D感知/多模態(tài)融合/在線地圖/多傳感器標定/Nerf/大模型/規(guī)劃控制/軌跡預測等眾多技術(shù)綜述與論文;