自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

基于數據正則化自博弈強化學習的人類兼容型自動駕駛

人工智能
自動駕駛汽車面臨的一個核心挑戰(zhàn)是如何與人類合作。因此,在模擬環(huán)境中,將現實中的人類代理納入到自主駕駛系統(tǒng)的可擴展訓練和評估中至關重要。

自動駕駛汽車面臨的一個核心挑戰(zhàn)是如何與人類合作。因此,在模擬環(huán)境中,將現實中的人類代理納入到自主駕駛系統(tǒng)的可擴展訓練和評估中至關重要。模擬代理通常是通過模仿大規(guī)模、高質量的人類駕駛數據集來開發(fā)的。然而,純粹的模仿學習代理在多代理閉環(huán)環(huán)境中執(zhí)行時經驗上具有較高的碰撞率。為了構建在閉環(huán)設置中既逼真又有效的代理,研究人員提出了一種名為 Human-Regularized PPO(HR-PPO) 的多代理方法,其中代理通過與一個人類參考策略做自我對弈訓練,并對偏離人類參考策略的行為施加了小的懲罰。與以往的方法相比,該方法以強化學習為主,僅利用了30分鐘的不完美人類示范數據。在大量的多代理交通場景的評估中,HR-PPO 代理在實現目標方面非常有效,成功率達到 93%,越出道路的比率為 3.5%,碰撞率為 3%。與此同時,HR-PPO 代理以類似人類駕駛的方式行駛,在與人類駕駛協(xié)調的代理指標上表現出相當大的改進,特別是在高度互動的情景中。

當前的駕駛模擬器提供了基本的交互代理 - 簡單的車輛跟隨模型、基于規(guī)則的代理、記錄的人類駕駛日志或模仿學習代理。這些模型無法創(chuàng)建具有挑戰(zhàn)性的協(xié)調場景,或者在閉環(huán)中具有高碰撞率。

圖片

為了構建在閉環(huán)設置中既逼真又有效的代理,研究人員提出了Human-Regularized PPO (HR-PPO),一種多代理方法,通過自我對弈訓練,并對偏離人類參考策略的行為施加了小的懲罰。

圖片

方法

  • 步驟1:模仿學習

通過對人類駕駛示范進行模仿學習,獲取人類參考策略。

  • 步驟2:引導自我對弈

代理在多代理設置中進行訓練,每個場景最多可容納50個代理。目標函數如下:

圖片

實驗結果

在大量的多代理交通場景中,研究人員發(fā)現可以同時實現效果和逼真度。HR-PPO 代理在四種不同逼真度指標上實現了顯著的人類相似性改進,同時達到了與 PPO 相似的性能水平。

圖片

HR-PPO 代理在衡量與人類駕駛協(xié)調的代理指標上顯示出相當大的改進,特別是在需要代理之間協(xié)調的高度互動場景中。在互動場景中,HR-PPO 在 PPO 的基礎上提升了 20-40%。

圖片

有趣的是,它們甚至表現出比直接在代理的測試分布上訓練的代理更好的性能。這表明,多代理訓練可能比單一代理訓練提供了額外的好處。

為什么 HR-PPO 代理與人類駕駛日志更兼容呢?

  • HR-PPO 代理的駕駛風格類似于人類駕駛員,這使得它更容易適應人類駕駛日志的行為;
  • HR-PPO 代理與其他車輛保持更多距離,從而降低了碰撞的風險。

譯自(有刪改):https://sites.google.com/view/driving-partners

責任編輯:龐桂玉 來源: AIGC社區(qū)
相關推薦

2023-01-04 10:02:53

強化學習自動駕駛

2023-08-05 13:08:54

2021-10-15 15:29:59

自動駕駛數據人工智能

2017-07-30 15:16:31

深度強化學習遷移交叉路口

2019-08-21 08:45:25

2025-03-24 09:50:00

大模型自動駕駛AI

2021-10-12 10:28:34

自動駕駛數據人工智能

2023-03-23 18:42:45

AI強化學習

2021-10-18 10:32:32

自動駕駛數據人工智能

2023-07-31 14:09:53

自動駕駛技術

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2025-01-26 11:00:00

2024-10-10 09:26:07

2024-01-30 09:00:28

框架BMRL模型

2023-09-09 13:12:14

DARPA自動駕駛汽車

2022-10-27 10:18:25

自動駕駛

2021-11-18 09:50:35

自動駕駛輔助駕駛人工智能

2021-12-24 13:28:15

自動駕駛數據人工智能

2020-03-27 09:29:10

微軟開源無人機
點贊
收藏

51CTO技術棧公眾號