自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

強化學(xué)習(xí)應(yīng)用在自動駕駛中:一種通過人指導(dǎo)并基于優(yōu)先經(jīng)驗的方法

人工智能 無人駕駛
強化學(xué)習(xí)(RL)需要定義和計算來解決優(yōu)化和控制問題,這可能會損害其發(fā)展前景。將人的指導(dǎo)引入強化學(xué)習(xí)是提高學(xué)習(xí)性能的一種很有前途的方法,本文建立了一個基于人指導(dǎo)的強化學(xué)習(xí)框架。

[[428302]]

 arXiv在2021年9月26日上傳的論文“Prioritized Experience-based Reinforcement Learning with Human Guidance: Methodology and Application to Autonomous Driving“,作者來自新加坡NTU(南洋理工)。

強化學(xué)習(xí)(RL)需要定義和計算來解決優(yōu)化和控制問題,這可能會損害其發(fā)展前景。將人的指導(dǎo)引入強化學(xué)習(xí)是提高學(xué)習(xí)性能的一種很有前途的方法,本文建立了一個基于人指導(dǎo)的強化學(xué)習(xí)框架。

所提出的是一種在強化學(xué)習(xí)過程中適應(yīng)人指導(dǎo)的 優(yōu)先經(jīng)驗重放(prioritized experience replay,PER) 機制,提高RL算法的效率和性能。為減輕人的繁重工作量,基于增量在線學(xué)習(xí)(incremental online learning)方法建立一個行為模型來模仿人。

作者設(shè)計了兩個具有挑戰(zhàn)性的自動駕駛?cè)蝿?wù)來評估所提出的算法:一個是T-路口無保護左轉(zhuǎn),另一個是高速堵車。

最近強化學(xué)習(xí)引入深度神經(jīng)網(wǎng)絡(luò)提出了一些流行方法,如rainbow deep Q-learning, proximal policy optimization (PPO) 和 soft actor-critic (SAC), 能夠處理高維環(huán)境表征和泛化等。

不過問題是環(huán)境和智體的交互比較低效率。為此引入人的指導(dǎo),有3個途徑:1)人的專家反饋,給行為打分(behavior score);2)人的干預(yù),一般是reward shaping方法;3)人的演示,上下文中監(jiān)督學(xué)習(xí)。

如圖是本文方法的RL算法框架:

提出的基于人指導(dǎo)優(yōu)先經(jīng)驗回放(PER)機制中,TDQA表示提出的優(yōu)先計算方案,即Time Difference Q-advantage,數(shù)字1-4表示數(shù)據(jù)的流向順序,動作信號的虛線表示該框架允許間歇性的人在環(huán)(human-in-the-loop )的指導(dǎo)。

強化學(xué)習(xí)基于離散MDP來定義交互過程,這里采用不帶策略的AC(actor- critic)架構(gòu)。策略函數(shù)(即 actor )最大化價值函數(shù)Q,Q來自累計的未來reward,基于一個Bellman價值函數(shù)(即 critic )。

這個Bellman 價值函數(shù)只對最優(yōu)策略進行評估,而不管執(zhí)行交互的策略。 因此,RL 將策略評估過程和策略行為解耦,這使智體以一種不帶策略的方式更新狀態(tài)。

作者用神經(jīng)網(wǎng)絡(luò)作為函數(shù)逼近來制定actor和 critic,然后可以通過損失函數(shù)實現(xiàn)目標。

傳統(tǒng)上,緩沖區(qū)存儲的經(jīng)驗服從均勻分布,用均勻隨機抽樣從緩沖區(qū)獲取批量經(jīng)驗,用于 RL 訓(xùn)練。在有限經(jīng)驗重放機制中,經(jīng)驗受制于非均勻分布,實際優(yōu)先級取決于TD誤差(temporal difference error)。

較大的 TD誤差表明,經(jīng)驗值得在更高程度上學(xué)習(xí)。 因此,基于 TD誤差的優(yōu)先經(jīng)驗回放(PER)機制可以提高 RL 的訓(xùn)練效率。

在強化學(xué)習(xí)的訓(xùn)練中,采用了兩種人指導(dǎo)的行為方式:干預(yù)和演示。

干預(yù) :人的參與者識別 RL 交互場景,并根據(jù)先驗知識和推理能力確定是否應(yīng)該進行指導(dǎo)。 如果人參與者決定進行干預(yù),可以操縱設(shè)備從 RL 智體(部分或全部)獲得控制權(quán)。 干預(yù)通常發(fā)生在 RL 智體做災(zāi)難性操作或陷入局部最優(yōu)陷阱。 因此,RL 可以學(xué)會避免干預(yù)出現(xiàn)的不利情況。

演示 :當(dāng)干預(yù)事件發(fā)生時,人的參與者會執(zhí)行行動,產(chǎn)生相應(yīng)的獎勵信號和下一步狀態(tài)。 生成的轉(zhuǎn)換組(transition tuple)可以看作是一段演示數(shù)據(jù),因為是由人策略而不是 RL 行為策略造成的。 RL 算法可以從演示中學(xué)習(xí)人的專家行為。

在 RL 智體與環(huán)境的標準交互中,RL 的行為策略會輸出探索環(huán)境的動作。一旦動作被發(fā)送到環(huán)境,交互的轉(zhuǎn)換組將被記錄并存儲到經(jīng)驗重放緩存(buffer)。 特別注意的是,來自人的策略和 RL 策略的操作存儲在同一個緩沖區(qū)中。

由于先驗知識和推理能力,人的演示通常比 RL 行為策略的大多數(shù)探索更重要。 因此,需要一種更有效的方法來加權(quán)緩存的專家演示。 文中采用一種 基于優(yōu)點的度量( advantage-based measure  ,而不是傳統(tǒng)的優(yōu)先經(jīng)驗重放(PER) TD 誤差,以建立優(yōu)先專家演示重放機制。

除了TD 誤差度量外,該優(yōu)點度量(因為基于Q計算,故稱為 QA ,即 Q-advantage )也評估應(yīng)該在多大程度去檢索特定的專家演示轉(zhuǎn)換組。通過 RL 訓(xùn)練過程,RL 智體的能力發(fā)生變化,一個專家演示轉(zhuǎn)換組的優(yōu)先級也隨之變化,這就產(chǎn)生了動態(tài)優(yōu)先機制。整個機制稱為 TDQA ,把兩個度量組合成一個對人的指導(dǎo)測度。

優(yōu)先機制引入了對價值函數(shù)期望估計的偏差,因為它改變了緩存中的經(jīng)驗分布。 有偏的價值網(wǎng)絡(luò)對強化學(xué)習(xí)漸近性影響不大,但在某些情況下可能會影響成熟策略的穩(wěn)定性和魯棒性。 作為可選操作,可以通過引入重要性采樣(importance-sampling )權(quán)重到價值網(wǎng)絡(luò)的損失函數(shù),來退火偏差。

下面討論人的參與者在 RL 訓(xùn)練環(huán)的行為:人的參與者可以干預(yù)該過程獲得控制權(quán),并用專家行動替代 RL 智體行動;由于持續(xù)重復(fù)訓(xùn)練情節(jié)和未成熟的 RL 策略,人的參與者在訓(xùn)練過程中不斷進行演示顯得很乏味,因此間歇性干預(yù)(intermittent intervention)成為更可行的解決方案。 這種情況下,人參與者只會干預(yù)那些關(guān)鍵場景(災(zāi)難行為或陷入局部最優(yōu))拯救 RL 智體并延長訓(xùn)練時間。

這里采用reward shaping方法,可防止 RL 陷入那些人為干預(yù)的狀態(tài)。 然而,它僅在一個人為干預(yù)事件的第一時間觸發(fā)懲罰。 這背后的原理是,一旦人的參與者獲得控制權(quán),其專家演示會慣性地持續(xù)一段時間,這里只有最初的場景被確認為關(guān)鍵場景。

下面把上述組件集成在一起,即優(yōu)先人在環(huán)( Prioritized Human-In-the-Loop,即PHIL ) RL。具體來說,通過基于人指導(dǎo)的actor- critic框架,配備優(yōu)先專家演示重放和基于干預(yù)的reward shaping 機制來獲得整體的人在環(huán) (human-in-the-loop)RL 配置。 基于不帶策略 RL 算法,即雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradient, TD3 ),來實例化這個 PHIL 算法。 上述組件適用于各種 不帶策略的 actor-critic RL 算法。

最后,整個PHIL-TD3算法總結(jié)如下所示:

結(jié)合前面的PHIL-RL,需要一個人的策略模型。該模型通過模仿實際人參與者的行為策略,來減輕人在環(huán) RL 過程的工作量。

雖然人參與者進行 PHIL-RL 對提高性能最有幫助,但過度參與會使人疲勞。 作者訓(xùn)練了一個回歸模型,與 RL 運行同時模仿人類策略,這個策略模型在必要時可以替代人。

分析一下RL 訓(xùn)練過程的人行為:人類干預(yù)間歇性地施加到環(huán)中,人演示逐漸補充到訓(xùn)練集(緩存)中;考慮到這一點,利用在線-和基于增量-的模仿學(xué)習(xí)算法(即Data Aggregation,DAgger)訓(xùn)練人策略模型,該算法不受離線大規(guī)模演示數(shù)據(jù)的收集影響。

注意:如果使用這個人策略模型與 PHIL 合作,模型的激活條件將根據(jù)特定環(huán)境手動定義。

下面討論如何應(yīng)用在自動駕駛場景:選擇端到端問題的兩個應(yīng)用,即T-路口無保護左轉(zhuǎn)和高速堵車。

如圖是自動駕駛?cè)蝿?wù)的環(huán)境配置: a 在 CARLA 建立的 T -路口設(shè)計的無保護左轉(zhuǎn)場景; b 左轉(zhuǎn)場景鳥瞰圖,紅色虛線表示左轉(zhuǎn)軌跡; c 設(shè)計的在 CARLA 建立的高速公路擁堵場景; d 擁堵場景的鳥瞰圖,其中紅色虛線表示跟車軌跡。

T-路口無保護左轉(zhuǎn) :小路的自車試圖左轉(zhuǎn)并匯入主干道,路口沒有交通信號引導(dǎo)車輛;假設(shè)自車的橫向路徑由其他技術(shù)規(guī)劃,而縱向控制分配給 RL 智體;周圍車輛以 [4, 6] m/s 范圍隨機的不同速度進行初始化,并由intelligent driver model (IDM) 控制執(zhí)行車道保持行為;所有周圍的駕駛員都具有侵略性,這意味著他們不會讓路給自車;所有車輛的控制間隔設(shè)為 0.1 秒。

高速擁堵 :自車陷入嚴重擁堵并被其他車輛緊緊包圍; 因此它試圖縮小與領(lǐng)先車的差距,并以目標速度進行跟車;假設(shè)縱向控制由 IDM 完成,目標速度為 6m/s,而橫向控制分配給 RL 智體;周圍車輛初始化速度范圍為 [4, 6] m/s,并由 IDM 控制以執(zhí)行跟車行為;所有車輛的控制間隔設(shè)置為 0.1 秒;擁擠的周圍車輛覆蓋了車道標記,而自車道沒有特定的前車,在這種情況下可能導(dǎo)致傳統(tǒng)的橫向規(guī)劃方法無效。

下面定義RL的狀態(tài)

RL的動作對兩個場景是不同的:

T-路口左轉(zhuǎn)

高速擁堵

獎勵(reward)對兩個場景也是不同的:

T-路口左轉(zhuǎn)

高速

價值和策略函數(shù)的近似采用Deep CNN,如圖所示:a)策略函數(shù);b)價值函數(shù)

輔助函數(shù):主要做車輛控制;當(dāng)RL操縱方向盤時,縱向控制由IDM實現(xiàn);當(dāng) RL 操縱踏板縫隙時,橫向運動目標是通過比例積分 (PI) 控制器跟蹤規(guī)劃的航路點。

實驗比較的基準算法是:

  • IA-TD3:Intervention Aided Reinforcement Learning (IARL)
  • HI-TD3:Human Intervention Reinforcement Learning (HIRL)
  • RD2-TD3:Recurrent Replay Distributed Demonstration-based DQN (R2D3)
  • PER-TD3:vanilla Prioritized experience replay (PER)

RL訓(xùn)練和推理的實驗工作流如圖(a-b)所示:

訓(xùn)練 硬件包括駕駛模擬器和高性能工作站。駕駛模擬器用于收集人駕駛數(shù)據(jù)以訓(xùn)練人的策略模型,工作站專門處理 RL 訓(xùn)練。 采用高保真自動駕駛仿真平臺 CARLA來實現(xiàn)駕駛場景并生成RL-環(huán)境交互信息。

測試 硬件是機器人車輛。訓(xùn)練后的RL策略在車輛的計算平臺上實現(xiàn),通過無線網(wǎng)絡(luò)與CARLA服務(wù)器進行通信。車載 RL 策略從 CARLA 接收狀態(tài)信息并將其控制命令發(fā)回,遠程操作完成自動駕駛?cè)蝿?wù)。機器人車輛旨在測試 RL 策略在當(dāng)前車載計算和通信情況下是否有效。

部分實驗結(jié)果比較如下:

作者提出了一種算法 PHIL-TD3,旨在提高人在環(huán) (human-in-the-loop )RL 的算法能力。 另外,引入了人的行為建模機制來減輕人參與者的工作量。 PHIL-TD3 解決兩個具有挑戰(zhàn)性的自動駕駛?cè)蝿?wù),即無保護T-路口左轉(zhuǎn)和高速擁堵。

 

責(zé)任編輯:張燕妮 來源: 知乎
相關(guān)推薦

2023-01-04 10:02:53

強化學(xué)習(xí)自動駕駛

2023-08-05 13:08:54

2021-10-15 15:29:59

自動駕駛數(shù)據(jù)人工智能

2023-06-13 10:00:21

自動駕駛技術(shù)

2017-07-30 15:16:31

深度強化學(xué)習(xí)遷移交叉路口

2024-04-10 14:10:33

自動駕駛強化學(xué)習(xí)

2024-03-22 09:21:07

自動駕駛訓(xùn)練

2025-01-26 11:00:00

2021-10-18 10:32:32

自動駕駛數(shù)據(jù)人工智能

2023-11-20 09:53:13

自動駕駛系統(tǒng)

2017-07-21 10:42:27

自動駕駛應(yīng)用機器學(xué)習(xí)

2025-03-24 09:50:00

大模型自動駕駛AI

2009-12-25 15:11:08

FTTH應(yīng)用

2024-03-08 09:29:42

車道檢測AI

2021-10-09 09:44:50

自動駕駛數(shù)據(jù)人工智能

2022-02-07 22:52:07

自動駕駛安全技術(shù)

2023-03-23 18:42:45

AI強化學(xué)習(xí)

2021-12-16 10:45:22

自動駕駛數(shù)據(jù)人工智能

2022-06-21 14:53:39

自動駕駛物聯(lián)網(wǎng)傳感器

2024-10-10 09:26:07

點贊
收藏

51CTO技術(shù)棧公眾號