自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

世界模型再進(jìn)化!博士AdaWM:自適應(yīng)世界模型規(guī)劃新SOTA

人工智能 新聞
本項(xiàng)工作提出了AdaWM,這是一種基于自適應(yīng)世界模型的規(guī)劃方法,它緩解了自動(dòng)駕駛中基于世界模型的強(qiáng)化學(xué)習(xí)(RL)的性能下降問題。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

圖片

  • 論文鏈接:https://arxiv.org/pdf/2501.13072

摘要

本文介紹了AdaWM:基于自適應(yīng)世界模型的自動(dòng)駕駛規(guī)劃?;谑澜缒P偷膹?qiáng)化學(xué)習(xí)(RL)已經(jīng)成為一種有前景的自動(dòng)駕駛方法,它學(xué)習(xí)潛在動(dòng)態(tài)模型并且用其訓(xùn)練規(guī)劃策略。為了加快學(xué)習(xí)過程,通常使用預(yù)訓(xùn)練-微調(diào)范式,其中在線RL由預(yù)訓(xùn)練模型和離線學(xué)習(xí)的策略來初始化。然而,在RL中樸素地執(zhí)行這類初始化可能會(huì)導(dǎo)致新任務(wù)中的在線交互期間性能急劇下降。為了應(yīng)對(duì)這一挑戰(zhàn),本文首先分析了性能下降問題,并且確定了兩個(gè)主要根本原因:規(guī)劃策略的不匹配和動(dòng)態(tài)模型的不匹配(由分布偏移導(dǎo)致)。本文進(jìn)一步分析了這些因素對(duì)微調(diào)過程中性能下降的影響,研究結(jié)果表明,微調(diào)策略的選擇在緩解這些影響方面發(fā)揮著關(guān)鍵作用。然后,本文引入了AdaWM,這是一種基于自適應(yīng)世界模型的規(guī)劃方法,其具有兩個(gè)關(guān)鍵步驟:(a)不匹配識(shí)別,它量化了不匹配并且告知微調(diào)策略;(b)對(duì)齊驅(qū)動(dòng)的微調(diào),它使用高效的低秩更新選擇性地更新策略或者模型。本文在具有挑戰(zhàn)性的CARLA駕駛?cè)蝿?wù)上進(jìn)行實(shí)驗(yàn),結(jié)果表明,AdaWM顯著地改進(jìn)了微調(diào)過程,使自動(dòng)駕駛系統(tǒng)的性能更為魯棒和高效。

主要貢獻(xiàn)

本文的主要貢獻(xiàn)總結(jié)如下:

1)本文量化了微調(diào)過程中觀測(cè)到的性能差距,并且確定了兩個(gè)主要根本原因:(1)動(dòng)態(tài)模型不匹配;(2)策略不匹配。然后,評(píng)估每種原因?qū)ξ⒄{(diào)性能的相應(yīng)影響;

2)本文引入了AdaWM,這是一種基于自適應(yīng)世界模型的自動(dòng)駕駛規(guī)劃方法,它通過兩個(gè)關(guān)鍵步驟實(shí)現(xiàn)了有效的微調(diào):(1)不匹配識(shí)別;(2)對(duì)齊驅(qū)動(dòng)的微調(diào)。此外,AdaWM分別為動(dòng)態(tài)模型和策略引入了高效的更新方法;

3)本文在具有挑戰(zhàn)性的CARLA環(huán)境中的多個(gè)任務(wù)上驗(yàn)證了AdaWM,展現(xiàn)了它在路徑成功率(SR)和碰撞時(shí)間(TTC)方面實(shí)現(xiàn)卓越性能的能力。實(shí)驗(yàn)結(jié)果表明,AdaWM有效地緩解了各種新任務(wù)的性能下降問題,證實(shí)了識(shí)別和解決微調(diào)過程中不匹配的重要性。

論文圖片和表格

圖片

圖片

圖片

圖片

圖片

圖片

圖片

圖片

圖片

圖片

總結(jié)

本項(xiàng)工作提出了AdaWM,這是一種基于自適應(yīng)世界模型的規(guī)劃方法,它緩解了自動(dòng)駕駛中基于世界模型的強(qiáng)化學(xué)習(xí)(RL)的性能下降問題。根據(jù)理論分析,本文確定了導(dǎo)致性能下降的兩個(gè)主要原因:動(dòng)態(tài)模型不匹配和策略不匹配。本文提出了具有兩個(gè)核心組件的AdaWM:不匹配識(shí)別和對(duì)齊驅(qū)動(dòng)的微調(diào)。AdaWM評(píng)估了性能下降的主要來源,并且根據(jù)識(shí)別的不匹配對(duì)動(dòng)態(tài)模型或者策略應(yīng)用選擇性低秩更新。在CARLA上的大量實(shí)驗(yàn)表明,AdaWM顯著地提高了路徑成功率和碰撞時(shí)間,驗(yàn)證了其有效性。本項(xiàng)工作強(qiáng)調(diào)了在解決具有挑戰(zhàn)性的現(xiàn)實(shí)世界任務(wù)時(shí)選擇高效且魯棒的微調(diào)策略的重要性。未來研究存在若干條有前景的途徑。首先,探索將AdaWM應(yīng)用于自動(dòng)駕駛以外的其它領(lǐng)域能夠擴(kuò)大其適用性。此外,將AdaWM擴(kuò)展到考慮智能體之間交互的多智能體環(huán)境中,可以進(jìn)一步提高其在復(fù)雜現(xiàn)實(shí)世界環(huán)境中的魯棒性。

責(zé)任編輯:張燕妮 來源: 自動(dòng)駕駛之心
相關(guān)推薦

2025-01-02 09:12:34

2024-04-18 12:16:37

MetaAIOpenEQA

2024-07-11 11:40:18

2025-02-14 10:56:58

2024-10-16 09:50:32

2024-03-25 13:06:00

數(shù)據(jù)訓(xùn)練

2023-06-30 13:01:26

2025-03-24 08:06:00

2024-12-24 10:30:00

2024-10-28 13:30:00

2023-12-04 09:33:00

自動(dòng)駕駛視覺

2022-05-16 14:47:01

MIT模型

2025-04-21 09:20:00

2024-02-04 15:58:53

C++ 17編程代碼

2024-10-29 21:01:44

2025-01-08 14:13:53

2024-03-07 13:23:20

谷歌模型Sora

2024-12-09 07:15:00

世界模型AILLM
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)