自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

端到端方法,目前基于learning的打不過基于rule的方法嗎?

人工智能 新聞
這篇文章,想來探究下為什么基于learning的打不過基于rule的(或者這個(gè)結(jié)論現(xiàn)在是否還成立),帶著這個(gè)問題我們來看下相關(guān)的文獻(xiàn)

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

目標(biāo)

如題所屬,這篇文章,想來探究下為什么基于learning的打不過基于rule的(或者這個(gè)結(jié)論現(xiàn)在是否還成立),帶著這個(gè)問題我們來看下相關(guān)的文獻(xiàn)

一個(gè)不得不提的重要信息
在CVPR 23 AD Challenge NuPlan挑戰(zhàn)中,奪得第一的,是一個(gè)Rule Based算法。
Urban Driver: Learning to Drive from Real-world Demonstrations Using Policy Gradients
第二個(gè)思考點(diǎn)
motion planning(我理解的現(xiàn)階段的端到端)和軌跡預(yù)測的關(guān)系(原則上motion planing是軌跡預(yù)測的一個(gè)子集,是一種限制為自車+利用導(dǎo)航route限制可能性的特定traj)

learning打不過rule來源于下面這篇文章,我們來審視下這個(gè)觀點(diǎn)現(xiàn)在還成立嗎

Parting with Misconceptions about Learning-based Vehicle Motion Planning

首先這篇文章時(shí)間點(diǎn)為CVPR 23 AD Challenge NuPlan,意味著已經(jīng)過去一年了,我們結(jié)合當(dāng)時(shí)的情況和最新的一些進(jìn)展來看。

abstract

首先文中提出系統(tǒng)規(guī)劃包括兩方面-1.短期精確的規(guī)劃和2.長期規(guī)劃,兩部分完全不同,應(yīng)該獨(dú)立的來看

IDM是基于規(guī)則,PDM是基于學(xué)習(xí),這是作者的兩個(gè)初始base,該圖展示了短期和長期,開環(huán)和閉環(huán)的評估區(qū)別,信息濃度挺高的

然后文中提出基于學(xué)習(xí)的方式在復(fù)雜的現(xiàn)實(shí)世界里面的不足和基于rule的價(jià)值

最后文中指出他們僅依靠簡單的rule就獲取了挑戰(zhàn)賽最好的成績。

具體細(xì)節(jié)先不看,看評估方法指標(biāo)和conclusion,數(shù)據(jù)說話

評估

基于nuplan benchmark

開環(huán)評估
in open-loop evaluation, which measures ego-forecasting accuracy using distance-based metrics

閉環(huán)評估

in closed-loopevaluation,which assesses the actual driving performance in simulation with metrics such as progress or collision rates

這里又包含兩類1.非反射式CLS-NR(其他車輛不根據(jù)主車調(diào)整),2.反射式CLS-R(其他車輛根據(jù)主車行為調(diào)整,調(diào)整的方式用IDM規(guī)劃器),這里我有個(gè)有趣的想法(如果理論上列舉出了所有可能的合理規(guī)劃器,那么這種模仿式的閉環(huán)仿真的效果評估,將會非常接近真實(shí)環(huán)境下的效果,而規(guī)劃器就是對交互agent出軌跡,那么可以認(rèn)為只要采樣出盡可能多的agent的合理軌跡來做反射式評估,就可以訓(xùn)練出一個(gè)不亞于基于真實(shí)環(huán)境訓(xùn)練的planner,不知道前人有做過相關(guān)的工作沒,先查找下這個(gè)方向相關(guān)的文獻(xiàn))

記住這張表,我們后面會基于這張表來看看最近的一些規(guī)劃器的效果

上面作為對比基準(zhǔn),接下來我們看看目前效果比較好的planner

DTPP:Differentiable Joint Conditional Prediction and Cost Evaluation for Tree Policy Planningin Autonomous Driving

(掛著學(xué)習(xí)的羊頭,但賣的還是rule的狗肉^^,核心還是rule,其實(shí)是用IML學(xué)習(xí)到cost函數(shù)給TPP打分,效果完全取決于TPP(而TPP并不是學(xué)習(xí)出來的是根據(jù)rule產(chǎn)生的),不過意義確實(shí)完成了端到端的改造,理論上專家軌跡越多,效果越好。上限取決于后續(xù)跟進(jìn)對TPP的學(xué)習(xí)化改造)
在這里可以看出改良派有兩個(gè)進(jìn)攻方向(個(gè)人覺得DTPP已經(jīng)可以作為一個(gè)很好的對決策規(guī)劃做端到端改造的框架和范式了)
a.怎么采樣出更好的待選軌跡(首先基于規(guī)則采樣軌跡保證整個(gè)框架基本work,其次在前述基礎(chǔ)上換成可學(xué)習(xí)的基于model的軌跡采樣)
b.怎么提升IML學(xué)習(xí)效果,能夠根據(jù)專家軌跡(人類駕駛軌跡),更有效的更可遷移的學(xué)習(xí)到應(yīng)對不同場景的cost function(reward model)

先上指標(biāo)對比

PDM就是上文rulebased,看起來比較接近了,稍低,文中也做了對比,看原文是不是會做一些辯解

文章主要工作(縫合了之前的想法+做了自己的優(yōu)化)

a tree-structured policy planner-TPP(靈感因該來源于nvidia,解決規(guī)劃問題內(nèi)在的多模性,不確定性,但是非TPP不可嗎,有沒有更優(yōu)雅的辦法?) a differentiable joint training framework(可微可學(xué)習(xí)的框架用于)for both ego-conditioned prediction and cost models

細(xì)節(jié)

使用了a query-centric Transformer model來進(jìn)行ego condition prediction

疑問項(xiàng):

  1. cost model怎么學(xué)習(xí),又用來干什么?之前的cost是手工設(shè)計(jì),缺陷在哪里?為什么要切換成學(xué)習(xí)?
    Deep IRL學(xué)習(xí),逆強(qiáng)化學(xué)習(xí)的精髓就是通過專家sample,學(xué)習(xí)到什么是好的即一個(gè)評估函數(shù),也可以叫rewarding function(強(qiáng)化學(xué)習(xí)術(shù)語,而在Deep IRL里面表現(xiàn)就是一個(gè)cost model),這個(gè)本質(zhì)弄清楚了,也就好解釋手工設(shè)計(jì)的缺陷了,就是不夠豐富全面,評估不夠準(zhǔn)確。
  2. a tree-structured怎么得到?
    參考Tree-structured policy planning with learned behavior models(nvidia)

一個(gè)示例

  1. 文中提到直接把TPP特征編碼到了網(wǎng)絡(luò)中,這種編碼方式怎么做的?不同深度和寬度的TPP特征怎么對齊,讓我們來看看?

維度信息,Na和Nm都是確定數(shù)量的agent和map元素,比較粗暴

M是最大的branch數(shù)

3還有文中提到了這個(gè)框架可以有效的提取學(xué)習(xí)到的cost組件和手工設(shè)計(jì)的cost組件,這兩種cost怎么整合也是一個(gè)值得注意的點(diǎn)?

上面提到的學(xué)習(xí)的cost和手工設(shè)計(jì)的cost,匯總在一起是fl圖片

方法

迭代的方式,有點(diǎn)像人做決策,根據(jù)當(dāng)前環(huán)境做推演,也有點(diǎn)像MCTS,結(jié)合MDP(馬爾科夫決策過程)就可以得到最優(yōu)軌跡。而這個(gè)決策樹其實(shí)就是動作空間??雌饋硎菢?biāo)準(zhǔn)的逆強(qiáng)化學(xué)習(xí)范式。

文中提到TPP就是對有限的狀態(tài)采樣來解決軌跡連續(xù)空間的規(guī)劃問題。

  • 上圖中個(gè)人覺得最重要的一步是Conditional Motion Prediction,也就是對應(yīng)的(Tree Structure planning),其實(shí)這一步是結(jié)合了專家信息,也是這一步,區(qū)別于力大磚飛的llm,帶了歸納偏置,讓學(xué)習(xí)變得更簡單。我們來仔細(xì)看下

作者在這里說的不全面,他認(rèn)為該工作最重要的是提出了query-centeric,而個(gè)人覺得trajectory tree才是關(guān)鍵,這個(gè)限制了學(xué)習(xí)的采樣空間,從而減小了學(xué)習(xí)難度。當(dāng)然負(fù)面作用可能就是極端case看起來還是不夠智能。但目前是原型驗(yàn)證,后面可以繼續(xù)優(yōu)化。

可以看出雖然掛著學(xué)習(xí)的羊頭,但賣的還是rule的狗肉

PlanAgent: A Multi-modal Large Language Agent for Closed-loop Vehicle Motion Planning(最新熱乎的論文,2024年0605,指標(biāo)超過了rulebased),需要接入chatgpt-4v

還是先上指標(biāo)

總結(jié)起來就是用bev輸出等作為上下文信息,用gpt-4v做resoning engine,結(jié)合Cot引導(dǎo)模型做出合理的軌跡選擇。

framework

Cot(思維鏈)

推理引擎示例

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2023-02-01 07:25:12

2009-04-10 22:31:26

2011-12-15 01:12:59

ibmdw

2010-06-19 14:44:08

2010-06-19 14:58:23

2024-09-26 09:55:33

2010-06-21 14:33:34

風(fēng)險(xiǎn)評估安全審計(jì)

2018-11-19 15:26:28

sketch網(wǎng)絡(luò)測量網(wǎng)絡(luò)

2023-01-03 14:10:32

沉淀數(shù)據(jù)大數(shù)據(jù)

2022-06-01 17:16:42

端到端KQI業(yè)務(wù)

2025-03-21 08:08:50

2013-12-18 09:41:01

思科SDBSoftware De

2022-07-06 13:02:00

高延時(shí)電商直播主播互動

2019-02-21 10:29:53

RFID室內(nèi)定位

2014-01-07 09:38:34

OpenFlowSDN測試

2021-04-29 08:55:54

GitLabDevOps項(xiàng)目

2011-11-30 22:05:03

ibmdw云計(jì)算

2023-10-30 09:47:00

自動駕駛技術(shù)

2023-08-05 13:08:54

2023-12-18 10:15:30

自動駕駛自然語言
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號