自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

自動(dòng)駕駛端到端規(guī)劃方法匯總

人工智能 智能汽車
本文主要貢獻(xiàn)就是把一個(gè)連續(xù)解空間通過(guò)這種樹形采樣規(guī)則轉(zhuǎn)變一個(gè)馬爾可夫決策過(guò)程,然后再利用dp求解。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

一、Woven Planet(豐田子公司)的方案:Urban Driver 2021

這篇文章是21年的,但一大堆新文章都拿它來(lái)做對(duì)比基線,因此應(yīng)該也有必要來(lái)看看方法。

大概看了下,主要就是用Policy Gradients學(xué)習(xí)State->近期action的映射函數(shù),有了這個(gè)映射函數(shù),可以一步步推演出整個(gè)執(zhí)行軌跡,最后loss就是讓這個(gè)推演給出的軌跡盡可能的接近專家軌跡。

效果應(yīng)該當(dāng)時(shí)還不錯(cuò),因此能成為各家新算法的基線。

二、南洋理工大學(xué)方案一 Conditional Predictive Behavior Planning with Inverse Reinforcement Learning 2023.04

先使用規(guī)則枚舉了多種行為,生成了10~30條軌跡。(未使用預(yù)測(cè)結(jié)果)
使用Condtional Prediction算出每條主車待選軌跡情況下的預(yù)測(cè)結(jié)果,然后使用IRL對(duì)待選軌跡打分。

其中Conditional Joint Prediction模型長(zhǎng)這樣:

這個(gè)方法基本上很贊的點(diǎn)就是利用了Conditional Joint Prediction可以很好的完成交互性的預(yù)測(cè),使得算法有一定的博弈能力。
但我個(gè)人認(rèn)為算法缺點(diǎn)是前邊只生成了10~30條軌跡,而且軌跡生成時(shí)沒(méi)考慮預(yù)測(cè),而且最后會(huì)直接在IRL打分后,直接選用這些軌跡中的一條作為最終結(jié)果,比較容易出現(xiàn)10~30條在考慮預(yù)測(cè)后發(fā)現(xiàn)都不大理想的情況。相當(dāng)于要在瘸子里邊挑將軍,挑出來(lái)的也還是瘸子。基于這個(gè)方案,再解決前邊待選樣本生成質(zhì)量會(huì)是很不錯(cuò)的路子

三、英偉達(dá)方案:2023.02 Tree-structured Policy Planning with Learned Behavior Models

用規(guī)則樹狀采樣,一層一層的往后考慮,對(duì)每一層的每個(gè)子結(jié)點(diǎn)都生成一個(gè)conditional prediction,然后用規(guī)則對(duì)prediction結(jié)果和主車軌跡打分,并用一些規(guī)則把不合法的干掉,然后,利用DP往后生成最優(yōu)軌跡,DP思路有點(diǎn)類似于apollo里dp_path_optimizer,不過(guò)加了一個(gè)時(shí)間維度。

不過(guò)因?yàn)槎嗔艘粋€(gè)維度,這個(gè)后邊擴(kuò)展次數(shù)多了之后,還是會(huì)出現(xiàn)解空間很大計(jì)算量過(guò)大的情況,當(dāng)前論文里寫的方法是到節(jié)點(diǎn)過(guò)多之后,隨機(jī)丟棄了一些節(jié)點(diǎn)來(lái)確保計(jì)算量可控(感覺意思是節(jié)點(diǎn)過(guò)多之后可能也是n層之后了,可能影響比較小了)

本文主要貢獻(xiàn)就是把一個(gè)連續(xù)解空間通過(guò)這種樹形采樣規(guī)則轉(zhuǎn)變一個(gè)馬爾可夫決策過(guò)程,然后再利用dp求解。

四、南洋理工大學(xué)&英偉達(dá)聯(lián)合 2023年10月最新方案:DTPP: Differentiable Joint Conditional Prediction and Cost Evaluation for Tree Policy Planning in Autonomous Driving

看標(biāo)題就感覺很Exciting:

一、Conditional Prediction確保了一定博弈效果
二、可導(dǎo),能夠整個(gè)梯度回傳,讓預(yù)測(cè)與IRL一起訓(xùn)練。也是能拼出一個(gè)端到端自動(dòng)駕駛的必備條件
三、Tree Policy Planning,可能有一定的交互推演能力

仔細(xì)看完,發(fā)現(xiàn)這篇文章信息含量很高,方法很巧妙。

主要基于英偉達(dá)的TPP和南洋理工的Conditional Predictive Behavior Planning with Inverse Reinforcement Learning進(jìn)行糅合改進(jìn),很好的解決了之前南洋理工論文中待選軌跡不好的問(wèn)題。

論文方案主要模塊有:

一、Conditional Prediction模塊,輸入一條主車歷史軌跡+提示軌跡 + 障礙車歷史軌跡,給出主車接近提示軌跡的預(yù)測(cè)軌跡和與主車行為自洽的障礙車的預(yù)測(cè)軌跡。
二、打分模塊,能夠給一個(gè)主車+障礙車軌跡打分看這個(gè)軌跡是否像專家的行為,學(xué)習(xí)方法是IRL。
三、Tree Policy Search模塊,用來(lái)生成一堆待選軌跡

使用Tree Search的方案來(lái)探索主車的可行解,探索過(guò)程中每一步都會(huì)把已經(jīng)探索出來(lái)的軌跡作為輸入,使用Conditional Prediction來(lái)給出主車和障礙車的預(yù)測(cè)軌跡,然后再調(diào)用打分模塊評(píng)估軌跡的好壞,從而影響到下一步搜索擴(kuò)展結(jié)點(diǎn)的方向。通過(guò)這種辦法可以得到一些差異比較大的主車軌跡,并且軌跡生成時(shí)已經(jīng)隨時(shí)考慮了與障礙車的交互。

傳統(tǒng)的IRL都是人工搞了一大堆的feature,如前后一堆障礙物在軌跡時(shí)間維度上的各種feature(如相對(duì)s, l和ttc之類的),本文里為了讓模型可導(dǎo),則是直接使用prediction的ego context MLP生成一個(gè)Weight數(shù)組(size = 1 * C),隱式表征了主車周圍的環(huán)境信息,然后又用MLP直接接把主車軌跡+對(duì)應(yīng)多模態(tài)預(yù)測(cè)結(jié)果轉(zhuǎn)成Feature數(shù)組(size = C * N, N指的待選軌跡數(shù)),然后兩個(gè)矩陣相乘得到最終軌跡打分。然后IRL讓專家得分最高。個(gè)人感覺這里可能是為了計(jì)算效率,讓decoder盡可能簡(jiǎn)單,還是有一定的主車信息丟失,如果不關(guān)注計(jì)算效率,可以用一些更復(fù)雜一些的網(wǎng)絡(luò)連接Ego Context和Predicted Trajectories,應(yīng)該效果層面會(huì)更好?或者如果放棄可導(dǎo)性,這里還是可以考慮再把人工設(shè)置的feature加進(jìn)去,也應(yīng)該可以提升模型效果。

在耗時(shí)方面,該方案采用一次重Encode + 多次輕量化Decode的方法,有效降低了計(jì)算時(shí)延,文中提到時(shí)延可以壓到98ms。

在learning based planner中屬于SOTA行列,閉環(huán)效果接近前一篇文章中提到的nuplan 排第一的Rule Based方案PDM。

總結(jié)

看下來(lái),感覺這么個(gè)范式是挺不錯(cuò)的思路,中間具體過(guò)程可以自己想辦法調(diào)整:

  1. 用預(yù)測(cè)模型指導(dǎo)一些規(guī)則來(lái)生成一些待選ego軌跡
  2. 對(duì)每條軌跡,用Conditional Joint Prediction做交互式預(yù)測(cè),生成agent預(yù)測(cè)??梢蕴嵘┺男阅?。
  3. IRL等方法做利用Conditional Joint Prediction結(jié)果對(duì)前邊的主車軌跡打分,選出最優(yōu)軌跡

原文鏈接:https://mp.weixin.qq.com/s/ZJtMU3zGciot1g5BoCe9Ow

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2023-10-18 09:40:25

自動(dòng)駕駛技術(shù)

2024-03-13 09:39:45

端到端自動(dòng)駕駛

2024-04-15 11:40:37

自動(dòng)駕駛端到端

2023-08-24 09:52:44

自動(dòng)駕駛設(shè)計(jì)

2025-04-07 03:00:00

自動(dòng)駕駛

2024-02-21 09:14:32

端到端自動(dòng)駕駛

2024-03-15 10:20:14

自動(dòng)駕駛模型

2021-12-16 10:45:22

自動(dòng)駕駛數(shù)據(jù)人工智能

2023-01-04 09:59:48

自動(dòng)駕駛技術(shù)

2025-02-10 10:35:00

自動(dòng)駕駛端到端模型

2024-04-17 09:50:28

自動(dòng)駕駛端到端

2024-01-04 09:35:41

自動(dòng)駕駛端到端

2024-10-11 09:32:48

2023-12-11 10:29:11

自動(dòng)駕駛系統(tǒng)

2023-08-05 13:08:54

2023-12-18 10:15:30

自動(dòng)駕駛自然語(yǔ)言

2024-06-19 09:45:07

2024-08-14 10:40:00

模型自動(dòng)駕駛

2023-10-10 09:31:35

自動(dòng)駕駛技術(shù)

2024-01-23 13:32:53

地平線自動(dòng)駕駛
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)