自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="jidgt"><rt id="jidgt"></rt></sup>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

自動(dòng)駕駛端到端規(guī)劃方法匯總

作者：張?jiān)坡?/span> 2023-10-30 09:47:00

人工智能智能汽車

本文主要貢獻(xiàn)就是把一個(gè)連續(xù)解空間通過(guò)這種樹形采樣規(guī)則轉(zhuǎn)變一個(gè)馬爾可夫決策過(guò)程，然后再利用dp求解。

本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

一、Woven Planet（豐田子公司）的方案：Urban Driver 2021

這篇文章是21年的，但一大堆新文章都拿它來(lái)做對(duì)比基線，因此應(yīng)該也有必要來(lái)看看方法。

大概看了下，主要就是用Policy Gradients學(xué)習(xí)State->近期action的映射函數(shù)，有了這個(gè)映射函數(shù)，可以一步步推演出整個(gè)執(zhí)行軌跡，最后loss就是讓這個(gè)推演給出的軌跡盡可能的接近專家軌跡。

效果應(yīng)該當(dāng)時(shí)還不錯(cuò)，因此能成為各家新算法的基線。

二、南洋理工大學(xué)方案一 Conditional Predictive Behavior Planning with Inverse Reinforcement Learning 2023.04

先使用規(guī)則枚舉了多種行為，生成了10~30條軌跡。（未使用預(yù)測(cè)結(jié)果）
使用Condtional Prediction算出每條主車待選軌跡情況下的預(yù)測(cè)結(jié)果，然后使用IRL對(duì)待選軌跡打分。

其中Conditional Joint Prediction模型長(zhǎng)這樣：

這個(gè)方法基本上很贊的點(diǎn)就是利用了Conditional Joint Prediction可以很好的完成交互性的預(yù)測(cè)，使得算法有一定的博弈能力。
但我個(gè)人認(rèn)為算法缺點(diǎn)是前邊只生成了10~30條軌跡，而且軌跡生成時(shí)沒(méi)考慮預(yù)測(cè)，而且最后會(huì)直接在IRL打分后，直接選用這些軌跡中的一條作為最終結(jié)果，比較容易出現(xiàn)10~30條在考慮預(yù)測(cè)后發(fā)現(xiàn)都不大理想的情況。相當(dāng)于要在瘸子里邊挑將軍，挑出來(lái)的也還是瘸子。基于這個(gè)方案，再解決前邊待選樣本生成質(zhì)量會(huì)是很不錯(cuò)的路子

三、英偉達(dá)方案：2023.02 Tree-structured Policy Planning with Learned Behavior Models

用規(guī)則樹狀采樣，一層一層的往后考慮，對(duì)每一層的每個(gè)子結(jié)點(diǎn)都生成一個(gè)conditional prediction，然后用規(guī)則對(duì)prediction結(jié)果和主車軌跡打分，并用一些規(guī)則把不合法的干掉，然后，利用DP往后生成最優(yōu)軌跡，DP思路有點(diǎn)類似于apollo里dp_path_optimizer，不過(guò)加了一個(gè)時(shí)間維度。

不過(guò)因?yàn)槎嗔艘粋€(gè)維度，這個(gè)后邊擴(kuò)展次數(shù)多了之后，還是會(huì)出現(xiàn)解空間很大計(jì)算量過(guò)大的情況，當(dāng)前論文里寫的方法是到節(jié)點(diǎn)過(guò)多之后，隨機(jī)丟棄了一些節(jié)點(diǎn)來(lái)確保計(jì)算量可控（感覺意思是節(jié)點(diǎn)過(guò)多之后可能也是n層之后了，可能影響比較小了）

本文主要貢獻(xiàn)就是把一個(gè)連續(xù)解空間通過(guò)這種樹形采樣規(guī)則轉(zhuǎn)變一個(gè)馬爾可夫決策過(guò)程，然后再利用dp求解。

四、南洋理工大學(xué)&英偉達(dá)聯(lián)合 2023年10月最新方案：DTPP: Differentiable Joint Conditional Prediction and Cost Evaluation for Tree Policy Planning in Autonomous Driving

看標(biāo)題就感覺很Exciting：

一、Conditional Prediction確保了一定博弈效果
二、可導(dǎo)，能夠整個(gè)梯度回傳，讓預(yù)測(cè)與IRL一起訓(xùn)練。也是能拼出一個(gè)端到端自動(dòng)駕駛的必備條件
三、Tree Policy Planning，可能有一定的交互推演能力

仔細(xì)看完，發(fā)現(xiàn)這篇文章信息含量很高，方法很巧妙。

主要基于英偉達(dá)的TPP和南洋理工的Conditional Predictive Behavior Planning with Inverse Reinforcement Learning進(jìn)行糅合改進(jìn)，很好的解決了之前南洋理工論文中待選軌跡不好的問(wèn)題。

論文方案主要模塊有：

一、Conditional Prediction模塊，輸入一條主車歷史軌跡+提示軌跡 + 障礙車歷史軌跡，給出主車接近提示軌跡的預(yù)測(cè)軌跡和與主車行為自洽的障礙車的預(yù)測(cè)軌跡。
二、打分模塊，能夠給一個(gè)主車+障礙車軌跡打分看這個(gè)軌跡是否像專家的行為，學(xué)習(xí)方法是IRL。
三、Tree Policy Search模塊，用來(lái)生成一堆待選軌跡

使用Tree Search的方案來(lái)探索主車的可行解，探索過(guò)程中每一步都會(huì)把已經(jīng)探索出來(lái)的軌跡作為輸入，使用Conditional Prediction來(lái)給出主車和障礙車的預(yù)測(cè)軌跡，然后再調(diào)用打分模塊評(píng)估軌跡的好壞，從而影響到下一步搜索擴(kuò)展結(jié)點(diǎn)的方向。通過(guò)這種辦法可以得到一些差異比較大的主車軌跡，并且軌跡生成時(shí)已經(jīng)隨時(shí)考慮了與障礙車的交互。

傳統(tǒng)的IRL都是人工搞了一大堆的feature，如前后一堆障礙物在軌跡時(shí)間維度上的各種feature（如相對(duì)s, l和ttc之類的），本文里為了讓模型可導(dǎo)，則是直接使用prediction的ego context MLP生成一個(gè)Weight數(shù)組(size = 1 * C)，隱式表征了主車周圍的環(huán)境信息，然后又用MLP直接接把主車軌跡+對(duì)應(yīng)多模態(tài)預(yù)測(cè)結(jié)果轉(zhuǎn)成Feature數(shù)組(size = C * N, N指的待選軌跡數(shù))，然后兩個(gè)矩陣相乘得到最終軌跡打分。然后IRL讓專家得分最高。個(gè)人感覺這里可能是為了計(jì)算效率，讓decoder盡可能簡(jiǎn)單，還是有一定的主車信息丟失，如果不關(guān)注計(jì)算效率，可以用一些更復(fù)雜一些的網(wǎng)絡(luò)連接Ego Context和Predicted Trajectories，應(yīng)該效果層面會(huì)更好？或者如果放棄可導(dǎo)性，這里還是可以考慮再把人工設(shè)置的feature加進(jìn)去，也應(yīng)該可以提升模型效果。

在耗時(shí)方面，該方案采用一次重Encode + 多次輕量化Decode的方法，有效降低了計(jì)算時(shí)延，文中提到時(shí)延可以壓到98ms。

在learning based planner中屬于SOTA行列，閉環(huán)效果接近前一篇文章中提到的nuplan 排第一的Rule Based方案PDM。

總結(jié)

看下來(lái)，感覺這么個(gè)范式是挺不錯(cuò)的思路，中間具體過(guò)程可以自己想辦法調(diào)整：

用預(yù)測(cè)模型指導(dǎo)一些規(guī)則來(lái)生成一些待選ego軌跡
對(duì)每條軌跡，用Conditional Joint Prediction做交互式預(yù)測(cè)，生成agent預(yù)測(cè)?？梢蕴嵘┺男阅?。
IRL等方法做利用Conditional Joint Prediction結(jié)果對(duì)前邊的主車軌跡打分，選出最優(yōu)軌跡

原文鏈接：https://mp.weixin.qq.com/s/ZJtMU3zGciot1g5BoCe9Ow

責(zé)任編輯：張燕妮來(lái)源：自動(dòng)駕駛之心

自動(dòng)駕駛技術(shù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<blockquote id="haiqo"><i id="haiqo"></i></blockquote>}

<s id="haiqo"><li id="haiqo"></li></s>