自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<blockquote id="ucblj"></blockquote>}

<cite id="ucblj"></cite>

<sub id="ucblj"><i id="ucblj"></i></sub>

^{<sub id="ucblj"></sub>}

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

邁向『閉環(huán)』| PlanAgent：基于MLLM的自動駕駛閉環(huán)規(guī)劃新SOTA！

作者：Yupeng Zheng等 2024-06-05 09:22:43

人工智能新聞

今天為大家分享中科院自動化所&理想汽車最新的工作—PlanAgent，文章提出一種全新基于多模態(tài)大語言模型MLLM的自動駕駛閉環(huán)規(guī)劃框架，問鼎nuPlan SOTA！

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

中科院自動化所深度強化學(xué)習(xí)團隊聯(lián)合理想汽車等提出了一種新的基于多模態(tài)大語言模型MLLM的自動駕駛閉環(huán)規(guī)劃框架—PlanAgent。該方法以場景的鳥瞰圖和基于圖的文本提示為輸入，利用多模態(tài)大語言模型的多模態(tài)理解和常識推理能力，進行從場景理解到橫向和縱向運動指令生成的層次化推理，并進一步產(chǎn)生規(guī)劃器所需的指令。在大規(guī)模且具有挑戰(zhàn)性的nuPlan基準(zhǔn)上對該方法進行了測試，實驗表明PlanAgent在常規(guī)場景和長尾場景上都取得了最好(SOTA)性能。與常規(guī)大語言模型(LLM)方法相比，PlanAgent所需的場景描述詞符(token)量僅為1/3左右。

論文信息

論文題目：PlanAgent: A Multi-modal Large Language Agent for Closed loop Vehicle Motion Planning
論文發(fā)表單位：中科院自動化所，理想汽車，清華大學(xué)，北京航空航天大學(xué)
論文地址：https://arxiv.org/abs/2406.01587

1 引言

作為自動駕駛的核心模塊之一，運動規(guī)劃的目標(biāo)是產(chǎn)生一條安全舒適的最優(yōu)軌跡?；谝?guī)則的算法，如PDM[1]算法，在處理常見場景時表現(xiàn)良好，但往往難以應(yīng)對需要更復(fù)雜駕駛操作的長尾場景[2]。基于學(xué)習(xí)的算法[2,3]常常會在長尾情況下過擬合，導(dǎo)致其在nuPlan中的性能并不如基于規(guī)則的方法PDM。

最近，大語言模型的發(fā)展為自動駕駛規(guī)劃開辟了新的可能性。最新的一些研究嘗試?yán)么笳Z言模型強大的推理能力增強自動駕駛算法的規(guī)劃和控制能力。然而，它們遇到了一些問題：（1）實驗環(huán)境未能基于真實閉環(huán)場景（2）使用過量的坐標(biāo)數(shù)字表示地圖細節(jié)或運動狀態(tài)，大大增加了所需的詞符(token)數(shù)量；（3）由大語言模型直接生成軌跡點難以確保安全。為應(yīng)對上述挑戰(zhàn)，本文提出了PlanAgent方法。

2 方法

基于MLLM的閉環(huán)規(guī)劃智能體PlanAgent框架如圖1所示，本文設(shè)計了三個模塊來解決自動駕駛中的復(fù)雜問題：

場景信息提取模塊(Environment Transformation module)：為了實現(xiàn)高效的場景信息表示，設(shè)計了一個環(huán)境信息提取模塊，能夠提取具有車道信息的多模態(tài)輸入。
推理模塊(Reasoning module)：為了實現(xiàn)場景理解和常識推理，設(shè)計了一個推理模塊，該模塊利用多模態(tài)大語言模型MLLM生成合理且安全的規(guī)劃器代碼。
反思模塊(Reflection module)：為了保障安全規(guī)劃，設(shè)計了一個反思機制，能夠通過仿真對規(guī)劃器進行驗證，過濾掉不合理的MLLM提案。

圖1 PlanAgent的整體框架，包含場景信息提取/推理/反思模塊

2.1 環(huán)境信息提取模塊

大語言模型中的提示詞（prompt）對其生成輸出的質(zhì)量有著至關(guān)重要的影響。為了提高MLLM的生成質(zhì)量，場景信息提取模塊能夠提取場景上下文信息，并將其轉(zhuǎn)換為鳥瞰圖（BEV）圖像和文本提示，使之與MLLM的輸入保持一致。首先，本文將場景信息轉(zhuǎn)化成鳥瞰圖（BEV）圖像，以增強MLLM對全局場景的理解能力。同時，需要對道路信息進行圖表征，如圖 2所示，在此基礎(chǔ)上提取關(guān)鍵車輛的運動信息，使MLLM能夠重點關(guān)注與自身位置最相關(guān)的區(qū)域。

圖2 基于圖表征的文本提示描述

2.2 推理模塊

如何將大語言模型的推理能力引入到自動駕駛規(guī)劃過程中，實現(xiàn)具有常識推理能力的規(guī)劃系統(tǒng)是一個關(guān)鍵問題。本文設(shè)計的方法能夠以包含當(dāng)前場景信息的用戶消息和預(yù)定義的系統(tǒng)消息為輸入，經(jīng)過分層思維鏈多輪推理，生成智能駕駛員模型（IDM）的規(guī)劃器代碼。由此，PlanAgent能夠通過上下文學(xué)習(xí)將MLLM強大的推理能力嵌入到自動駕駛規(guī)劃任務(wù)中。

其中，用戶消息包括BEV編碼和基于圖表征提取出來的周圍車輛運動信息。系統(tǒng)消息包括任務(wù)的定義、常識知識以及思維鏈步驟，如圖 3所示。

圖3 系統(tǒng)提示模版

在得到prompt信息后，MLLM會對當(dāng)前場景從三個層次進行推理：場景理解、運動指令和代碼生成，最終生成規(guī)劃器的代碼。在PlanAgent中，會生成跟車、中心線、速度限制、最大加速度和最大減速度參數(shù)代碼，再由IDM生成某一場景下的瞬時加速度，最終由此生成軌跡。

2.3 反思模塊

通過以上兩個模塊強化了MLLM對場景的理解和推理能力。然而，MLLM的幻覺仍然對自動駕駛的安全構(gòu)成了挑戰(zhàn)。受到人類“三思而后行”決策的啟發(fā)，本文在算法設(shè)計中加入了反思機制。對MLLM生成的規(guī)劃器進行仿真模擬，并通過碰撞可能性、行駛距離、舒適度等指標(biāo)評估該規(guī)劃器的駕駛分?jǐn)?shù)。當(dāng)?shù)梅值陀谀硞€閾值τ時，表明MLLM生成的規(guī)劃器欠妥，MLLM將被請求重新生成規(guī)劃器。

3 實驗與結(jié)果

本文在大規(guī)模真實場景的閉環(huán)規(guī)劃平臺nuPlan[4]進行閉環(huán)規(guī)劃實驗，以評估PlanAgent的性能，實驗結(jié)果如下。

3.1 主要實驗

表1 PlanAgent與其他算法在nuPlan的val14和test-hard基準(zhǔn)上的比較

如表 1所示，本文將所提出的PlanAgent和三類最前沿的算法進行比較，并在nuPlan的兩個基準(zhǔn)val14和test-hard上進行測試。PlanAgent與其他方法相比表現(xiàn)出了有競爭力和可泛化的結(jié)果。

有競爭力的結(jié)果：在常見場景val14基準(zhǔn)上，PlanAgent優(yōu)于其他基于規(guī)則、基于學(xué)習(xí)和基于大語言模型的方法，在NR-CLS和R-CLS中都取得了最好的評分。
可泛化的結(jié)果：以PDM-Closed[1]為代表的規(guī)則類方法和以planTF[2]為代表的學(xué)習(xí)類方法都不能同時在val14和test-hard上表現(xiàn)良好。與這兩類方法相比PlanAgent能夠在克服長尾場景的同時，保證常見場景中的性能。

表2 不同方法描述場景所用token比較

同時，PlanAgent相比于其他基于大模型的方法所用的token數(shù)量更少，如表 2，大概只需要GPT-Driver[5]或LLM-ASSIST[6]的1/3。這表明PlanAgent能夠用較少的token更有效地對場景進行描述。這對于閉源大語言模型的使用尤為重要。

3.2 消融實驗

表3 場景提取模塊中不同部分的消融實驗

表4 分層思維鏈中不同部分的消融實驗

如表3和表4，本文對場景信息提取模塊和推理模塊中不同部分進行了消融實驗，實驗證明了各個模塊的有效性和必要性。通過BEV圖像和圖表征兩種形式可以增強MLLM對場景的理解能力，通過分層思維鏈能增強MLLM對場景的推理能力。

表5 PlanAgent在不同語言模型上的實驗

同時，如表 5所示，本文使用了一些開源大語言模型進行測試。實驗結(jié)果表明，在Test-hard的NR-CLS基準(zhǔn)上，PlanAgent使用不同的大語言模型分別能夠比PDM-Closed的駕駛分?jǐn)?shù)高出4.1%、5.1%和6.7%。這證明了PlanAgent與各種多模態(tài)大語言模型的兼容性。

3.3 可視化分析

環(huán)島通行場景

PDM選擇外側(cè)車道作為centerline，車輛靠外側(cè)車道行駛，在車輛匯入時卡住。PlanAgent判斷有車輛匯入，輸出合理的左換道指令，并生成橫向動作選擇環(huán)島內(nèi)側(cè)車道為centerline，車輛靠內(nèi)側(cè)車道行駛。

路口停止線停車場景

PDM選擇了紅綠燈類為跟車類。PlanAgent輸出合理指令，選擇停止線為跟車類。

4 結(jié)論

本文提出了一種新的基于MLLM的自動駕駛閉環(huán)規(guī)劃框架，稱為PlanAgent。該方法引入了一個場景信息提取模塊，用于提取BEV圖像，并基于道路的圖表征提取周圍車輛的運動信息。同時提出了一個具有層次結(jié)構(gòu)的推理模塊，用于指導(dǎo)MLLM理解場景信息、生成運動指令，最終生成規(guī)劃器代碼。此外，PlanAgent還模仿人類決策進行反思，當(dāng)軌跡評分低于閾值時進行重規(guī)劃，以加強決策的安全性。基于多模態(tài)大模型的自動駕駛閉環(huán)規(guī)劃智能體PlanAgent在nuPlan基準(zhǔn)上取得了閉環(huán)規(guī)劃SOTA性能。

責(zé)任編輯：張燕妮來源：自動駕駛之心

自動駕駛閉環(huán)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<sub id="c2pau"><p id="c2pau"></p></sub>

<style id="c2pau"></style>

<sub id="c2pau"></sub>