走向閉環(huán)!DriveMLM:LLM與自動(dòng)駕駛行為規(guī)劃的完美匹配!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫在前面&筆者的個(gè)人理解
大型語(yǔ)言模型為智能駕駛開(kāi)辟了新的格局,賦予了他們類似人類的思維和認(rèn)知能力。本文深入研究了大型語(yǔ)言模型(LLM)在自動(dòng)駕駛(AD)中的潛力。進(jìn)而提出了DriveMLM,這是一種基于LLM的AD框架,可以在仿真環(huán)境中實(shí)現(xiàn)閉環(huán)自動(dòng)駕駛。具體來(lái)說(shuō)有以下幾點(diǎn):
- (1)本文通過(guò)根據(jù)現(xiàn)成的運(yùn)動(dòng)規(guī)劃模塊標(biāo)準(zhǔn)化決策狀態(tài),彌合語(yǔ)言決策和車輛控制命令之間的差距;
- (2)使用多模態(tài)LLM(MLLM)對(duì)模塊AD系統(tǒng)的行為規(guī)劃模塊進(jìn)行建模,該模塊AD系統(tǒng)使用駕駛規(guī)則、用戶命令和來(lái)自各種傳感器(如相機(jī)、激光雷達(dá))的輸入作為輸入,并做出駕駛決策并提供解釋;該模型可以插入現(xiàn)有的AD系統(tǒng)(如Apollo)用于閉環(huán)駕駛;
- (3)設(shè)計(jì)了一個(gè)有效的數(shù)據(jù)引擎來(lái)收集數(shù)據(jù)集,該數(shù)據(jù)集包括決策狀態(tài)和相應(yīng)的可解釋標(biāo)注,用于模型訓(xùn)練和評(píng)估。
最后我們對(duì)DriveMLM進(jìn)行了廣泛的實(shí)驗(yàn),結(jié)果表明,DriveMLM在CARLA Town05 Long上獲得了76.1的駕駛分?jǐn)?shù),并在相同設(shè)置下超過(guò)阿波羅基線4.7分,證明了DriveMLM的有效性。我們希望這項(xiàng)工作可以作為L(zhǎng)LM自動(dòng)駕駛的基線。
DriveMLM的相關(guān)介紹
近年來(lái),自動(dòng)駕駛(AD)取得了重大進(jìn)展,如圖1b所示從傳統(tǒng)的基于規(guī)則的系統(tǒng)發(fā)展到數(shù)據(jù)驅(qū)動(dòng)的端到端系統(tǒng),傳統(tǒng)的規(guī)則系統(tǒng)依賴于由先驗(yàn)知識(shí)提供的預(yù)定義規(guī)則集(見(jiàn)圖1a)。盡管這些系統(tǒng)取得了進(jìn)步,但由于專家知識(shí)的限制或訓(xùn)練數(shù)據(jù)的多樣性,它們還是遇到了局限。這使得他們很難處理拐角情況,盡管人類駕駛員可能會(huì)發(fā)現(xiàn)處理這些情況很直觀。與這些傳統(tǒng)的基于規(guī)則或數(shù)據(jù)驅(qū)動(dòng)的AD規(guī)劃者相比,使用網(wǎng)絡(luò)規(guī)模的文本語(yǔ)料庫(kù)訓(xùn)練的大型語(yǔ)言模型(LLM)具有廣泛的世界知識(shí)、穩(wěn)健的邏輯推理和先進(jìn)的認(rèn)知能力。這些功能將他們定位為AD系統(tǒng)中的潛在規(guī)劃者,為自動(dòng)駕駛提供了一種類似人類的方法。
最近的一些研究已將LLM集成到AD系統(tǒng)中,重點(diǎn)是針對(duì)駕駛場(chǎng)景生成基于語(yǔ)言的決策。然而,當(dāng)涉及到在真實(shí)世界環(huán)境或真實(shí)仿真中執(zhí)行閉環(huán)駕駛時(shí),這些方法具有局限性。這是因?yàn)長(zhǎng)LM的輸出主要是語(yǔ)言和概念,不能用于車輛控制。在傳統(tǒng)的模塊化AD系統(tǒng)中,高級(jí)別策略目標(biāo)和低級(jí)別控制行為之間的差距通過(guò)行為規(guī)劃模塊連接,該模塊的決策狀態(tài)可以通過(guò)后續(xù)運(yùn)動(dòng)規(guī)劃和控制輕松轉(zhuǎn)換為車輛控制信號(hào)。這促使我們將LLM與行為規(guī)劃模塊的決策狀態(tài)對(duì)齊,并通過(guò)使用對(duì)齊的LLM進(jìn)行行為規(guī)劃,進(jìn)一步設(shè)計(jì)一個(gè)基于LLM的閉環(huán)AD系統(tǒng),該系統(tǒng)可以在真實(shí)世界的環(huán)境或現(xiàn)實(shí)的仿真環(huán)境上運(yùn)行。
基于這一點(diǎn),我們提出了DriveMLM,這是第一個(gè)基于LLM的AD框架,可以在現(xiàn)實(shí)仿真環(huán)境中實(shí)現(xiàn)閉環(huán)自動(dòng)駕駛。為了實(shí)現(xiàn)這一點(diǎn),我們有三個(gè)關(guān)鍵設(shè)計(jì):(1)我們研究了Apollo系統(tǒng)的行為規(guī)劃模塊的決策狀態(tài),并將其轉(zhuǎn)化為L(zhǎng)LM可以輕松處理的形式。(2)開(kāi)發(fā)了一種多模態(tài)LLM(MLLM)規(guī)劃器,該規(guī)劃器可以接受當(dāng)前的多模態(tài)輸入,包括多視圖圖像、激光雷達(dá)點(diǎn)云、交通規(guī)則、系統(tǒng)消息和用戶指令,并預(yù)測(cè)決策狀態(tài);(3)為了獲得足夠的行為規(guī)劃-狀態(tài)對(duì)齊的訓(xùn)練數(shù)據(jù),我們?cè)贑ARLA上手動(dòng)收集280小時(shí)的駕駛數(shù)據(jù),并通過(guò)高效的數(shù)據(jù)引擎將其轉(zhuǎn)換為決策狀態(tài)和相應(yīng)的解釋注釋。通過(guò)這些設(shè)計(jì),我們可以獲得一種MLLM planner,該規(guī)劃器可以根據(jù)駕駛場(chǎng)景和用戶需求進(jìn)行決策,并且其決策可以很容易地轉(zhuǎn)換為車輛控制信號(hào),用于閉環(huán)駕駛。
DriveMLM有以下優(yōu)勢(shì):(1)得益于一致的決策狀態(tài),DriveMLM可以很容易地與現(xiàn)有的模塊化AD系統(tǒng)(如Apollo)集成,以實(shí)現(xiàn)閉環(huán)駕駛,而無(wú)需任何重大更改或修改。(2)通過(guò)將語(yǔ)言指令作為輸入,我們的模型可以處理用戶需求(例如,超越汽車)和高級(jí)系統(tǒng)消息(例如,定義基本駕駛邏輯)。這使DriveMLM更加靈活,能夠適應(yīng)不同的駕駛情況和彎道情況。(3)它可以提供可解釋性并解釋不同的決策。這增強(qiáng)了我們模型的透明度和可信度,因?yàn)樗梢韵蛴脩艚忉屍湫袨楹瓦x擇。
總結(jié)來(lái)說(shuō),DriveMLM的主要貢獻(xiàn)如下:
- 提出了一種基于LLM的AD框架,通過(guò)將LLM的輸出與行為規(guī)劃模塊的決策狀態(tài)相一致,彌合LLM和閉環(huán)駕駛之間的差距。
- 為了實(shí)現(xiàn)這個(gè)框架,我們用LLM可以輕松處理的形式定制了一組決策狀態(tài),設(shè)計(jì)了一個(gè)用于決策預(yù)測(cè)的MLLM規(guī)劃器,并開(kāi)發(fā)了一個(gè)數(shù)據(jù)引擎,該數(shù)據(jù)引擎可以有效地生成決策狀態(tài)和相應(yīng)的解釋注釋,用于模型訓(xùn)練和評(píng)估。
- 為了驗(yàn)證DriveMLM的有效性,我們不僅根據(jù)閉環(huán)駕駛指標(biāo)(包括駕駛分?jǐn)?shù)(DS)和每次干預(yù)里程(MPI))來(lái)評(píng)估我們的方法,還使用理解指標(biāo)(包括準(zhǔn)確性、決策狀態(tài)的F1指標(biāo)、決策解釋的BLEU-4、CIDEr和METEOR)來(lái)評(píng)估模型的駕駛理解能力。值得注意的是,我們的方法在CARLA Town05 Long上獲得了76.1 DS、0.955 MPI結(jié)果,這是4.7分,是Apollo的1.25倍。此外,我們可以通過(guò)用語(yǔ)言指令描述特殊要求來(lái)改變MLLM規(guī)劃者的決策,如圖2所示,例如為救護(hù)車或交通規(guī)則讓路
DriveMLM方法詳細(xì)介紹
概覽
DriveMLM框架將大型語(yǔ)言模型(LLM)的世界知識(shí)和推理能力集成到自動(dòng)駕駛(AD)系統(tǒng)中,在逼真的仿真環(huán)境中實(shí)現(xiàn)閉環(huán)駕駛。如圖3所示,該框架有三個(gè)關(guān)鍵設(shè)計(jì):(1)行為規(guī)劃狀態(tài)對(duì)齊。這一部分將LLM的語(yǔ)言決策輸出與Apollo等成熟的模塊化AD系統(tǒng)的行為規(guī)劃模塊相一致。這樣,LLM的輸出可以容易地轉(zhuǎn)換為車輛控制信號(hào)。(2)MLLM 規(guī)劃器。它是多模態(tài)標(biāo)記器和多模態(tài)LLM(MLLM)解碼器的組合。多模態(tài)標(biāo)記器將不同的輸入(如多視圖圖像、激光雷達(dá)、流量規(guī)則和用戶需求)轉(zhuǎn)換為統(tǒng)一的標(biāo)記,MLLM解碼器基于統(tǒng)一的標(biāo)記進(jìn)行決策。(3)高效的數(shù)據(jù)收集策略。它為基于LLM的自動(dòng)駕駛引入了一種量身定制的數(shù)據(jù)收集方法,確保了一個(gè)全面的數(shù)據(jù)集,包括決策狀態(tài)、決策解釋和用戶命令。
在推理過(guò)程中,DriveMLM框架利用多模態(tài)數(shù)據(jù)來(lái)做出駕駛決策。這些數(shù)據(jù)包括:環(huán)視圖像和點(diǎn)云。系統(tǒng)消息是任務(wù)定義、流量規(guī)則和決策狀態(tài)定義的集合。這些令牌被輸入到MLLM解碼器,MLLM解碼器生成決策狀態(tài)令牌以及相應(yīng)的解釋。最后,決策狀態(tài)被輸入到運(yùn)動(dòng)規(guī)劃和控制模塊。該模塊計(jì)算車輛控制的最終軌跡。
Behavioral Planning States Alignment
將大型語(yǔ)言模型(LLM)的語(yǔ)言選擇轉(zhuǎn)換為可操作的控制信號(hào)對(duì)于車輛控制至關(guān)重要。為了實(shí)現(xiàn)這一點(diǎn),我們將LLM的輸出與流行的阿波羅系統(tǒng)中的行為規(guī)劃模塊的決策階段相一致。根據(jù)常見(jiàn)方式,我們將決策過(guò)程分為兩類:速度決策和路徑?jīng)Q策。具體而言,速度決策狀態(tài)包括(保持、加速、減速、停止),而路徑?jīng)Q策狀態(tài)包括(FOLLOW、LEFT CHANGE、RIGHT CHANGE,LEFT BORROW、RIGHT BORROW)。
為了使語(yǔ)言模型能夠在這些狀態(tài)之間做出精確的預(yù)測(cè),我們?cè)谡Z(yǔ)言描述和決策狀態(tài)之間建立了全面的聯(lián)系,如表1的系統(tǒng)信息所示。此相關(guān)性用作系統(tǒng)消息的一部分,并集成到MLLM計(jì)劃器中。因此,一旦LLM描述了某些情況,預(yù)測(cè)將在決策空間內(nèi)收斂為清晰的決策。每次,一個(gè)速度決策和一個(gè)路徑?jīng)Q策被相互推斷并發(fā)送到運(yùn)動(dòng)規(guī)劃框架。在補(bǔ)充材料中可以找到?jīng)Q策狀態(tài)的更詳細(xì)定義。
MLLM Planner
DriveMLM的MLLM規(guī)劃器由兩個(gè)組件組成:多模態(tài)標(biāo)記器和MLLM解碼器。這兩個(gè)模塊密切協(xié)作,處理各種輸入,以準(zhǔn)確地確定駕駛決策并為這些決策提供解釋。
多模態(tài)標(biāo)記器。此tokenizer設(shè)計(jì)用于有效處理各種形式的輸入:對(duì)于時(shí)序環(huán)視圖像:使用時(shí)間QFormer來(lái)處理從時(shí)間戳?T到0(當(dāng)前時(shí)間戳)的環(huán)視圖像。對(duì)于激光雷達(dá)數(shù)據(jù),我們首先輸入點(diǎn)云作為稀疏金字塔Transformer(SPT)主干的輸入,以提取激光雷達(dá)特征。對(duì)于系統(tǒng)消息和用戶指令,我們只需將它們視為普通文本數(shù)據(jù),并使用LLM的令牌嵌入層來(lái)提取它們的嵌入。
MLLM解碼器。解碼器是將標(biāo)記化輸入轉(zhuǎn)換為決策狀態(tài)和決策解釋的核心。為此,我們?yōu)榛贚LM的AD設(shè)計(jì)了一個(gè)系統(tǒng)消息模板,如表1所示??梢钥吹剑到y(tǒng)消息包含AD任務(wù)的描述、流量規(guī)則、決策狀態(tài)的定義,以及指示每個(gè)模態(tài)信息合并位置的占位符。這種方法確保了來(lái)自各種模態(tài)和來(lái)源的投入無(wú)縫整合。
輸出被格式化以提供決策狀態(tài)(見(jiàn)表1的Q2)和決策解釋(見(jiàn)表一的Q3),從而在決策過(guò)程中提供透明度和清晰度。關(guān)于監(jiān)督方法,我們的框架遵循常見(jiàn)做法,在下一個(gè)令牌預(yù)測(cè)中使用交叉熵?fù)p失。通過(guò)這種方式,MLLM規(guī)劃者可以對(duì)來(lái)自不同傳感器和來(lái)源的數(shù)據(jù)進(jìn)行詳細(xì)的理解和處理,并將其轉(zhuǎn)化為適當(dāng)?shù)臎Q策和解釋。
Efficient Data Engine
我們提出了一個(gè)數(shù)據(jù)生成范式,可以在CARLA模擬器中從各種場(chǎng)景創(chuàng)建決策狀態(tài)和解釋注釋。該管道可以解決現(xiàn)有駕駛數(shù)據(jù)的局限性,這些數(shù)據(jù)缺乏訓(xùn)練基于LLM的AD系統(tǒng)的決策狀態(tài)和詳細(xì)解釋。我們的管道由兩個(gè)主要組件組成:數(shù)據(jù)收集和數(shù)據(jù)注釋。
數(shù)據(jù)收集旨在提高決策的多樣性,同時(shí)保持現(xiàn)實(shí)。首先,在仿真環(huán)境中構(gòu)建各種具有挑戰(zhàn)性的場(chǎng)景。安全駕駛需要復(fù)雜的駕駛行為。然后,專家,無(wú)論是經(jīng)驗(yàn)豐富的人類司機(jī)還是特工,都被要求安全地駕駛通過(guò)這些場(chǎng)景,這些場(chǎng)景是在其眾多可通行的地點(diǎn)之一觸發(fā)的。值得注意的是,當(dāng)專家隨機(jī)提出駕駛需求并相應(yīng)地駕駛時(shí),會(huì)生成交互數(shù)據(jù)。一旦專家安全地開(kāi)車到達(dá)目的地,就會(huì)記錄數(shù)據(jù)。
數(shù)據(jù)標(biāo)注主要側(cè)重于決策和解釋。首先,通過(guò)使用手工制定的規(guī)則,根據(jù)專家的駕駛軌跡自動(dòng)注釋速度和路徑?jīng)Q策狀態(tài)。其次,解釋標(biāo)注首先基于場(chǎng)景生成,由附近的當(dāng)前元素動(dòng)態(tài)定義。第三,生成的解釋標(biāo)注由人工標(biāo)注進(jìn)行細(xì)化,并通過(guò)GPT-3.5擴(kuò)展其多樣性。此外,交互內(nèi)容也由人工注釋器進(jìn)行細(xì)化,包括執(zhí)行或拒絕人工請(qǐng)求的情況。通過(guò)這種方式,我們避免了昂貴的逐幀決策狀態(tài)標(biāo)注,以及昂貴的從頭開(kāi)始手動(dòng)編寫解釋標(biāo)注,大大加快了我們的數(shù)據(jù)標(biāo)注過(guò)程。
實(shí)驗(yàn)
數(shù)據(jù)分析
我們收集了280小時(shí)的駕駛數(shù)據(jù)進(jìn)行培訓(xùn)。這些數(shù)據(jù)包括50公里的路線,在CARLA的8張地圖(Town01、Town02、Town03、Town04、Town06、Town07、Town10HD、Town12)上收集了30種不同天氣和照明條件的駕駛場(chǎng)景。平均而言,每個(gè)場(chǎng)景在每個(gè)地圖上有大約200個(gè)觸發(fā)點(diǎn)要被隨機(jī)觸發(fā)。每種情況都是駕駛中常見(jiàn)或罕見(jiàn)的安全關(guān)鍵情況。這些場(chǎng)景的詳細(xì)信息見(jiàn)補(bǔ)充說(shuō)明。對(duì)于每一幀,我們收集來(lái)自前、后、左、右四個(gè)攝像頭的圖像,以及來(lái)自添加在ego車輛中心的激光雷達(dá)傳感器的點(diǎn)云。我們收集的所有數(shù)據(jù)都有相應(yīng)的解釋和準(zhǔn)確的決策,這些解釋和決策成功地推動(dòng)了場(chǎng)景的發(fā)展。
表2展示了與之前為使用自然語(yǔ)言進(jìn)行駕駛理解而設(shè)計(jì)的數(shù)據(jù)集的比較。我們的數(shù)據(jù)有兩個(gè)獨(dú)特的特點(diǎn)。第一個(gè)是行為規(guī)劃狀態(tài)的一致性。這使我們能夠?qū)LLM規(guī)劃器的輸出轉(zhuǎn)換為控制信號(hào),以便我們的框架能夠在閉環(huán)駕駛中控制車輛。二是人際互動(dòng)標(biāo)注。它的特點(diǎn)是人類給出的自然語(yǔ)言指令以及相應(yīng)的決定和解釋。目標(biāo)是提高理解人類指令并做出相應(yīng)反應(yīng)的能力。
閉環(huán)自動(dòng)駕駛評(píng)測(cè)
我們?cè)贑ARLA中評(píng)估閉環(huán)駕駛,CARLA是公開(kāi)可用的最廣泛使用和最現(xiàn)實(shí)的模擬基準(zhǔn)。包括能夠在CARLA中執(zhí)行閉環(huán)驅(qū)動(dòng)的現(xiàn)有技術(shù)方法,用于性能比較。開(kāi)源Apollo也在CARLA中作為基線進(jìn)行了評(píng)估。除了我們的方法外,沒(méi)有其他基于LLM的方法顯示出部署和評(píng)估的準(zhǔn)備狀態(tài)。所有方法均在Town05長(zhǎng)期基準(zhǔn)上進(jìn)行評(píng)估。
表4列出了駕駛分?jǐn)?shù)、路線完成和違規(guī)分?jǐn)?shù)。請(qǐng)注意,盡管Apollo是一種基于規(guī)則的方法,但它的性能幾乎與最近的端到端方法不相上下。DriveMLM在駕駛分?jǐn)?shù)上大大超過(guò)了所有其他方法。這表明DriveMLM更適合處理狀態(tài)轉(zhuǎn)換,以安全地通過(guò)硬盤。表4中的最后一列顯示了MPI評(píng)估的結(jié)果。該指標(biāo)顯示了更全面的駕駛性能,因?yàn)樾枰砣送瓿伤新肪€。換言之,所有路線上的所有情況都會(huì)被測(cè)試的代理遇到。Thinktwice實(shí)現(xiàn)了比Interfuser更好的DS,但由于經(jīng)常越過(guò)停止線,MPI更低。然而,CARLA對(duì)這種行為的處罰微乎其微。相比之下,MPI將每一次違反交通規(guī)則的行為視為一次接管。DriveMLM還實(shí)現(xiàn)了所有其他方法中最高的MPI,這表明它能夠避免更多情況,從而獲得更安全的駕駛體驗(yàn)。
駕駛知識(shí)評(píng)測(cè)
我們采用開(kāi)環(huán)評(píng)估來(lái)評(píng)估駕駛知識(shí),包括決策預(yù)測(cè)和解釋預(yù)測(cè)任務(wù)。表3顯示了預(yù)測(cè)決策對(duì)的準(zhǔn)確性、決策預(yù)測(cè)的每種決策類型的F1分?jǐn)?shù),以及預(yù)測(cè)解釋的BLEU-4、CIDEr和METEOR。對(duì)于Apollo,Town05上手動(dòng)收集的場(chǎng)景將作為表3中模型的輸入進(jìn)行回放?;胤诺拿總€(gè)時(shí)間戳處的相應(yīng)模型狀態(tài)和輸出被保存為用于度量計(jì)算的預(yù)測(cè)。對(duì)于其他方法,我們給他們相應(yīng)的圖像作為輸入和適當(dāng)?shù)奶崾?。通過(guò)將模型預(yù)測(cè)與我們手動(dòng)收集的地面實(shí)況進(jìn)行比較,準(zhǔn)確性揭示了決策的正確性和與人類行為的相似性,F(xiàn)1分?jǐn)?shù)展示了每種路徑和速度決策的決策能力。DriveMLM總體上達(dá)到了最高的準(zhǔn)確率,以40.97%的準(zhǔn)確率超過(guò)了LLaVA。與Apollo基線相比,DriveMLM的F1得分更高,這表明它在解決各種道路情況時(shí)更有效地超越了基于規(guī)則的狀態(tài)機(jī)。LLaVA、InstructionBLIP和我們提出的DriveMLM可以以問(wèn)答的形式輸出決策解釋。在BLEU-4、CIDEr和METEOR方面,DriveMLM可以實(shí)現(xiàn)最高的性能,表明DriveMLM能夠?qū)Q策做出最合理的解釋。
消融實(shí)驗(yàn)
傳感器模態(tài):表5展示了輸入傳感器模態(tài)對(duì)DriveMLM的不同影響的結(jié)果。多視圖(MV)圖像在路徑和速度F1得分方面都帶來(lái)了顯著的性能改進(jìn),準(zhǔn)確率提高了18.19%。與直接連接時(shí)間令牌相比,時(shí)間QFormer在確保多模態(tài)決策能力的同時(shí),實(shí)現(xiàn)了7.4%的更大改進(jìn),從而使速度決策的平均F1得分提高了0.05。點(diǎn)云不會(huì)顯示出增強(qiáng)性能的能力。
Case Study和可視化
人機(jī)交互:圖4提供了如何通過(guò)人工指令實(shí)現(xiàn)車輛控制的示例。控制過(guò)程包括分析道路狀況、做出決策選擇和提供解釋性陳述。當(dāng)給出相同的“超車”指令時(shí),DriveMLM根據(jù)對(duì)當(dāng)前交通狀況的分析顯示出不同的響應(yīng)。在右側(cè)車道被占用而左側(cè)車道可用的情況下,系統(tǒng)選擇從左側(cè)超車。然而,在給定指令可能構(gòu)成危險(xiǎn)的情況下,例如當(dāng)所有車道都被占用時(shí),DriveMLM會(huì)選擇不執(zhí)行超車動(dòng)作,并做出適當(dāng)反應(yīng)。在這種情況下,DriveMLM是人車交互的接口,它根據(jù)交通動(dòng)態(tài)評(píng)估指令的合理性,并確保其在最終選擇行動(dòng)方案之前符合預(yù)定義的規(guī)則。
真實(shí)場(chǎng)景中的性能:我們?cè)趎uScenes數(shù)據(jù)集上應(yīng)用DriveMLM來(lái)測(cè)試開(kāi)發(fā)的駕駛系統(tǒng)的零樣本性能。我們?cè)隍?yàn)證集上注釋了6019個(gè)幀,決策準(zhǔn)確度的零樣本性能為0.395。圖5顯示了兩個(gè)真實(shí)駕駛場(chǎng)景的結(jié)果,表明了DriveMLM的通用性。
結(jié)論
在這項(xiàng)工作中,我們提出了DriveMLM,這是一種利用大型語(yǔ)言模型(LLM)進(jìn)行自動(dòng)駕駛(AD)的新框架。DriveMLM可以通過(guò)使用多模態(tài)LLM(MLLM)對(duì)模塊化AD系統(tǒng)的行為規(guī)劃模塊進(jìn)行建模,在現(xiàn)實(shí)仿真環(huán)境中實(shí)現(xiàn)閉環(huán)AD。DriveMLM還可以為其駕駛決策生成自然的語(yǔ)言解釋,這可以提高AD系統(tǒng)的透明度和可信度。我們已經(jīng)證明,DriveMLM在CARLA Town05 Long基準(zhǔn)上的表現(xiàn)優(yōu)于Apollo基準(zhǔn)。我們相信,我們的工作可以激發(fā)更多關(guān)于LLM和AD整合的研究。
開(kāi)源鏈接:https://github.com/OpenGVLab/DriveMLM
原文鏈接:https://mp.weixin.qq.com/s/tQeERCbpD9H8oY8EvpZsDA