協(xié)同駕駛超進(jìn)化!CoDrivingLLM:大語言模型如何驅(qū)動決策框架?
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
寫在前面 && 筆者理解
隨著自動駕駛技術(shù)的不斷進(jìn)步,我們可能正在進(jìn)入一個連接自動駕駛車輛(Connected Autonomous Vehicles, 簡稱CAVs)和人工駕駛車輛(Human-Driven Vehicles, 簡稱HDVs)共存的時代。盡管CAVs在提高交通安全和效率方面具有巨大潛力,但它們在開放道路上的表現(xiàn)還遠(yuǎn)未達(dá)到令人滿意的程度。根據(jù)加利福尼亞州機(jī)動車管理局的報告,51%的車輛解綁是由于CAVs的決策失敗造成的。此外,北京自動駕駛車輛道路測試報告揭示,高達(dá)91%的解綁事件發(fā)生在與其他車輛交互時,這表明目前的自動駕駛技術(shù)還不足以應(yīng)對復(fù)雜的交互場景。為了改善這個問題,利用CAVs的協(xié)同駕駛能力是一個較為有希望的方法。
針對不同場景下的協(xié)同駕駛問題,目前流行的方法大致可以分為以下幾種:
- 基于優(yōu)化的方法旨在最大化或最小化目標(biāo)函數(shù)以實現(xiàn)特定目標(biāo)。但是基于優(yōu)化的方法往往未能在駕駛過程中明確考慮法規(guī)和社會規(guī)范,使得他們的決策結(jié)果難以理解。
- 基于規(guī)則的方法在形式上簡單,因此計算效率高。然而,盡管可以將基于規(guī)則的方法與交通法規(guī)結(jié)合起來,但預(yù)設(shè)的規(guī)則通常會導(dǎo)致魯棒性差。
- 基于學(xué)習(xí)方法,如深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。這些方法已成功應(yīng)用于交叉口、合并區(qū)域和高速公路等環(huán)境中的協(xié)同駕駛,表現(xiàn)出良好的性能。但基于學(xué)習(xí)模型的性能在轉(zhuǎn)移到未經(jīng)訓(xùn)練的環(huán)境中時往往會顯著下降。
另一方面,近年來Transformer模型和大型語言模型(LLMs)的快速發(fā)展為實現(xiàn)協(xié)同決策提供了新的可能性。這些模型已經(jīng)在自然語言處理和智能體決策制定等領(lǐng)域展示了巨大的潛力。在這種背景下,作者提出了一個交互式和可學(xué)習(xí)的LLM驅(qū)動的協(xié)同駕駛框架,用于全場景和全Cooperative Driving Automation(簡稱CDA)。
- 論文鏈接:https://arxiv.org/pdf/2409.12812
- 開源鏈接:https://github.com/FanGShiYuu/CoDrivingLLM
問題表述
目前,CAVs在開放道路上的表現(xiàn)仍然不是很理想。在某些場景下,CAV的事故率甚至是人類駕駛員的5.25倍,這顯然不能滿足人們對自動駕駛技術(shù)的期望。而CAVs的通信能力使其能夠?qū)崿F(xiàn)互聯(lián)互通和相互協(xié)助。因此,利用協(xié)同駕駛能力是提高CAVs性能是作者認(rèn)為非常有前途的方式。
觀測空間 (Observation Space)
動作空間 (Action Space)
模型結(jié)構(gòu)
CoDrivingLLM主要包括三個模塊:環(huán)境模塊、推理模塊和記憶模塊。
A. 總體架構(gòu)
圖2展示了CoDrivingLLM中的主要模塊及其邏輯關(guān)系,包括三個主要模塊:環(huán)境模塊、推理模塊和記憶模塊。環(huán)境模塊根據(jù)上一個時間步的CAV和HDV的動作更新當(dāng)前場景信息,包括所有車輛的狀態(tài),如位置、速度等。接下來,作者設(shè)計了一個集中-分布式結(jié)合的LLM推理模塊?;赟AE J3216標(biāo)準(zhǔn)定義的CDA的四個級別,作者將這個推理模塊整合了四個子功能:狀態(tài)共享、意圖共享、協(xié)商和決策。通過結(jié)合思維鏈(Chain-of-Thought, COT)方法,作者將推理過程中的每個子功能順序連接起來,以增強(qiáng)決策的安全性和可靠性。在這個過程中,每個CAV使用LLMs進(jìn)行分布式的高級邏輯推理,完成不同級別的協(xié)同駕駛,并利用框架內(nèi)的沖突協(xié)調(diào)器進(jìn)行集中沖突解決,進(jìn)一步提高安全性。最后,推理過程中的場景描述、沖突描述和最終決策以向量化形式存儲在記憶數(shù)據(jù)庫中。在隨后的推理中,CAV可以參考最相似的過去記憶作為經(jīng)驗,使設(shè)計的CAV能夠在駕駛過程中不斷學(xué)習(xí)和提高其能力。
B. 環(huán)境模塊
環(huán)境模塊包括兩個子模塊:
- 環(huán)境動態(tài)模擬子模塊,它模擬真實世界的環(huán)境動態(tài),為協(xié)同駕駛框架提供現(xiàn)實的背景交通流和訓(xùn)練反饋;
- 基于模型的控制執(zhí)行子模塊,為LLM提供基于模型的車輛控制單元,提高動作執(zhí)行的準(zhǔn)確性和成功率。
環(huán)境動態(tài)模擬子模塊:真實世界的反饋對于訓(xùn)練一個穩(wěn)定和可靠的協(xié)同決策模型至關(guān)重要。為了確保模擬的真實性和可靠性,作者在環(huán)境動態(tài)模塊中考慮了一個混合人自動駕駛環(huán)境,引入不受控制的人工駕駛車輛,為協(xié)同駕駛框架創(chuàng)造更加現(xiàn)實的背景交通流。這些不受控制的車輛不參與協(xié)同駕駛?cè)蝿?wù),意味著它們不共享它們的意圖,并僅基于它們自己的決策邏輯運(yùn)行。鑒于IDM(Intelligent Driver Model)和MOBIL(Minimizing Overall Braking Induced by Lane changes)的結(jié)合被廣泛用于表征人類駕駛行為,并且在交叉口、環(huán)形交叉口和合并區(qū)域等各種場景中都顯示出良好的結(jié)果,作者分別利用IDM和MOBIL來代表HDV的縱向和橫向行為。HDV的加速度由IDM給出,如下所示:
基于模型的控制執(zhí)行子模塊:雖然LLMs具有強(qiáng)大的推理能力,但它們在精確的數(shù)學(xué)計算和低級車輛運(yùn)動控制方面表現(xiàn)不佳。為了解決這個問題,作者設(shè)計了一個基于模型的控制執(zhí)行子模塊。在這個模型中,作者使用基于模型的方法將推理模塊的語義輸出轉(zhuǎn)換為加速度和前輪角度,然后用于更新車輛在下一個時間步的位置、速度和其他信息。具體來說,加速度和前輪角度都由相對簡單的比例控制器控制,計算公式如下:
C. 推理模塊
作者構(gòu)建了一個集成的推理模塊,從狀態(tài)共享到意圖共享、協(xié)商,最終決策。該模塊以思維鏈的方式運(yùn)作,首先從環(huán)境中提取周圍車輛的信息以創(chuàng)建場景描述。然后,它將車輛的狀態(tài)組織成沖突對,形成沖突描述。為了確保在沖突期間車輛決策的一致性并避免碰撞,作者開發(fā)了一個基于LLM的沖突協(xié)調(diào)器。該協(xié)調(diào)器將當(dāng)前的沖突描述與交通規(guī)則結(jié)合起來,確定每個沖突組的優(yōu)先級順序。最后,每個CAV根據(jù)沖突協(xié)調(diào)器的建議和自己的情境描述做出決策。
State-perception:狀態(tài)感知功能負(fù)責(zé)獲取和處理當(dāng)前環(huán)境的信息,包括動態(tài)數(shù)據(jù),如車道信息和車輛信息。CAV被允許與他人交換信息,因此為后續(xù)更高級別的CDA鋪平了道路。狀態(tài)感知功能可以構(gòu)建一個完整準(zhǔn)確的駕駛環(huán)境識別,為后續(xù)推理提供可靠的基礎(chǔ)。
Intent-sharing:意圖共享功能,傳達(dá)車輛駕駛意圖給其他CAV,是協(xié)同駕駛的一個關(guān)鍵優(yōu)勢。從宏觀到微觀,駕駛意圖主要包括共享預(yù)期車道和預(yù)期速度。通過意圖共享,其他車輛可以更好地理解自我車輛的意圖,使它們能夠在避免沖突的同時做出決策。
Negotiation:作者設(shè)計了一個沖突協(xié)調(diào)器來解決沖突,并實現(xiàn)尋求共識的合作。沖突協(xié)調(diào)器識別當(dāng)前環(huán)境中所有潛在的沖突,并根據(jù)所涉及兩輛車的當(dāng)前狀態(tài)評估每個沖突的嚴(yán)重程度。為了量化沖突的嚴(yán)重程度,以時間差作為替代指標(biāo)定義為:
沖突協(xié)調(diào)器根據(jù)沖突的嚴(yán)重程度確定每對沖突車輛的通行順序。在此過程中,交通規(guī)則和駕駛過程中的社交規(guī)范同時被沖突協(xié)調(diào)器考慮。例如,如圖1所示,根據(jù)交通規(guī)則,轉(zhuǎn)彎車輛應(yīng)該讓直行車輛先行。因此,在協(xié)商后,沖突協(xié)調(diào)器確定CAV2應(yīng)該在這組沖突中讓行。協(xié)商結(jié)果和原因被發(fā)送到?jīng)Q策功能以做出最終決策。然而,需要注意的是,協(xié)商結(jié)果是建議性的,最終決策還取決于自我車輛周圍環(huán)境的其他因素。
D. 記憶模塊
日常生活中,新司機(jī)通過持續(xù)的駕駛實踐積累經(jīng)驗,評估不同行為的效果,并從中學(xué)習(xí)以提高駕駛技能。借鑒這一機(jī)制,作者引入記憶模塊,使CAV能夠從過去的經(jīng)歷中學(xué)習(xí),并利用這些知識進(jìn)行未來的互動。這一過程也被稱為檢索增強(qiáng)生成(RAG)。RAG賦予LLMs訪問特定領(lǐng)域或組織內(nèi)的知識數(shù)據(jù)庫的能力。這種能力允許在不需要模型重新訓(xùn)練的情況下,經(jīng)濟(jì)高效地改進(jìn)LLM輸出,確保在解決特定領(lǐng)域問題時的相關(guān)性、準(zhǔn)確性和實用性。具體來說,設(shè)計的記憶模塊包含兩個主要功能:記憶增強(qiáng)和記憶檢索。
記憶增強(qiáng):記憶增強(qiáng)功能評估CAV在前一個場景中的行為影響,以確定這些行為是否加劇了沖突。如果CAV的行為導(dǎo)致危險增加,系統(tǒng)會產(chǎn)生負(fù)面反饋,例如:“你的行為加劇了沖突;應(yīng)避免采取類似行動?!边@種反饋機(jī)制在場景、行為和結(jié)果之間建立了聯(lián)系,將這些映射存儲在記憶數(shù)據(jù)庫中以供將來參考。在每次調(diào)用LLM進(jìn)行推理之前,從記憶數(shù)據(jù)庫中檢索與當(dāng)前場景最相關(guān)的記憶以增強(qiáng)提示,從而避免重復(fù)過去的錯誤。
記憶檢索:隨著互動數(shù)量的增加,記憶數(shù)據(jù)庫將累積眾多過去的經(jīng)歷。將所有記憶作為提示輸入會導(dǎo)致冗余,使得CAV在推理過程中難以提取關(guān)鍵信息。為了解決這個問題,采用記憶檢索功能,在利用記憶指導(dǎo)推理之前,從數(shù)據(jù)庫中提取與當(dāng)前場景最相關(guān)的記憶。具體來說,當(dāng)前場景描述和沖突描述被轉(zhuǎn)換為向量形式,并使用余弦相似度根據(jù)它們與當(dāng)前場景的相關(guān)性對庫中的記憶進(jìn)行排名。排名靠前的記憶隨后被選為CAV推理的提示的一部分。這些類似的記憶,被稱為少量體驗,被注入到CAV的推理模塊中,使CAV能夠從過去的錯誤中學(xué)習(xí)。記憶模塊的引入不僅提高了CAV在復(fù)雜環(huán)境中的決策能力,而且賦予了類似人類的持續(xù)學(xué)習(xí)能力。通過不斷從過去的經(jīng)歷中學(xué)習(xí),CAV能夠更好地適應(yīng)動態(tài)環(huán)境,提高駕駛安全性,減少交通事故,提高其在現(xiàn)實世界應(yīng)用中的可靠性和實用性。
實驗結(jié)果
實驗設(shè)置
仿真環(huán)境作者基于highway-env開發(fā)了環(huán)境模塊。設(shè)計了三種場景來進(jìn)行實驗,如圖4所示,包括四車道高速公路場景、合并場景和單車道無信號交叉口。上下文交通流和HDV的設(shè)置遵循作者框架的環(huán)境模塊的說明。
實驗細(xì)節(jié)作者使用GPT-4o mini作為基礎(chǔ)LLM模型,進(jìn)行高層次的邏輯思考和判斷。每個模擬環(huán)境中控制四個CAV。此外,所有不同設(shè)置的場景都重復(fù)20次,使用不同的隨機(jī)種子以獲得最終結(jié)果。成功率被用作評估所有方法性能的指標(biāo)。在一個案例中,如果所有CAV都能安全地完成駕駛?cè)蝿?wù)并到達(dá)目的地,則該案例成功。成功率表示成功案例數(shù)與總案例數(shù)的比率。
協(xié)商模塊消融研究
通過共享狀態(tài)和意圖,合作駕駛可以提供額外的信息,幫助沖突方協(xié)調(diào)他們的決策。為了實現(xiàn)這一點,作者在推理過程中引入了一個協(xié)商模塊。通過建立一個LLM驅(qū)動的沖突協(xié)調(diào)器,將交通規(guī)則和場景描述整合在一起,以產(chǎn)生建議的交通順序來協(xié)助最終決策,從而提高交互能力。為了驗證沖突協(xié)調(diào)器在提高交互能力方面的有效性,作者進(jìn)行了消融實驗,比較了CoDrivingLLM在各種場景下有無協(xié)商模塊的成功率。此外,作者還選取了一個案例來分析協(xié)商功能如何提高安全性。
如圖5所示,在高速公路場景中,有無協(xié)商模塊并不影響合作駕駛的性能,因為作者的方法始終實現(xiàn)了100%的成功率。作者將其歸因于高速公路場景中缺乏重大的交互沖突,協(xié)商模塊沒有機(jī)會有效干預(yù)。然而,在合并和交叉口場景中,協(xié)商模塊顯著提高了決策的成功率。在這兩種類型的場景中,車輛之間不可避免地會出現(xiàn)沖突,只有他們的決策一致,才能避免碰撞。具體來說,在合并場景中,CAV決策的成功率從33%提高到75%,在交叉口場景中,成功率從15%上升到78%。協(xié)商模塊在交叉口場景中影響最大,因為交互的復(fù)雜性和交通沖突的密度遠(yuǎn)高于其他兩種場景。這表明作者的協(xié)商模塊有效地處理了復(fù)雜的交通沖突和交互場景,是整體合作駕駛框架的關(guān)鍵組成部分。
記憶模塊消融研究
記憶模塊旨在使CAV能夠從過去的經(jīng)驗中學(xué)習(xí),避免重復(fù)過去的錯誤。作者也做了記憶模塊的消融實驗。他們比較了在0次、2次和5次經(jīng)驗(shots)下,CoDrivingLLM在不同場景中的性能。這里的"shots"指的是在推理前向模型注入最相似過去經(jīng)驗的次數(shù)。在高速公路場景中,由于車輛沖突和交互挑戰(zhàn)較少,即使不使用記憶模塊,CoDrivingLLM也能達(dá)到100%的成功率,且2次和5次經(jīng)驗的添加對成功率沒有影響。在合并和交叉口場景中,從0次經(jīng)驗增加到2次經(jīng)驗時,決策成功率顯著提高,合并場景從78%增至90%,交叉口場景從75%增至85%。然而,當(dāng)經(jīng)驗從2次增加到5次時,性能略有下降。這表明過多的記憶可能并不總是增強(qiáng)LLM的決策能力,過量的重復(fù)或低價值記憶可能會占用LLM的上下文窗口,降低其關(guān)注其他相關(guān)感知信息的能力,從而可能產(chǎn)生負(fù)面影響。所以作者認(rèn)為,記憶模塊為CoDrivingLLM提供了學(xué)習(xí)效用,通過持續(xù)從經(jīng)驗中學(xué)習(xí),CAV能更好地適應(yīng)動態(tài)環(huán)境,提高駕駛安全性,減少交通事故,增加現(xiàn)實應(yīng)用的可靠性和實用性。
與其他方法的比較
作者選擇在無信號交叉口場景下做對比實驗,對比包括基于優(yōu)化的方法(iDFST)、基于規(guī)則的方法(Cooperative game)和基于學(xué)習(xí)的方法(MADQN)。
整體性能作者總結(jié)了每種方法的成功率。根據(jù)表I中的數(shù)據(jù),CoDrivingLLM的表現(xiàn)優(yōu)于其他方法,達(dá)到了90%的成功率。iDFST和Cooperative Game方法略遜一籌,都達(dá)到了85%的成功率。
安全評估作者對各種方法進(jìn)行了全面的安全性分析,使用了交通工程中公認(rèn)的安全性參數(shù)PostEncroachment Time (PET)。這一指標(biāo)有效地量化了車輛在復(fù)雜交通場景中的安全性和交互強(qiáng)度。根據(jù)圖9和表I中的結(jié)果,iDFST方法和CoDrivingLLM表現(xiàn)都很出色,平均PET值分別為15.1秒和10.3秒。相反,MADQN和Cooperative方法的PET值分別為5.7秒和3.7秒,表明在交通環(huán)境中的決策交互中存在更高的風(fēng)險。此外,PET值較低意味著存在更高的安全風(fēng)險。通常,PET值小于1.5秒表示應(yīng)避免的嚴(yán)重沖突。根據(jù)圖9,所提出的CoDrivingLLM的PET分布主要集中在1.5秒以上。盡管MADQN的PET分布也沒有低于1.5秒的值,但考慮到其成功率僅為20%,存在大量的碰撞。因此,CoDrivingLLM在安全性方面表現(xiàn)最佳。
效率評估作者還使用旅行速度評估了所有方法的效率。如表I所示,MADQN在測試期間達(dá)到了最高的平均速度6.1 m/s。然而,這種效率是以犧牲安全性和整體性能為代價的。iDFST方法在安全性和成功率方面表現(xiàn)良好,但駕駛效率低下,過度低速行駛導(dǎo)致平均速度僅為4.1 m/s。盡管基于規(guī)則的方法在安全性方面表現(xiàn)良好,但其低效率一直是普遍存在的問題。相比之下,CoDrivingLLM在安全性和效率之間取得了平衡,保持了5.7 m/s的高平均速度,同時確保了安全性??傊?,CoDrivingLLM有效地平衡了安全性和效率,實現(xiàn)了最佳的整體性能,明顯展示了其優(yōu)越性。