SafeDrive:大語言模型實(shí)現(xiàn)知識(shí)驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)的風(fēng)險(xiǎn)-敏感決策
2024年12月來自USC、U Wisconsin、U Michigan、清華大學(xué)和香港大學(xué)的論文“SafeDrive: Knowledge- and Data-Driven Risk-Sensitive Decision-Making for Autonomous Vehicles with Large Language Models”。
自動(dòng)駕駛汽車 (AV) 的最新進(jìn)展利用大語言模型 (LLM) 在正常駕駛場景中表現(xiàn)良好。然而,確保動(dòng)態(tài)、高風(fēng)險(xiǎn)環(huán)境中的安全并管理,對(duì)安全至關(guān)重要的長尾事件仍然是一項(xiàng)重大挑戰(zhàn)。為了解決這些問題,SafeDrive,一個(gè)知識(shí)驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)的風(fēng)險(xiǎn)-敏感決策框架,提高 AV 的安全性和適應(yīng)性。所提出的框架引入一個(gè)模塊化系統(tǒng),包括:(1) 一個(gè)風(fēng)險(xiǎn)模塊,用于全面量化涉及駕駛員、車輛和道路相互作用的多因素耦合風(fēng)險(xiǎn);(2) 一個(gè)記憶模塊,用于存儲(chǔ)和檢索典型場景以提高適應(yīng)性;(3) 一個(gè)由 LLM 驅(qū)動(dòng)的推理模塊,用于情境-覺察的安全決策;(4) 一個(gè)反思模塊,用于通過迭代學(xué)習(xí)完善決策。
通過將知識(shí)驅(qū)動(dòng)的洞察力與自適應(yīng)學(xué)習(xí)機(jī)制相結(jié)合,該框架可確保在不確定條件下做出穩(wěn)健的決策。對(duì)以動(dòng)態(tài)和高風(fēng)險(xiǎn)場景為特征的真實(shí)交通數(shù)據(jù)集,包括高速公路(HighD)、交叉路口(InD)和環(huán)形交叉路口(RounD),進(jìn)行廣泛評(píng)估可驗(yàn)證該框架能夠提高決策安全性(實(shí)現(xiàn) 100% 的安全率)、復(fù)制類似人類的駕駛行為(決策一致性超過 85%)并有效適應(yīng)不可預(yù)測的場景。
風(fēng)險(xiǎn)量化。風(fēng)險(xiǎn)量化對(duì)于 AV 的防撞至關(guān)重要??紤]車輛動(dòng)力學(xué)的經(jīng)典方法,例如碰撞時(shí)間 (TTC) [12]、車頭時(shí)距 (THW) [13]、反應(yīng)時(shí)間 (TTR) [14] 和車道交叉時(shí)間 (TLC) [15],由于其簡單易行,廣泛應(yīng)用于交通場景中。然而,這些方法在動(dòng)態(tài)、多維環(huán)境中往往不足,因?yàn)樵谶@種環(huán)境中,風(fēng)險(xiǎn)因素變化迅速且相互作用復(fù)雜 [13]。為了解決這些限制,Mobileye 的 Shalev-Shwartz 提出責(zé)任敏感安全 (RSS) [16],這是一種旨在提供更具解釋性的白盒子安全保障的模型。然而,仍然存在一些難題,例如確定大量參數(shù)。
為了克服這些限制,已經(jīng)提出先進(jìn)的方法。人工勢(shì)場 (APF) 方法 [17] 使用勢(shì)場來模擬車輛風(fēng)險(xiǎn),從而實(shí)現(xiàn)基本的防撞。Gerdes [18] 通過結(jié)合車道標(biāo)記來擴(kuò)展 APF,以創(chuàng)建詳細(xì)的風(fēng)險(xiǎn)地圖。Wang [19]、[20] 將道路潛能場與車輛動(dòng)力學(xué)和駕駛員行為相結(jié)合,提高風(fēng)險(xiǎn)模擬的準(zhǔn)確性,并降低復(fù)雜場景中的碰撞風(fēng)險(xiǎn)。然而,這些方法往往側(cè)重于當(dāng)前交通狀態(tài),依賴于眾多參數(shù),并且在不確定的環(huán)境中缺乏適應(yīng)性。Kolekar [21] 引入駕駛員風(fēng)險(xiǎn)場 (DRF),這是一個(gè)二維模型,它結(jié)合基于概率信念的駕駛員主觀風(fēng)險(xiǎn)感知。通過整合主觀風(fēng)險(xiǎn)評(píng)估,這些改進(jìn)的 APF 和 DRF 方法更好地模擬交通系統(tǒng)動(dòng)態(tài)并增強(qiáng)多維風(fēng)險(xiǎn)評(píng)估。然而,Kolekar [22] 提出的 DRF 僅考慮行駛方向(車輛前向半圓)的風(fēng)險(xiǎn),無法提供全面的全方位風(fēng)險(xiǎn)量化。
決策中的 LLM。決策對(duì)于自動(dòng)駕駛至關(guān)重要,因?yàn)樗苯記Q定車輛能否安全有效地在復(fù)雜、動(dòng)態(tài)和高沖突的交通場景中行駛 [23]。傳統(tǒng)的數(shù)據(jù)驅(qū)動(dòng)決策方法存在固有的局限性。這些算法通常被視為黑匣子,它們對(duì)數(shù)據(jù)偏差的敏感性、處理長尾場景的困難以及缺乏可解釋性,這些都對(duì)為其決策提供人類可理解的解釋提出重大挑戰(zhàn),尤其是在適應(yīng)數(shù)據(jù)稀缺的長尾場景時(shí) [24][25]。
LLM 的進(jìn)步為解決自動(dòng)駕駛中的決策挑戰(zhàn)提供寶貴的見解。LLM 展示人類水平的感知、預(yù)測和規(guī)劃能力 [26]。當(dāng) LLM 與矢量數(shù)據(jù)庫作為內(nèi)存結(jié)合使用時(shí),它們?cè)谀承╊I(lǐng)域的分析能力得到顯著增強(qiáng) [27]。Li 提出知識(shí)驅(qū)動(dòng)的自動(dòng)駕駛概念,表明 LLM 可以通過常識(shí)知識(shí)和駕駛經(jīng)驗(yàn)增強(qiáng)現(xiàn)實(shí)世界的決策能力 [28]。Weng 提出 DiLu 框架,該框架將推理和反思相結(jié)合,實(shí)現(xiàn)知識(shí)驅(qū)動(dòng)、不斷發(fā)展的決策,其表現(xiàn)優(yōu)于強(qiáng)化學(xué)習(xí)方法 [29]。Jiang 以 DiLu 為基礎(chǔ),開發(fā)一個(gè)知識(shí)驅(qū)動(dòng)的自動(dòng)駕駛多智體框架,證明其在各種駕駛?cè)蝿?wù)中的效率和準(zhǔn)確性 [30]。Fang [31] 專注于在不同場景中使用 LLM 作為協(xié)作駕駛的智體。
最近的進(jìn)展也凸顯 LLM 在多模態(tài)推理方面的潛力。Hwang [32] 引入 EMMA,這是一種使用預(yù)訓(xùn)練 LLM 進(jìn)行運(yùn)動(dòng)規(guī)劃的端到端多模態(tài)模型,通過 nuScenes 和 WOMD 取得最佳效果。然而,它對(duì)圖像輸入的依賴和高計(jì)算成本帶來挑戰(zhàn)。Sinha [33] 提出一個(gè)兩階段框架,將快速異常分類器與后備推理相結(jié)合,用于實(shí)時(shí)異常檢測和反應(yīng)性規(guī)劃,并在模擬中展示穩(wěn)健性。這些研究強(qiáng)調(diào) LLM 在 AV 決策中的潛力,其中實(shí)時(shí)推理和適應(yīng)性至關(guān)重要。然而,大多數(shù)研究都集中在簡單的場景上,缺乏在高沖突環(huán)境中的適應(yīng)性。
SafeDrive 是一個(gè)基于 LLM 的知識(shí)和數(shù)據(jù)驅(qū)動(dòng)的風(fēng)險(xiǎn)敏感決策框架,如圖所示。SafeDrive 結(jié)合自然駕駛數(shù)據(jù)和高風(fēng)險(xiǎn)場景,使 AV 能夠在復(fù)雜、動(dòng)態(tài)的環(huán)境中做出自適應(yīng)的安全決策。
該框架從大量數(shù)據(jù)輸入開始(圖 a),將所有道路使用者、所有條件場景和全覆蓋數(shù)據(jù)組合成一個(gè)典型和高風(fēng)險(xiǎn)駕駛場景的綜合數(shù)據(jù)庫。在耦合風(fēng)險(xiǎn)量化模塊(圖 b)中,包括成本圖和多維風(fēng)險(xiǎn)字段在內(nèi)的高級(jí)風(fēng)險(xiǎn)建模動(dòng)態(tài)量化風(fēng)險(xiǎn),為決策提供詳細(xì)的輸入。LLM 決策模塊(圖 c)使用數(shù)據(jù)驅(qū)動(dòng)的生成、風(fēng)險(xiǎn)先驗(yàn)知識(shí)和思維鏈 (CoT) 推理來生成實(shí)時(shí)的風(fēng)險(xiǎn)敏感決策。此外,自適應(yīng)記憶更新,可確??梢曰貞浧痤愃频慕?jīng)驗(yàn)來改進(jìn)決策過程。這些決策嵌入到風(fēng)險(xiǎn)-敏感駕駛智體(圖 d)中,其提供準(zhǔn)確的風(fēng)險(xiǎn)警告,回顧過去的經(jīng)驗(yàn)并做出自適應(yīng)決策。自我調(diào)整系統(tǒng)確保實(shí)時(shí)識(shí)別風(fēng)險(xiǎn),并通過閉環(huán)反思機(jī)制持續(xù)更新駕駛策略。
總體而言,SafeDrive 增強(qiáng)實(shí)時(shí)響應(yīng)能力、決策安全性和適應(yīng)性,應(yīng)對(duì)高風(fēng)險(xiǎn)、不可預(yù)測場景中的挑戰(zhàn)。
耦合風(fēng)險(xiǎn)量化
RQ1. 如何有效地對(duì)安全-緊要環(huán)境中的耦合風(fēng)險(xiǎn)進(jìn)行建模和量化?
感知風(fēng)險(xiǎn)的概念由 Naatanen & Summala [34] 定義,是事件發(fā)生的主觀概率與該事件后果的乘積。本文采用一種動(dòng)態(tài)駕駛員風(fēng)險(xiǎn)場 (DRF) 模型,該模型可適應(yīng)車輛速度和轉(zhuǎn)向動(dòng)態(tài),該模型受到 Kolekar [21-22] 的啟發(fā)。DRF 表示駕駛員對(duì)未來位置的主觀信念,在靠近自車時(shí)分配更高的風(fēng)險(xiǎn),并隨著距離的增加而降低。事件后果通過根據(jù)場景中目標(biāo)的危險(xiǎn)程度為其分配實(shí)驗(yàn)確定的成本來量化,與主觀評(píng)估無關(guān)。整體量化感知風(fēng)險(xiǎn) (QPR) 計(jì)算為所有網(wǎng)格點(diǎn)的事件成本和 DRF 的總和。這種方法有效地捕捉駕駛員感知和行動(dòng)中的不確定性,提供駕駛風(fēng)險(xiǎn)的全面衡量標(biāo)準(zhǔn)。
駕駛員風(fēng)險(xiǎn)場。這項(xiàng)工作擴(kuò)展 DRF,使其能夠考慮基于車速和轉(zhuǎn)向角的動(dòng)態(tài)變化。DRF 使用運(yùn)動(dòng)學(xué)汽車模型計(jì)算,其中預(yù)測路徑取決于車輛的位置 (x/car, y/car)、航向 φ/car 和轉(zhuǎn)向角 δ。假設(shè)轉(zhuǎn)向角恒定,預(yù)測行駛弧的半徑由以下公式給出:R/car = L / tan(δ), 其中 L 是汽車的軸距。利用車輛的位置和圓弧半徑,可以找到轉(zhuǎn)彎圓心 (x/c , y/c ),然后計(jì)算圓弧長度 s,表示沿路徑的距離。
DRF 被建模為具有高斯橫截面的環(huán)面。環(huán)境中的每個(gè)目標(biāo)都分配有一個(gè)成本,從而創(chuàng)建一個(gè)成本圖。該圖通過元素乘法與 DRF 相結(jié)合,并在網(wǎng)格上求和以計(jì)算量化感知風(fēng)險(xiǎn)(QPR)。
該指標(biāo)反映駕駛員對(duì)潛在事故發(fā)生可能性和嚴(yán)重程度的感知,將主觀感知與客觀風(fēng)險(xiǎn)量化相結(jié)合。
全方位風(fēng)險(xiǎn)量化。傳統(tǒng)的駕駛員風(fēng)險(xiǎn)場 (DRF) 僅關(guān)注面向前方的半圓。為了實(shí)現(xiàn)自動(dòng)駕駛的現(xiàn)實(shí)風(fēng)險(xiǎn)評(píng)估,本文模型將其擴(kuò)展到 360 度視角,同時(shí)納入前后車輛的風(fēng)險(xiǎn)。通過包括后車的 DRF 及其與自車的碰撞成本,從各個(gè)角度創(chuàng)建統(tǒng)一的風(fēng)險(xiǎn)狀況,增強(qiáng)現(xiàn)場覺察和安全性。
該方法不僅計(jì)算總體風(fēng)險(xiǎn),還評(píng)估每個(gè)參與者的具體風(fēng)險(xiǎn)屬性。這樣可以識(shí)別出那些構(gòu)成更大危險(xiǎn)的,從而更有針對(duì)性地識(shí)別和警告風(fēng)險(xiǎn)。
風(fēng)險(xiǎn)-敏感的 LLM 決策
RQ2. 如何引導(dǎo)基于 LLM 的智體獲得安全且類似人類的駕駛行為?
基于之前介紹的自動(dòng)駕駛系統(tǒng)風(fēng)險(xiǎn)量化和先前知識(shí)驅(qū)動(dòng)范式,利用大模型的推理能力提出 SafeDrive,這是一個(gè)知識(shí)具大和數(shù)據(jù)驅(qū)動(dòng)的框架,如圖所示。本文中,GPT-4 充當(dāng)決策智體,驅(qū)動(dòng)推理過程并生成動(dòng)作。用來自現(xiàn)實(shí)世界數(shù)據(jù)集的手動(dòng)注釋場景描述,并與下一幀動(dòng)作配對(duì)作為真值標(biāo)簽,包括 HighD(高速公路)、InD(城市交叉路口)和 RounD(環(huán)形交叉路口)。這些描述提供環(huán)境背景,例如周圍車輛的 ID、位置和速度,使 GPT-4 能夠解釋環(huán)境并支持推理和決策。
SafeDrive 架構(gòu)包含四個(gè)核心模塊:風(fēng)險(xiǎn)模塊、推理模塊、記憶模塊和反思模塊。該過程是迭代的:推理模塊根據(jù)系統(tǒng)消息、場景描述、風(fēng)險(xiǎn)評(píng)估做出決策并存儲(chǔ)類似的記憶;反思模塊評(píng)估決策并提供自我反思過程;記憶模塊存儲(chǔ)正確的決策以供將來檢索。使用三個(gè)真實(shí)世界數(shù)據(jù)集作為輸入,這個(gè)自學(xué)習(xí)循環(huán)提高決策的準(zhǔn)確性和處理多樣化復(fù)雜場景的適應(yīng)性?;?LLM 的整體決策算法如算法 1 所示。
如圖所示,在動(dòng)態(tài)場景中,SafeDrive 接收用戶導(dǎo)航指令和場景描述,實(shí)時(shí)評(píng)估周圍車輛的風(fēng)險(xiǎn)屬性(例如 QPR 值)、位置和速度。然后,系統(tǒng)利用 LLM 推理和歷史記憶進(jìn)行可行性檢查、車道評(píng)估和決策,以確定最安全的操作,例如變道??傮w而言,通過將多維風(fēng)險(xiǎn)量化與 GPT-4 的推理相結(jié)合,SafeDrive 可提供實(shí)時(shí)、風(fēng)險(xiǎn)敏感的決策。在高速公路和交叉路口等高風(fēng)險(xiǎn)場景中,它會(huì)識(shí)別不安全行為并做出自適應(yīng)決策(例如減速或轉(zhuǎn)彎)。閉環(huán)反射機(jī)制確保持續(xù)優(yōu)化,增強(qiáng)響應(yīng)能力、適應(yīng)性和安全性。
風(fēng)險(xiǎn)模塊。風(fēng)險(xiǎn)模塊根據(jù)上述風(fēng)險(xiǎn)量化模型和定義的閾值為每個(gè)參與者生成詳細(xì)的文本風(fēng)險(xiǎn)評(píng)估。這些閾值是通過實(shí)驗(yàn)確定的,考慮到風(fēng)險(xiǎn)分布和常見的安全標(biāo)準(zhǔn),解決縱向和橫向風(fēng)險(xiǎn)。這種整合確保在決策中更加謹(jǐn)慎,指導(dǎo) GPT-4 駕駛智體有效避免或減輕不安全行為。
推理模塊。推理模塊通過三個(gè)關(guān)鍵組件促進(jìn)系統(tǒng)決策過程。它從一條系統(tǒng)消息開始,該消息定義 GPT-4 駕駛智體的角色,概述預(yù)期的響應(yīng)格式,并強(qiáng)調(diào)決策的安全原則。在收到由場景描述和風(fēng)險(xiǎn)評(píng)估組成的輸入后,該模塊與記憶模塊交互以檢索類似的成功過去樣本及其正確的推理過程。最后,動(dòng)作解碼器將決策轉(zhuǎn)換為針對(duì)自身車輛的具體動(dòng)作,例如加速、減速、轉(zhuǎn)彎、變道或保持空轉(zhuǎn)。這種結(jié)構(gòu)化方法可確保做出明智且有安全意識(shí)的決策。
記憶模塊。記憶模塊是系統(tǒng)的核心組件,它通過利用過去的駕駛經(jīng)驗(yàn)來增強(qiáng)決策能力。它使用 GPT 嵌入將矢量化場景存儲(chǔ)在矢量數(shù)據(jù)庫中。數(shù)據(jù)庫使用一組手動(dòng)創(chuàng)建的樣例進(jìn)行初始化,每個(gè)樣例都包含場景描述、風(fēng)險(xiǎn)評(píng)估、模板推理過程和正確操作。遇到新場景時(shí),系統(tǒng)通過使用相似度分?jǐn)?shù)匹配矢量化描述來檢索相關(guān)經(jīng)驗(yàn)。在決策過程之后,新樣本將添加到數(shù)據(jù)庫中。這個(gè)動(dòng)態(tài)框架支持持續(xù)學(xué)習(xí),使系統(tǒng)能夠適應(yīng)不同的駕駛條件。
反思模塊。反思模塊評(píng)估并糾正駕駛智體做出的錯(cuò)誤決定,啟動(dòng)思考過程,思考智體為什么選擇錯(cuò)誤的動(dòng)作。修正后的決策及其推理會(huì)被儲(chǔ)存在記憶模塊中,作為參考,以防止將來再次出現(xiàn)類似的錯(cuò)誤。該模塊不僅允許系統(tǒng)不斷演進(jìn),還為開發(fā)人員提供詳細(xì)的日志信息,使他們能夠分析和改進(jìn)系統(tǒng)消息,以改進(jìn)智體的決策邏輯。