自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

自動駕駛大語言模型!LLM4AD:從概念、仿真到實車的全面盤點

人工智能 智能汽車
今天為大家分享普渡大學(xué)自動駕駛大語言模型的全面概述!

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面 && 筆者理解

大型語言模型(LLMs)的發(fā)展無疑是這幾年人工智能領(lǐng)域的熱潮,它們的應(yīng)用范圍已經(jīng)逐步從經(jīng)典的自然語言處理(NLP)任務(wù),到了一些新興場景,如基于LLM的智能體研究。而這篇文章,作者的研究重點之一,就是采用LLMs進行自動駕駛(LLM4AD),各種基于LLM的算法和技術(shù)不斷增強自動駕駛技術(shù)的能力。

論文鏈接:https://arxiv.org/pdf/2410.15281v1

LLMs可以從高層次的決策制定過程細致的低層次控制都能為自動駕駛系統(tǒng)做出貢獻。在高層次上,LLMs可以積極參與調(diào)整駕駛模式或決策過程??梢韵胂笠幌?,當(dāng)你坐在一輛自動駕駛汽車中,你只需要抽象地表達你的感受,比如“我不想讓我的朋友們等我?!比缓驦LM4AD系統(tǒng)解釋你的情感,并相應(yīng)地調(diào)整車輛的控制策略,與你當(dāng)前的駕駛心情或偏好保持一致。相比之下,基于非LLM的系統(tǒng)缺乏從一些模糊的表達中準確理解或解釋人類意圖的能力。當(dāng)然,這樣的系統(tǒng)還有個優(yōu)勢就是可以持續(xù)學(xué)習(xí),使其能夠不斷適應(yīng)個人喜好和愿望,根據(jù)不同的用戶改善駕駛體驗。另一方面,在低層次上,LLMs在調(diào)整和控制過程中也可以發(fā)揮關(guān)鍵作用。LLMs可以將特定場景分析并把收集到的信息轉(zhuǎn)換成指導(dǎo)低層次控制器的數(shù)學(xué)表示。另外,LLMs還可以從控制器接收輸入數(shù)據(jù),并提供性能更新,幫助人類分析控制環(huán)路的有效性,還可以潛在地建議改進或檢測問題以增強整體性能。

說了這么多,總結(jié)一下LLMs應(yīng)用在自動駕駛領(lǐng)域的優(yōu)劣勢吧:
Pros:

  • 直觀的語言交互:LLMs使得人與車輛之間的交流變得直觀。人類可以表達抽象的命令和感受,而LLMs則能夠準確捕捉人類表達背后的意圖。
  • 上下文理解和推理:LLMs提供從交通法規(guī)到事故報告等不同來源的上下文理解,從而確保生成的決策保證安全并遵循當(dāng)?shù)胤ㄒ?guī)。
  • 零樣本和少樣本規(guī)劃:零樣本泛化能力使得LLMs能夠執(zhí)行它們之前未曾受過訓(xùn)練的任務(wù)。這可以幫助解決處理一些很少見的corner cases。
  • 持續(xù)學(xué)習(xí)和個性化:LLMs持續(xù)學(xué)習(xí)和適應(yīng),提供遵循個人用戶偏好并隨著時間改善駕駛體驗的能力。
  • 可解釋性和信任:LLMs可以用自然語言解釋它們的決策,改善自動駕駛系統(tǒng)與其用戶之間的信任和理解。

Cons:

  • 延時性可能不達預(yù)期:LLMs通常需要幾秒鐘來處理文本信息。這種延遲可能在需要立即、實時決策的情況下帶來重大的安全問題和風(fēng)險。
  • 可能出現(xiàn)幻覺問題:“幻覺”是指LLMs生成的輸出在事實上是錯誤的、無意義的或與輸入提示無關(guān)的實例。由于自動駕駛是一項安全關(guān)鍵任務(wù),幻覺可能會引入重大的安全和可靠性問題,可能破壞對LLM4AD系統(tǒng)的信任。
  • 數(shù)據(jù)隱私和安全問題:因為LLMs收集和處理大量文本數(shù)據(jù),包括可能關(guān)于其周圍環(huán)境、乘客和駕駛偏好的敏感信息。

這篇論文主要介紹了作者將 LLM 集成到自動駕駛系統(tǒng)中的思路方法,從提出的概念和開放數(shù)據(jù)集的創(chuàng)建到在仿真和實車實驗中的實現(xiàn),都有相關(guān)的說明。

作者提出的LLM4AD的概念

作者提出LLMs扮演自動駕駛系統(tǒng)中決策“大腦”的角色。在作者的框架內(nèi),LLMs并不直接影響感知或定位模塊,這些模塊充當(dāng)車輛的“眼睛”;相反,它們使用這些模塊的輸出作為參考來指導(dǎo)高層次的決策過程。通過接收來自這些模塊的處理數(shù)據(jù),LLMs可以增強知情決策,來提高自動駕駛車輛的性能。在下游,車輛的控制模塊充當(dāng)其“手”,執(zhí)行從基于LLM的決策過程中獲得的駕駛策略。

圖片

整體LLM4AD框架如圖1所示。人類提供指令和評估,其中指令I(lǐng)和評估F以及歷史記憶H、系統(tǒng)消息S和上下文信息C作為輸入提供給LLMs。記憶模塊存儲對應(yīng)于不同用戶的人車交互的相應(yīng)歷史記錄H。在接收到這些輸入后,LLMs進行推理并產(chǎn)生輸出,包括生成的語言模型程序(Language Model Programs, LMPs)P和推理思想R。生成的LMP被發(fā)送到執(zhí)行器在環(huán)境中執(zhí)行,而推理思想幫助LLMs生成更合理的駕駛策略。不過要注意的是,這是一個通用概念,具體實現(xiàn)可能因不同應(yīng)用而異。

人類指令和評估

人類的指令I(lǐng)和評估F直接以自然語言形式輸入到LLMs中。I包括人類對自動駕駛智能體的期望需求,而人類的評估F是對這些駕駛策略有效性的反饋。

系統(tǒng)消息

系統(tǒng)消息S是在對話或任務(wù)開始時向LLM4AD系統(tǒng)提供指令或上下文的一種方式。自動駕駛?cè)蝿?wù)中的系統(tǒng)消息S就像一套高層次的指導(dǎo)方針或規(guī)則。這些高層次的系統(tǒng)消息包括任務(wù)定義、遵守交通規(guī)則、描述決策狀態(tài)和總體目標或優(yōu)化指標。它們作為指導(dǎo)自動駕駛車輛在路上行為和決策過程的基礎(chǔ)框架。如果沒有精心設(shè)計的系統(tǒng)消息,LLMs可能會做出錯誤的假設(shè)或無意的策略。

情境描述符

情境描述符將當(dāng)前的駕駛上下文C轉(zhuǎn)換成文本描述。它的目的是為LLMs提供情境感知和對當(dāng)前駕駛場景的全面表示,使它們能夠在當(dāng)前交通情況下做出適當(dāng)?shù)臎Q策。這可能包括諸如“您位于雙車道高速公路的最左車道”或“一輛車位于您當(dāng)前位置前方50米處”的描述性語句。描述符將不同道路使用者和自車之間復(fù)雜的空間和時間關(guān)系直觀地轉(zhuǎn)換成自然語言格式,允許上下文信息被LLMs推理。

歷史記憶和記憶模塊

記憶模塊存儲不同用戶的配置文件,以增強所有用戶的駕駛體驗。每當(dāng)人類用戶使用LLM4AD系統(tǒng)時,系統(tǒng)會記錄與該用戶相關(guān)的相關(guān)歷史交互H。隨后,當(dāng)前人類用戶的歷史數(shù)據(jù)被傳輸?shù)絃LMs作為輸入。這個特定的歷史交互H作為當(dāng)前用戶偏好的參考點,因此指導(dǎo)系統(tǒng)改善用戶體驗。每次行程結(jié)束后,交互數(shù)據(jù)將在記憶模塊中的相應(yīng)配置文件中更新。

大型語言模型

LLMs作為作者框架中的核心模塊,將接收上述所有輸入,并生成文本輸出(語言模型程序LMPs P和推理思想R)。值得一提的是,作者采用了思維鏈提示技術(shù),它作為一個指導(dǎo)信號,確保與類人推理和實際駕駛考慮的一致性。思維鏈向LLMs提供了一系列推理示例,填補了現(xiàn)有的知識空白。通過提供一系列邏輯和連接的步驟,LLMs可以更有效地在復(fù)雜的駕駛場景中表現(xiàn)良好。

生成程序

LLMs的一個關(guān)鍵輸出是生成的LMPs P,由可執(zhí)行代碼組成。這些代碼用于影響環(huán)境中自車智能體的駕駛行為,它們不僅能夠推廣到新的自然語言命令,而且還可以基于模糊的語言描述(例如,“快點”、“向左轉(zhuǎn)”)提供精確的數(shù)值,如根據(jù)駕駛上下文的速度。

輸出思想

通過采用思維鏈提示,LLMs不僅生成程序代碼,還提供了用于達到解決方案的思考過程的逐步解釋。這些思維鏈代表了LLMs在做出每個決策背后的推理,例如“由于命令是‘快點’,我將增加目標速度”或“要向左轉(zhuǎn),我需要根據(jù)當(dāng)前速度調(diào)整轉(zhuǎn)向角度?!陛敵龅乃枷隦伴隨著生成的程序P,提供了LLMs如何在駕駛情境描述的上下文中解釋自然語言命令以產(chǎn)生精確的控制值,如速度或轉(zhuǎn)向角度。這種輸出思想提高了LLM4AD系統(tǒng)決策過程的透明度和可解釋性。

執(zhí)行器

執(zhí)行器充當(dāng)LLMs文本輸出與當(dāng)前自動駕駛策略之間的橋梁。它從LLMs中取出生成的LMPs P并在相應(yīng)環(huán)境中執(zhí)行。這允許代碼與自車的當(dāng)前狀態(tài)進行交互,并使生成的程序能夠在真實或仿真環(huán)境中部署其預(yù)期的駕駛行為。在作者的范圍內(nèi),不同的自動駕駛系統(tǒng)將在它們各自的執(zhí)行器中有所不同地執(zhí)行這些代碼。

作者提出的LLM4AD的基準數(shù)據(jù)集

作者提出了第一個評估基于LLM的智能體在自動駕駛中指令跟隨能力的標準基準測試——LaMPilot-Bench。LaMPilot-Bench由三個關(guān)鍵部分組成:仿真器、數(shù)據(jù)集和評估器。

仿真器

作者擴展了HighwayEnv,增加了適合基于LLM的智能體的接口,并實現(xiàn)了自定義交叉路口,以多樣化駕駛場景。

數(shù)據(jù)集

LaMPilot數(shù)據(jù)集由4900個半人工標注的交通場景組成,其中500個樣本作為測試集。每個數(shù)據(jù)樣本包括:

  • 一個指令I(lǐng):一個高層次的任務(wù)描述。
  • 一個初始狀態(tài):用于初始化仿真器。
  • 與指令I(lǐng)一致的目標狀態(tài)標準。

數(shù)據(jù)集涵蓋了多樣化的駕駛場景,對于每個駕駛場景,LaMPilot包括多種情況。以轉(zhuǎn)彎場景為例,多樣性反映在如自車的初始位置和狀態(tài)、特定任務(wù)(左轉(zhuǎn)/右轉(zhuǎn)或直行)、其他車輛的數(shù)量以及它們的位置和狀態(tài)等多個變量中。其他車輛的駕駛模型參數(shù)是隨機初始化的,每個場景都被分配一個隨機種子。數(shù)據(jù)集還包括反映現(xiàn)實車內(nèi)人類命令的各種指令,按操作類型(例如,路線規(guī)劃、變道、超車)和場景類型(高速公路和交叉口)分類。

評估器

LaMPilot-Bench評估器包含了評估智能體駕駛策略安全性和效率的指標。碰撞時間(Time-to-collision, TTC)用于衡量車輛保持安全距離和避免碰撞的能力。速度方差(Speed variance,SV)被認為是另一個安全指標。時間效率( time efficiency,TE)得分評估策略在預(yù)定義的時間限制Tlimit內(nèi)完成任務(wù)的能力。其具體計算方法詳見論文。

當(dāng)智能體在保持安全(即,避免碰撞)和效率(即,在規(guī)定時間內(nèi)完成)的同時實現(xiàn)了指令中指定的目標時,認為任務(wù)成功完成。例如,當(dāng)車輛在目標車道內(nèi)并且其方向與車道方向一致時,且在指定閾值內(nèi),變道任務(wù)即算完成。最終得分根據(jù)其重要性加權(quán)匯總所有單獨指標。

基線

作者設(shè)置了啟發(fā)式基線、零樣本和少樣本基線、人類反饋基線三種baselines,來對模型進行分析。

定量結(jié)果

作者在LaMPilot-Bench上展示了各種方法的實驗結(jié)果,總結(jié)了啟發(fā)式基線、零樣本和三樣本基線以及人類反饋基線的性能。

圖片

實驗表明,現(xiàn)成的LLM能夠根據(jù)人類指令為駕駛?cè)蝿?wù)生成代碼策略。然而,顯著的碰撞率表明需要進一步的研究來完全捕捉現(xiàn)實世界駕駛場景的復(fù)雜性和安全要求。

作者做的LLM4AD的仿真研究

仿真設(shè)置

仿真是開發(fā)和評估自動駕駛系統(tǒng)的關(guān)鍵工具,使研究人員能夠安全高效地探索多樣化的駕駛場景并收集訓(xùn)練數(shù)據(jù)。在這項工作中,作者利用CARLA仿真器來開發(fā)和評估作者提出的將LLMs集成到自動駕駛中的框架。其中使用三個關(guān)鍵指標評估智能體性能:

  • 路線完成率(RC):衡量智能體完成路線距離的百分比
  • 違規(guī)處罰(IP):跟蹤智能體犯下的各種違規(guī)行為(例如,碰撞、闖紅燈)作為幾何級數(shù),從理想的基礎(chǔ)分數(shù)1.0開始,每次違規(guī)都會減少
  • 駕駛得分(DS):RC和IP的乘積,作為主要評估指標

Human-in-the-Loop Learning

本節(jié)的主要研究目標是開發(fā)一個人類引導(dǎo)的學(xué)習(xí)流程,使自動駕駛智能體能夠不斷地從自然語言中的人類反饋中學(xué)習(xí)和改進。雖然作者的實驗是使用CARLA進行的,并使用Python進行代碼生成,但核心方法并不局限于這個特定設(shè)置,可以適應(yīng)其他環(huán)境和編程語言。表IV提供了LMP生成過程的示例。作者引入了一種基于檢索增強生成(RAG)的人類在回路學(xué)習(xí)方法。這種方法使LLM在生成輸入查詢的響應(yīng)時使用定制的知識數(shù)據(jù)庫。關(guān)鍵過程如下:在執(zhí)行生成的策略代碼(P)之后,人類乘客提供自然語言反饋(F),這些反饋連同P一起被反饋到LLM中。這個反饋循環(huán)使持續(xù)學(xué)習(xí)成為可能。如果反饋是積極的(即,人類對執(zhí)行感到滿意),代碼(P)將提交到數(shù)據(jù)庫以供將來檢索和重用。否則,反饋將作為迭代改進的指導(dǎo)。新的生成過程可以被表述為:

其中P'是基于原始代碼P和人類反饋F改進的代碼。數(shù)據(jù)庫有兩個目的:(1)作為一個自動駕駛知識庫,它為持續(xù)學(xué)習(xí)提供了對角落案例的洞察,符合知識驅(qū)動的自動駕駛范式;(2)由于數(shù)據(jù)庫是使用個性化反饋構(gòu)建的,它自動將個人偏好納入交互過程中。這種方法將框架從靜態(tài)的開環(huán)系統(tǒng)轉(zhuǎn)變?yōu)閯討B(tài)的、持續(xù)學(xué)習(xí)的系統(tǒng)。

結(jié)果

作者使用OpenAI的GPT模型API(gpt-4-turbo-preview和gpt-3.5-turbo)作為規(guī)劃器中的LLM。表5展示了一些對比結(jié)果,基于這些結(jié)果,作者觀察到:

  • 沒有少樣本示例,現(xiàn)成的LLM在CARLA中精確推理所需的復(fù)雜閉環(huán)駕駛方面掙扎。
  • 三樣本基線也不足,根據(jù)CARLA的標準指標,得分顯著降低。
  • 作者的框架通過從人類反饋中學(xué)習(xí)到的50個代碼片段,表現(xiàn)與Roach Expert強化學(xué)習(xí)基線相當(dāng)。
  • 大多數(shù)失敗源于LLM低級規(guī)劃頻率的權(quán)衡。

圖片

LLM4AD的實車實驗

為了進一步評估LLM4AD系統(tǒng)的有效性并驗證其在現(xiàn)實世界場景中的適用性,作者將LLMs集成到實際的自動駕駛系統(tǒng)中,引入了一個名為Talk2Drive的框架。演示視頻可見(https://youtu.be/4BWsfPaq1Ro)。

Talk2Drive框架

作者提出了Talk2Drive(見圖3),這是一種創(chuàng)新的方法,利用LLMs來增強命令解釋能力,并在自動駕駛車輛中啟用個性化決策制定。它集成了基于云的LLMs,以實現(xiàn)個性化理解和將人類命令轉(zhuǎn)化為實時車輛動態(tài)輸入的可執(zhí)行控制序列。這一節(jié)首先從問題陳述開始,然后闡述每個云側(cè)和車輛側(cè)操作的獨特角色。

圖片

Talk2Drive系統(tǒng)主要有以下幾個步驟,其流程圖見圖4。

  1. 云基LLMs:Talk2Drive框架使用基于云的LLMs來處理和理解人類的口頭指令,并將其轉(zhuǎn)化為車輛的可執(zhí)行控制序列。
  2. 命令翻譯:通過使用語音識別技術(shù),人類的口頭命令被轉(zhuǎn)換成文本指令,LLMs進一步將這些指令翻譯成具體的駕駛操作。
  3. 上下文數(shù)據(jù)集成:LLMs同時訪問實時的環(huán)境數(shù)據(jù),如天氣、交通狀況和當(dāng)?shù)亟煌ㄒ?guī)則,以提供更準確的駕駛決策。
  4. 個性化駕駛體驗:通過存儲和分析過去的交互歷史,LLMs能夠?qū)W習(xí)駕駛員的偏好,并根據(jù)這些信息調(diào)整駕駛策略。
  5. 記憶模塊:該模塊記錄了用戶的命令、系統(tǒng)響應(yīng)和用戶反饋,使系統(tǒng)能夠根據(jù)用戶的歷史行為和偏好提供個性化的駕駛體驗。
  6. 安全和效率:Talk2Drive框架在執(zhí)行LLMs生成的控制命令時,會進行安全檢查,確保生成的代碼既符合格式要求,也考慮到了安全性和實際可行性。
  7. 實時反饋和迭代學(xué)習(xí):系統(tǒng)允許用戶對執(zhí)行的命令提供反饋,這些反饋被用來不斷改進LLMs的性能,實現(xiàn)持續(xù)學(xué)習(xí)和優(yōu)化。
  8. 執(zhí)行器的角色:生成的可執(zhí)行代碼(LMPs)被發(fā)送回車輛的電子控制單元(ECU),由ECU執(zhí)行,以控制車輛的實際駕駛行為。

圖片

實驗及結(jié)果

實驗包括三種不同的場景:高速公路、交叉口和停車場。關(guān)于輸入指令,有三種Level,表6給出一些例子:

圖片

作者對自動駕駛系統(tǒng)的評估指標,包括駕駛性能、時間效率個性化的接管率三個方面,具體計算方法可見論文。

圖片

表7展示了路測的駕駛性能指標,除了高速場景的overtake指標,均有提升。

圖片

表8展示了不同場景下接管率的性能指標,也均有提升。

結(jié)論

作者全面探討了LLM4AD,即大型語言模型(LLMs)在自動駕駛中的應(yīng)用。作者的研究突出了LLMs在增強自動駕駛車輛技術(shù)的各個方面,從感知和場景理解到語言交互和決策制定的重要潛力。通過利用LLMs的自然語言理解和推理能力,作者展示了它們增強自動駕駛車輛的安全性、效率和用戶體驗的能力。此外,作者介紹了一個專門設(shè)計的全面基準測試,用于評估LLMs在自動駕駛領(lǐng)域的指令跟隨能力。作者在模擬和真實車輛平臺上進行的實驗表明了作者提出的基于LLM的方法的有效性。這些發(fā)現(xiàn)強調(diào)了LLMs對自動駕駛技術(shù)未來的影響,使其更安全、更智能、更易于所有人使用。

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2024-08-13 12:39:23

2024-01-04 09:27:00

模型自動駕駛

2024-03-19 13:12:36

自動駕駛模型

2024-01-30 09:39:36

自動駕駛仿真

2023-10-17 09:35:46

自動駕駛技術(shù)

2022-08-22 09:45:34

自動駕駛

2024-11-06 15:40:00

模型算法

2023-12-08 10:10:56

模型論文調(diào)研

2023-10-24 09:53:56

自動駕駛模型

2023-09-22 11:56:57

模型駕駛

2024-01-10 11:01:13

自動駕駛和軟件

2023-11-09 09:38:50

自動駕駛模型

2022-04-06 11:05:25

自動駕駛商業(yè)化馬斯克

2023-10-13 09:43:36

自動駕駛數(shù)據(jù)

2025-01-09 09:38:25

2023-12-18 10:15:30

自動駕駛自然語言

2020-01-09 08:42:23

自動駕駛AI人工智能

2024-02-23 11:27:00

數(shù)據(jù)技術(shù)

2023-06-20 13:50:23

自動駕駛
點贊
收藏

51CTO技術(shù)棧公眾號