自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

等等我還沒上車!LLM賦能端到端全新范式LeGo-Drive,車速拉滿

人工智能 智能汽車
本文通過將所提出的端到端方法作為目標點導航問題來解決,揭示了其與傳統(tǒng)解耦方法相比的明顯優(yōu)勢。

本文經(jīng)自動駕駛之心公眾號授權轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面&筆者個人理解

這篇論文介紹了一種名為LeGo-Drive的基于視覺語言模型的閉環(huán)端到端自動駕駛方法。該方法通過預測目標位置和可微分優(yōu)化器規(guī)劃軌跡,實現(xiàn)了從導航指令到目標位置的端到端閉環(huán)規(guī)劃。通過聯(lián)合優(yōu)化目標位置和軌跡,該方法提高了目標位置預測的準確性,并生成了平滑、無碰撞的軌跡。在多個仿真環(huán)境中進行的實驗表明,該方法在自動駕駛指標上取得了顯著改進,目標到達成功率達到81%。該方法具有很好的可解釋性,可用于實際自動駕駛車輛和智能交通系統(tǒng)中。

圖片圖1:LeGo-Drive導航到基于語言的目標,該目標與軌跡參數(shù)共同優(yōu)化?!皩④囃T谧笄胺焦卉囌靖浇钡让畹念A測目標可能會落在不理想的位置(右上:綠色),這可能會導致容易發(fā)生碰撞的軌跡。由于軌跡是唯一直接與環(huán)境“交互”的組件,因此我們建議讓感知感知了解軌跡參數(shù),從而將目標位置改善為可導航位置(右下角:紅色)

開源地址:https://reachpranjal.github.io/lego-drive

相關工作回顧

視覺基礎

視覺基礎的目標是將自然語言查詢與視覺場景中最相關的視覺元素或目標關聯(lián)起來。早期的研究方法是將視覺基礎任務視為參考表達理解(Referring Expression Comprehension, REC),這涉及到生成區(qū)域提案,然后利用語言表達來選擇最佳匹配的區(qū)域。相對地,一種稱為Referring Image Segmentation (RIS)的一階段方法,則將語言和視覺特征集成在網(wǎng)絡中,并直接預測目標框。參考文獻使用了RIS方法,基于語言命令來識別可導航區(qū)域的任務。然而,這項工作僅限于場景理解,并且不包括導航仿真,因為軌跡規(guī)劃依賴于精確的目標點位置,而這一點并未得到解決。

端到端自動駕駛

端到端學習研究在近年來備受關注,其目的是采用數(shù)據(jù)驅(qū)動的統(tǒng)一學習方式,確保安全運動規(guī)劃,與傳統(tǒng)基于規(guī)則的獨立優(yōu)化每個任務的設計相比,后者會導致累積誤差。在nuScenes數(shù)據(jù)集上,UniAD是當前最先進的方法,使用柵格化場景表示來識別P3框架中的關鍵組件。ST-P3是先前的藝術,它探討了基于視覺的端到端ADS的可解釋性。由于計算限制,選擇ST-P3作為我們的運動規(guī)劃基準,而不是UniAD。

面向規(guī)劃的視覺語言導航

在自動駕駛系統(tǒng)(ADS)領域,大型語言模型(LLMs)因其多模態(tài)理解和與人類的自然交互而展現(xiàn)出有前景的結(jié)果。現(xiàn)有工作使用LLM來推理駕駛場景并預測控制輸入。然而,這些工作僅限于開環(huán)設置。更近的工作關注于適應閉環(huán)解決方案。它們要么直接估計控制動作,要么將它們映射到一組離散的動作空間。這些方法較為粗糙,容易受到感知錯誤的影響,因為它們嚴重依賴于VLMs的知識檢索能力,這可能導致在需要復雜控制動作組合的復雜情況下(如泊車、高速公路并線等)產(chǎn)生不流暢的運動。

數(shù)據(jù)集

詳細闡述了作者為開發(fā)結(jié)合視覺數(shù)據(jù)和導航指令的智能駕駛agent而創(chuàng)建的數(shù)據(jù)集和標注策略。作者利用CARLA仿真器提供的視覺中心數(shù)據(jù),并輔以導航指令。他們假設agent擁有執(zhí)行成功閉環(huán)導航所需的特權信息。

數(shù)據(jù)集概覽:先前的工作,如Talk2Car數(shù)據(jù)集,主要關注通過為目標引用標注邊界框來進行場景理解。進一步的工作,如Talk2Car-RegSeg,則通過標注可導航區(qū)域的分割mask來包含導航。作者在此基礎上擴展了數(shù)據(jù)集,涵蓋各種駕駛操作,包括車道變更、速度調(diào)整、轉(zhuǎn)彎、繞過其他物體或車輛、通過交叉口以及在行人橫道或交通信號燈處停車,并在其中演示了閉環(huán)導航。創(chuàng)建的LeGo-Drive數(shù)據(jù)集包含4500個訓練點和1000個驗證點。作者使用復雜和簡單的命令標注進行了結(jié)果、基準比較和消除實驗。

仿真器設置:LeGo-Drive數(shù)據(jù)集收集過程包括兩個階段:

  • 同步記錄駕駛agent狀態(tài)與相機傳感器數(shù)據(jù),隨后記錄交通agent,
  • 解析和標注收集的數(shù)據(jù),以導航指令為標注。

作者以10 FPS的速率錄制數(shù)據(jù),為避免連續(xù)幀之間的冗余,數(shù)據(jù)點在10米的距離間隔內(nèi)進行過濾。對于每個幀,他們收集了自車的狀態(tài)(位置和速度)、自車車道(前后各50米范圍)、前RGB相機圖像,以及使用基于規(guī)則的專家agent收集的交通agent狀態(tài)(位置和速度),所有這些都以自車幀為單位。數(shù)據(jù)集涵蓋了6個不同的城鎮(zhèn),具有各種獨特的環(huán)境,代表不同的駕駛場景,包括不同的車道配置、交通密度、光照和天氣條件。此外,數(shù)據(jù)集還包括了戶外場景中常見的各種物體,如公交車站、食品攤位和交通信號燈。

語言命令標注:每個幀都手動標注了適當?shù)膶Ш矫睿阅繕藚^(qū)域分割mask的形式,以涵蓋各種駕駛場景。作者考慮了3種不同的命令類別:

  • 以目標為中心的命令,直接指向當前相機幀中可見的目標,
  • 車道操作命令,與車道變更或車道內(nèi)調(diào)整相關的指令,
  • 復合命令,連接多個指令以模擬實際駕駛場景。

作者利用ChatGPT API生成具有相似語義含義的不同變體。表I展示了他們數(shù)據(jù)集中的一些示例指令。值得注意的是,作者并未涵蓋誤導性指令的處理。這種能力對于場景推理模型至關重要,可能被視為未來的擴展范圍;然而,它超出了當前研究的范圍。

表I:LeGo-Drive數(shù)據(jù)集的導航指令示例

LeGo-Drive架構(gòu)

本文提出了LeGo-Drive框架,旨在解決從VLA進行控制動作的粗略估計的問題,將這一問題視為一個短期目標實現(xiàn)問題。這是通過學習軌跡優(yōu)化器的參數(shù)和行為輸入,生成并改進與導航指令一致的可實現(xiàn)目標來實現(xiàn)的。

圖3:LeGo-Drive架構(gòu)

如圖3所示,架構(gòu)由兩個主要部分組成:

  • 目標預測模塊,接受前視圖圖像和相應的語言命令,生成或預測一個分割mask ,然后是一個目標位置
  • 可微優(yōu)化器,生成一個軌跡,共同優(yōu)化估計的目標和軌跡優(yōu)化器的參數(shù),當進行端到端訓練時,導致所需位置坐標到可導航位置的改進。

目標預測模塊

為編碼給定的導航命令,作者使用CLIP 標記器對語言命令進行標記,并經(jīng)過CLIP文本編碼器獲得文本嵌入。為了從給定的前攝像頭圖像中獲得圖像特征,使用帶有ResNet-101骨干網(wǎng)絡的CLIP圖像編碼器。提取不同視覺特征,通過卷積塊ConvBlocki進行處理,以標準大小和相等的通道尺寸、高度和寬度進行重塑。

為捕捉圖像和文本特征的跨模態(tài)上下文,作者進一步使用來自DETR架構(gòu)的transformer編碼器。文本特征與不同的個體拼接,得到多模態(tài)特征,然后單獨通過transformer編碼器,其中多頭自注意力層幫助跨模態(tài)交互不同類型的特征,以獲得形狀相同的編碼器輸出。

有兩個解碼頭,一個用于分割mask預測,另一個用于目標點預測。分割mask預測頭將進行重塑和重組,得到,并使用ASPP解碼器。目標點預測解碼器由卷積層和全連接層組成,輸出形狀為表示圖像上的像素位置。

首先,分割mask預測頭與真實分割mask之間的BCE損失進行端到端訓練。在幾個epoch之后,目標點預測頭以平滑L1損失與真實目標點之間的差異進行類似端到端的訓練。

復雜命令和場景理解:為處理最終目標位置在當前幀中不可見的復合指令,通過將復雜命令分解為需要順序執(zhí)行的原子命令列表來適應他們的方法。例如,“切換到左車道然后跟著黑色汽車”可以分解為“切換到左車道”和“跟著黑色汽車”。為分解這種復雜命令,作者構(gòu)建了一個原子命令列表L,涵蓋廣泛的簡單操作,如車道變更、轉(zhuǎn)彎、速度調(diào)整和目標引用。在收到復雜命令后,作者利用小樣本學習技術提示LLM將給定復雜命令分解為原子命令列表li,來自L。這些原子命令隨后迭代執(zhí)行,預測的目標點位置作為中間路點幫助我們達到最終目標點。

神經(jīng)可微優(yōu)化器

計劃采用優(yōu)化問題的形式,其中嵌入有可學習參數(shù),以改進由VLA生成的下游任務的跟蹤目標,并加速其收斂。作者首先介紹了他們軌跡優(yōu)化器的基本結(jié)構(gòu),然后介紹了其與網(wǎng)絡的集成。

基本問題公式:作者假設可以獲得車道中心線,并使用它來構(gòu)建Frenet框架。在Frenet框架中,軌跡規(guī)劃具有優(yōu)勢,即汽車在縱向和橫向運動與Frenet框架的X和Y軸對齊。在給定這種表示的情況下,他們的軌跡優(yōu)化問題具有以下形式:

等式約束(1b)確保計劃的軌跡滿足初始和最終邊界條件,在r階導數(shù)上。在公式中使用r={0,1,2}。不等式約束(1c)也依賴于r階導數(shù)的上界,包括速度、加速度、車道偏移以及避碰和曲率約束。的代數(shù)結(jié)構(gòu)取自先前的工作。

為確保他們在平滑軌跡的空間中優(yōu)化,作者以以下形式參數(shù)化沿X-Y方向的運動:

使用(4),優(yōu)化(1a)-(1c)可以寫成以下緊湊形式

端到端訓練

LeGo-Drive E2E:表示目標預測模塊和規(guī)劃器模塊的聯(lián)合訓練。模型在組合損失上訓練,其中目標損失是預測目標與預測軌跡端點之間的均方誤差損失,規(guī)劃器損失Lplanner是違反非凸約束g的組合,涉及車道偏移、避碰和運動學約束。梯度從規(guī)劃器流向目標預測部分。

LeGo-Drive Decoupled:表示目標預測模塊和規(guī)劃器模塊分別訓練的過程。首先,目標預測模塊在預測目標與真實目標之間的均方誤差損失上進行訓練。然后,規(guī)劃器在上訓練,同時凍結(jié)目標預測模塊的參數(shù)。

端到端訓練需要通過優(yōu)化層建模軌跡規(guī)劃過程進行反向傳播,可以通過隱式微分和算法展開兩種方式進行。作者建立了一個自定義的反向傳播程序,遵循算法展開,這種方法可以處理約束,并且反向傳播可以避免矩陣分解。兩種方法的性能在表II中展示,并在后面章節(jié)中進行分析。該方法的核心創(chuàng)新在于其模塊化的端到端規(guī)劃框架,其中框架優(yōu)化目標預測模塊,同時優(yōu)先考慮軌跡優(yōu)化,確保獲取的行為輸入有效地促進優(yōu)化器的收斂。不同模塊的迭代改進形成系統(tǒng)設計的基礎,確保系統(tǒng)內(nèi)部的協(xié)同和迭代改進循環(huán)。

表II:模型比較:

實驗

實現(xiàn)細節(jié)

感知模塊輸入:模型輸入包括1600x1200像素的RGB圖像和最大長度為20個詞的語言指令。使用CLIP提取視覺和文本特征,并使用Transformer進行多模態(tài)交互,輸出分割mask和目標點預測。
規(guī)劃模塊:基于優(yōu)化器的可微規(guī)劃器在道路對齊的Frenet坐標系中操作,考慮50米范圍內(nèi)的5個最近障礙物。規(guī)劃器以車輛控制和動力學約束為條件,并輸出滿足約束的平滑軌跡
訓練:使用Adam優(yōu)化器,權重衰減為,batch size為16,學習率初始化為,進行100個epoch的訓練。訓練過程中需要通過算法展開進行反向傳播

評估指標

目標評估:評估預測目標與mask質(zhì)心和車道中心的接近程度,以及與最近障礙物的距離。這些指標用于衡量模型在理解語言指令并準確預測目標位置方面的性能。
軌跡評估:使用最小最終位移誤差(minFDE)和成功率(SR)評估軌跡性能。minFDE表示預測軌跡終點與目標位置的歐氏距離,SR表示車輛在3米范圍內(nèi)成功到達目標的比例。這些指標用于評估模型在生成可行、平滑的軌跡方面的性能。
平滑性:評估軌跡接近目標的平穩(wěn)程度,采用平滑指數(shù)度量。較低的平滑指數(shù)表示軌跡更平滑地接近目標,該指標用于衡量模型生成軌跡的平滑性。

實驗結(jié)果

目標改進:通過比較解耦訓練和端到端訓練的目標預測指標,結(jié)果顯示端到端訓練方法在所有指標上表現(xiàn)更好。特別是在復合指令下,目標改進幅度更大,證明了該方法的有效性。
軌跡改進:與基準方法ST-P3相比,LeGo-Drive模型在目標可達性、軌跡平滑性等方面明顯優(yōu)于基準方法。特別是復合指令下的最小最終位移誤差降低了60%,進一步證明了端到端訓練的優(yōu)勢。
模型比較:通過比較端到端方法、解耦訓練和基準方法,結(jié)果顯示端到端方法在目標可達性和軌跡平滑性方面明顯優(yōu)于其他方法。
定性結(jié)果:定性結(jié)果直觀展示了端到端方法生成的軌跡比基準方法更平滑,進一步驗證了實驗結(jié)果。

表Ⅲ: Goal Improvement

表IV: Trajectory Evaluation

圖4:不同以目標為中心的停車命令的目標改進。(左)查詢命令的前視圖圖像。(右)場景的俯視圖。目標位置從綠色中不理想的位置((a)中的汽車頂部和(b)中的路邊邊緣)改進為紅色中的可到達位置

圖5:車削指令情況下的結(jié)果。在這兩幅圖中(上、下),綠色的初始目標與車道中心的偏移量較大。該模型近似于改進版本的紅色顯示到車道中心

圖6:不同導航指令下軌跡改進的定性結(jié)果。與我們的(綠色)相比,紅色顯示的基線ST-P3軌跡始終規(guī)劃著一個不光滑的軌跡。所有行中的第三張圖顯示了我們在Frenet框架中的規(guī)劃,其中紅色矩形表示自我車輛,藍色表示周圍車輛,紅色十字表示目標位置以及用黑色實線表示的車道邊界

實驗結(jié)果證明了端到端訓練方法的有效性,能夠提高目標預測的準確性和軌跡的平滑性。

結(jié)論

本文通過將所提出的端到端方法作為目標點導航問題來解決,揭示了其與傳統(tǒng)解耦方法相比的明顯優(yōu)勢。目標預測模塊與基于可微分優(yōu)化器的軌跡規(guī)劃器的聯(lián)合訓練突出了方法的有效性,從而提高了準確性和上下文感知目標預測,最終產(chǎn)生更平滑、無碰撞的可導航軌跡。此外,還證明了所提出的模型適用于當前的視覺語言模型,以豐富的場景理解和生成帶有適當推理的詳細導航指令。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2020-11-22 11:59:14

戴爾存儲

2024-07-02 09:15:58

2020-07-14 17:07:07

戴爾

2024-11-07 09:31:55

2020-06-16 16:31:56

戴爾

2023-12-18 10:15:30

自動駕駛自然語言

2018-09-26 01:17:24

英特爾合作伙伴5G

2023-02-24 18:50:34

JFrog

2024-10-10 09:37:49

2018-09-04 15:53:16

數(shù)字化轉(zhuǎn)型英特爾平安醫(yī)療

2024-03-20 09:29:41

2024-09-30 14:40:00

AI強化學習框架

2019-04-12 10:44:39

2023-01-04 16:42:52

新華三全光網(wǎng)絡

2024-07-04 15:30:07

2023-12-01 10:20:00

谷歌技術

2024-08-29 09:40:51

2020-10-26 13:51:11

Kafka數(shù)據(jù)端到端
點贊
收藏

51CTO技術棧公眾號