自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

駛向『閉環(huán)』| LMDrive:首篇基于LLM的閉環(huán)端到端自動駕駛

人工智能 智能汽車
本文介紹了LMDrive,這是一個語言引導(dǎo)的端到端閉環(huán)自動駕駛框架。LMDrive結(jié)合了自然語言指令和多模式傳感器數(shù)據(jù),實現(xiàn)了復(fù)雜駕駛場景中的人機交互和導(dǎo)航。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面&筆者的個人理解

汽車人這兩天在arxiv上看到了港中文MMLab&商湯的一篇關(guān)于閉環(huán)自動駕駛的工作,結(jié)合了大語言模型。不幸湯老師于12月15日與世長辭,R.I.P.

盡管自動駕駛領(lǐng)域最近取得了重大進展,但當遇到長尾不可預(yù)見事件和具有挑戰(zhàn)性的城市場景時,現(xiàn)代方法仍然很困難,可能會發(fā)生嚴重事故。一方面,大型語言模型(LLM)已經(jīng)顯示出接近“通用人工智能”的表達推理能力。另一方面,先前的自動駕駛方法往往依賴于有限的格式輸入(例如傳感器數(shù)據(jù)和導(dǎo)航路線點),限制了車輛理解語言信息和與人類互動的能力。為此,港中文 & MMLab重磅推出LMDrive,這是一種全新的語言引導(dǎo)、端到端閉環(huán)自動駕駛框架。LM-Drive獨特地處理并集成了多模態(tài)傳感器數(shù)據(jù)與自然語言指令,使其能夠在現(xiàn)實的教學(xué)環(huán)境中與人類和導(dǎo)航軟件進行交互。為了促進對基于語言的閉環(huán)自動駕駛的進一步研究,我們還公開發(fā)布了相應(yīng)的數(shù)據(jù)集,其中包括大約64K的指令跟隨數(shù)據(jù)clip,以及測試系統(tǒng)處理復(fù)雜指令和具有挑戰(zhàn)性的駕駛場景的能力的LangAuto基準。進行了大量的閉環(huán)實驗來證明LMDrive的有效性。據(jù)我們所知,本文是第一個利用LLM實現(xiàn)閉環(huán)端到端自動駕駛的工作。

開源鏈接:https://github.com/opendilab/LMDrive

總結(jié)來說,LMDrive的主要貢獻如下:

  • 提出了一種新的端到端、閉環(huán)、基于語言的自動駕駛框架LMDrive,該框架通過多模態(tài)多視圖傳感器數(shù)據(jù)和自然語言指令與動態(tài)環(huán)境交互;
  • 提供了一個包含約64K個數(shù)據(jù)clip的數(shù)據(jù)集,其中每個片段包括一個導(dǎo)航指令、幾個通知指令、一系列多模態(tài)多視圖傳感器數(shù)據(jù)和控制信號。clip的持續(xù)時間從2秒到20秒不等。
  • 提出了全新的基準—LangAuto,用于評估將語言指令作為導(dǎo)航輸入的自主代理,其中包括誤導(dǎo)性/長指令和具有挑戰(zhàn)性的對抗性駕駛場景。
  • 本文進行了廣泛的閉環(huán)實驗,以證明所提出的框架的有效性,并分析了LMDrive的不同組件,以闡明沿著這一方向的持續(xù)研究。

相關(guān)工作回顧

端到端自動駕駛

最近,端到端自動駕駛領(lǐng)域取得了很大進展。UniAD設(shè)計了一個包含全棧驅(qū)動任務(wù)的框架,并利用查詢統(tǒng)一接口在不同任務(wù)之間進行通信。ThinkTwice設(shè)計了一個Look模塊來檢索關(guān)鍵區(qū)域的信息,并利用這些特征來細化粗略預(yù)測。ReasonNet利用駕駛場景的時間和全局信息來提高感知性能并有利于遮擋檢測。InterFuser提出了一種基于transformer的框架,以完全融合和處理來自多模態(tài)多視圖傳感器的信息,從而實現(xiàn)全面的場景理解。TCP提出了一種新的多步預(yù)測方法,將軌跡規(guī)劃和直接控制這兩個分支集成在一起。LAV引入了一些監(jiān)督任務(wù)來學(xué)習(xí)視點不變表示,該表示可以在訓(xùn)練時提供更豐富的監(jiān)督信號,并在推理過程中為復(fù)雜推理提供更多信息。除了之前討論的模仿訓(xùn)練方法之外,還有幾種方法試圖結(jié)合強化學(xué)習(xí)策略。以監(jiān)督的方式訓(xùn)練潛在DRL,以獲得環(huán)境觀測的潛在表示,并使用該表示作為輸入進行強化學(xué)習(xí)。Roach使用了一個具有特權(quán)訪問環(huán)境信息的強化學(xué)習(xí)代理,并提取一個模型作為最終代理。ASAPRL和TaEcRL利用抽象技能,通過促進有效的探索和獎勵信號,有效提高強化學(xué)習(xí)效率和最終表現(xiàn)。然而,這些端到端的方法缺乏與人類(乘客)進行口頭或文本交互的能力,并且在決策過程中通常具有較低的可解釋性。

駕駛?cè)蝿?wù)中的大語言模型

在過去的幾個月里,大型語言模型(LLM)取得了新的進展。此外,視覺大語言模型(VLLM)進一步引入了視覺編碼器,并為LLM不僅解釋文本數(shù)據(jù),還解釋其他模態(tài)的圖像和數(shù)據(jù)打開了大門。在自動駕駛領(lǐng)域,最近的研究將LLM集成到自動駕駛系統(tǒng)中,以更好地解釋和與人類的自然互動。一些研究采用了視覺語言模型方法,該方法可以處理多模態(tài)輸入數(shù)據(jù),并為駕駛場景提供文本描述和控制信號。例如,DRIVEGPT4提出了一種多模態(tài)LLM框架,該框架將一系列幀作為輸入,然后生成對人類詢問的響應(yīng),并預(yù)測下一步的控制信號。然而,由于該框架缺乏輸入命令,預(yù)測的控制無法遵循特定的導(dǎo)航命令,這表明該框架很難在真實場景中部署。與此同時,更多的研究人員專注于將駕駛情況轉(zhuǎn)換為文本描述,作為LLM的輸入,以直接解釋和推理綜合駕駛情況。在這一系列工作中,GPT-Driver通過將異構(gòu)場景輸入轉(zhuǎn)換為語言標記,將運動規(guī)劃重新表述為自然語言建模的任務(wù)。LanguageMPC利用LLM來推理復(fù)雜場景并輸出高級駕駛決策。然后,該方法調(diào)諧參數(shù)矩陣以將決策轉(zhuǎn)換為低電平控制信號。LLM-Driver利用數(shù)字矢量作為輸入模態(tài),并融合矢量化對象級2D場景表示,使LLM能夠基于當前環(huán)境回答問題。

然而,這項工作只考慮了開環(huán)設(shè)置中的駕駛問題,而忽略了累積誤差、時間動作一致性和端到端可訓(xùn)練性等問題,這些問題對于將模型帶入實際的閉環(huán)駕駛?cè)蝿?wù)至關(guān)重要。據(jù)我們所知,我們是第一個在閉環(huán)環(huán)境中基于語言的端到端自動駕駛方法。相關(guān)數(shù)據(jù)集、基準和訓(xùn)練模型也是開源的,以促進社區(qū)的進一步研究。

數(shù)據(jù)生成

數(shù)據(jù)集制作的目標是開發(fā)一種智能駕駛代理,該代理可以基于三種輸入源生成駕駛動作:1)傳感器數(shù)據(jù)(環(huán)視相機和激光雷達),使該代理能夠生成感知并符合當前場景的動作;2) 導(dǎo)航指令(例如變道、轉(zhuǎn)彎),使代理可以駕駛以滿足自然語言的要求(來自人類或?qū)Ш杰浖闹噶睿灰约?)人類注意指令,使代理能夠與人類互動并適應(yīng)人類的建議和偏好(例如,關(guān)注對抗性事件、處理長尾事件等)。本節(jié)描述了如何生成訓(xùn)練代理所需的多模態(tài)數(shù)據(jù)集,以及導(dǎo)航指令和人工通知指令的提示設(shè)計。具體來說,我們選擇CARLA作為仿真器,因為它可以模擬真實的動態(tài)閉環(huán)世界,并且在端到端自動駕駛領(lǐng)域被廣泛采用。數(shù)據(jù)采集包括兩個階段:1)利用專家代理收集傳感器數(shù)據(jù)和控制信號;以及2)用指令解析和標記所收集的數(shù)據(jù)。

傳感器和控制數(shù)據(jù)收集。我們利用基于規(guī)則的專家代理來創(chuàng)建一個包括大約3M個驅(qū)動幀的數(shù)據(jù)集。由于專家代理可以訪問CARLA中的特權(quán)信息,因此該數(shù)據(jù)集將包括相機數(shù)據(jù)、激光雷達數(shù)據(jù)和每幀的控制動作。為了增強所收集數(shù)據(jù)集的多樣性,該代理在2.5k條路線、8個城鎮(zhèn)和21種環(huán)境條件(如天氣、一天中的時間)上運行。我們使用四個RGB相機(左、前、右、后)和一個激光雷達。側(cè)面攝像頭的角度為60°。此外,我們對前面的圖像進行中心裁剪,作為額外的聚焦視圖圖像,以捕捉遠處紅綠燈的狀態(tài)。激光雷達有64個通道,每秒產(chǎn)生600K個點。

解析和語言注釋。在第二階段,我們將收集的數(shù)據(jù)解析為clip,并用適當?shù)膶?dǎo)航指令和可選的通知指令標記每個片段。解析過程將一系列幀作為輸入,并將這些幀分段為clip,其中每個clip對應(yīng)一個導(dǎo)航指令。例如,如果代理在第T0幀開始左轉(zhuǎn)并在第Tn幀結(jié)束,我們將把(T0,Tn)標記為新剪輯,并指示“在下一個十字路口左轉(zhuǎn)”。此外,如果在時間Ta發(fā)生對抗性事件1,我們將在該片段中添加一條通知指令,模擬真實場景,當緊急情況發(fā)生時,乘客或側(cè)面輔助系統(tǒng)將與駕駛員進行通信。如圖2所示,每個片段包括傳感器數(shù)據(jù)、控制信號、相應(yīng)的導(dǎo)航指令和可選的通知指令。解析后的剪輯在剪輯長度和相應(yīng)指令方面的分布如圖3所示。在我們的數(shù)據(jù)集中,我們收集了64K個解析片段和464K條通知指令。

指令設(shè)計。我們考慮三種類型的導(dǎo)航指令(跟隨、轉(zhuǎn)向和其他)以及一種類型的通知指令,共由56種不同的指令組成。表1顯示了一些示例,完整列表可在補充材料中找到。為了使代理能夠在現(xiàn)實的教學(xué)環(huán)境中駕駛,其中指令來自導(dǎo)航軟件或人類:

  • 使指令多樣化:考慮到自然語言的內(nèi)在豐富性,對于每種類型的指令,使用ChatGPT API生成了八種不同的變體,每個變體具有相同的語義,但措辭不同。這使得語言解釋更加全面和靈活,能夠適應(yīng)相同指令的不同傳達方式。
  • 包含誤導(dǎo)性說明:在現(xiàn)實世界中,導(dǎo)航軟件或乘客可能會向AV發(fā)出違反交通規(guī)則或引發(fā)安全問題的誤導(dǎo)性說明。例如,在單行道上,遵循“變左車道”的指示是危險的。為了提高我們的模型對誤導(dǎo)性指令的穩(wěn)健性,我們模擬了這些場景,并將它們添加到我們的數(shù)據(jù)集中。
  • 連接多個指令:在許多情況下,指令可能由兩到三個連續(xù)的指令組成,例如“在這個十字路口右轉(zhuǎn),然后直行到下一個十字路口再右轉(zhuǎn)?!蔽覀冞€構(gòu)建了一些連續(xù)的復(fù)雜指令數(shù)據(jù),以模擬真實的基于導(dǎo)航的駕駛場景。

LMDrive解析

在這項工作中,我們提出了LMDrive,這是一個可以通過自然語言理解和遵循高級駕駛指令的框架。如圖4所示,LM-Drive由兩個主要組件組成:1)視覺編碼器,處理多視圖多模態(tài)傳感器數(shù)據(jù)(相機和激光雷達),用于場景理解和生成視覺標記;2) 一個大型語言模型及其相關(guān)組件(標記器、Q-Former和適配器),該組件接收視覺標記和語言指令,以預(yù)測控制信號以及給定指令是否完成。

視覺編碼器

在視覺語言社區(qū)中,對齊視覺和語言的最常見方法可以是使用預(yù)先訓(xùn)練的CLIP模型來編碼圖像特征。然而,CLIP模型的大觸發(fā)器和參數(shù)大小增加了其在AV系統(tǒng)中的部署難度。此外,AV感知系統(tǒng)通常是3D的,以包括激光雷達輸入。因此,受InterFuser和TF++的啟發(fā),我們設(shè)計了一種多視圖多模態(tài)視覺編碼器來編碼/融合傳感器數(shù)據(jù)。如圖5所示,視覺編碼器由傳感器編碼部分和BEV解碼器組成,傳感器編碼部分分別對圖像和激光雷達輸入進行編碼,BEV解碼器融合圖像和點云特征以生成視覺標記,然后將其傳遞到語言模型。值得注意的是,通過添加額外的預(yù)測頭,對視覺編碼器進行感知任務(wù)的預(yù)訓(xùn)練,然后凍結(jié)編碼器以供大型語言模型稍后使用。

傳感器編碼。對于每個圖像輸入,使用2D主干ResNet來提取圖像特征圖。然后將特征圖展平為一維token。為了從多個角度全面理解全局上下文,來自不同視圖的令牌將通過標準K層transformer編碼器進行融合,每一層都包含多頭自注意力、MLP塊和layer normalization。對于激光雷達輸入,采用3D骨干PointPillars將原始點云數(shù)據(jù)處理為以自車為中心的激光雷達特征,其中每個pillar包含0.25m×0.25m區(qū)域內(nèi)的點。然后使用PointNet來聚合特征,并將特征圖下采樣到C×H×W,隨后用作BEV查詢。

BEV解碼器。然后將上面編碼的傳感器特征傳遞到BEV解碼器中以生成視覺標記。具體而言,BEV解碼器被設(shè)計為具有K層的標準transformer。BEV點云特征作為H×W查詢被饋送到BEV解碼器,以關(guān)注多視圖圖像特征并生成BEV令牌。我們還將N個可學(xué)習(xí)查詢和1個可學(xué)習(xí)詢問饋送到BEV解碼器,以分別生成N個路點token和1個紅綠燈token。因此,三種類型的視覺標記(BEV、航路點和紅綠燈)將包含豐富的場景信息,然后將饋送給大型語言模型。

使用預(yù)測頭進行預(yù)訓(xùn)練。我們考慮了三個視覺編碼器預(yù)訓(xùn)練任務(wù):目標檢測、未來航路點預(yù)測和紅綠燈狀態(tài)分類。對于目標檢測,BEVtoken將通過一個階段的中心點來預(yù)測Hm×Wm區(qū)域中目標的邊界框和速度。對于航路點預(yù)測,我們將N個航路點標記和導(dǎo)航航路點依次傳遞到GRU網(wǎng)絡(luò)中,以預(yù)測N個未來航路點。對于紅綠燈狀態(tài)分類,將2層MLP應(yīng)用于紅綠燈令牌??紤]了三個相應(yīng)的損耗項:1)InterFuser中的檢測損耗;2) l1路失分;以及3)交叉熵交通信號燈狀態(tài)損失。請注意,這些預(yù)測頭僅用于視覺編碼器的預(yù)訓(xùn)練,并且將在LLM的訓(xùn)練和整個模型的推理中被丟棄。

LLM for instruction-following auto driving

如圖4所示,在我們的框架中,LLM在整個駕駛過程中充當“大腦”,處理凍結(jié)視覺編碼器為每一幀生成的傳感器token,理解自然語言指令,生成必要的控制信號,并預(yù)測給定指令是否完成。具體而言,我們選擇LLaMA作為語言主干,它已被廣泛用于許多語言和視覺教學(xué)調(diào)整模型。我們還有三個相關(guān)的組件來橋接LLM與指令、視覺信息輸入和動作預(yù)測:1)標記器,2)Q-Former,3)兩個適配器。

指令和可視化tokenization。給定導(dǎo)航指令和可選通知指令,使用LLaMA標記器將指令轉(zhuǎn)換為文本標記。請注意,執(zhí)行一條指令的持續(xù)時間將從幾秒鐘到幾分鐘不等,并且我們的模型是在閉環(huán)設(shè)置中部署的。因此,在每一幀,我們利用所有歷史傳感器信息(具有最大極限Tmax)來降低累積誤差并提高模型的時間一致性。具體而言,對于每幀的多視圖多模態(tài)傳感器輸入,我們利用上一節(jié)中預(yù)先訓(xùn)練的視覺編碼器來生成視覺標記(H×W BEV標記、N個航路點標記和一個紅綠燈標記)。然而,視覺標記的數(shù)量(例如,每幀406個標記)對于LLM來說迅速增長得太大,因為通常需要數(shù)百個幀來完成一條指令。為了克服這一點,本文遵循BLIP-2 使用Q-Former來減少視覺標記的數(shù)量。具體來說,對于每一幀,我們使用M個可學(xué)習(xí)查詢來通過交叉注意力層處理視覺令牌,這可以將每一幀的視覺令牌數(shù)量減少到M。隨后,我們使用2層MLP適配器將Q-Former提取的令牌轉(zhuǎn)換為與語言令牌共享相同的維度,然后將其饋送到LLM中。

行為預(yù)測。在接收到一系列指令和視覺標記后,LLM預(yù)測動作標記。然后應(yīng)用另一個2層MLP適配器來預(yù)測未來的路點,以及指示給定指令是否已完成的標志。注意,為了增強監(jiān)督信號,我們還將在訓(xùn)練期間對每個歷史幀進行預(yù)測,并且在推理時只執(zhí)行最新幀的預(yù)測。為了獲得最終的控制信號,包括制動、節(jié)流和轉(zhuǎn)向,遵循LBC,使用兩個PID控制器進行橫向和縱向控制,分別跟蹤預(yù)測航路點的航向和速度。

訓(xùn)練目標。當微調(diào)LLM及其相關(guān)組件時,我們考慮兩個損失項:1)l1航路點損失;2) 分類損失(交叉熵),用于確定當前幀是否完成給定的指令。

LangAuto基準

我們提出了LangAuto(語言引導(dǎo)的自動駕駛)CARLA基準,這是第一個評估語言指令下閉環(huán)駕駛性能的基準。與之前的CARLA基準測試Town05和Longest6相比,我們的基準測試僅為AV提供自然語言的導(dǎo)航指令和可選通知指令。

具體而言,LangAuto基準涵蓋了CARLA的所有8個公共城鎮(zhèn),包括各種場景(如高速公路、十字路口、環(huán)形交叉口)。我們還考慮了16種環(huán)境條件,包括7種天氣條件(晴朗、多云、潮濕、中雨、多云、大雨、軟雨)和3種日光條件(夜間、中午、日落)的組合。此外,LangAuto由三個軌道組成,以全面測試agent的指令跟隨能力:

  • LangAuto跟蹤:對于每條路線,都會根據(jù)代理的當前位置向代理提供并更新導(dǎo)航指令。我們還將這條賽道分為三個不同路線長度的經(jīng)典賽道,以更好地區(qū)分性能。路線長度超過500米的LangAuto,路線長度在150米到500米之間的LangAuto Short,以及路線長度短于150米的LangAuto Tiny。
  • LangAuto-Notice跟蹤:在LangAuto跟蹤的基礎(chǔ)上,我們向代理添加了額外的通知說明。該設(shè)置模擬了乘客或其他輔助系統(tǒng)可以在長距離復(fù)雜或?qū)剐詧鼍爸邪l(fā)出實時通知的真實情況,這通常是AV系統(tǒng)難以自行處理的。理想情況下,能夠理解和利用指令的代理可以實現(xiàn)更好的性能。
  • LangAuto-Sequential跟蹤:基于LangAuto跟蹤,我們將10%的連續(xù)2到3條指令合并為一條長指令。此設(shè)置模擬了來自乘客或?qū)Ш杰浖亩嗾Z句指令的現(xiàn)實場景。

請注意,誤導(dǎo)性指示將隨機(~5%)間歇性地提供給駕駛代理,并持續(xù)一定的時間(1-2秒)。駕駛代理應(yīng)拒絕這些誤導(dǎo)性指令,并執(zhí)行符合當前場景的安全操作,直到產(chǎn)生下一個正確指令。

實驗結(jié)果

定量結(jié)果

消融實驗

LangAuto-Notice Benchmark

LangAuto-Sequential Benchmark

可視化結(jié)果

結(jié)論

本文介紹了LMDrive,這是一個語言引導(dǎo)的端到端閉環(huán)自動駕駛框架。LMDrive結(jié)合了自然語言指令和多模式傳感器數(shù)據(jù),實現(xiàn)了復(fù)雜駕駛場景中的人機交互和導(dǎo)航。我們還提出了語言引導(dǎo)駕駛數(shù)據(jù)集,包括大約64K個多模態(tài)數(shù)據(jù)片段以及相應(yīng)的導(dǎo)航指令。此外還建立了LangAuto基準,用于評估考慮自然語言指令的自動駕駛系統(tǒng)。通過廣泛的閉環(huán)實驗證明了LMDrive的有效性,強調(diào)了改善自動駕駛汽車與人類和環(huán)境相互作用的潛力。我們的工作是在基于語言的閉環(huán)端到端自動駕駛領(lǐng)域進一步探索和發(fā)展的一個鼓勵起點。

原文鏈接:https://mp.weixin.qq.com/s/2TSWGZTiBYkwF8xteKcu8w

責任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2024-06-05 09:22:43

2024-01-04 09:27:00

模型自動駕駛

2023-04-28 09:24:50

自動駕駛數(shù)據(jù)

2025-04-11 09:48:26

2023-10-30 09:47:00

自動駕駛技術(shù)

2024-04-29 09:36:14

仿真器傳感器

2024-08-29 10:20:00

3D自動駕駛

2020-09-28 14:00:06

自動駕駛AI網(wǎng)絡(luò)

2024-04-15 11:40:37

自動駕駛端到端

2023-08-05 13:08:54

2023-08-24 09:52:44

自動駕駛設(shè)計

2024-08-14 10:40:00

模型自動駕駛

2024-02-21 09:14:32

端到端自動駕駛

2023-12-08 09:50:44

自動駕駛機器學(xué)習(xí)數(shù)據(jù)

2023-10-13 09:43:36

自動駕駛數(shù)據(jù)

2024-01-04 09:35:41

自動駕駛端到端

2025-02-10 10:35:00

自動駕駛端到端模型

2022-08-29 09:15:54

自動駕駛數(shù)據(jù)

2022-08-09 14:42:44

自動駕駛算力

2024-03-13 09:39:45

端到端自動駕駛
點贊
收藏

51CTO技術(shù)棧公眾號