DriveCoT:全面的開環(huán)端到端駕駛數(shù)據(jù)集和Benchmark
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
近年來(lái),端到端自動(dòng)駕駛技術(shù)取得了顯著進(jìn)展,表現(xiàn)出系統(tǒng)簡(jiǎn)單性和在開環(huán)和閉環(huán)設(shè)置下競(jìng)爭(zhēng)性駕駛性能的優(yōu)勢(shì)。然而,端到端駕駛系統(tǒng)在駕駛決策方面缺乏可解釋性和可控性,這阻礙了其在真實(shí)世界中的部署。本文利用CARLA模擬器收集了一個(gè)全面的端到端駕駛數(shù)據(jù)集,名為DriveCoT。它包含傳感器數(shù)據(jù)、控制決策和chain-of-thought標(biāo)簽,用于指示推理過(guò)程。利用CARLA排行榜2.0中具有挑戰(zhàn)性的駕駛場(chǎng)景,這些場(chǎng)景涉及高速駕駛和換道,并提出了一個(gè)基于規(guī)則的專家策略來(lái)控制車輛,并為其推理過(guò)程和最終決策生成了真值標(biāo)簽,覆蓋了不同駕駛方面和最終決策的推理過(guò)程。該數(shù)據(jù)集可以作為一個(gè)開環(huán)端到端駕駛基準(zhǔn),可評(píng)估各種推理方面的準(zhǔn)確性和最終決策。此外,我們提出了一個(gè)名為DriveCoT-Agent的基線模型,它是在我們的數(shù)據(jù)集上訓(xùn)練的,用于生成推理鏈預(yù)測(cè)和最終決策。經(jīng)過(guò)訓(xùn)練的模型在開環(huán)和閉環(huán)評(píng)估中表現(xiàn)出很強(qiáng)的性能,證明了我們提出的數(shù)據(jù)集的有效性。
題目:DriveCoT: Integrating Chain-of-Thought Reasoning with End-to-End Driving
作者單位:香港大學(xué),華為,香港中文大學(xué)
開源地址:DriveCoT
DriveCoT,它包括一個(gè)新的數(shù)據(jù)集、基準(zhǔn)和端到端自動(dòng)駕駛的基線模型。傳感器數(shù)據(jù),如相機(jī)圖像以及指示方向的目標(biāo)點(diǎn)(左圖像中的黃點(diǎn)),作為模型輸入。如下右圖所示,該模型通過(guò)生成不同駕駛方面的預(yù)測(cè)并進(jìn)行chain-of-thought推理來(lái)獲得最終的速度決策。此外,模型還生成了計(jì)劃的未來(lái)轉(zhuǎn)向點(diǎn)(左圖中的藍(lán)點(diǎn))。
DriveCoT Agent的基線模型將過(guò)去一段時(shí)間的多視點(diǎn)攝像機(jī)視頻和指示方向的目標(biāo)點(diǎn)作為輸入,以生成關(guān)于不同駕駛方面和計(jì)劃的未來(lái)路線點(diǎn)的CoT預(yù)測(cè)。沒(méi)有使用單幀圖像作為輸入,而是利用多視圖攝像機(jī)視頻來(lái)捕捉自車和周圍物體的運(yùn)動(dòng),從而能夠早期預(yù)測(cè)潛在危險(xiǎn)并支持高速駕駛。此外,最終的駕駛決策可以通過(guò)圖8所示的過(guò)程從模型的chain-of-thought預(yù)測(cè)中得出。除了可解釋性之外,訓(xùn)練后的模型在DriveCoT驗(yàn)證數(shù)據(jù)的開環(huán)評(píng)估和閉環(huán)測(cè)試基準(zhǔn)方面都顯著優(yōu)于以前的方法。
DriveCoT Dataset
使用CARLA 0.9.14版本收集數(shù)據(jù),并修改了提出的基于規(guī)則的專家政策,以適應(yīng)高速駕駛和更具挑戰(zhàn)性的場(chǎng)景。此外,使用一組跨越城市、住宅、農(nóng)村和高速公路區(qū)域的預(yù)定義路線來(lái)執(zhí)行專家政策,并在遇到許多具有挑戰(zhàn)性的場(chǎng)景時(shí)駕駛自車。對(duì)于每個(gè)場(chǎng)景,數(shù)據(jù)收集在預(yù)定義的觸發(fā)點(diǎn)啟動(dòng),并在超過(guò)20秒的模擬時(shí)間或達(dá)到下一個(gè)場(chǎng)景的觸發(fā)點(diǎn)時(shí)停止。
DriveCoT數(shù)據(jù)集包括1058個(gè)場(chǎng)景和36K個(gè)標(biāo)記樣本,以2Hz頻率收集,每個(gè)場(chǎng)景平均17秒。分別以70%、15%和15%的比例將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,得到25.3K的訓(xùn)練樣本、5.5K的驗(yàn)證樣本和5.5K的測(cè)試樣本。為了防止數(shù)據(jù)泄露,將同一場(chǎng)景中的所有數(shù)據(jù)分配給同一集合。此外,確保CoT方面在所有拆分中的分布是相似的。
專家策略
本文提出了一種基于規(guī)則的專家政策,該政策可以訪問(wèn)模擬器,經(jīng)過(guò)有效的修改,使其適用于leaderborad2.0中的高速駕駛。根據(jù)自車速度為自車設(shè)計(jì)動(dòng)態(tài)制動(dòng)距離,以檢測(cè)潛在的危險(xiǎn),包括紅綠燈、停車標(biāo)志或周圍的車輛和行人。此外,擬議的專家政策還考慮了與同一車道上前方車輛的關(guān)系,以產(chǎn)生更微妙的速度決策。對(duì)于計(jì)劃的未來(lái)航路點(diǎn),收集具有固定距離間隔的專家航路點(diǎn),類似于Transuser++,而不是固定時(shí)間間隔,以將航路點(diǎn)與目標(biāo)速度區(qū)分開來(lái)。此外,當(dāng)自車速度增加以避免振蕩時(shí),計(jì)劃的路點(diǎn)被選擇得離自車更遠(yuǎn)。
在DriveCoT中,根據(jù)場(chǎng)景組織收集的數(shù)據(jù)。每個(gè)場(chǎng)景都有一個(gè)元文件,指示場(chǎng)景類型、天氣狀況和一天中的時(shí)間。每個(gè)幀樣本可以根據(jù)文件名與特定場(chǎng)景相關(guān)聯(lián),每幀包含來(lái)自六個(gè)1600×900 RGB相機(jī)和一個(gè)32線激光雷達(dá)傳感器的傳感器數(shù)據(jù),以及專家政策的決策過(guò)程標(biāo)簽和文本形式和簡(jiǎn)化分類形式的最終決策。如圖8所示,CoT方面包括檢查紅綠燈危險(xiǎn)、停車標(biāo)志危險(xiǎn)、與周圍物體的潛在碰撞、與前方車輛的關(guān)系等。
DriveCoT-Agent
所提出的基線模型DriveCoT Agent。它將多視圖相機(jī)視頻作為輸入,并通過(guò)共享的視頻SwinTransformer為每個(gè)視圖提取視頻特征。然后,通過(guò)變換器編碼器融合不同視圖的視頻標(biāo)記。對(duì)于不同的chain-of-thought driving aspects,為不同的任務(wù)定義了單獨(dú)的可學(xué)習(xí)查詢。這包括碰撞預(yù)測(cè)、紅綠燈識(shí)別、停車標(biāo)志、路口和前方車輛狀態(tài)預(yù)測(cè)。此外,路徑GRU將相關(guān)解碼器輸出與其他導(dǎo)航信息一起用于生成用于引導(dǎo)的計(jì)劃路線點(diǎn)。
實(shí)驗(yàn)結(jié)果
DriveCoT數(shù)據(jù)集val split的開環(huán)評(píng)估。以前的方法只能提取二進(jìn)制速度決策(正常駕駛或制動(dòng))。與以前的方法相比,所提出的DriveCoT Agent可以預(yù)測(cè)更精確、更詳細(xì)的速度決策和轉(zhuǎn)向路線點(diǎn)。
更多消融實(shí)驗(yàn):
DriveCoT Agent的定性結(jié)果。它正確地為(a)車道交通工具、(b)紅色交通燈和行人以及(c)道路中間的過(guò)街行人剎車。圖像中的黃點(diǎn)是目標(biāo)點(diǎn),表示方向,而藍(lán)點(diǎn)和綠點(diǎn)表示地面實(shí)況和預(yù)測(cè)的未來(lái)路線點(diǎn)。在(d)中,DriveCoT Agent根據(jù)嵌入視頻輸入中的碰撞距離和時(shí)間信息,生成與前方車輛有關(guān)的適當(dāng)速度決策!