DriveWorld:一個預(yù)訓(xùn)練模型大幅提升檢測+地圖+跟蹤+運動預(yù)測+Occ多個任務(wù)性能
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
寫在前面
以視覺為中心的自動駕駛技術(shù)近期因其較低的成本而引起了廣泛關(guān)注,而預(yù)訓(xùn)練對于提取通用表示至關(guān)重要。然而,當(dāng)前的以視覺為中心的預(yù)訓(xùn)練通常依賴于2D或3D預(yù)訓(xùn)練任務(wù),忽視了自動駕駛作為4D場景理解任務(wù)的時序特征。這里通過引入一個基于世界模型的自動駕駛4D表示學(xué)習(xí)框架“DriveWorld”來解決這一挑戰(zhàn),該框架能夠從多攝像頭駕駛視頻中以時空方式進行預(yù)訓(xùn)練。具體來說,提出了一個用于時空建模的記憶狀態(tài)空間模型,它由一個動態(tài)記憶庫模塊組成,用于學(xué)習(xí)時間感知的潛在動態(tài)以預(yù)測未來變化,以及一個靜態(tài)場景傳播模塊,用于學(xué)習(xí)空間感知的潛在靜態(tài)以提供全面的場景上下文。此外,還引入了一個任務(wù)提示,以解耦用于各種下游任務(wù)的任務(wù)感知特征。實驗表明,DriveWorld在各種自動駕駛?cè)蝿?wù)上取得了令人鼓舞的結(jié)果。當(dāng)使用OpenScene數(shù)據(jù)集進行預(yù)訓(xùn)練時,DriveWorld在3D檢測中實現(xiàn)了7.5%的mAP提升,在線地圖中的IoU提升了3.0%,多目標跟蹤中的AMOTA提升了5.0%,運動預(yù)測中的minADE降低了0.1m,占用預(yù)測中的IoU提升了3.0%,規(guī)劃中的平均L2誤差減少了0.34m。
領(lǐng)域背景
自動駕駛是一項復(fù)雜的任務(wù),它依賴于全面的4D場景理解。這要求獲得一個穩(wěn)健的時空表示,能夠處理涉及感知、預(yù)測和規(guī)劃的任務(wù)。由于自然場景的隨機性、環(huán)境的部分可觀察性以及下游任務(wù)的多樣性,學(xué)習(xí)時空表示極具挑戰(zhàn)性。預(yù)訓(xùn)練在從大量數(shù)據(jù)中獲取通用表示方面起著關(guān)鍵作用,使得能夠構(gòu)建出包含共同知識的基礎(chǔ)模型。然而,自動駕駛中時空表示學(xué)習(xí)的預(yù)訓(xùn)練研究仍然相對有限。
我們的目標是利用世界模型來處理以視覺為中心的自動駕駛預(yù)訓(xùn)練中的4D表示。世界模型在表示代理對其環(huán)境的時空知識方面表現(xiàn)出色。在強化學(xué)習(xí)中,DreamerV1、DreamerV2和DreamerV3利用世界模型將代理的經(jīng)驗封裝在預(yù)測模型中,從而促進了廣泛行為的習(xí)得。MILE利用3D幾何作為歸納偏差,直接從專家演示的視頻中學(xué)習(xí)緊湊的潛在空間,以在CARLA模擬器中構(gòu)建世界模型。ContextWM和SWIM利用豐富的野外視頻對世界模型進行預(yù)訓(xùn)練,以增強下游視覺任務(wù)的高效學(xué)習(xí)。最近,GAIA-1和DriveDreamer構(gòu)建了生成性的世界模型,利用視頻、文本和動作輸入,使用擴散模型創(chuàng)建逼真的駕駛場景。與上述關(guān)于世界模型的先前工作不同,本文的方法主要側(cè)重于利用世界模型學(xué)習(xí)自動駕駛預(yù)訓(xùn)練中的4D表示。
駕駛本質(zhì)上涉及與不確定性的斗爭。在模糊的自動駕駛場景中,存在兩種類型的不確定性:偶然不確定性,源于世界的隨機性;以及認知不確定性,源于不完美的知識或信息。如何利用過去的經(jīng)驗來預(yù)測可能的未來狀態(tài),并估計自動駕駛中缺失的世界狀態(tài)信息仍然是一個未解決的問題。本文探索了通過世界模型進行4D預(yù)訓(xùn)練以處理偶然不確定性和認知不確定性。具體來說,設(shè)計了記憶狀態(tài)空間模型,從兩個方面減少自動駕駛中的不確定性。首先,為了處理偶然不確定性,我們提出了動態(tài)記憶庫模塊,用于學(xué)習(xí)時間感知的潛在動態(tài)以預(yù)測未來狀態(tài)。其次,為了緩解認知不確定性,我們提出了靜態(tài)場景傳播模塊,用于學(xué)習(xí)空間感知的潛在靜態(tài)特征,以提供全面的場景上下文。此外,引入了任務(wù)提示(Task Prompt),它利用語義線索作為提示,以自適應(yīng)地調(diào)整特征提取網(wǎng)絡(luò),以適應(yīng)不同的下游駕駛?cè)蝿?wù)。
為了驗證提出的4D預(yù)訓(xùn)練方法的性能,在nuScenes訓(xùn)練集和最近發(fā)布的大規(guī)模3D占用率數(shù)據(jù)集OpenScene上進行了預(yù)訓(xùn)練,隨后在nuScenes訓(xùn)練集上進行了微調(diào)。實驗結(jié)果表明,與2D ImageNet預(yù)訓(xùn)練、3D占用率預(yù)訓(xùn)練和知識蒸餾算法相比,4D預(yù)訓(xùn)練方法具有顯著優(yōu)勢。4D預(yù)訓(xùn)練算法在以視覺為中心的自動駕駛?cè)蝿?wù)中表現(xiàn)出極大的改進,包括3D檢測、多目標跟蹤、在線建圖、運動預(yù)測、占用率預(yù)測和規(guī)劃。
網(wǎng)絡(luò)結(jié)構(gòu)
DriveWorld的總體框架如下所示,由于自動駕駛嚴重依賴于對4D場景的理解,方法首先涉及將多攝像頭圖像轉(zhuǎn)換為4D空間。在所提出的時空建模的記憶狀態(tài)空間模型中,有兩個基本組件:動態(tài)記憶庫,它學(xué)習(xí)時間感知的潛在動態(tài)以預(yù)測未來狀態(tài);以及靜態(tài)場景傳播,它學(xué)習(xí)空間感知的潛在靜態(tài)特征以提供全面的場景上下文。這種配置有助于解碼器為當(dāng)前和未來時間步重建3D占用和動作的任務(wù)。此外,基于預(yù)訓(xùn)練的文本編碼器設(shè)計了任務(wù)prompt,以自適應(yīng)地為各種任務(wù)解耦任務(wù)感知特征。
提出的記憶狀態(tài)空間模型(MSSM)的總體架構(gòu)。MSSM將傳輸?shù)男畔⒎譃閮深悾簳r間感知信息和空間感知信息。動態(tài)記憶庫模塊利用運動感知層歸一化(MLN)來編碼時間感知屬性,并與動態(tài)更新的記憶庫進行信息交互。同時,靜態(tài)場景傳播模塊使用BEV特征來表示空間感知的潛在靜態(tài)信息,這些信息直接被傳送到解碼器。
雖然通過世界模型設(shè)計的預(yù)訓(xùn)練任務(wù)使得時空表示的學(xué)習(xí)成為可能,但不同的下游任務(wù)側(cè)重于不同的信息。例如,3D檢測任務(wù)強調(diào)當(dāng)前的空間感知信息,而未來預(yù)測任務(wù)則優(yōu)先考慮時間感知信息。過分關(guān)注未來的信息,如車輛未來的位置,可能會對3D檢測任務(wù)產(chǎn)生不利影響。為了緩解這個問題,受到少樣本圖像識別中語義提示和多任務(wù)學(xué)習(xí)中視覺示例驅(qū)動的提示的啟發(fā),引入了“任務(wù)提示”的概念,為不同的頭提供特定的線索,以指導(dǎo)它們提取任務(wù)感知特征。認識到不同任務(wù)之間存在的語義聯(lián)系,利用大型語言模型來構(gòu)建這些任務(wù)提示。
損失函數(shù)
DriveWorld的預(yù)訓(xùn)練目標涉及最小化后驗和先驗狀態(tài)分布之間的差異(即Kullback-Leibler(KL)散度),以及最小化與過去和未來3D占用,即CrossEntropy損失(CE)和L1損失。這里描述了模型在T個時間步上觀察輸入,然后預(yù)測未來L步的3D占用和動作。DriveWorld的總損失函數(shù)是:
實驗對比分析
數(shù)據(jù)集。在自動駕駛數(shù)據(jù)集nuScenes 和最大規(guī)模的3D占用數(shù)據(jù)集OpenScene 上進行預(yù)訓(xùn)練,并在nuScenes上進行微調(diào)。評估設(shè)置與UniAD 相同。
預(yù)訓(xùn)練。與BEVFormer 和UniAD 一致,使用ResNet101-DCN 作為基礎(chǔ)骨干網(wǎng)絡(luò)。對于3D占用預(yù)測,設(shè)置了16 × 200 × 200的體素大小。學(xué)習(xí)率設(shè)置為2×10?4。默認情況下,預(yù)訓(xùn)練階段包含24個epoch。
微調(diào)。在微調(diào)階段,保留用于生成BEV特征的預(yù)訓(xùn)練編碼器,并對下游任務(wù)進行微調(diào)。對于3D檢測任務(wù),我們使用了BEVFormer 框架,微調(diào)其參數(shù)而不凍結(jié)編碼器,并進行了24個epoch的訓(xùn)練。對于其他自動駕駛?cè)蝿?wù),我們使用了UniAD 框架,并將我們微調(diào)后的BEVFormer權(quán)重加載到UniAD中,對所有任務(wù)遵循標準的20個epoch的訓(xùn)練協(xié)議。對于UniAD,我們遵循其實驗設(shè)置,這包括在第一階段訓(xùn)練6個epoch,在第二階段訓(xùn)練20個epoch。實驗使用8個NVIDIA Tesla A100 GPU進行。
Occ任務(wù)和BEV-OD任務(wù)上的提升一覽:
更多目標跟蹤和規(guī)劃任務(wù)性能提升一覽: