LLM全搞定!OmniDrive:集3D感知、推理規(guī)劃于一體(英偉達(dá)最新)
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
寫在前面&筆者的個人理解
這篇論文致力于解決當(dāng)前多模態(tài)大語言模型 (MLLMs) 在自動駕駛應(yīng)用中存在的關(guān)鍵挑戰(zhàn),尤其是將MLLMs從2D理解擴(kuò)展到3D空間的問題。由于自動駕駛車輛 (AVs) 必須對3D環(huán)境做出準(zhǔn)確的決策,這一擴(kuò)展顯得尤為重要。3D空間理解對于AV來說必不可少,因?yàn)樗苯佑绊戃囕v做出明智決策、預(yù)測未來狀態(tài)以及與環(huán)境安全互動的能力。
當(dāng)前的多模態(tài)大語言模型(如LLaVA-1.5)通常僅能處理較低分辨率的圖像輸入(例如),這是由于視覺編碼器的分辨率限制和LLM序列長度的限制。然而,自動駕駛應(yīng)用需要高分辨率的多視角視頻輸入,以確保車輛能在長距離內(nèi)感知環(huán)境并安全決策。此外,現(xiàn)有的許多2D模型架構(gòu)難以有效處理這些輸入,因?yàn)樗鼈冃枰罅康挠?jì)算和存儲資源。
在此背景下,本文提出了一種全新的3D MLLM架構(gòu),借鑒了Q-Former風(fēng)格的設(shè)計(jì)。該架構(gòu)采用交叉注意力解碼器,將高分辨率的視覺信息壓縮到稀疏查詢中,使其更易于擴(kuò)展到高分辨率輸入。這種架構(gòu)與視角模型家族(如DETR3D、PETR(v2)、StreamPETR和Far3D)具有顯著的相似性,因?yàn)樗鼈兌祭昧讼∈璧?D查詢機(jī)制。通過對這些查詢附加3D位置編碼并與多視角輸入進(jìn)行交互,本文的架構(gòu)實(shí)現(xiàn)了對3D空間的理解,從而更好地利用了2D圖像中的預(yù)訓(xùn)練知識。
除了模型架構(gòu)的創(chuàng)新,本文還提出了一個更具挑戰(zhàn)性的基準(zhǔn)——OmniDrive-nuScenes。該基準(zhǔn)涵蓋了一系列需要3D空間理解和長距離推理的復(fù)雜任務(wù),并引入了反事實(shí)推理基準(zhǔn),以通過模擬決策和軌跡來推測潛在結(jié)果。這一基準(zhǔn)有效彌補(bǔ)了當(dāng)前開放式評估中偏向于單一專家軌跡的問題,從而避免了在專家軌跡上的過擬合。
綜上所述,本文通過提出一個全面的端到端自主駕駛框架OmniDrive,在LLM-agent的基礎(chǔ)上提供了一種有效的3D推理和規(guī)劃模型,并構(gòu)建了一個更具挑戰(zhàn)性的基準(zhǔn),推動了自動駕駛領(lǐng)域的進(jìn)一步發(fā)展。具體貢獻(xiàn)如下:
- 提出了一種3D Q-Former架構(gòu),適用于各種駕駛相關(guān)任務(wù),包括目標(biāo)檢測、車道檢測、3D視覺定位、決策制定和規(guī)劃。
- 引入了OmniDrive-nuScenes基準(zhǔn),這是第一個為解決規(guī)劃相關(guān)挑戰(zhàn)而設(shè)計(jì)的QA基準(zhǔn),涵蓋了精確的3D空間信息。
- 實(shí)現(xiàn)了在規(guī)劃任務(wù)上的最佳表現(xiàn)。
詳解OmniDrive
整體結(jié)構(gòu)
本文提出的OmniDrive-Agent結(jié)合了Q-Former和基于查詢的3D感知模型的優(yōu)點(diǎn),在多視角圖像特征中高效獲取3D空間信息,解決自主駕駛中的3D感知與規(guī)劃任務(wù)。整體架構(gòu)如圖所示。
- 視覺編碼器:首先,使用共享的視覺編碼器提取多視角圖像特征。
- 位置編碼:將提取的圖像特征與位置編碼一起輸入到Q-Former3D中。
- Q-Former3D模塊:其中,表示拼接操作。為了簡潔起見,公式中省略了位置編碼。此步驟后,查詢集合成為交互后的。其中,表示3D位置編碼,是多視角圖像特征。
- 多視角圖像特征采集:接下來,這些查詢從多視角圖像中收集信息:
- 查詢初始化與自注意力:在Q-Former3D中,初始化檢測查詢和載體查詢,并進(jìn)行自注意力操作以交換它們之間的信息:
- 輸出處理:
- 感知任務(wù)預(yù)測:利用感知查詢預(yù)測前景元素的類別和坐標(biāo)。
- 載體查詢對齊與文本生成:載體查詢則通過單層MLP對齊至LLM令牌的維度(如LLaMA中的4096維度),并進(jìn)一步用于文本生成。
- 載體查詢的作用
通過該架構(gòu)設(shè)計(jì),OmniDrive-Agent能夠高效地從多視角圖像中獲取豐富的3D空間信息,并結(jié)合LLM進(jìn)行文本生成,為3D空間感知與自主駕駛提供新的解決方案。
Multi-task and Temporal Modeling
作者的方法受益于多任務(wù)學(xué)習(xí)和時序建模。在多任務(wù)學(xué)習(xí)中,作者可以為每個感知任務(wù)集成特定的Q-Former3D模塊,并采用統(tǒng)一的初始化策略(請參見\cref{Training Strategy})。在不同的任務(wù)中,載體查詢能夠收集不同交通元素的信息。作者的實(shí)現(xiàn)涵蓋了諸如中心線構(gòu)建和3D目標(biāo)檢測等任務(wù)。在訓(xùn)練和推理階段,這些模塊共享相同的3D位置編碼。
關(guān)于時序建模,作者將具有top-k分類分?jǐn)?shù)的感知查詢存儲在記憶庫中,并逐幀傳播。傳播后的查詢通過交叉注意力與當(dāng)前幀的感知查詢和載體查詢進(jìn)行交互,從而擴(kuò)展模型對視頻輸入的處理能力。
Training Strategy
OmniDrive-Agent的訓(xùn)練策略分為兩個階段:2D預(yù)訓(xùn)練和3D微調(diào)。在初始階段,作者首先在2D圖像任務(wù)上對多模態(tài)大模型(MLLMs)進(jìn)行預(yù)訓(xùn)練,以初始化Q-Former和載體查詢。移除檢測查詢后,OmniDrive模型可以被視為一個標(biāo)準(zhǔn)的視覺語言模型,能夠基于圖像生成文本。因此,作者采用LLaVA v1.5的訓(xùn)練策略和數(shù)據(jù),在558K圖文對上預(yù)訓(xùn)練OmniDrive。在預(yù)訓(xùn)練期間,除Q-Former外,所有參數(shù)保持凍結(jié)狀態(tài)。隨后,使用LLaVA v1.5的指令調(diào)優(yōu)數(shù)據(jù)集對MLLMs進(jìn)行微調(diào)。在微調(diào)過程中,圖像編碼器保持凍結(jié),其他參數(shù)均可訓(xùn)練。
在3D微調(diào)階段,目標(biāo)是增強(qiáng)模型的3D定位能力,同時盡可能保留其2D語義理解能力。為此,作者為原始的Q-Former添加了3D位置編碼和時序模塊。在該階段,作者使用LoRA技術(shù)以較小的學(xué)習(xí)率微調(diào)視覺編碼器和大語言模型,并以相對較大的學(xué)習(xí)率訓(xùn)練Q-Former3D。在這兩個階段中,OmniDrive-Agent的損失計(jì)算僅包括文本生成損失,而不考慮BLIP-2中的對比學(xué)習(xí)和匹配損失。
OmniDrive-nuScenes
為了對駕駛多模態(tài)大模型代理進(jìn)行基準(zhǔn)測試,作者提出了OmniDrive-nuScenes,這是一個基于nuScenes數(shù)據(jù)集的新型基準(zhǔn),包含高質(zhì)量的視覺問答(QA)對,涵蓋了3D領(lǐng)域的感知、推理和規(guī)劃任務(wù)。
OmniDrive-nuScenes的亮點(diǎn)在于其完全自動化的QA生成流程,該流程使用GPT-4生成問題和答案。類似于LLaVA,作者的流程將3D感知的標(biāo)注作為上下文信息提供給GPT-4。在此基礎(chǔ)上,作者進(jìn)一步利用交通規(guī)則和規(guī)劃模擬作為額外輸入,幫助GPT-4更好地理解3D環(huán)境。作者的基準(zhǔn)不僅測試模型的感知和推理能力,還通過涉及注意力、反事實(shí)推理和開環(huán)規(guī)劃的長時域問題,挑戰(zhàn)模型在3D空間中的真實(shí)空間理解和規(guī)劃能力,因?yàn)檫@些問題要求對未來幾秒內(nèi)的駕駛規(guī)劃進(jìn)行模擬以得出正確答案。
除了用于離線問答的生成流程外,作者還提出了一個在線生成多樣化定位問題的流程。這個流程可以看作是一種隱含的數(shù)據(jù)增強(qiáng)方式,用于提升模型的3D空間理解和推理能力。
Offline Question-Answering
在離線QA生成流程中,作者使用上下文信息來生成nuScenes上的QA對。首先,作者使用GPT-4生成場景描述,并將三視角的前視圖和三視角的后視圖拼接成兩幅獨(dú)立的圖像輸入到GPT-4中。通過提示輸入,GPT-4可以描述天氣、時間、場景類型等信息,并識別各視角的方向,同時避免逐視角描述,而是以相對自車的位置描述內(nèi)容。
接下來,為了讓GPT-4V更好地理解交通元素之間的相對空間關(guān)系,作者將對象和車道線的關(guān)系表示成類似文件樹的結(jié)構(gòu),并根據(jù)對象的3D邊界框,將其信息轉(zhuǎn)換成自然語言描述。
隨后,作者通過模擬不同的駕駛意圖生成軌跡,包括車道保持、左側(cè)換道和右側(cè)換道,并利用深度優(yōu)先搜索算法將車道中心線連接起來,生成所有可能的行駛路徑。此外,作者對nuScenes數(shù)據(jù)集中自車軌跡進(jìn)行了聚類,選取具有代表性的駕駛路徑,并將其作為模擬軌跡的一部分。
最終,通過對離線QA生成流程中的不同上下文信息進(jìn)行組合,作者能夠生成多種類型的QA對,包括場景描述、注意力對象識別、反事實(shí)推理和決策規(guī)劃。GPT-4可以基于模擬和專家軌跡識別威脅對象,并通過對駕駛路徑的安全性進(jìn)行推理,給出合理的駕駛建議。
Online Question-Answering
為了充分利用自動駕駛數(shù)據(jù)集中的3D感知標(biāo)注,作者在訓(xùn)練過程中以在線方式生成大量定位類任務(wù)。這些任務(wù)旨在加強(qiáng)模型的3D空間理解和推理能力,包括:
- 2D到3D定位:給定特定相機(jī)上的2D邊界框,模型需要提供對應(yīng)對象的3D屬性,包括類別、位置、大小、朝向和速度。
- 3D距離:基于隨機(jī)生成的3D坐標(biāo),識別目標(biāo)位置附近的交通元素,并提供它們的3D屬性。
- 車道到對象:基于隨機(jī)選擇的車道中心線,列出該車道上的所有對象及其3D屬性。
Metrics
OmniDrive-nuScenes數(shù)據(jù)集涉及場景描述、開環(huán)規(guī)劃和反事實(shí)推理任務(wù)。每個任務(wù)側(cè)重不同的方面,難以使用單一指標(biāo)進(jìn)行評估。因此,作者針對不同的任務(wù)設(shè)計(jì)了不同的評估標(biāo)準(zhǔn)。
對于場景描述相關(guān)任務(wù)(如場景描述和注意力對象選擇),作者采用常用的語言評估指標(biāo),包括METEOR、ROUGE和CIDEr來評估句子相似性。在開環(huán)規(guī)劃任務(wù)中,作者使用碰撞率和道路邊界交叉率來評估模型的性能。對于反事實(shí)推理任務(wù),作者使用GPT-3.5提取預(yù)測中的關(guān)鍵字,并將這些關(guān)鍵字與真實(shí)情況進(jìn)行比較,以計(jì)算不同事故類別的精確率和召回率。
實(shí)驗(yàn)結(jié)果
上表展示了對規(guī)劃相關(guān)任務(wù)的消融研究結(jié)果,包括反事實(shí)推理和開環(huán)規(guī)劃的性能評估。
完整模型,即Q-Former3D,在反事實(shí)推理和開環(huán)規(guī)劃任務(wù)上都表現(xiàn)出色。在反事實(shí)推理任務(wù)中,模型在“紅燈違規(guī)”和“可通行區(qū)域違規(guī)”類別上都展示了較高的精準(zhǔn)率和召回率,分別為57.6%/58.3%和48.5%/58.6%。同時,該模型在“碰撞”類別中取得了最高的召回率(72.6%)。在開環(huán)規(guī)劃任務(wù)中,Q-Former3D在平均碰撞率和路界交叉率上均表現(xiàn)出色,分別達(dá)到了3.79%和4.59%。
移除在線訓(xùn)練數(shù)據(jù)(No Online)后,反事實(shí)推理任務(wù)中的“紅燈違規(guī)”類別召回率有所提高(65.6%),但整體性能略有下降。碰撞和可通行區(qū)域違規(guī)的精準(zhǔn)率和召回率均較完整模型略低,而開環(huán)規(guī)劃任務(wù)的平均碰撞率上升至4.93%,平均路界交叉率下降到4.02%,這反映出在線訓(xùn)練數(shù)據(jù)對于提高模型整體規(guī)劃性能的重要性。
在架構(gòu)消融實(shí)驗(yàn)中,Q-Former2D版本在“紅燈違規(guī)”類別上取得最高精準(zhǔn)率(58.3%)和較高召回率(61.1%),但其他類別的表現(xiàn)不如完整模型,特別是“碰撞”和“可通行區(qū)域違規(guī)”類別的召回率明顯下降。在開環(huán)規(guī)劃任務(wù)中,平均碰撞率和路界交叉率均高于完整模型,分別為3.98%和6.03%。
采用Dense BEV架構(gòu)的模型在所有類別的反事實(shí)推理任務(wù)上均表現(xiàn)較好,但召回率整體偏低。開環(huán)規(guī)劃任務(wù)中的平均碰撞率和路界交叉率分別達(dá)到了4.43%和8.56%。
當(dāng)移除時間模塊時(No Temporal),模型在反事實(shí)推理任務(wù)的表現(xiàn)顯著下降,特別是平均碰撞率上升至6.07%,路界交叉率達(dá)到5.83%。
在感知監(jiān)督方面,移除車道線監(jiān)督(No Lane)后,模型在“碰撞”類別的召回率顯著下降,而反事實(shí)推理任務(wù)的其他類別和開環(huán)規(guī)劃任務(wù)的指標(biāo)表現(xiàn)相對穩(wěn)定。完全移除物體與車道線的3D感知監(jiān)督(No Object & Lane)后,反事實(shí)推理任務(wù)各類別的精準(zhǔn)率和召回率均有下降,特別是“碰撞”類別的召回率降至53.2%。開環(huán)規(guī)劃任務(wù)中的平均碰撞率和路界交叉率分別升至6.77%和8.43%,顯著高于完整模型。
從以上實(shí)驗(yàn)結(jié)果可以看出,完整模型在反事實(shí)推理和開環(huán)規(guī)劃任務(wù)中表現(xiàn)出色。在線訓(xùn)練數(shù)據(jù)、時間模塊以及車道線與物體的3D感知監(jiān)督對模型性能的提升起到了重要作用。完整模型能夠有效地利用多模態(tài)信息進(jìn)行高效的規(guī)劃與決策,而消融實(shí)驗(yàn)的結(jié)果進(jìn)一步驗(yàn)證了這些組件在自動駕駛?cè)蝿?wù)中的關(guān)鍵作用。
同時,來看NuScenes-QA的表現(xiàn):展示了OmniDrive在開環(huán)規(guī)劃任務(wù)中的性能,與其他現(xiàn)有方法進(jìn)行了對比。結(jié)果顯示,OmniDrive++(完整版本)在各項(xiàng)指標(biāo)上均取得了最佳表現(xiàn),尤其在開環(huán)規(guī)劃的平均誤差、碰撞率和路界交叉率三個方面均優(yōu)于其他方法。
OmniDrive++的表現(xiàn):OmniDrive++模型在1秒、2秒和3秒的預(yù)測時間內(nèi),L2平均誤差分別為0.14、0.29和0.55米,最終平均誤差僅為0.33米。此外,該模型的平均碰撞率和平均路界交叉率也分別達(dá)到了0.30%和3.00%,遠(yuǎn)低于其他方法。尤其在碰撞率方面,OmniDrive++在1秒和2秒的預(yù)測時間段內(nèi)都實(shí)現(xiàn)了零碰撞率,充分展示了其出色的規(guī)劃和避障能力。
與其他方法的對比:相較于其他先進(jìn)的基準(zhǔn)模型,例如UniAD、BEV-Planner++和Ego-MLP,OmniDrive++在所有關(guān)鍵指標(biāo)上都表現(xiàn)優(yōu)異。UniAD在使用高層級命令和自車狀態(tài)信息的情況下,其L2平均誤差為0.46米,而OmniDrive++在相同設(shè)置下的誤差更低,為0.33米。同時,OmniDrive++的碰撞率和路界交叉率也比UniAD顯著降低,尤其在碰撞率方面減少了近一半。
與BEV-Planner++相比,OmniDrive++在所有預(yù)測時間段內(nèi)的L2誤差均顯著降低,尤其在3秒預(yù)測時間段內(nèi),誤差由0.57米降至0.55米。同時,在碰撞率和路界交叉率方面,OmniDrive++也優(yōu)于BEV-Planner++,碰撞率由0.34%降至0.30%,路界交叉率由3.16%降至3.00%。
消融實(shí)驗(yàn):為了進(jìn)一步評估OmniDrive架構(gòu)中的關(guān)鍵模塊對性能的影響,作者還比較了不同版本的OmniDrive模型的表現(xiàn)。OmniDrive(不使用高層級命令和自車狀態(tài)信息)在預(yù)測誤差、碰撞率和路界交叉率方面均明顯遜于完整模型,尤其是在3秒預(yù)測時間段內(nèi)的L2誤差達(dá)到了2.84米,平均碰撞率高達(dá)3.79%。
當(dāng)僅使用OmniDrive模型(無高層級命令和自車狀態(tài)信息)時,預(yù)測誤差、碰撞率和路界交叉率有所改善,但與完整模型相比仍有差距。這表明,整合高層級命令和自車狀態(tài)信息對提高模型的整體規(guī)劃性能具有顯著作用。
整體而言,實(shí)驗(yàn)結(jié)果清晰地展示了OmniDrive++在開環(huán)規(guī)劃任務(wù)上的卓越性能。通過整合多模態(tài)信息、高層級命令和自車狀態(tài)信息,OmniDrive++在復(fù)雜的規(guī)劃任務(wù)中實(shí)現(xiàn)了更精準(zhǔn)的路徑預(yù)測和更低的碰撞率與路界交叉率,為自主駕駛的規(guī)劃與決策提供了強(qiáng)有力的支持。
討論
作者提出的OmniDrive代理和OmniDrive-nuScenes數(shù)據(jù)集在多模態(tài)大模型領(lǐng)域引入了一種新的范式,能夠解決3D環(huán)境中的駕駛問題,并為此類模型的評估提供了一個全面的基準(zhǔn)。然而,每個新方法和數(shù)據(jù)集都具有其優(yōu)點(diǎn)和不足之處。
OmniDrive代理提出了一種兩階段的訓(xùn)練策略:2D預(yù)訓(xùn)練和3D微調(diào)。在2D預(yù)訓(xùn)練階段,通過利用LLaVA v1.5的圖像文本配對數(shù)據(jù)集預(yù)訓(xùn)練Q-Former和carrier queries,實(shí)現(xiàn)了圖像特征與大型語言模型之間的更好對齊。在3D微調(diào)階段,引入了3D位置信息編碼和時間模塊,增強(qiáng)了模型的3D定位能力。通過利用LoRA對視覺編碼器和語言模型進(jìn)行微調(diào),OmniDrive既保持了對2D語義的理解,又增強(qiáng)了對3D定位的掌握。這樣分階段的訓(xùn)練策略充分發(fā)揮了多模態(tài)大模型的潛力,使其在3D駕駛場景中具有更強(qiáng)的感知、推理和規(guī)劃能力。另一方面,OmniDrive-nuScenes作為一種全新的基準(zhǔn),專門為評估駕駛大模型的能力設(shè)計(jì)。其完全自動化的QA生成流程通過GPT-4生成高質(zhì)量的問答對,涵蓋了從感知到規(guī)劃的不同任務(wù)。此外,在線生成的定位任務(wù)也為模型提供了隱含的數(shù)據(jù)增強(qiáng),幫助其更好地理解3D環(huán)境。該數(shù)據(jù)集的優(yōu)勢還在于它不僅測試模型的感知和推理能力,還通過長時域問題來評估模型的空間理解和規(guī)劃能力。這種全面的基準(zhǔn)為未來多模態(tài)大模型的研發(fā)提供了強(qiáng)有力的支持。
然而,OmniDrive代理和OmniDrive-nuScenes數(shù)據(jù)集也存在一些不足之處。首先,由于OmniDrive代理在3D微調(diào)階段需要微調(diào)整個模型,訓(xùn)練資源需求較高,使得訓(xùn)練時間和硬件成本顯著增加。此外,OmniDrive-nuScenes的數(shù)據(jù)生成完全依賴GPT-4,雖然保證了問題的質(zhì)量和多樣性,但也導(dǎo)致生成的問題更傾向于自然語言能力強(qiáng)的模型,這可能使模型在基準(zhǔn)測試時更依賴于語言特性而非實(shí)際駕駛能力。盡管OmniDrive-nuScenes提供了一個全面的QA基準(zhǔn),但其覆蓋的駕駛場景仍然有限。數(shù)據(jù)集中涉及的交通規(guī)則和規(guī)劃模擬僅基于nuScenes數(shù)據(jù)集,這使得生成的問題難以完全代表現(xiàn)實(shí)世界中的各種駕駛場景。此外,由于數(shù)據(jù)生成流程的高度自動化,生成的問題難免會受到數(shù)據(jù)偏見和提示設(shè)計(jì)的影響。
結(jié)論
作者提出的OmniDrive代理和OmniDrive-nuScenes數(shù)據(jù)集為3D駕駛場景中的多模態(tài)大模型研究帶來了新的視角和評估基準(zhǔn)。OmniDrive代理的兩階段訓(xùn)練策略成功地結(jié)合了2D預(yù)訓(xùn)練和3D微調(diào),使得模型在感知、推理和規(guī)劃方面均表現(xiàn)出色。OmniDrive-nuScenes作為全新的QA基準(zhǔn),為評估駕駛大模型提供了全面的指標(biāo)。然而,仍需進(jìn)一步研究以優(yōu)化模型的訓(xùn)練資源需求,改進(jìn)數(shù)據(jù)集的生成流程,并確保生成的問題能夠更準(zhǔn)確地代表現(xiàn)實(shí)駕駛環(huán)境??傮w而言,作者的方法和數(shù)據(jù)集在推進(jìn)駕駛領(lǐng)域多模態(tài)大模型研究方面具有重要意義,為未來的工作奠定了堅(jiān)實(shí)基礎(chǔ)。