北航&清華聯(lián)合發(fā)力!Stag-1:視頻生成模型實(shí)現(xiàn)超逼真的4D駕駛場(chǎng)景算法!
寫(xiě)在前面&筆者的個(gè)人理解
近年來(lái),隨著自動(dòng)駕駛在感知、預(yù)測(cè)和規(guī)劃方面取得的重大進(jìn)步,端到端算法網(wǎng)絡(luò)也取得了重大進(jìn)展。隨著現(xiàn)如今這些技術(shù)的飛速進(jìn)步,自動(dòng)駕駛汽車(chē)的全面測(cè)試和驗(yàn)證也變得越來(lái)越重要。然而,真實(shí)世界的車(chē)輛測(cè)試仍然耗時(shí)、費(fèi)用昂貴,并且場(chǎng)景的覆蓋范圍也非常有限。
現(xiàn)在,主流研究越來(lái)越依賴(lài)仿真軟件進(jìn)行廣泛的算法測(cè)試和驗(yàn)證。然而,基于 3D 建模的仿真難以準(zhǔn)確復(fù)制真實(shí)的駕駛場(chǎng)景,從而導(dǎo)致合成環(huán)境與現(xiàn)實(shí)世界之間存在巨大的差距。為了解決這個(gè)問(wèn)題,當(dāng)前的自動(dòng)駕駛測(cè)試解決方案力求構(gòu)建高度逼真的場(chǎng)景來(lái)驗(yàn)證駕駛算法。隨著文本到圖像和文本到視頻生成模型的快速發(fā)展,一些研究集中于生成軌跡可控的圖像或視頻來(lái)模擬自動(dòng)駕駛場(chǎng)景,并以地圖和周?chē)?chē)輛位姿為指導(dǎo),以提高場(chǎng)景的準(zhǔn)確性。然而,現(xiàn)實(shí)世界的駕駛涉及不斷移動(dòng)的行人、車(chē)輛和物體,這些都會(huì)給環(huán)境帶來(lái)結(jié)構(gòu)性的變化。視頻生成方法通常難以捕捉這些動(dòng)態(tài)變化或元素之間的密切相互作用,從而導(dǎo)致場(chǎng)景連續(xù)性不一致,例如背景和車(chē)輛類(lèi)型變化,這使保持時(shí)序一致性變得非常復(fù)雜。
最近,基于 NeRF 和 3DGS 的方法旨在通過(guò)渲染和建模 3D 場(chǎng)景來(lái)更精確地捕捉動(dòng)態(tài)元素。盡管如此,這些方法在從任意視角重建 4D 場(chǎng)景、處理具有顯著相機(jī)移動(dòng)的廣泛動(dòng)態(tài)視圖變化以及管理靜態(tài)視圖下的長(zhǎng)期時(shí)序變換方面仍然面臨挑戰(zhàn)。
針對(duì)上述提到的相關(guān)挑戰(zhàn),為了實(shí)現(xiàn)更真實(shí)的自動(dòng)駕駛測(cè)試,我們提出了一個(gè)基于真實(shí)世界自動(dòng)駕駛場(chǎng)景的可控 4D 模擬框架,稱(chēng)之為Stag-1。
經(jīng)過(guò)大量的多級(jí)場(chǎng)景訓(xùn)練后,我們提出的Stag-1可以從任何需要的視角進(jìn)行仿真,并且可以在靜態(tài)的時(shí)間和空間條件下實(shí)現(xiàn)對(duì)于場(chǎng)景演變的深入理解。與現(xiàn)有方法相比,我們的方法在多視角場(chǎng)景一致性、背景連貫性和準(zhǔn)確性方面表現(xiàn)出色,并為現(xiàn)實(shí)自動(dòng)駕駛模擬的持續(xù)進(jìn)步做出了貢獻(xiàn)。
論文鏈接:https://arxiv.org/pdf/2412.05280
網(wǎng)絡(luò)模型的結(jié)構(gòu)&技術(shù)細(xì)節(jié)
4D Autonomous Driving Simulation
生成式4D自動(dòng)駕駛仿真旨在解決傳統(tǒng)自動(dòng)駕駛仿真場(chǎng)景缺乏真實(shí)感的問(wèn)題,并克服圖像生成模型在場(chǎng)景質(zhì)量和控制能力方面的限制。
形式上來(lái)看,生成式 4D 自動(dòng)駕駛仿真會(huì)根據(jù)真實(shí)世界場(chǎng)景和一組控制信號(hào)生成一個(gè)場(chǎng)景,如下公式所示。
然而,傳統(tǒng)的方法往往不能有效捕捉場(chǎng)景中真實(shí)的時(shí)間和空間關(guān)系,導(dǎo)致生成的場(chǎng)景出現(xiàn)時(shí)間跳躍和可控性不足的問(wèn)題。因此,我們需要探索4D場(chǎng)景點(diǎn)云重建,以便使用生成模型實(shí)現(xiàn)真實(shí)的場(chǎng)景理解和高質(zhì)量的圖像生成。該方法結(jié)合4D點(diǎn)云、相機(jī)參數(shù)和時(shí)間信息,利用生成框架有效捕捉時(shí)間和空間的獨(dú)立變化,實(shí)現(xiàn)更自然、更精確的自動(dòng)駕駛仿真,可表示為如下的公式形式:
通過(guò)上述的這種方式,我們就可以生成與控制信號(hào)一致的逼真的模擬場(chǎng)景。
為了準(zhǔn)確控制場(chǎng)景,我們從當(dāng)前場(chǎng)景中提取 4D 點(diǎn)云信息,并將點(diǎn)云投影到連續(xù)的 2D 圖像上從而形成一組關(guān)鍵幀視頻。然后,我們使用視頻生成網(wǎng)絡(luò)生成連續(xù)、準(zhǔn)確、可控的4D自動(dòng)駕駛仿真場(chǎng)景。
Spatial-Temporal Aligned Reconstruction
生成式4D自動(dòng)駕駛仿真場(chǎng)景的構(gòu)建依賴(lài)于精確的4D點(diǎn)云數(shù)據(jù)信息。根據(jù)自動(dòng)駕駛的實(shí)際需求,我們采用了如下的三種原則來(lái)定義點(diǎn)云的形式。
- 真實(shí)性:4D點(diǎn)云數(shù)據(jù)必須用真實(shí)的參數(shù)進(jìn)行構(gòu)建,需要知道準(zhǔn)確的場(chǎng)景大小和范圍,而不僅僅是相對(duì)的比例大小。
- 準(zhǔn)確性:場(chǎng)景應(yīng)精確估計(jì)物體的位置和距離,以提高 3D 點(diǎn)云的精度。
- 一致性:每個(gè)場(chǎng)景幀應(yīng)與車(chē)輛或相機(jī)的參數(shù)保持一致,以保持一致性。
遵循以上提到的這些原則,我們首先估計(jì)并使用環(huán)視攝像頭參數(shù)來(lái)生成環(huán)視 3D 點(diǎn)云數(shù)據(jù)信息。我們進(jìn)一步使用自車(chē)參數(shù)進(jìn)行點(diǎn)云對(duì)齊,并對(duì)其進(jìn)行迭代細(xì)化,以構(gòu)建精確的 4D 點(diǎn)云場(chǎng)景。
單幀的3D點(diǎn)云重建
為了從單幀當(dāng)中重建3D場(chǎng)景,我們對(duì)每一幅圖像進(jìn)行了處理。然后,我們使用相應(yīng)的相機(jī)位姿來(lái)獲得準(zhǔn)確的環(huán)視點(diǎn)云。通過(guò)組合所有視角的點(diǎn)云,我們得到 了在時(shí)刻t的環(huán)視點(diǎn)云,其整體流程可以用如下的公式進(jìn)行表述。
連續(xù)幀4D點(diǎn)云的粗糙對(duì)齊
對(duì)于每一個(gè)時(shí)刻的點(diǎn)云數(shù)據(jù)信息,我們還會(huì)采用如下的公式實(shí)現(xiàn)連續(xù)幀的4D點(diǎn)云對(duì)齊。
然后,為了構(gòu)建完整的4D點(diǎn)云數(shù)據(jù),我們?cè)跁r(shí)間戳上對(duì)齊4D 點(diǎn)云序列,記作如下的形式。
連續(xù)幀4D點(diǎn)云的精修對(duì)齊
鑒于3D點(diǎn)云是通過(guò)深度估計(jì)的方式得到的,缺乏精確的真值,僅基于參數(shù)的對(duì)齊方式并不能保證完全的對(duì)齊精度。因此,我們引入了一種精細(xì)對(duì)齊方法,該方法通過(guò)多次迭代來(lái)完善對(duì)齊過(guò)程。在每次迭代的過(guò)程中,旋轉(zhuǎn)和平移都會(huì)根據(jù)點(diǎn)云對(duì)齊誤差進(jìn)行更新,該誤差測(cè)量了變換點(diǎn)與參考對(duì)齊點(diǎn)之間的差異。通過(guò)最小化對(duì)齊誤差來(lái)更新變換參數(shù)。
通過(guò)將此過(guò)程迭代應(yīng)用于每一幀,我們生成一系列的3D點(diǎn)云數(shù)據(jù)。最后,我們獲得對(duì)齊的點(diǎn)云 ,用于支持后續(xù)的時(shí)空?qǐng)鼍敖怦睢?/p>
Point-Conditioned Video Generation
實(shí)現(xiàn)時(shí)空解耦是自動(dòng)駕駛模擬的關(guān)鍵方面。然而,現(xiàn)有模型由于結(jié)構(gòu)限制,在單獨(dú)捕捉場(chǎng)景中的空間和時(shí)間變化方面存在著不少的挑戰(zhàn),因此很難在同一環(huán)境中將空間和時(shí)間進(jìn)行解耦。為了解決這個(gè)問(wèn)題,我們提出的Stag-1 處理一系列連續(xù)的 4D 稀疏點(diǎn)云數(shù)據(jù)以生成 2D 稀疏關(guān)鍵幀視頻,如下公式所示。
時(shí)間解耦關(guān)鍵幀
在固定相機(jī)位姿的情況下,我們提出了一種有效的時(shí)空解耦關(guān)鍵幀建模方法,通過(guò)提取每個(gè)關(guān)鍵幀的 3D 點(diǎn)云數(shù)據(jù)并將其投影到 2D 圖像中。具體來(lái)說(shuō),對(duì)于每個(gè)時(shí)間戳,我們選擇與當(dāng)前幀對(duì)應(yīng)的 3D 點(diǎn)云。隨后,我們使用相機(jī)矩陣以及當(dāng)前時(shí)間戳的旋轉(zhuǎn)矩陣和平移向量來(lái)投影每個(gè)關(guān)鍵幀的3D點(diǎn)云數(shù)據(jù),用于實(shí)現(xiàn)獲取圖像中的稀疏二維點(diǎn)云。
通過(guò)這種方法,動(dòng)態(tài)點(diǎn)云數(shù)據(jù)可以從固定的視點(diǎn)準(zhǔn)確地投影到二維圖像中。
空間解耦關(guān)鍵幀
在空間解耦關(guān)鍵幀建模中,我們使用對(duì)齊的空間信息將當(dāng)前幀的 3D 點(diǎn)云投影到 2D 圖像平面上。通過(guò)透視投影,我們將 3D 點(diǎn)云映射到 2D 圖像平面。
通過(guò)使用對(duì)齊的空間信息,我們精確地將當(dāng)前幀的 3D 點(diǎn)云轉(zhuǎn)換為其 2D 投影。該方法有效地利用了空間信息,將其轉(zhuǎn)換為 2D 點(diǎn)云表示,同時(shí)減輕了時(shí)間變化對(duì)關(guān)鍵幀提取的影響。
4D Spatial-Temporal Simulation
下圖展示了我們提出的自動(dòng)駕駛 4D 生成仿真模型的整體訓(xùn)練框架。具體而言,我們的訓(xùn)練整體過(guò)程遵循兩階段的方法:Time-Focused Stage階段在時(shí)間背景下訓(xùn)練單視圖場(chǎng)景,而The Spatial-Focused Stage階段整合環(huán)視信息來(lái)捕捉空間和時(shí)間關(guān)系。
The Time-Focused Stage
我們使用奇數(shù)幀連續(xù)圖像作為真值數(shù)據(jù),并根據(jù)奇數(shù)幀的位姿和相機(jī)內(nèi)參將偶數(shù)幀 3D 點(diǎn)云投影到圖像平面上。
我們通過(guò)創(chuàng)建投影的 3D 點(diǎn)云序列及其對(duì)應(yīng)的真實(shí)圖像來(lái)生成配對(duì)訓(xùn)練數(shù)據(jù)。為了提高訓(xùn)練效率,我們將條件信號(hào)編碼到潛在空間中,并在其中進(jìn)行優(yōu)化。為了確保準(zhǔn)確對(duì)齊和有效的模型學(xué)習(xí)過(guò)程,我們定義了一個(gè)自定義損失函數(shù)來(lái)指導(dǎo)優(yōu)化過(guò)程。損失函數(shù)定義如下。
The Spatial-Focused Stage
我們使用與Time-Focused Stage階段相同的輸入方法。為了利用自動(dòng)駕駛中環(huán)視圖像之間的重疊信息和交互,我們引入了一種用于跨圖像信息交換的注意機(jī)制
,如下圖所示。
我們的方法捕捉了每幀內(nèi)不同視角的空間關(guān)系,同時(shí)也考慮了連續(xù)時(shí)間步驟之間的時(shí)間聯(lián)系。
實(shí)驗(yàn)結(jié)果&評(píng)價(jià)指標(biāo)
4D重建與合成效果分析
為了評(píng)估我們的方法在 4D 重建方面的能力,我們?cè)?Waymo-NOTR 數(shù)據(jù)集上進(jìn)行了零樣本評(píng)估的相關(guān)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如下表所示。
通過(guò)相關(guān)的實(shí)驗(yàn)結(jié)果可以看出,與現(xiàn)有方法相比,我們的方法在場(chǎng)景重建和新穎視圖合成方面表現(xiàn)出色。
對(duì)于static-32數(shù)據(jù)集,我們遵循傳統(tǒng)指標(biāo),使用 PSNR、SSIM 和 LPIPS 來(lái)評(píng)估渲染質(zhì)量,對(duì)于動(dòng)態(tài)數(shù)據(jù),我們使用 PSNR* 和 SSIM* 來(lái)關(guān)注動(dòng)態(tài)對(duì)象。我們的結(jié)果優(yōu)于其他方法,展示了該模型在零樣本條件下的泛化能力及其對(duì)靜態(tài)場(chǎng)景和動(dòng)態(tài)對(duì)象進(jìn)行建模的能力。為了更加直觀的展現(xiàn)我們算法的效果,我們也對(duì)相關(guān)的實(shí)驗(yàn)結(jié)果進(jìn)行了可視化,如下圖所示。從質(zhì)量上講,我們的方法在單目場(chǎng)景重建和多視圖合成方面表現(xiàn)出色。
此外,我們對(duì)Street Gaussian數(shù)據(jù)集上的場(chǎng)景重建進(jìn)行了定量和定性評(píng)估,其中相關(guān)的實(shí)驗(yàn)結(jié)果如下表。
更加直觀的可視化效果如下圖所示。
為了準(zhǔn)確地將我們的方法與最新方法進(jìn)行比較,我們Waymo Open Dataset數(shù)據(jù)集下進(jìn)行了定量分析。相關(guān)的實(shí)驗(yàn)結(jié)果如下表所示,我們的方法在重建方面優(yōu)于其他方法。因此,在三種不同實(shí)驗(yàn)條件下的定量比較結(jié)果表明,我們提出的重建和新穎的視圖合成方法優(yōu)于其他相關(guān)方法。
4D駕駛仿真
基于真實(shí)場(chǎng)景的自動(dòng)駕駛生成式 4D 仿真需要能夠解耦時(shí)空關(guān)系。這涉及根據(jù)當(dāng)前時(shí)間狀態(tài)從不同的攝像機(jī)視角觀察場(chǎng)景,或根據(jù)固定的空間狀態(tài)分解時(shí)間運(yùn)動(dòng)。我們?cè)?NuScenes 和 Waymo 數(shù)據(jù)集上進(jìn)行了定量和定性比較實(shí)驗(yàn),以證明所提方法的能力和有效性。
自動(dòng)駕駛 4D 仿真的一個(gè)關(guān)鍵方面是在凍結(jié)時(shí)間條件下實(shí)現(xiàn)動(dòng)態(tài)視角變化的能力。我們將我們提出的方法與現(xiàn)有方法進(jìn)行了比較,可視化結(jié)果表明我們的方法成功實(shí)現(xiàn)了所需的任務(wù),如下圖所示。
可視化的相關(guān)結(jié)果表明我們的方法可以實(shí)現(xiàn)準(zhǔn)確的變換。為了與基于 3DGS 的方法進(jìn)行公平的比較,我們?cè)?Waymo 數(shù)據(jù)集上進(jìn)行了類(lèi)似的測(cè)試。如下圖所示,我們的方法在圖像精度方面優(yōu)于其他方法。
此外,我們也實(shí)現(xiàn)了視角的轉(zhuǎn)換以測(cè)試模型處理各種相機(jī)變換的能力。相關(guān)的可視化結(jié)果如下圖所示,通過(guò)可視化的結(jié)果可以看出,我們的模型成功完成了這項(xiàng)任務(wù)。
4D仿真的另一個(gè)關(guān)鍵方面是它能夠在保持相機(jī)位置固定的同時(shí)改變時(shí)間范圍,從而實(shí)現(xiàn)多種功能。我們通過(guò)在凍結(jié)空間的條件下模擬時(shí)間運(yùn)動(dòng)來(lái)展示這種能力,如下圖的左側(cè)所示。該圖顯示了相對(duì)于真值的移動(dòng)車(chē)輛,而背景保持穩(wěn)定,驗(yàn)證了該方法在固定空間環(huán)境中模擬時(shí)間變化的能力。
結(jié)論
本文提出了一種用于自動(dòng)駕駛的生成式 4D 仿真模型,旨在編輯真實(shí)場(chǎng)景以實(shí)現(xiàn)可控的自動(dòng)駕駛仿真??梢暬投拷Y(jié)果均表明,所提出的方法可以提取真實(shí)場(chǎng)景中的關(guān)鍵元素以進(jìn)行可控仿真,為自動(dòng)駕駛測(cè)試和驗(yàn)證提供了可行的解決方案。