自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DriveDreamer4D:首個利用視頻生成改善駕駛重建的世界模型方法

人工智能 新聞
今天為大家分享極佳&中科院最新的工作—DriveDreamer4D!基于生成的世界模型方案。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面 & 筆者的個人理解

閉環(huán)仿真對于推進端到端自動駕駛系統(tǒng)至關(guān)重要。當代的傳感器仿真方法,如NeRF和3DGS,主要依賴于與訓練數(shù)據(jù)分布緊密一致的條件,這些條件在很大程度上局限于前向駕駛場景。因此,這些方法在渲染復雜的機動動作(如變道、加速、減速)時面臨局限性。自動駕駛世界模型的最新進展已經(jīng)證明了生成多樣化駕駛視頻的潛力。然而,這些方法仍然局限于2D視頻生成,固有地缺乏捕捉動態(tài)駕駛環(huán)境復雜性所需的時空連貫性。本文介紹了DriveDreamer4D,它利用世界模型先驗增強了4D駕駛場景表示。具體來說,我們利用世界模型作為數(shù)據(jù)機器,基于現(xiàn)實世界的駕駛數(shù)據(jù)合成新的軌跡視頻。值得注意的是,我們明確地利用結(jié)構(gòu)化條件來控制前景和背景元素的時空一致性,因此生成的數(shù)據(jù)與流量約束密切相關(guān)。據(jù)我們所知,DriveDreamer4D是第一個利用視頻生成模型來改善駕駛場景中4D重建的工作。實驗結(jié)果表明,DriveDreamer4D顯著提高了新軌跡視圖下的生成質(zhì)量,與PVG、S3高斯和可變形GS相比,F(xiàn)ID相對提高了24.5%、39.0%和10.5%。此外,DriveDreamer 4D顯著增強了驅(qū)動代理的時空一致性,這得到了綜合用戶研究的驗證,NTA-IoU度量的相對增加了20.3%、42.0%和13.7%。

圖片

總結(jié)來說,本文的主要貢獻如下:

  • 提出了DriveDreamer4D,這是第一個利用世界模型先驗來推進自動駕駛4D場景重建的框架;
  • NTGM旨在自動生成各種結(jié)構(gòu)化條件,使DriveDreamer4D能夠生成具有復雜機動的新穎軌跡視頻。通過明確地結(jié)合結(jié)構(gòu)化條件,DriveDreamer4D確保了前景和背景元素的時空一致性;
  • 進行了全面的實驗,以驗證DriveDreamer4D顯著提高了新軌跡視點的生成質(zhì)量,以及駕駛場景元素的時空連貫性。

相關(guān)工作回顧

駕駛場景表示

NeRF和3DGS已成為3D場景表示的主要方法。NeRF模型使用多層感知器(MLP)網(wǎng)絡構(gòu)建連續(xù)的體積場景,實現(xiàn)了具有卓越渲染質(zhì)量的高度詳細的場景重建。最近,3DGS引入了一種創(chuàng)新方法,通過在3D空間中定義一組各向異性高斯分布,利用自適應密度控制從稀疏點云輸入中實現(xiàn)高質(zhì)量的渲染。有幾項工作將NeRF或3DGS擴展到了自動駕駛場景。鑒于駕駛環(huán)境的動態(tài)特性,在建模4D駕駛場景表示方面也做出了重大努力。一些方法將時間編碼為參數(shù)化4D場景的額外輸入,而另一些方法將場景表示為運動對象模型與靜態(tài)背景模型的組合。盡管取得了這些進步,但基于NeRF和3DGS的方法仍面臨著與輸入數(shù)據(jù)密度相關(guān)的局限性。只有當傳感器數(shù)據(jù)與訓練數(shù)據(jù)分布非常匹配時,這些技術(shù)才能有效地渲染場景,而訓練數(shù)據(jù)分布通常僅限于前方駕駛場景。

世界模型

世界模型模塊根據(jù)參與者提出的想象動作序列預測未來可能的世界狀態(tài)。通過自由文本動作控制的視頻生成來仿真環(huán)境等方法。處于這一進化最前沿的是Sora,它利用先進的生成技術(shù)來生成尊重物理基本定律的復雜視覺序列。這種深入理解和仿真環(huán)境的能力不僅提高了視頻生成質(zhì)量,而且對現(xiàn)實世界的駕駛場景也有重大影響。自動駕駛世界模型采用預測方法來解釋駕駛環(huán)境,從而生成現(xiàn)實的駕駛場景,并從視頻數(shù)據(jù)中學習關(guān)鍵的駕駛要素和政策。盡管這些模型成功地生成了基于復雜駕駛動作的多樣化駕駛視頻數(shù)據(jù),但它們?nèi)匀痪窒抻?D輸出,缺乏準確捕捉動態(tài)駕駛環(huán)境復雜性所需的時空一致性。

3D表示的擴散先驗

從有限的觀測中構(gòu)建全面的3D場景需要生成先驗,特別是對于看不見的區(qū)域。早期的研究將文本到圖像擴散模型中的知識提煉成3D表示模型。具體而言,采用分數(shù)蒸餾采樣(SDS)從文本提示合成3D對象。此外,為了增強3D一致性,有幾種方法將多視圖擴散模型和視頻擴散模型擴展到3D場景生成。為了在復雜、動態(tài)、大規(guī)模的駕駛場景之前擴展擴散以進行3D重建,SGD、GGS和MagicDrive3D等方法采用生成模型來拓寬訓練視角的范圍。盡管如此,這些方法主要針對稀疏的圖像數(shù)據(jù)或靜態(tài)背景元素,缺乏充分捕捉4D駕駛環(huán)境中固有復雜性的能力。

DriveDreamer4D方法詳解

整體架構(gòu)

DriveDreamer4D的整體流程如圖2所示。在上半部,提出了一種新的軌跡生成模塊(NTGM),用于調(diào)整轉(zhuǎn)向角和速度等原始軌跡動作,以生成新的軌跡。這些新穎的軌跡為提取3D盒子和HDMap細節(jié)等結(jié)構(gòu)化信息提供了新的視角。隨后,可控視頻擴散模型從這些更新的視點合成視頻,并結(jié)合與修改后的軌跡相關(guān)的特定先驗。在下半部分,整合了原始和新穎的軌跡視頻,以優(yōu)化4DGS模型。在接下來的部分中,我們將深入研究新軌跡視頻生成的細節(jié),然后介紹使用視頻擴散先驗的4D重建。

圖片

新軌跡視頻生成

圖片

在自車輛坐標系中,車輛的航向與正x軸對齊,y軸指向車輛的左側(cè),z軸垂直向上,垂直于車輛平面。因此通過沿x軸和y軸調(diào)整值,可以分別表示車輛速度和方向的變化。對新生成的軌跡點進行最終安全評估,包括驗證車輛軌跡p是否保持在可駕駛區(qū)域Broad內(nèi),并確保不會與行人或其他車輛發(fā)生碰撞。

圖片

一旦生成了符合交通規(guī)則的新軌跡,道路結(jié)構(gòu)和3D邊界框就可以從新軌跡的角度投影到相機視圖上,從而生成與更新軌跡相關(guān)的結(jié)構(gòu)化信息。這種結(jié)構(gòu)化信息,連同初始幀和文本,被輸入到世界模型中,以生成遵循新軌跡的視頻。

基于視頻擴散先驗的4D重建

基于視頻擴散先驗,我們可以生成具有不同軌跡的新穎視頻,增強跨不同基線的4D重建能力。具體來說,為了使用視頻擴散先驗訓練4DGS,必須構(gòu)建一個混合數(shù)據(jù)集Dhybrid,該數(shù)據(jù)集將原始軌跡數(shù)據(jù)集Dori與新的軌跡數(shù)據(jù)集Dnovel相結(jié)合。這些數(shù)據(jù)集之間的平衡可以通過超參數(shù)β進行調(diào)整,使我們能夠控制原始和新軌跡的4DGS場景重建性能。這種關(guān)系被表述為Dhybrid。

使用生成的數(shù)據(jù)優(yōu)化4DGS的損失函數(shù)Lnovel,定義如下:

圖片

值得注意的是,在使用生成的數(shù)據(jù)集Dnovel時,深度圖不作為4DGS優(yōu)化的約束。限制源于LiDAR點云數(shù)據(jù)僅針對原始軌跡收集。當這些激光雷達點投影到新的軌跡上時,它無法為新的視角生成完整的深度圖,因為新軌跡中可見的東西可能在原始視圖中被遮擋了。因此,合并這樣的深度圖不利于4DGS模型的優(yōu)化?;旌嫌柧毜目傮w損失函數(shù)定義如下:

圖片

實驗

實驗設置

數(shù)據(jù)集。我們使用Waymo數(shù)據(jù)集進行實驗,該數(shù)據(jù)集以其全面的真實世界駕駛?cè)罩径劽?。然而,大多?shù)日志捕捉的場景具有相對直接的動態(tài),缺乏對密集、復雜的車輛交互場景的關(guān)注。為了解決這一差距,我們特別選擇了八個以高度動態(tài)交互為特征的場景,其中包括許多具有不同相對位置和復雜駕駛軌跡的車輛。每個選定的片段包含大約40幀,片段ID在補充中有詳細說明。

實施細節(jié)。為了證明DriveDreamer4D的多功能性和魯棒性,我們將各種4DGS基線納入我們的管道,包括可變形GS、S3Gaussian和PVG。為了進行公平的比較,LiDAR監(jiān)控被引入到Deformable GS中。在訓練過程中,場景被分割成多個片段,每個片段包含40幀,與生成模型的輸出長度對齊。我們只使用前置攝像頭數(shù)據(jù),并將不同方法的分辨率標準化為640×960。我們的模型使用Adam優(yōu)化器進行了50000次迭代訓練,遵循用于3D高斯散斑的學習率計劃。訓練策略和超參數(shù)與每個基線的原始設置保持一致,每個模型訓練了50000次迭代。

指標。傳統(tǒng)的3D重建任務通常采用PSNR和SSIM指標進行評估,驗證集與訓練數(shù)據(jù)分布非常匹配(即,從視頻序列中均勻采樣幀進行驗證,其余用于訓練)。然而,在閉環(huán)駕駛仿真中,重點轉(zhuǎn)移到評估新軌跡下的模型渲染性能,在這種軌跡下,相應的傳感器數(shù)據(jù)不可用,使得PSNR和SSIM等指標不適用于評估。因此,我們提出了新的軌跡代理IoU(NTA-IoU)和新的軌跡車道IoU(NTL-IoU),它們評估了新軌跡視點中前景和背景交通分量的時空一致性。

對于NTA IoU,我們使用YOLO11在從新的軌跡視圖渲染的圖像中識別車輛,從而產(chǎn)生2D邊界框。同時,對原始的3D邊界框應用幾何變換,將其投影到新的視點上以生成相應的2D邊界框。對于每個投影的2D框,我們?nèi)缓笞R別最接近的探測器生成的2D框并計算它們的交點(IoU)。為了確保精確匹配,引入了距離閾值dthresh:當最近檢測到的框Bdet和正確投影的框Bproj之間的中心到中心距離超過此閾值時,它們的NTA IoU被分配為零值:

圖片

對于NTL IoU,我們使用TwinLiteNet從渲染圖像中提取2D車道。地面真實車道也被投影到2D圖像平面上。然后,我們計算渲染車道Ldet和GT車道Lproj之間的平均交點(mIoU):

圖片

此外在變道場景中,我們觀察到相對定位的不準確,以及飛行點和重影等偽影的頻繁出現(xiàn),這些偽影會顯著降低圖像質(zhì)量。為了評估這一點,我們采用了FID度量,該度量量化了渲染的新軌跡圖像和原始軌跡圖像之間的特征分布差異。該指標有效地反映了視覺質(zhì)量,對飛行點和重影等偽影特別敏感,為這些復雜場景中的圖像保真度提供了強有力的衡量標準。最后,我們進行了一項用戶研究來評估發(fā)電質(zhì)量。具體來說,我們比較了每種基線方法及其DriveDreamer4D增強版本在三種不同的新軌跡上的視覺結(jié)果。評估標準側(cè)重于整體視頻質(zhì)量,特別關(guān)注車輛等前景物體。對于每次比較,參與者被要求選擇他們認為最有利的選項。

圖片圖片圖片圖片圖片

討論和結(jié)論

在這篇論文中,我們提出了DriveDreamer4D,這是一個新的框架,旨在通過利用世界模型中的先驗來推進4D駕駛場景表示。DriveDreamer4D利用世界模型生成新的軌跡視頻,以補充現(xiàn)實世界的駕駛數(shù)據(jù),解決了當前傳感器仿真方法的關(guān)鍵局限性,即它們對前向駕駛訓練數(shù)據(jù)分布的依賴性以及無法對復雜機動進行建模。通過明確采用結(jié)構(gòu)化條件,我們的框架保持了前景和背景元素的時空一致性,確保生成的數(shù)據(jù)與現(xiàn)實世界交通場景的動態(tài)密切相關(guān)。我們的實驗表明,DriveDreamer4D在生成各種仿真視角方面實現(xiàn)了卓越的質(zhì)量,在場景組件的渲染保真度和時空一致性方面都有顯著提高。值得注意的是,這些結(jié)果突出了DriveDreamer4D作為閉環(huán)仿真基礎的潛力,閉環(huán)仿真需要動態(tài)駕駛場景的高保真重建。

責任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2024-10-28 13:30:00

2023-09-26 13:33:27

AI自動駕駛

2023-10-23 10:11:36

自動駕駛技術(shù)

2024-10-30 09:26:41

2024-08-20 09:15:00

2024-03-15 09:37:26

語言模型駕駛

2024-12-19 10:20:53

2023-02-20 09:58:35

模型3D

2024-12-16 14:40:00

AI模型訓練

2021-08-13 15:07:02

模型人工智能深度學習

2025-04-21 09:20:00

2025-04-10 09:10:00

模型AI評測

2025-02-14 09:30:00

視頻生成模型開源機器人

2024-01-29 07:50:00

AI視頻

2025-04-22 15:34:08

視頻生成AI

2023-04-03 10:04:44

開源模型

2024-12-12 08:35:58

2023-12-04 09:33:00

自動駕駛視覺

2025-04-22 09:17:00

模型生成開源
點贊
收藏

51CTO技術(shù)棧公眾號