自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

港科技最新DrivingRecon:可泛化自動(dòng)駕駛4D重建新SOTA!

人工智能 智能汽車(chē)
今天為大家分享港科技最新的工作—DrivingRecon!自動(dòng)駕駛4D場(chǎng)景重建SOTA。

寫(xiě)在前面&筆者的個(gè)人理解

從這一兩年發(fā)表的論文數(shù)量可以看出,自動(dòng)駕駛街景的重建與仿真?zhèn)涫荜P(guān)注,由此構(gòu)建的自動(dòng)駕駛仿真器對(duì)corner case的生成以及端到端模型的閉環(huán)評(píng)估/測(cè)試都非常重要,本次分享的是一篇關(guān)于自動(dòng)駕駛場(chǎng)景4D重建的工作DrivingRecon。

  • 論文鏈接: https://arxiv.org/abs/2412.09043
  • 開(kāi)源地址: https://github.com/EnVision-Research/DriveRecon

過(guò)去有很多使用3DGS或者Diffusion來(lái)做自動(dòng)駕駛街景重建/生成的工作,比較具有代表性的是StreetGaussian,OmniRe這一類借助3D bbox將靜態(tài)背景和動(dòng)態(tài)物體解耦的框架,后來(lái)又出現(xiàn)了使用4D NeRF學(xué)習(xí)動(dòng)態(tài)信息的方法,雖然取得了不錯(cuò)的效果,但這些方法都有一個(gè)共性,就是需要不斷的訓(xùn)練來(lái)進(jìn)行重建,即每個(gè)場(chǎng)景訓(xùn)練一個(gè)模型,非常耗時(shí)。因此作者提出了一種可泛化的自動(dòng)駕駛4D重建模型DrivingRecon。在模型中,作者引入了PD-Block來(lái)更好的融合相鄰視角的圖像特征,消除重疊區(qū)域的高斯;也引入了Temporal Cross-attention來(lái)增強(qiáng)時(shí)序的信息融合,并且解耦動(dòng)態(tài)和靜態(tài)物體來(lái)更好的學(xué)習(xí)幾何和運(yùn)動(dòng)特征。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的視圖合成方法相比,DrivingRecon 方法顯著提高了場(chǎng)景重建質(zhì)量和新視圖合成。此外,作者還探討了 DrivingRecon 在模型預(yù)訓(xùn)練、車(chē)輛自適應(yīng)和場(chǎng)景編輯中的應(yīng)用。

相關(guān)工作回顧

駕駛場(chǎng)景重建

現(xiàn)有的自動(dòng)駕駛模擬引擎如 CARLA或 AirSim,在創(chuàng)建虛擬環(huán)境時(shí)需要花費(fèi)很多時(shí)間,而且生成的數(shù)據(jù)缺乏現(xiàn)實(shí)性。Block-NeRF和 Mega-NeRF提出將場(chǎng)景分割成不同的Block用于單獨(dú)建模。Urban輻射場(chǎng)利用來(lái)自 LiDAR 的幾何信息增強(qiáng)了 NeRF 訓(xùn)練,而 DNMP利用預(yù)先訓(xùn)練的可變形mesh primitive來(lái)表示場(chǎng)景。Streetsurf將場(chǎng)景分為近景、遠(yuǎn)景和天空類別,獲得較好的城市街道表面的重建效果。MARS使用單獨(dú)的網(wǎng)絡(luò)對(duì)背景和車(chē)輛進(jìn)行建模,建立了一個(gè)實(shí)例感知的仿真框架。隨著3DGS的引入,DrivingGaussian引入了復(fù)合動(dòng)態(tài)高斯圖和增量靜態(tài)高斯,而 StreetGaussian優(yōu)化了動(dòng)態(tài)高斯的跟蹤姿態(tài)(位姿),并引入了四維球諧函數(shù),用于不同時(shí)刻的車(chē)輛外觀建模。Omnire進(jìn)一步關(guān)注駕駛場(chǎng)景中非剛性對(duì)象的建模,例如運(yùn)動(dòng)的行人。然而,這些重建算法需要耗時(shí)的迭代來(lái)建立一個(gè)新的場(chǎng)景。

大型重建模型

一些工作提出通過(guò)訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)直接學(xué)習(xí)完整的重建任務(wù),從而大大提高了重建速度。LRM利用大規(guī)模多視圖數(shù)據(jù)集來(lái)訓(xùn)練基于Transformer的 NeRF 重建模型,訓(xùn)練完的模型具有更好的泛化性,在單次模型前向傳遞中,從稀疏姿態(tài)圖像中重建以物體為中心的3D形狀質(zhì)量更高。類似的工作研究了將場(chǎng)景表示改變?yōu)楦咚篂R射,也有一些方法改變模型的架構(gòu)以支持更高的分辨率,并將方法擴(kuò)展到3D 場(chǎng)景。L4GM 利用時(shí)間交叉注意力融合多幀信息來(lái)預(yù)測(cè)動(dòng)態(tài)物體的高斯表示。然而,對(duì)于自動(dòng)駕駛,還沒(méi)有人探索融合多視圖的特殊方法。簡(jiǎn)單的模型會(huì)預(yù)測(cè)相鄰視圖的重復(fù)高斯點(diǎn),顯著降低了重建性能。此外,稀疏的圖像監(jiān)督和大量的動(dòng)態(tài)物體進(jìn)一步讓重建的任務(wù)變得更復(fù)雜。

文章主要貢獻(xiàn)如下:

  • DrivingRecon是第一個(gè)專門(mén)為環(huán)繞視圖駕駛場(chǎng)景設(shè)計(jì)的前饋4D 重建模型
  • 提出了 PD-Block,學(xué)習(xí)從不同的視角和背景區(qū)域去除冗余的高斯點(diǎn)。該模塊還學(xué)會(huì)了對(duì)復(fù)雜物體的高斯點(diǎn)進(jìn)行擴(kuò)張,提高了重建的質(zhì)量
  • 為靜態(tài)和動(dòng)態(tài)組件設(shè)計(jì)了渲染策略,允許渲染圖像跨時(shí)間序列進(jìn)行有效監(jiān)督
  • 驗(yàn)證了算法在重建、新視圖合成和跨場(chǎng)景泛化方面的性能
  • 探索了 DrivingRecon 在預(yù)訓(xùn)練、車(chē)輛適應(yīng)性和場(chǎng)景編輯任務(wù)中的有效性

方法詳解

通常,先看一下論文的框架圖有益于對(duì)整體的理解,DrivingRecon的整體框架如下:

圖片

以上是DrivingRecon的整體思路,下面看一些細(xì)節(jié):

3D Position Encoding

這部分主要是為了融合不同視角和不同時(shí)間間隔的特征:首先用DepthNet獲得uv坐標(biāo)下的像素深度d_(u,v),方法也很簡(jiǎn)單,直接使用Tanh激活函數(shù)來(lái)處理第一個(gè)通道的圖像特征,然后再將深度投影到世界坐標(biāo)系:

圖片

最后結(jié)合圖像特征一起輸入到PD-Block進(jìn)行多視角特征融合。為了更好的融合,作者在訓(xùn)練時(shí)使用lidar得到的稀疏深度進(jìn)行約束,即lidar點(diǎn)投影到圖像上與之對(duì)應(yīng)的深度算loss,具體計(jì)算為:

圖片

其中Md為有效深度的mask。

Temporal Cross Attention

因?yàn)橐暯堑南∈栊?,精確的街景甚至其他場(chǎng)景的重建是非常困難的。為了獲取更多的有用特征,增強(qiáng)場(chǎng)景建模效果,在時(shí)間維度或空間維度來(lái)融合特征是比較常見(jiàn)的方法。文章中的方法可以簡(jiǎn)單表示為:

圖片

其中x是輸入的特征,B表示Batch size, T表示時(shí)間維度,V表示視角個(gè)數(shù),H,W,C表示特征的高,寬以及通道數(shù)。注意,與更為常見(jiàn)的時(shí)序交叉注意力不一樣的是,這里同時(shí)考慮時(shí)間空間的信息融合, 從倒數(shù)第二維度可以看出。

Gaussian Adapter

圖片

這里為啥要預(yù)測(cè)坐標(biāo)偏移量?是因?yàn)樽髡呤褂玫姆椒ú皇菄?yán)格的像素對(duì)齊的,原因是PD -Block通過(guò)將資源從簡(jiǎn)單場(chǎng)景重新分配到更復(fù)雜的物體上,有效的管理空間的計(jì)算冗余。此時(shí)世界坐標(biāo)的計(jì)算變?yōu)?

圖片

這里輸出的光流可以用來(lái)獲得每一個(gè)世界坐標(biāo)下的點(diǎn)在下一幀的位置,即:

圖片

Prune and Dilate Block(PD-Block)

圖片

如上圖所示,自動(dòng)駕駛車(chē)輛上的相鄰相機(jī)視野通常會(huì)存在重疊部分,就會(huì)導(dǎo)致不同視角中的同一個(gè)物體會(huì)出現(xiàn)重復(fù)gaussian預(yù)測(cè),疊加后生成的效果會(huì)變差,另外在場(chǎng)景表示中,像天空這些區(qū)域不需要太多的gaussian來(lái)表達(dá),而對(duì)于物體邊緣處(高頻處)則需要更多的gaussian來(lái)表示,因此作者提出了一個(gè)PD-Block的模塊,它可以對(duì)復(fù)雜實(shí)例的高斯點(diǎn)進(jìn)行擴(kuò)張,并對(duì)相似背景或不同視圖的高斯點(diǎn)進(jìn)行修剪,步驟如下:

(1)將相鄰視角的特征圖以range view的形式拼接起來(lái),那重疊部分的特征在位置上是比較靠近的,易于融合
(2)然后為了減少內(nèi)存的使用將range view特征分割成多個(gè)區(qū)域
(3)在空間中均勻地選擇K個(gè)中心,中心特征通過(guò)平均其Z個(gè)最近點(diǎn)來(lái)計(jì)算
(4)計(jì)算區(qū)域特征和中心點(diǎn)之間的余弦相似矩陣S
(5)根據(jù)閾值生成生成mask

動(dòng)靜解耦

分割

主要有兩個(gè)作用:一是為了獲得動(dòng)態(tài)物體的mask(例如車(chē)輛和行人),靜態(tài)物體的mask,以及天空的mask,另外引入語(yǔ)義監(jiān)督有利網(wǎng)絡(luò)對(duì)整個(gè)場(chǎng)景的理解(建模),作者用的模型是DeepLabv3plus。作者還將3D bbox投影到2D圖像上,以此做為prompt通過(guò)SAM獲得更精確的mask,這里使用一個(gè)簡(jiǎn)單的“或”邏輯合并兩種處理的方式,確保所有動(dòng)態(tài)的物體都獲得對(duì)應(yīng)的mask,相當(dāng)于雙重保障了。

損失函數(shù)

訓(xùn)練中的損失函數(shù)為:

圖片

實(shí)驗(yàn)分析

與現(xiàn)有方法的渲染結(jié)果對(duì)比:

圖片

與現(xiàn)有方法的指標(biāo)對(duì)比:

圖片圖片

從表1和表2可以看出,不管是動(dòng)態(tài)還是靜態(tài)對(duì)象,指標(biāo)提升的還是很大的。

重建結(jié)果可視化:

圖片圖片

泛化性測(cè)試結(jié)果如下:

圖片

消融實(shí)驗(yàn):

圖片

最后,文章最后還討論幾個(gè)潛在的應(yīng)用:

車(chē)輛適應(yīng)性:新車(chē)型的引入可能導(dǎo)致攝像機(jī)參數(shù)的變化,如攝像機(jī)類型(內(nèi)參)和攝像機(jī)位置(外參)。所提出的四維重建模型能夠用不同的攝像機(jī)參數(shù)來(lái)渲染圖像,以減小這些參數(shù)的潛在過(guò)擬合。實(shí)驗(yàn)中作者在 Waymo 上使用隨機(jī)的內(nèi)參渲染圖像,并以隨機(jī)的方式渲染新的視角圖像作為一種數(shù)據(jù)增強(qiáng)的形式。渲染的圖像也會(huì)使用圖像檢測(cè)中的數(shù)據(jù)增強(qiáng)方式,包括調(diào)整大小和裁剪,然后結(jié)合原始數(shù)據(jù)訓(xùn)練BEVDepth,結(jié)果如下:

圖片

預(yù)訓(xùn)練模型:四維重建網(wǎng)絡(luò)能夠理解場(chǎng)景的幾何信息、動(dòng)態(tài)物體的運(yùn)動(dòng)軌跡和語(yǔ)義信息。這些能力反映在圖像編碼中,其中這些編碼器的權(quán)重是共享的。為了利用這些能力進(jìn)行預(yù)訓(xùn)練,作者用 ResNet-50替換了編碼器。然后重新訓(xùn)練DrivingRecon,沒(méi)有使用任何語(yǔ)義注釋,屬于完全無(wú)監(jiān)督的預(yù)訓(xùn)練。隨后,用預(yù)先訓(xùn)練好的模型替換了 UniAD 的編碼器,并在 nuScenes 數(shù)據(jù)集上對(duì)其進(jìn)行了微調(diào)。與 ViDAR 相比,使用新的預(yù)訓(xùn)練模型取得了更好的性能。

圖片

場(chǎng)景編輯:四維場(chǎng)景重建模型能夠獲得一個(gè)場(chǎng)景的全面的四維幾何信息,這允許刪除,插入和控制場(chǎng)景中的對(duì)象。文中給出了一個(gè)例子,在場(chǎng)景中的固定位置添加了帶有人臉的廣告牌,表示汽車(chē)停下的corner case:

圖片

結(jié)論

文章中提出了一種新的4D重建模型DrivingRecon,輸入全景視頻(環(huán)視)即可快速重建出4D自動(dòng)駕駛場(chǎng)景。其中關(guān)鍵的創(chuàng)新點(diǎn)是提出了PD-Block,可以刪除相鄰視角的冗余高斯點(diǎn),并允許復(fù)雜邊緣周?chē)M(jìn)行點(diǎn)擴(kuò)張,增強(qiáng)了動(dòng)態(tài)和靜態(tài)物體的重建。另外,文章中也引入了一種使用光流預(yù)測(cè)的動(dòng)靜態(tài)渲染方法,可以更好的監(jiān)督跨時(shí)間序列的動(dòng)態(tài)對(duì)象。實(shí)驗(yàn)表明,與現(xiàn)有方法對(duì)比,DrivingRecon在場(chǎng)景重建和新視角生成方面具有更優(yōu)越的性能。并通過(guò)實(shí)驗(yàn)證明了可以用于模型的預(yù)訓(xùn)練,車(chē)輛自適應(yīng),場(chǎng)景編輯等任務(wù)。

責(zé)任編輯:張燕妮 來(lái)源: 自動(dòng)駕駛之心
相關(guān)推薦

2022-06-25 21:26:45

自動(dòng)駕駛技術(shù)

2024-10-28 13:30:00

2024-06-12 09:48:39

2024-11-28 09:31:44

2018-10-24 14:16:33

自動(dòng)駕駛道路測(cè)試牌照

2024-06-05 09:22:43

2024-04-17 09:50:28

自動(dòng)駕駛端到端

2024-10-11 09:32:48

2023-09-25 14:53:55

3D檢測(cè)

2021-05-31 15:07:01

自動(dòng)駕駛人工智能

2024-06-21 13:18:25

模型訓(xùn)練

2019-03-15 15:37:51

自動(dòng)駕駛排名企業(yè)

2024-07-09 10:19:02

2023-01-12 09:25:11

自動(dòng)駕駛

2024-12-20 09:30:00

模型訓(xùn)練數(shù)據(jù)

2023-12-05 09:40:18

自動(dòng)駕駛數(shù)據(jù)

2023-12-26 09:29:12

自動(dòng)駕駛數(shù)據(jù)

2020-03-25 13:51:05

人工智能自動(dòng)駕駛技術(shù)

2024-12-04 10:00:00

自動(dòng)駕駛3D檢測(cè)

2022-03-21 18:21:34

自動(dòng)駕駛卡車(chē)智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)