超逼真！實時高質(zhì)量渲染，用于動態(tài)城市場景建模的Street Gaussians

作者：自動駕駛Daily 2024-01-05 08:36:15

本文旨在解決從單目視頻中建模動態(tài)城市街道場景的問題。最近的方法擴展了NeRF，將跟蹤車輛姿態(tài)納入animate vehicles，實現(xiàn)了動態(tài)城市街道場景的照片逼真視圖合成。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

不得不說，技術(shù)更新太快了，Nerf在學術(shù)界慢慢被替換下去了。Gaussians登場了，浙江大學的工作

論文：Street Gaussians for Modeling Dynamic Urban Scenes

鏈接：https://arxiv.org/pdf/2401.01339.pdf

本文旨在解決從單目視頻中建模動態(tài)城市街道場景的問題。最近的方法擴展了NeRF，將跟蹤車輛姿態(tài)納入animate vehicles，實現(xiàn)了動態(tài)城市街道場景的照片逼真視圖合成。然而，它們的顯著局限性在于訓練和渲染速度慢，再加上跟蹤車輛姿態(tài)對高精度的迫切需求。這篇論文介紹了Street Gaussians，一種新的明確的場景表示，它解決了所有這些限制。具體地說，動態(tài)城市街道被表示為一組點云，這些點云配備有語義logits和3D Gaussians，每一個都與前景車輛或背景相關聯(lián)。

為了對前景對象車輛的動力學進行建模，使用可優(yōu)化的跟蹤姿態(tài)以及動態(tài)外觀的動態(tài)球面諧波模型對每個對象點云進行優(yōu)化。顯式表示允許簡單地合成目標車輛和背景，這反過來又允許在半小時的訓練內(nèi)以133 FPS（1066×1600分辨率）進行場景編輯操作和渲染。所提出的方法在多個具有挑戰(zhàn)性的基準上進行了評估，包括KITTI和Waymo Open數(shù)據(jù)集。

實驗表明，所提出的方法在所有數(shù)據(jù)集上始終優(yōu)于現(xiàn)有技術(shù)的方法。此外，盡管僅依賴于現(xiàn)成跟蹤器的pose，但所提出的表示提供的性能與使用GT pose所實現(xiàn)的性能不相上下。

代碼：https://zju3dv.github.io/streetgaussians/

Street Gaussians方法介紹

給定從城市街道場景中的移動車輛捕獲的一系列圖像，本文的目標是開發(fā)一個能夠為任何給定的輸入時間步長和任何視點生成真實感圖像的模型。為了實現(xiàn)這一目標，提出了一種新的場景表示，命名為Street Gaussians，專門用于表示動態(tài)街道場景。如圖2所示，將動態(tài)城市街道場景表示為一組點云，每個點云對應于靜態(tài)背景或移動車輛。顯式基于點的表示允許簡單地合成單獨的模型，從而實現(xiàn)實時渲染以及編輯應用程序的前景對象分解。僅使用RGB圖像以及現(xiàn)成跟蹤器的跟蹤車輛姿態(tài)，就可以有效地訓練所提出的場景表示，通過我們的tracked車輛姿態(tài)優(yōu)化策略進行了增強。

Street Gaussians概覽如下所示，動態(tài)城市街道場景表示為一組具有可優(yōu)化tracked車輛姿態(tài)的基于點的背景和前景目標。每個點都分配有3D高斯，包括位置、不透明度和由旋轉(zhuǎn)和比例組成的協(xié)方差，以表示幾何體。為了表示apperence，為每個背景點分配一個球面諧波模型，而前景點與一個動態(tài)球面諧波模型相關聯(lián)。顯式的基于點的表示允許簡單地組合單獨的模型，這使得能夠?qū)崟r渲染高質(zhì)量的圖像和語義圖（如果在訓練期間提供2D語義信息，則是可選的），以及分解前景目標以編輯應用程序

實驗結(jié)果對比

我們在Waymo開放數(shù)據(jù)集和KITTI基準上進行了實驗。在Waymo開放數(shù)據(jù)集上，選擇了6個記錄序列，其中包含大量移動物體、顯著的ego運動和復雜的照明條件。所有序列的長度約為100幀，選擇序列中的每10張圖像作為測試幀，并使用剩余的圖像進行訓練。當發(fā)現(xiàn)我們的基線方法在使用高分辨率圖像進行訓練時存在較高的內(nèi)存成本時，將輸入圖像縮小到1066×1600。在KITTI和Vitural KITTI 2上，遵循MARS的設置，并使用不同的訓練/測試分割設置來評估。在Waymo數(shù)據(jù)集上使用檢測器和跟蹤器生成的邊界框，并使用KITTI官方提供的目標軌跡。