高清視頻竟不是真的,幾張照片渲染的3D場景讓你難辨真?zhèn)?/h1>
在開始今天的介紹前,先一起來看看下面的幾個場景。
請注意,上述動圖完全是由多張照片渲染出來的 3D 場景。人類很難發(fā)現(xiàn)它們的破綻。
那讓我們一起看看,這種場景是怎樣實現(xiàn)的。
網(wǎng)格和點是最常見的三維場景表示法,因為它們是顯式的,非常適合基于 GPU/CUDA 的快速光柵化。相比之下,最新的神經輻射場(NeRF)方法建立在連續(xù)場景表征的基礎上,通常使用體積光線渲染優(yōu)化多層感知器(MLP),對捕捉到的場景進行新視角合成。雖然這些方法的連續(xù)性有助于優(yōu)化,但渲染所需的隨機取樣成本很高,而且會產生噪聲。
來自法國蔚藍海岸大學的研究者引入了一種新方法,能夠結合這兩種方法的優(yōu)點:3D 高斯表征有著 SOAT 視覺質量,并且在訓練時間上也進行了優(yōu)化,而基于 tile 的拋雪球算法(tile-based splatting)在幾個數(shù)據(jù)集上以 1080p 分辨率實現(xiàn) SOTA 實時渲染。
論文地址:https://huggingface.co/papers/2308.04079
研究團隊立下目標:對多張照片拍攝的場景進行實時渲染,并在典型真實場景中實現(xiàn)時間最優(yōu)化。此前,F(xiàn)ridovich-Kei 等人提出的方法雖然實現(xiàn)了快速訓練,但難以達到當前 SOTA NeRF 方法所獲得的視覺質量,而后者需要長達 48 小時的訓練時間。還有研究提出快速但質量較低的輻射場方法,可以根據(jù)場景實現(xiàn)交互式渲染(每秒 10-15 幀),但這種方法無法實現(xiàn)高分辨率下的實時渲染。
接下來,我們來看本文是如何實現(xiàn)的。
方法
研究團隊的解決方案主要由三個部分組成。
第一,引入 3D 高斯作為一種靈活而富有表現(xiàn)力的場景表征。輸入與 NeRF 方法類似,即使用結構 - 運動(SfM)校準像機,并且使用稀疏點云初始化 3D 高斯集合,點云來自 SfM 過程。此外,該研究只用 SfM 點作為輸入就能獲得高質量的結果。需要注意的是,對于 NeRF 合成數(shù)據(jù)集,即使采用隨機初始化,本文方法也能獲得高質量的結果。研究表明,3D 高斯是一個很好的選擇。
第二,優(yōu)化 3D 高斯屬性,即 3D 位置、不透明度??、各向異性協(xié)方差和球諧波(SH)系數(shù)。優(yōu)化過程產生了一個相當緊湊、非結構化和精確的場景表征。
第三,實時渲染解決方案,該研究使用快速 GPU 排序算法。不過,由于采用了 3D 高斯表征,可以在遵循可見度排序的情況下進行各向異性拼接,這要歸功于排序和??- blending— 并通過跟蹤所需的盡可能多排序拼接的遍歷,實現(xiàn)快速準確的向后傳遞。
方法概覽
綜上,本文做出了以下貢獻:
- 引入各向異性 3D 高斯作為輻射場的高質量、非結構化表征;
- 3D 高斯屬性的優(yōu)化方法,與自適應密度控制交織在一起,為捕捉到的場景創(chuàng)建高質量的表征;
- 針對 GPU 的快速可微分渲染方法,該方法具有可視性感知功能,允許各向異性拼接和快速反向傳播,以實現(xiàn)高質量的新視圖合成。
實驗
下圖顯示了本文的方法與以往方法效果的比較。
場景自上而下依次為來自 Mip-NeRF360 數(shù)據(jù)集的自行車、花園、柜臺和房間;來自深度混合數(shù)據(jù)集的游戲室(更多對比請閱讀原文)。圖中把不同方法產生的顯著差異已經標出,如自行車的輻條、花園遠處的房屋玻璃、鐵籃子的桿子以及玩具小熊。
可以觀察出,本文的方法相比以往的方法在細節(jié)上更具有優(yōu)勢。
視頻中可以看到更加明顯的區(qū)別
除此之外,在圖 6 中我們可以看到,即使迭代 7K 次(~ 5 分鐘),本文方法也能很好地捕捉列車的細節(jié)。在迭代 30K 次(~35 分鐘)時,背景偽影明顯減少。對于花園場景,差異幾乎不明顯,7K 次迭代(~8 分鐘)已經是非常高的質量了。
研究團隊采用 Mip-NeRF360 建議的方法,將數(shù)據(jù)集分為訓練 / 測試兩部分,每隔 8 張照片進行測試,以便進行一致且有意義的比較,從而生成誤差指標,并使用文獻中最常用的標準 PSNR、L-PIPS 和 SSIM 指標,詳細數(shù)據(jù)見表 1。
表 1 展現(xiàn)了通過三個數(shù)據(jù)集計算得出的新方法與之前的工作相比的定量評估。標有「?」的結果直接采用了原論文,其他結果均為該實驗團隊的實驗結果。
合成 NeRF 的 PSNR 分數(shù)??梢钥吹奖疚姆椒ㄔ诙鄶?shù)情況下分數(shù)都較好,甚至達到最優(yōu)。
消融實驗
研究團隊將所做的不同貢獻和算法選擇分離出來,并構建了一組實驗來衡量它們的效果。對算法的以下幾個方面進行了測試:從 SfM 初始化、致密化策略、各向異性協(xié)方差、允許無限數(shù)量的斑塊具有梯度以及球諧波的使用。下表總結了每種選擇的定量效果。
我們來看看更直觀的效果。
使用 SfM 點進行初始化會產生更好的效果。
Clone 和 Split 兩種情況下的消融致密化策略
限制接受漸變的點的數(shù)量,對視覺質量影響是顯著的。左圖:限制接收梯度的 10 個高斯點。右圖:本文的完整方法。
想要了解更多詳細內容,請閱讀原文。