加速70倍!支持4K分辨率!ETH全新開源PanSplat:全景GS重建和新視角合成SOTA!
0. 論文信息
標題:PanSplat: 4K Panorama Synthesis with Feed-Forward Gaussian Splatting
作者:Cheng Zhang, Haofei Xu, Qianyi Wu, Camilo Cruz Gambardella, Dinh Phung, Jianfei Cai
機構:Monash University、Building 4.0 CRC, Caulfield East, Victoria, Australia、ETH Zurich
原文鏈接:https://arxiv.org/abs/2412.12096
代碼鏈接:https://github.com/chengzhag/PanSplat
1. 導讀
隨著便攜式360°攝像機的出現,全景在虛擬現實(VR)、虛擬旅游、機器人和自動駕駛等應用中獲得了極大的關注。因此,寬基線全景視圖合成已經成為一項至關重要的任務,其中高分辨率、快速推理和存儲效率是必不可少的。然而,現有方法通常受限于較低的分辨率(512×1024)是由于苛刻的存儲器和計算要求。在本文中,我們介紹了PanSplat,這是一種通用的前饋方法,可有效支持高達4K (2048)的分辨率×4096).我們的方法以具有斐波納契點陣排列的定制球形3D高斯金字塔為特征,增強了圖像質量,同時減少了信息冗余。為了適應高分辨率的需求,我們提出了一種流水線,該流水線將分層球形成本體和高斯頭部與局部操作相集成,實現了兩步延遲反向傳播,以便在單個A100 GPU上進行內存高效的訓練。實驗表明,PanSplat在合成和真實數據集上都實現了一流的結果,具有卓越的效率和圖像質量。
2. 引言
隨著360°相機和沉浸式技術的興起,虛擬現實(VR)和虛擬漫游對豐富視覺內容的需求急劇增加。全景光場系統(tǒng)通過使用戶能夠在指定的虛擬空間內從一系列任意視角探索環(huán)境,為實現逼真、沉浸式的體驗提供了引人注目的解決方案。360°相機的最新進展簡化了沉浸式內容的創(chuàng)作,推動了諸如街景(Google Maps、Apple Maps)和虛擬漫游(Matterport、Theasys)等應用的發(fā)展,其中,從寬基線全景圖中合成新視圖對于實現位置間的平滑過渡至關重要。
盡管當前方法已廣泛探索了寬基線全景圖視圖合成,但它們往往難以在計算效率、內存消耗、圖像質量和分辨率之間取得平衡。傳統(tǒng)方法依賴于顯式3D場景表示,如多平面圖像(MPI)或網格,這些表示方法雖然具有潛在的高分辨率可擴展性,但由于表達能力有限,往往導致圖像質量較低。相比之下,基于神經輻射場(NeRF)的方法能夠交付高質量結果,但計算量大且內存密集,使其不太適合高分辨率全景圖。大多數現有方法的分辨率上限為512×1024,遠低于VR應用中通常需要以實現真正沉浸式體驗的4K分辨率(2048×4096)。
3D高斯濺射(3DGS)的最新趨勢在合成新視圖方面取得了顯著成果,標志著圖像質量和計算效率的重大進步。通過將場景表示為高斯基元集合,3DGS使用光柵化而非NeRF的體積采樣來實現高質量、高效的渲染,同時還支持用于訓練的可微分渲染。后續(xù)工作通過引入前饋網絡來直接從輸入圖像預測高斯基元,將其擴展到稀疏視圖輸入,進一步推動了3DGS的邊界。盡管取得了這些進展,但由于兩大主要挑戰(zhàn),現有的3DGS方法并不直接適用于全景圖:1)全景圖的獨特球形幾何結構,這與像素對齊的高斯基元相沖突,導致在兩極附近出現重疊和冗余的高斯基元;2)VR應用對高分辨率的需求,使得當前方法(例如MVSplat)由于內存限制而難以高效擴展。推薦課程:國內首個面向具身智能方向的理論與實戰(zhàn)課程。
在本工作中,我們提出了PanSplat,這是一種針對4K分辨率輸入進行優(yōu)化的前饋方法,生成專門為全景格式定制的3D高斯表示,以從寬基線全景圖中合成4K新視圖(示例見圖1)。為了解決第一個挑戰(zhàn),我們引入了3D高斯基元的斐波那契晶格排列(見圖2),通過在球體上均勻分布它們來顯著減少所需的高斯基元數量。另一方面,為了提高渲染質量,我們實現了3D高斯金字塔,它在多個尺度上表示場景,捕捉不同層次的精細細節(jié)。為了解決第二個挑戰(zhàn),我們利用基于Transformer網絡的分層球形代價體積來估計高分辨率3D幾何體,同時提高效率。然后,我們設計了具有局部操作的高斯頭來預測高斯參數,實現了兩步延遲反向傳播,從而在4K分辨率下實現內存高效的訓練。此外,我們還引入了一種延遲混合技術,該技術減少了由于移動物體和深度不一致導致的未對齊高斯基元所產生的偽影,提高了真實場景中的渲染質量。
3. 效果展示
我們的PanSplat可以從兩個4K(2048x4096)全景生成新穎的視圖。我們基于渲染的Matterport3D進行訓練。數據分辨率為4K(左),只需在360Loc上進行一些微調,即可泛化為4K現實世界數據(右)。
4. 主要貢獻
我們的主要貢獻可以概括如下:
? 我們提出了PanSplat,這是一種前饋方法,它高效地生成高質量的新視圖,使用專為全景格式定制的球形3D高斯金字塔。
? 我們設計了一條流水線,其中包括具有局部操作的分層球形代價體積和高斯頭,實現了兩步延遲反向傳播,能夠高效地擴展到更高分辨率。
? 我們證明了PanSplat在合成和真實世界數據集上均實現了最先進的結果,圖像質量優(yōu)異,并且與最優(yōu)方法相比,推理速度提高了多達70倍。通過支持4K分辨率,PanSplat成為沉浸式VR應用的有前途的解決方案。
5. 方法
PanSplat是一個前饋模型,如圖3所示,它能夠高效地從兩個給定的寬基線全景圖中合成高質量的新視圖。我們引入了專門針對全景圖像的球形3D高斯金字塔,并將其與分層球形代價體積和高斯頭相結合,以實現可擴展到4K分辨率的高分辨率輸出,適用于現實世界的應用。
6. 實驗結果
7. 總結
本文提出了PanSplat,這是一種新穎的可泛化的、前饋方法,用于從寬基線全景合成新視圖。為了有效地支持4K分辨率(2048x4096)以用于沉浸式VR應用,我們引入了一個流水線,可以實現兩步延遲反向傳播。此外,我們提出了一種球面3D高斯金字塔,采用悲波那契格點排列以適應全景格式,以提高渲染質量和效率。廣泛的實驗證明了PanSplat在圖像質量和分辨率方面優(yōu)于現有技術。
對更多實驗結果和文章細節(jié)感興趣的讀者,可以閱讀一下論文原文~