ECCV`24 | 比現有方法快50倍!新加坡國立開源FlashSplat:簡單&全局最優(yōu)3D-GS分割求解器
文章鏈接:https://arxiv.org/pdf/2409.08270
項目鏈接:https://github.com/florinshen/FlashSplat
亮點直擊
- 引入了一種全局最優(yōu)的 3D Gaussian Splatting分割求解器,大大提高了將 2D 分割結果提升到 3D 空間的效率。
- 通過線性化簡化了 3DGS 分割的過程,將 2D 到 3D 的分割任務轉化為線性整數優(yōu)化問題。該方法對二值分割和場景分割均有效。
- 在優(yōu)化中引入了背景偏置,展示了在 3D 分割中對噪聲的優(yōu)越魯棒性,證明了該方法在各種場景分割中的魯棒性和高效性。
- 本文的方法具有顯著的優(yōu)化速度,能在 30 秒內完成整個過程,比現有方法快約 50 倍,同時確保給定 2D masks的全局最優(yōu)性。
- 廣泛的實驗驗證了本文方法在后續(xù)任務中的優(yōu)越性,包括物體移除和修復,突顯了其在 3D 數據處理和應用中的巨大潛力。
總結速覽
解決的問題
- 現有方法在從2D mask中精確分割3D Gaussian Splatting(3D Gaussian Splatting, 3D-GS)時效率低下,通常依賴于迭代梯度下降法來給每個高斯分配一個唯一的標簽,導致冗長的優(yōu)化和次優(yōu)解,效果欠佳。
提出的方案
- 提出了一種簡單且全局最優(yōu)的3D-GS分割求解器,通過線性規(guī)劃的方式閉式求解最優(yōu)標簽分配。
- 核心思路在于,利用重建的3D-GS場景,2D mask的渲染可以視為與每個高斯標簽的線性函數。
應用的技術
- 利用線性規(guī)劃技術來解決標簽分配問題,避免了迭代優(yōu)化。
- 通過單步優(yōu)化實現分割,并結合alpha混合特性。
- 在目標函數中加入背景偏置,增強抗噪性。
達到的效果
- 優(yōu)化過程僅需30秒,比現有最優(yōu)方法快50倍。
- 實驗表明該方法在分割多種場景時高效、魯棒,并在后續(xù)的任務如物體移除和修復中表現優(yōu)越。
方法
本節(jié)首先深入探討了3D Gaussian Splatting(3D GS)的渲染過程,重點關注基于塊的光柵化和alpha混合。接著描述了如何將此過程表述為整數線性規(guī)劃 (ILP) 優(yōu)化,用于3DGS的分割,并證明該問題可以通過閉式形式求解。鑒于2D mask通常帶有噪聲,引入了一個軟化的最優(yōu)分配來減輕這些噪聲影響。除了二值分割之外,還擴展了該方法以涵蓋場景分割,從而實現3D場景中所有物體的分割。最后,提出了一種基于深度信息的2D mask渲染方法,將3D分割結果從新視角投影到2D mask上。
初步:3D Gaussian Splatting (3DGS) 的光柵化
將二值分割表述為整數線性規(guī)劃
形式上,分割問題可以表述為一個具有平均絕對誤差的整數線性規(guī)劃 (LP) 優(yōu)化:
從二值分割到場景分割
基于深度引導的新視角mask渲染
實驗
數據準備
數據集。為了評估本文方法的有效性,從多個來源收集了3D場景數據:MIP-360 數據集、T&T 數據集、LLFF 數據集、Instruct-NeRF2NeRF 和 LERF 數據集,這些數據集用于定性分析。為了進行定量分析,使用了 NVOS 數據集。
2D mask生成與關聯。在實驗設置中,使用了 Segment Anything Models (SAM)來提取mask,因為 SAM 的分割輸出在本質上是不依賴于語義的。在我們的框架中,需要進一步將這些2D mask進行關聯。本文的方法分為兩種不同的策略,分別針對二值分割和場景分割。
對于二值分割,其目標是隔離單個前景實體,我們首先在單個參考視圖上標記點提示。這些點提示通過參考視圖的相機姿態(tài)投影回3D空間,以找到其最近的具有最小正深度的3D高斯點。隨后,這些點提示被投影到其他視圖中,通過投影其對應的3D高斯點的中心來傳播。利用這些關聯的點提示,SAM 獨立生成每個視圖的二值mask。
對于場景分割,本文的方法首先使用 SAM 為單獨視圖生成實例mask。為了在3D場景中為每個2D物體分配唯一的ID,將多個視圖視作視頻序列。利用zero-shot 視頻跟蹤器,確保在不同視點間一致地關聯和傳播物體。
實施細節(jié)
3D 分割結果
下圖 4 展示了二值和場景 3D 分割的結果。第一行展示了來自 LERF 數據集 的 Figurines 場景,第二行展示了來自 MIP-360 數據集 的 Counter 場景。在這兩個場景中,應用了場景分割方法,為每個場景渲染了 2 個視圖的 5 個分割對象(在真值圖像中圈出),展示了本文的方法在使用 SAM 預測的實例mask進行場景分割的能力。此外,第三、第四和第五行展示了二值分割結果,其中第三行展示了來自 LLFF 數據集 的 Horns 場景,第四行展示了來自 T&T 數據集 的 Truck 場景,第五行展示了來自 MIP-360 數據集 的 Kitchen 場景。兩個視圖的分割對象被渲染,顯示了本文方法在分割 3D 對象方面的能力。
對象移除
對象修復
在 3D 對象移除之后,對象修復旨在修正未觀測區(qū)域的偽影,確保 3D 場景內的視圖一致性。首先,在移除后渲染視圖,并使用 Grounding-DINO識別每個視圖中的偽影區(qū)域,這些區(qū)域通過視頻追蹤器在視圖之間進行跟蹤。然后,使用預訓練的 2D 修復模型 生成修復的 2D 視圖。隨后,通過在原始對象位置附近引入 20 萬個新的高斯來調整 3DGS 參數,同時保持背景高斯不變。微調過程中,使用物體mask外的 L1 損失來最小化背景影響,并在修復mask內使用 LPIPS 損失來確保場景的自然性和一致性。在下圖 5 中展示了對象修復的結果,為每個場景渲染了三個視圖。對象修復后,噪聲和孔洞被減少,展示了本文的方法可以有效地將前景與背景在 3D 分割中分離開來。
定量比較
計算成本
本文對 FlashSplat 的計算效率與之前的 3DGS 分割方法進行比較,特別是 SAGA 和 Gaussian Grouping。在評估過程中,使用了 LERF 數據集 中的 Figurines 場景,并在單個 NVIDIA A6000 GPU 上進行測試?;€方法需要通過 30,000 次迭代的梯度下降優(yōu)化,將 2D mask轉化為與每個 3D 高斯相關的對象特征,從而導致顯著的額外訓練時間來優(yōu)化 3D 場景。相比之下,本文的方法僅需計算集合 {Ai}e,這一過程大約需時 26 秒,使其速度大約比基線快 50 倍。對于單個 3D 對象的分割,這些基線方法需要進行網絡前向傳播,而 FlashSplat 通過 arg max 高效地確定最優(yōu)分配,僅需 0.4 毫秒。此外,對 GPU 內存使用的分析顯示,我們的峰值內存消耗僅為之前方法 SAGA的一半。
消融研究
噪聲減少的效果。為了進一步闡明之前提到的 2D mask中的噪聲,下圖 6 的左列中提供了由 SAM 生成的 2D mask的可視化結果,涵蓋了兩個場景。此外,還在相應的視圖中渲染了 3D 分割后的對象mask,顯示了提供的 2D mask中的斷裂區(qū)域已得到修復。這證明了本文的方法在生成 3D 分割時對 2D mask噪聲的魯棒性。
3D Segmentation with Fewer 2D Masks
結論
本文引入了一種針對 2D mask的 3D Gaussian Splatting分割的最優(yōu)求解器,顯著提升了將 2D 分割提升到 3D 空間的準確性和效率。通過將 3D-GS 中的 alpha 組合分解為每個高斯的總體貢獻,這種求解器只需要單步優(yōu)化來獲得最優(yōu)分配。它不僅將優(yōu)化過程加快了約 50 倍,而且通過簡單的背景偏差增強了對噪聲的魯棒性。此外,這種方法還擴展到場景分割,并能夠在新視圖上渲染mask。大量實驗表明,該方法在場景分割任務中表現優(yōu)越,包括對象移除和修復。我們希望這項工作能夠促進未來 3D 場景的理解和操作。
本文轉自 AI生成未來 ,作者:Qiuhong Shen等
