NeRF成為過去?三維重建邁向3D GS新時代?。◤?fù)旦大學(xué)最新綜述)
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
寫在前面&筆者的個人理解
3D Gaussian Splatting(3D-GS)已成為計算機圖形學(xué)領(lǐng)域的一個重大進步,它提供了明確的場景表示和新穎的視圖合成,而不依賴于神經(jīng)網(wǎng)絡(luò),如神經(jīng)輻射場(NeRF)。這項技術(shù)在機器人、城市地圖、自主導(dǎo)航和虛擬現(xiàn)實/增強現(xiàn)實等領(lǐng)域有著不同的應(yīng)用。鑒于3D Gaussian Splatting的日益流行和研究的不斷擴展,本文對過去一年的相關(guān)論文進行了全面的綜述。我們根據(jù)特征和應(yīng)用對分類法進行了調(diào)查,介紹了3D Gaussian Splatting的理論基礎(chǔ)。我們通過這項調(diào)查的目標(biāo)是讓新的研究人員熟悉3D Gaussian Splatting,為該領(lǐng)域的開創(chuàng)性工作提供寶貴的參考,并啟發(fā)未來的研究方向。
總結(jié)來說,本文的主要貢獻如下:
- 具有系統(tǒng)分類學(xué)的統(tǒng)一框架。我們引入了一個統(tǒng)一實用的框架來對現(xiàn)有作品進行3D高斯分類。該框架將該領(lǐng)域劃分為6個主要方面。此外還提供了3D高斯應(yīng)用的詳細(xì)分類法,提供了該領(lǐng)域的全面視角。
- 全面和最新的調(diào)查。我們的綜述對3D-GS進行了廣泛而最新的調(diào)研,涵蓋了經(jīng)典和前沿方法。對于每個類別,我們提供細(xì)粒度的分類和簡潔的摘要。
- 對3D-GS未來方向的見解。我們強調(diào)了當(dāng)前研究的技術(shù)局限性,并為未來的工作提出了幾個有希望的途徑,旨在激勵這一快速發(fā)展的領(lǐng)域取得進一步進展。特別強調(diào)探索3D-GS的潛在作用,為其未來應(yīng)用提供見解。
相關(guān)背景
數(shù)據(jù)集:利用各種公開可用的數(shù)據(jù)集來評估3D-GS在各種任務(wù)上的性能。表1概述了3D-GS在優(yōu)化、重建、操作、生成、感知和人體方面的一些數(shù)據(jù)集。
Gaussian Intrinsic Properties的優(yōu)化
盡管已經(jīng)展示了3D高斯Splatting的能力和效率,但在以下有希望的方向上仍有進一步改進的空間(如圖3所示):(a)使3D-GS更具內(nèi)存效率對于實時渲染至關(guān)重要;(b)可以進一步提高渲染圖像的質(zhì)量;(c)降低用于合成新穎視圖的圖像的成本;(d)使3D Gaussians能夠用真實的動力學(xué)來表示動態(tài)場景。
效率
代表場景的數(shù)百萬高斯內(nèi)的參數(shù)需要巨大的存儲空間,因此在保持質(zhì)量的同時減少內(nèi)存使用對于實時渲染至關(guān)重要且有益。
在grid-guided NeRF的啟發(fā)下,Lu提出了Scaffold GS,它在保持可比渲染質(zhì)量和速度的同時,具有內(nèi)存效率。Scaffold GS利用底層場景結(jié)構(gòu)來幫助修剪過度擴展的高斯球。它利用SfM中的初始化點來構(gòu)建錨點的稀疏網(wǎng)格,每個錨點上都附加了一組可學(xué)習(xí)的高斯。這些高斯的屬性是根據(jù)特定的錨點特征實時預(yù)測的。此外,在通過修剪操作消除重要和瑣碎錨的地方,采用由神經(jīng)高斯的聚合梯度引導(dǎo)的策略來生長錨點。增加了一個額外的體積正則化損失項,以鼓勵高斯系數(shù)較小,重疊最小。
挑戰(zhàn):用復(fù)雜的細(xì)節(jié)來表現(xiàn)場景需要大量的3D高斯。Gaussians所需的巨大存儲空間不僅阻礙了它在邊緣設(shè)備上的應(yīng)用,而且限制了渲染速度。
機會:現(xiàn)有的矢量量化和對不重要高斯方法的修剪已經(jīng)證明了它們在壓縮靜態(tài)場景的3D高斯方面的有效性。然而,將它們擴展到動態(tài)場景并提高動態(tài)表示的緊湊性仍然沒有得到充分的探索。
真實性
混疊問題和偽影在splatting過程中出現(xiàn),解決它們顯然有利于渲染圖像的質(zhì)量和真實性。此外,還可以進一步提高場景中反射的真實性。
Yan介紹了一種在3DGS中減少混疊效應(yīng)的多尺度方法。他們假設(shè),這樣的問題主要是由填充在具有復(fù)雜3D細(xì)節(jié)的區(qū)域中的大量Gaussionssplatting引起的。因此,他們建議以不同的細(xì)節(jié)級別來表示場景。對于每個級別,在每個體素中低于特定大小閾值的小的和細(xì)粒度的高斯被聚集成較大的高斯,然后插入到隨后的較粗級別中。這些多尺度高斯有效地對高頻和低頻信號進行編碼,并使用原始圖像及其下采樣對應(yīng)圖像進行訓(xùn)練。在渲染過程中,相應(yīng)地選擇具有適當(dāng)比例的高斯,這導(dǎo)致了質(zhì)量的提高和渲染速度的提高。
挑戰(zhàn):盡管3D高斯投影到2D圖像上大大加快了渲染過程,但它使遮擋的計算變得復(fù)雜,從而導(dǎo)致照明估計較差。同時,欠正則化的3D-GS無法捕捉精確的幾何體,也無法原生地生成精確的法線。此外,混疊問題和偽影會降低渲染圖像的質(zhì)量,尤其是在為看不見的相機視圖進行合成時。
機會:與視圖相關(guān)的變化對于具有鏡面反射目標(biāo)和復(fù)雜反射的場景至關(guān)重要。因此,賦予3D-GS捕捉顯著外觀屬性的能力有利于增強渲染的真實性。為了更好地減少混疊效應(yīng),值得研究在不影響其表達能力的情況下更有效地消除多余高斯的方法。此外,由于缺乏嚴(yán)格的正態(tài)估計和幾何正則化,阻礙了圖像質(zhì)量的提高,可以進一步彌補這一不足。
開銷
為了合成高質(zhì)量的新穎視圖,所需的圖像量是巨大的。放松這一限制對于進一步探索3D-GS的潛力是可取的。
已經(jīng)提出了一些工作來解決3D-GS中的few-shot問題。Chung引入了一種深度正則化方法來避免few-shot圖像合成中的過擬合。通過分別利用從COLMAP和單目深度估計模型獲得的稀疏和密集深度圖來引入幾何約束。為了防止過擬合,該方法對幾何平滑度采用無監(jiān)督約束,并利用Canny邊緣檢測器來避免深度變化顯著的邊緣區(qū)域的正則化。
挑戰(zhàn):3D-GS的性能在很大程度上取決于初始化稀疏點的數(shù)量和準(zhǔn)確性。這種默認(rèn)的初始化方法自然與降低圖像成本的目標(biāo)相矛盾,并使其難以實現(xiàn)。此外,初始化不充分可能導(dǎo)致過擬合,并產(chǎn)生過平滑的結(jié)果。
機會:使用額外的單目深度估計模型可以提供有用的幾何先驗來調(diào)整3D高斯,以有效覆蓋場景。然而,這種對估計精度的強烈依賴性可能導(dǎo)致具有復(fù)雜表面的場景的重建較差,其中模型無法輸出準(zhǔn)確的預(yù)測。有希望進一步探索有效加密和調(diào)整3D高斯的方法,并充分利用幾何信息來提高渲染質(zhì)量。
物理性
通過將3D Gaussians的能力從靜態(tài)場景擴展到4D場景,增強3D Gaussian的能力是有益的,4D場景可以結(jié)合與真實世界物理一致的動力學(xué)。
在動態(tài)場景中,學(xué)習(xí)變形比在每個時間步長對場景建模更方便。吳提出了一種新的實時3D動態(tài)場景渲染框架。他們的框架沒有直接為每個時間戳構(gòu)建3D高斯,而是首先使用時空編碼器,利用多分辨率K-Planes和MLP進行有效的特征提取。然后,多頭MLP充當(dāng)解碼器,并基于輸入特征分別預(yù)測3D高斯的位置、旋轉(zhuǎn)和縮放的變形。這種方法學(xué)習(xí)高斯變形場,從而實現(xiàn)高效的內(nèi)存使用和快速收斂。
挑戰(zhàn):輸入點云的內(nèi)在稀疏性對重建具有真實動力學(xué)的場景提出了重要挑戰(zhàn)。在保持質(zhì)量的同時捕捉物理上合理的動力學(xué)更具挑戰(zhàn)性,例如,以高保真度渲染陰影的變化。
機會:具有大運動的目標(biāo)可能會在連續(xù)幀之間造成不自然的失真,將神經(jīng)網(wǎng)絡(luò)與學(xué)習(xí)的特定場景動力學(xué)相結(jié)合可以提高變形的保真度。當(dāng)前用于重建動態(tài)場景的方法主要關(guān)注室內(nèi)目標(biāo)級變形,并且它們?nèi)匀恍枰獜亩鄠€相機視圖拍攝的圖像以及精確的相機姿勢。將3D-GS擴展到更大的動態(tài)場景并放松這種限制對現(xiàn)實世界的應(yīng)用非常有益。
重建
如前所述,3D-GS在從新穎視點捕捉和渲染3D場景中的廣泛采用可歸因于其卓越的渲染速度和產(chǎn)生逼真結(jié)果的能力。與NeRFs類似,3D-GS中曲面網(wǎng)格的提?。ㄈ鐖D4a所示)是一個基本但必不可少的方面。有必要進行進一步的調(diào)查,以應(yīng)對具有挑戰(zhàn)性的場景,如單眼或few-shot的情況(如圖4b所示),這在自動駕駛等實際應(yīng)用中很常見。此外,3D-GS的訓(xùn)練時間約為分鐘,實現(xiàn)了實時渲染并有助于動態(tài)場景的重建(如圖4c所示)。
曲面網(wǎng)格提取
曲面網(wǎng)格提取是計算機視覺中的一個經(jīng)典挑戰(zhàn)。然而,通過3D高斯分布的場景的顯式表示為該任務(wù)引入了顯著的復(fù)雜性。因此,已經(jīng)提出了幾種新的方法來有效地解決這種復(fù)雜性并促進表面網(wǎng)格的提取。
Guédon介紹了用于3D網(wǎng)格重建和高質(zhì)量網(wǎng)格渲染的SuGaR。SuGaR包含了一個正則化術(shù)語,以促進高斯和場景表面之間的對齊。然后使用泊松重建方法來利用這種對齊,并從高斯方程中導(dǎo)出網(wǎng)格。為了將高斯圖綁定到網(wǎng)格表面,SuGaR提供了一種可選的細(xì)化策略,該策略使用高斯splatting渲染來優(yōu)化高斯圖和網(wǎng)格。然而,對高斯圖的強制性限制會導(dǎo)致渲染質(zhì)量下降。然而,這些限制會提高網(wǎng)格提取的性能。同時,陳介紹了NeuSG,它聯(lián)合優(yōu)化了NeuS和3D-GS,以實現(xiàn)高度精細(xì)的表面恢復(fù)。與SuGaR中的正則化項類似,NeuSG結(jié)合了正則化子,以確保由極薄的3D高斯生成的點云緊密附著在下表面上。這種方法利用了聯(lián)合優(yōu)化的優(yōu)勢,從而生成具有復(fù)雜細(xì)節(jié)的綜合曲面。
單目和Few-shot重建
3D-GS的引入代表了單目和few-shot重建任務(wù)的一個有希望的進展。然而,這些任務(wù)中的一個重大挑戰(zhàn)是缺乏幾何信息。因此,許多研究都致力于解決這一挑戰(zhàn),并提出創(chuàng)新的方法來克服缺乏透視幾何信息的問題。
起初,用于few-shot3D重建的技術(shù)允許用有限量的輸入數(shù)據(jù)來重建3D場景。Charatan展示了PixelSplat,用于從圖像對進行3D重建。PixelSplat的主要重點是通過提出一種多視圖核極變換器來解決比例因子推理的挑戰(zhàn)。PixelSplat利用尺度感知特征圖,提出了一種預(yù)測高斯基元集參數(shù)的新方法。場景通過像素對齊的高斯進行參數(shù)化,從而在訓(xùn)練過程中隱式生成或刪除高斯基元。這種策略有助于避免局部極小值,同時確保梯度流的平滑。
單目3D重建能夠使用單個相機從2D圖像推斷3D場景的形狀和結(jié)構(gòu)。單目3D重建的關(guān)鍵在于對圖像中的透視關(guān)系、紋理和運動模式進行細(xì)致的分析。通過采用單目技術(shù),可以準(zhǔn)確估計物體之間的距離并辨別場景的整體形狀。Szymanowicz介紹了Splatter Image,這是一種用于單目3D目標(biāo)重建的超快速方法。這種方法利用2D CNN架構(gòu)來有效地處理圖像,預(yù)測偽圖像,其中每個像素由彩色3D高斯表示。Splatter Image演示了在合成和真實基準(zhǔn)上的快速訓(xùn)練和評估,而不需要標(biāo)準(zhǔn)的相機位姿。此外,它還能夠通過結(jié)合跨視圖注意力進行few-shot3D重建。
動態(tài)場景重建
3D-GS的高渲染速度和分辨率支持動態(tài)場景重建,包括人體跟蹤和大型城市場景重建。
林介紹了基于3D-GS的高斯流,用于快速動態(tài)3D場景重建和實時渲染,方便了靜態(tài)和動態(tài)3D場景的分割、編輯和合成。該方法引入了雙域變形模型(DDDM),通過時域的多項式擬合和頻域的傅立葉級數(shù)擬合來捕捉每個屬性的時間相關(guān)殘差。高斯流能夠消除為每個幀訓(xùn)練單獨的高斯算子的需要,或者引入額外的隱式神經(jīng)場來建模3D動力學(xué)。
挑戰(zhàn):由于3D-GS是一個用于重建的顯式表示模型,每個高斯核可能不一定位于某個目標(biāo)的表面上,這對表面網(wǎng)格提取提出了挑戰(zhàn)。需要約束高斯核以附著到目標(biāo)的表面,但這可能會導(dǎo)致渲染精度降低。
機會:(i)對于few-shot重建,與擴散模型集成或消除對相機位姿的要求可以促進大規(guī)模訓(xùn)練。(ii)此外,對于表面網(wǎng)格提取,引入光照分解的方法可以提取更真實的表面紋理。(iii)在動態(tài)場景重建中,優(yōu)先考慮速度和圖像細(xì)節(jié)保存之間的平衡優(yōu)化可能是相當(dāng)可觀的。
Manipulation
由于3D-GS的顯式特性,它對于編輯任務(wù)具有很大的優(yōu)勢,因為每個3D高斯都單獨存在(圖5)。通過在應(yīng)用所需約束的情況下直接操縱3D高斯,可以輕松編輯3D場景。
Text-guided Manipulation
近年來,文本引導(dǎo)操作的數(shù)量激增。因此,文本引導(dǎo)操作由于其接近人類語音而引起了越來越多的關(guān)注。此外,隨著對大型語言模型的訪問變得越來越廣泛,LLM引導(dǎo)操作的使用有望成為未來的發(fā)展方向。方向GaussianEditor介紹了使用3D Gaussians和文本指令對3D場景進行精確編輯的方法。第一步涉及提取與所提供的文本指令相對應(yīng)的感興趣區(qū)域(RoI),并將其與3D高斯對齊。然后,該高斯RoI用于控制編輯過程,從而實現(xiàn)細(xì)粒度調(diào)整。
Non-rigid Manipulation
非剛性目標(biāo)可以改變和變形形狀,從而能夠更逼真地模擬軟目標(biāo)、生物組織和流體。這些目標(biāo)提供了幾個優(yōu)點,包括提高真實性和改進對目標(biāo)變形和行為的描述。此外,這些模型允許不同的效果,因為它們可以通過變形來響應(yīng)外力和約束。然而,非剛性物體也存在某些挑戰(zhàn)。它們的特點是其復(fù)雜性,在編輯和模擬過程中需要仔細(xì)考慮目標(biāo)變形、連續(xù)性和碰撞等因素。此外,非剛性目標(biāo)的實時交互性能在應(yīng)用中可能會受到限制,特別是在處理大規(guī)模和復(fù)雜的非剛性目標(biāo)時。
Time-efficient Editing
雖然3DGS確實是一種快速渲染技術(shù),但在編輯3D高斯圖時,它的實時操作至關(guān)重要。因此,迫切需要開發(fā)具有時間效率的3DGS的編輯方法。
黃提出了Point'nMove,通過曝光區(qū)域修復(fù)實現(xiàn)場景目標(biāo)的交互式操作。直觀的目標(biāo)選擇和實時編輯增強了交互性。為了實現(xiàn)這一點,他們利用了高斯Splatting輻射場的明確性質(zhì)和速度。顯式表示公式允許開發(fā)雙階段自提示分割算法,其中2D提示點用于創(chuàng)建3D掩模。該算法有助于遮罩細(xì)化和合并,最大限度地減少更改,為場景修復(fù)提供良好的初始化,并實現(xiàn)實時編輯,而無需每次編輯訓(xùn)練。同時,陳介紹了用于3D編輯的GaussianEditor,該編輯器使用高斯splatting來增強整個編輯過程的控制和效率。GaussianEditor采用高斯語義跟蹤來準(zhǔn)確識別和定位特定的編輯區(qū)域。然后,它利用分層高斯splatting(HGS)在流動性和穩(wěn)定性之間取得平衡,從而在隨機原理的指導(dǎo)下產(chǎn)生詳細(xì)的結(jié)果。此外,GaussianEditor還包括用于高斯splatting的專用3D修復(fù)算法,該算法簡化了目標(biāo)的移除和集成,并顯著縮短了編輯時間。
4D Manipulation
隨著動態(tài)神經(jīng)3D表示的引入,4D場景重建領(lǐng)域取得了顯著進展。這些進步極大地提高了捕捉和描繪動態(tài)場景的能力。然而,盡管取得了這些突破,這些4D場景的交互式編輯仍然存在重大障礙。主要挑戰(zhàn)在于保證4D編輯過程中的時空一致性和保持高質(zhì)量,同時提供交互式和高級編輯功能。
Shao介紹了使用文本指令編輯動態(tài)4D 資產(chǎn)的Control4D。Control4D旨在克服4D編輯中常見的挑戰(zhàn),特別是現(xiàn)有4D表示的局限性以及基于擴散的編輯器導(dǎo)致的不一致編輯結(jié)果。GaussianPlanes最初被提出作為一種新的4D表示,它通過在3D空間和時間中基于平面的分解來增強高斯splatting的結(jié)構(gòu)。這種方法提高了4D編輯的效率和穩(wěn)健性。此外,利用4D生成器從基于擴散的編輯器生成的編輯圖像中學(xué)習(xí)更連續(xù)的生成空間,有效地增強了4D編輯的一致性和質(zhì)量。
挑戰(zhàn):首先,在文本引導(dǎo)操作中,興趣區(qū)域(ROI)的選擇依賴于分割模型的性能,而分割模型受到噪聲的影響。其次,在編輯3D高斯圖時,經(jīng)常會忽略幾個重要的物理方面。最后,在4D編輯中實現(xiàn)幀一致性仍有改進的空間。
機會:i)在3D-GS的操作中,現(xiàn)有的2D擴散模型在為復(fù)雜的提示提供足夠的指導(dǎo)方面遇到了困難,導(dǎo)致在3D編輯時受到限制。因此,高效準(zhǔn)確的2D擴散模型可以作為編輯3D高斯的更好指導(dǎo)。ii)現(xiàn)有方法主要通過最小的運動變化和準(zhǔn)確的相機姿態(tài)進行了測試。將其適用范圍擴大到涉及激烈運動的場景仍然是一個有待調(diào)查的領(lǐng)域。
生成
由于在擴散模型和3D表示方面取得了重大進展,從文本/圖像提示生成3D資產(chǎn)現(xiàn)在是AIGC領(lǐng)域一項很有前途的任務(wù)。此外,采用3D-GS作為目標(biāo)(圖6a)和場景(圖6b)的顯式表示,可以實現(xiàn)快速甚至實時渲染。此外,一些工作側(cè)重于改進分?jǐn)?shù)蒸餾采樣(SDS)管道中固有的耗時優(yōu)化過程(圖6c)。雖然3D生成已經(jīng)顯示出一些令人印象深刻的結(jié)果,但4D生成(圖6d)仍然是一個具有挑戰(zhàn)性且未充分探索的主題。
Object-level 3D Generation
3D擴散模型在3D生成中具有良好的3D一致性,而二維擴散模型具有較強的泛化能力。Yi將兩者的優(yōu)點結(jié)合起來,提出了用于快速生成和實時渲染的GaussianDreamer。GaussianDreamer首先在3D擴散模型的幫助下初始化3D Gaussians,以獲取幾何先驗,并引入噪聲點增長和顏色擾動兩種操作來補充初始化的Gaussianss,以進一步豐富內(nèi)容。隨后,借助于2D擴散模型和SDS的文本提示,對3D高斯進行了優(yōu)化。然而,這種方法仍然存在多人臉問題,并且無法生成大規(guī)模場景。
Scene-level 3D Generation
Vilesov提出CG3D以合成方式生成可縮放的3D資產(chǎn),以僅從文本輸入形成物理逼真的場景。CG3D用一組高斯表示場景中的每個目標(biāo),并將目標(biāo)轉(zhuǎn)換為具有旋轉(zhuǎn)、平移和縮放等交互參數(shù)的合成坐標(biāo)。
3D生成加速
具有NeRF表示的2D提升方法因其耗時的優(yōu)化過程而臭名昭著。因此,唐提出了DreamGaussian,通過用3D Gaussian Splatting代替NeRF表示來提高3D生成效率。具體而言,DreamGaussian通過高斯splatting的漸進加密簡化了優(yōu)化環(huán)境,該方法用隨機位置初始化高斯,并定期加密它們,以與生成進度保持一致。為了提高生成質(zhì)量,它進一步引入了一種高效的網(wǎng)格提取算法,該算法具有逐塊局部密度查詢和執(zhí)行圖像空間監(jiān)督的UV空間紋理細(xì)化階段。因此,DreamGaussian可以在2分鐘內(nèi)從單目圖像生成高質(zhì)量的紋理網(wǎng)格。
盡管與基于NeRF的方法相比,利用3D-GS的文本到3D方法具有時間效率優(yōu)勢,但它們?nèi)匀粫?jīng)歷較長的生成時間。這主要歸因于SDS或變分分?jǐn)?shù)蒸餾(VSD)過程中基于梯度的優(yōu)化所涉及的復(fù)雜計算和廣泛迭代。周介紹了Dreamprompt,這是一種嵌入式算法,利用并行計算通過更快地求解ODE來加快蒸餾過程。Dreampromert推廣的Picard迭代算法允許并行化涉及可變維度變化的順序梯度更新步驟。這一功能使Dreamproper非常適合使用3D-GS的3D方法,因為由于其拆分和修剪操作,優(yōu)化過程可能涉及不同數(shù)量的高斯。實驗結(jié)果表明,速度提高了4.7倍,對發(fā)電質(zhì)量的影響最小。
Text-to-4D Generation
Ling引入了Align Your Gaussians(AYG),將3D合成擴展到具有額外時間維度的4D生成。4D表示將3D高斯場與變形場相結(jié)合,對3D高斯場的場景動力學(xué)進行建模,并變換它們的集合以表示目標(biāo)運動。AYG從生成具有3D感知的多視圖擴散模型和常規(guī)文本到圖像模型的初始靜態(tài)3D形狀開始。然后,使用文本到視頻模型和文本到圖像模型來優(yōu)化變形場,以分別捕獲時間動態(tài)并保持所有幀的高視覺質(zhì)量。此外,采用運動放大機制和新的自回歸合成方案來生成和組合多個4D序列,以實現(xiàn)更長的世代。值得注意的是,由于3D高斯的明確性質(zhì),可以組合不同的動態(tài)場景,每個場景都有自己的高斯集和變形場,從而能夠?qū)⒍鄠€4D目標(biāo)組合成大型動態(tài)場景。
挑戰(zhàn):i)合成生成仍然是一個懸而未決的問題,因為大多數(shù)方法都不支持這種創(chuàng)建。盡管CG3D提出了一個組成框架,但它只支持物體之間的剛體相互作用。此外,AYG中的組成4D序列不能描述動態(tài)目標(biāo)的拓?fù)渥兓i)使原始3D-GS中的自適應(yīng)密度控制操作適應(yīng)生成框架是不平凡的,因此簡單的方法是固定用于表示目標(biāo)的高斯數(shù)。然而,這樣的設(shè)計嚴(yán)重限制了模型創(chuàng)建復(fù)雜幾何體的能力。
機會:i)多面問題,也稱為Janus問題,存在于大多數(shù)2D提升方法中。如上所述,GaussianDreamer通過引入3D先驗來緩解這種不足。有鑒于此,利用3D感知擴散模型或多視圖2D擴散模型可以是進一步改進的可能方向。ii)以各種類型的定制數(shù)據(jù)作為輸入并讓用戶對生成過程有更多控制權(quán)的個性化生成應(yīng)該是未來工作的一條令人興奮的途徑。iii)當(dāng)文本提示由模糊信息和復(fù)雜邏輯組成時,文本到3D的方法往往會產(chǎn)生不令人滿意的結(jié)果。在這方面,增強文本編碼器的語言理解能力也可以提高生成質(zhì)量。
感知
利用3D-GS,3D感知有可能增強開放詞匯語義目標(biāo)檢測和定位(圖7a)、3D分割(圖7b)、運動目標(biāo)象跟蹤(圖7c)和SLAM系統(tǒng)的開發(fā)(圖7d)。
檢測
3D場景中的語義目標(biāo)檢測或定位過程可以顯著增強對環(huán)境的理解和感知,并有利于自動駕駛系統(tǒng)和智能制造等應(yīng)用。受ChatGPT成功的鼓舞,施介紹了專門為開放詞匯查詢?nèi)蝿?wù)設(shè)計的場景表示語言嵌入式3D高斯,它成功地將量化的緊湊語義特征融入到廣泛的3D高斯中,最大限度地減少了內(nèi)存和存儲需求。為了緩解不同視角下產(chǎn)生的語義不一致,提出了一種特征平滑程序,利用3D高斯的空間位置和語義不確定性,動態(tài)降低嵌入語義特征的空間頻率。同時,Zuo提出了基礎(chǔ)模型嵌入高斯Splatting(FMGS),它集成了3D-GS來表示幾何和外觀,以及多分辨率哈希編碼(MHE)來實現(xiàn)高效的語言嵌入。FMGS旨在解決房間尺度場景中的內(nèi)存限制問題。此外,為了解決像素錯位的問題,F(xiàn)MGS結(jié)合了像素對齊損失,以將相同語義實體的渲染特征距離與像素級語義邊界對齊。FMGS的結(jié)果顯示出顯著的多視圖語義一致性和在開放詞匯上下文中定位語義目標(biāo)的令人印象深刻的性能。
分割
3D場景分割的意義不僅在于提高場景分割的準(zhǔn)確性,還在于為真實世界的3D感知任務(wù)提供強大的支持。從實時場景編輯和目標(biāo)去除到目標(biāo)修復(fù)和場景重組,3D場景分割方法的應(yīng)用無疑拓寬了計算機視覺在虛擬現(xiàn)實和自動駕駛等領(lǐng)域的視野。
2D分割模型的結(jié)合可以成為指導(dǎo)3D-GS分割過程的寶貴資產(chǎn)。這種直觀的概念有可能提高分割過程的準(zhǔn)確性和效率。Lan介紹了一種3D高斯分割方法,該方法利用2D分割作為監(jiān)督,為每個3D高斯分配一個目標(biāo)代碼來表示其分類概率分布。提供指導(dǎo)以通過最小化在特定姿勢處的2D分割圖和渲染的分割圖之間的差異來確保每個3D高斯的準(zhǔn)確分類。此外,KNN聚類用于解決3D高斯圖中的語義模糊問題,而統(tǒng)計濾波用于消除不正確分割的3D高斯圖。這種方法成功地獲取了3D場景的語義知識,并在短時間內(nèi)從特定視點有效地分割多個目標(biāo),輸出了令人信服的結(jié)果。
跟蹤
3D-GS的使用方便了動態(tài)場景的重建。因此,在這些場景中跟蹤動態(tài)目標(biāo)已成為一個新的探索領(lǐng)域,對自動駕駛等應(yīng)用做出了重大貢獻。
Zhou介紹了DrivingGaussian重構(gòu)動態(tài)大尺度駕駛場景的方法。DrivingGaussian通過在包含移動目標(biāo)的場景中使用增量靜態(tài)3D高斯逐步對靜態(tài)背景進行建模。DrivingGaussian利用復(fù)合動態(tài)高斯圖來準(zhǔn)確重建單個目標(biāo),恢復(fù)它們的位置,并在存在多個移動目標(biāo)的情況下有效處理遮擋關(guān)系。此外,在3D-GS之前使用激光雷達有助于通過捕捉更精細(xì)的細(xì)節(jié)和確保全景一致性來改進場景重建。DrivingGaussian成功實現(xiàn)了高保真度和多攝像頭一致的真實感環(huán)繞視圖合成,使其適用于廣泛的任務(wù),包括角落案例的模擬。
SLAM
在3D感知領(lǐng)域,將3D-GS集成到SLAM系統(tǒng)中引起了人們的極大關(guān)注。在本節(jié)中,我們將探討SLAM的各種應(yīng)用和進步,這些應(yīng)用和進步是通過集成3D高斯表示而實現(xiàn)的。此外,本節(jié)強調(diào)了當(dāng)前方法在解決現(xiàn)實世界場景中的有效性,并強調(diào)了SLAM領(lǐng)域內(nèi)可能性的持續(xù)增長。
由于效率的重要性,Yan提出了GS-SLAM,將3D高斯表示集成到SLAM系統(tǒng)中。GS-SLAM利用了實時可微分的splatting渲染管道,顯著提高了地圖優(yōu)化和RGB-D重渲染速度。GS-SLAM引入了一種用于擴展3D高斯的自適應(yīng)策略,旨在有效地重建新觀測到的場景幾何結(jié)構(gòu)。此外,它采用了從粗到細(xì)的技術(shù)來選擇可靠的3D高斯,提高了相機姿態(tài)估計的準(zhǔn)確性。GS-SLAM有效地提高了效率和準(zhǔn)確性之間的權(quán)衡,超過了最近使用神經(jīng)隱式表示的SLAM方法。
相機位姿估計
相機位姿估計是3D重建和感知領(lǐng)域的一個基礎(chǔ)方面。3D-GS的結(jié)合有可能為這一重要主題提供有見地的方法。
在SLAM中,估計6D姿態(tài)的任務(wù)提出了相當(dāng)大的挑戰(zhàn)。為了解決這一挑戰(zhàn),Sun引入了iComMa,將傳統(tǒng)的幾何匹配方法與渲染比較技術(shù)相結(jié)合。iComMa反轉(zhuǎn)3D-GS以捕捉姿態(tài)梯度信息,用于精確的姿態(tài)計算,并采用渲染和比較策略,以確保在優(yōu)化的最后階段提高精度。此外,還引入了匹配模塊,通過最小化2D關(guān)鍵點之間的距離來增強模型對不利初始化的魯棒性。iComMa旨在有效處理各種復(fù)雜和具有挑戰(zhàn)性的場景,包括具有顯著角度偏差的情況,同時保持預(yù)測結(jié)果的高精度。
挑戰(zhàn):(i)現(xiàn)有的基于3D-GS的動態(tài)場景目標(biāo)跟蹤方法在跟蹤可變形目標(biāo)(如行人)方面可能會遇到挑戰(zhàn),這給自動駕駛等系統(tǒng)帶來了困難。(ii)此外,檢測高反射或半透明物體,如電視和鏡子,仍然是一項具有挑戰(zhàn)性的任務(wù),因為3D-GS對這些物體的建模能力有限。(iii)SLAM系統(tǒng)可能對各種因素表現(xiàn)出敏感性,包括運動模糊、大量深度噪聲和劇烈旋轉(zhuǎn)。(vi)此外,在3D-GS的表示中,高斯分布可以鏈接到多個目標(biāo),從而增加了利用特征匹配精確分割單個目標(biāo)的復(fù)雜性。
機會:(i)基于3D-GS的實時跟蹤有潛力應(yīng)用于各種醫(yī)療場景,包括放射治療。(ii)此外,輸入已知的相機本質(zhì)和密集深度對于執(zhí)行SLAM至關(guān)重要,消除這些依賴性為未來的探索提供了一個有趣的方向。
虛擬人體
學(xué)習(xí)具有NeRF和SDF等隱式神經(jīng)表示的虛擬人化身需要很長的優(yōu)化和渲染時間,并且難以生成令人滿意的質(zhì)量新穎的身體姿勢。相反,實驗證明,利用3D高斯表示可以提高訓(xùn)練和渲染速度,并提供對人體變形的顯式控制。此外,3D高斯方法中的forward skinning避免了神經(jīng)隱式表示中使用的inverse skinning中存在的對應(yīng)模糊性。
通常,基于3D高斯的方法首先使用SMPL模板初始化高斯,然后使用線性混合蒙皮(LBS)將表示變形到觀測空間中。然后通過多視圖(圖8a)或單目視頻(圖8b)渲染和監(jiān)督高斯。此外,一些方法專門用于重建人頭頭像(圖8c),而一些方法則專注于可推廣的管道,而不是每個主題的優(yōu)化。
Multi-view Video Synthesis
Moreau提出了一種HuGS,用可動畫化的人體從多視圖視頻中渲染照片逼真的人體化身,該人體用一組3D高斯表示人體。HuGS中的3D高斯在原始設(shè)置的基礎(chǔ)上添加了一個蒙皮權(quán)重向量,該向量調(diào)節(jié)每個身體關(guān)節(jié)對高斯運動方式的影響,以及一個對非剛性運動進行編碼的潛在代碼。HuGS應(yīng)用LBS來變形由SMPL模型初始化的規(guī)范基元,并且僅學(xué)習(xí)蒙皮權(quán)重。由于LBS僅對身體關(guān)節(jié)的剛性變形進行編碼,因此HuGS隨后引入了局部非剛性細(xì)化階段,以對服裝的非剛性變形進行建模,同時考慮身體姿勢編碼和環(huán)境遮擋。盡管在新的姿態(tài)合成上取得了有競爭力的性能,但HuGS獨立地優(yōu)化和變形每個高斯,忽略了局部鄰域中高斯之間的內(nèi)在關(guān)系。
Monocular Video Synthesis
同時,Kocabas設(shè)計了一個變形模型,僅從單眼視頻中用3D高斯表示可動畫化的人類和靜態(tài)場景。在實踐中,人體和場景被解開,并從SMPL身體模型中分別構(gòu)建運動點云的結(jié)構(gòu)。人類高斯通過其在規(guī)范空間中的中心位置、一個特征三平面和三個MLP進行參數(shù)化,這些MLP預(yù)測高斯的特性,并在類似于Moreau的管道中進行進一步優(yōu)化。
Human Head Animation
GaussianAvatars專注于通過將3D Gaussians裝配到參數(shù)化可變形人臉模型來重建頭部化身。特別是,3D高斯在FLAME網(wǎng)格的每個三角形的中心進行初始化,其參數(shù)由三角形屬性定義。此外,為了在不破壞三角形和splats之間的連接的情況下適應(yīng)該方法的自適應(yīng)密度控制操作,設(shè)計了一種綁定繼承策略,以使用其父三角形的索引對高斯進行額外的參數(shù)化,從而使新的高斯點保持在FLAME網(wǎng)格上。然而,這種方法缺乏對FLAME未建模的區(qū)域(如頭發(fā)和其他配件)的控制。
Generalizable Methods
與大多數(shù)依賴于每個受試者優(yōu)化的方法相反,Zheng提出了一種可推廣的3D-GS,在沒有任何微調(diào)或優(yōu)化的情況下實時合成看不見的人類表演者的新穎視圖。所提出的GPS Gaussian直接從具有不同性質(zhì)的海量3D人體掃描數(shù)據(jù)中以前饋的方式回歸高斯參數(shù),以學(xué)習(xí)豐富的人體先驗,從而實現(xiàn)即時的人體外觀渲染。此外,GPS Gaussion采用高效的2D CNN對源視圖圖像進行編碼,并預(yù)測2D高斯參數(shù)圖。具體地,經(jīng)由深度估計模塊學(xué)習(xí)的深度圖和RGB圖像分別用作3D位置圖和顏色圖,以形成高斯表示,同時以逐像素的方式預(yù)測3D高斯的其他參數(shù)。稍后,將這些參數(shù)貼圖取消投影到3D空間,并聚合以進行新穎的視圖渲染。
挑戰(zhàn):i)在由SMPL模型和LBS初始化的3D高斯人體中,服裝變形沒有得到很好的學(xué)習(xí)。ii)在大多數(shù)方法中,環(huán)境照明沒有參數(shù)化,這使得重新照明化身是不可行的。iii)盡管在從單目視頻重建人類化身方面已經(jīng)取得了很大進展,但恢復(fù)精細(xì)細(xì)節(jié)仍然是一個棘手的問題,因為從稀疏視圖僅提供有限的信息。iv)目前,大多數(shù)方法中的3D高斯都是獨立優(yōu)化和變形的,忽略了局部區(qū)域高斯之間的內(nèi)在結(jié)構(gòu)和連通關(guān)系。
機會:i)對于人類頭部建模,利用3DMM控制運動的方法也無法表達微妙的面部表情。探索一種更有效的方法來單獨控制非剛性變形是未來工作的重點。ii)如何從學(xué)習(xí)的3D高斯中提取網(wǎng)格仍然是未來有待研究的工作。iii)基于3DMM的方法和基于SMPL的方法的重建性能都受到模型參數(shù)初始化的約束。固定參數(shù)的不準(zhǔn)確可能會嚴(yán)重影響模型與監(jiān)督的一致性,從而導(dǎo)致紋理模糊。注意到3DMM和SMPL未能對人體的松散結(jié)構(gòu)進行建模。在這方面,在優(yōu)化過程中增強模板模型的表達能力是未來工作的一個有希望的突破。
討論和未來工作
3D高斯Splatting在計算機圖形學(xué)和計算機視覺領(lǐng)域顯示出巨大的潛力。然而,由于與3D高斯splatting相關(guān)的復(fù)雜結(jié)構(gòu)和不同任務(wù),各種挑戰(zhàn)仍然存在。本節(jié)旨在應(yīng)對這些挑戰(zhàn),并提出未來研究的潛在途徑。
處理3D-GS中的浮動元素。3D高斯splatting中的一個顯著問題是渲染空間中浮動元素的普遍性,主要來源于圖像背景。已經(jīng)建議使用不透明度閾值來減少這些浮動的發(fā)生,從而增強通過PSNR和SSIM度量測量的圖像渲染質(zhì)量。然而,這些浮動元素會顯著影響渲染圖像的視覺質(zhì)量。一個潛在的研究領(lǐng)域可以集中在將這些漂浮物錨定在更靠近表面的位置的策略上,從而增強它們的位置相關(guān)性和對圖像質(zhì)量的貢獻。
渲染和重建之間的權(quán)衡。如前所述,浮動元素的存在顯著影響圖像的視覺質(zhì)量。但是,它們的影響超出了渲染范圍,影響了網(wǎng)格重建過程。SuGaR方法利用基于不透明度的方法在網(wǎng)格表面周圍生成3D高斯,這雖然有利于重建,但可能會影響渲染質(zhì)量。這突出了需要一種細(xì)致入微的方法來平衡卓越渲染和準(zhǔn)確重建。探索3D-GS如何增強或補充其他先進的多視圖重建技術(shù)是另一條有前景的研究途徑。
渲染真實性。當(dāng)前的照明分解方法在邊界模糊的場景中顯示出有限的有效性,通常需要在優(yōu)化過程中包含對象遮罩。這種限制主要源于背景對優(yōu)化過程的不利影響,這是通過3D高斯散射生成的點云的獨特質(zhì)量的結(jié)果。與傳統(tǒng)的曲面點不同,這些點云顯示類似粒子的特性,包括顏色和部分透明度,與傳統(tǒng)曲面點不同。考慮到這些挑戰(zhàn),將多視圖立體(MVS)集成到優(yōu)化過程中成為一個很有前途的方向。這種集成可以顯著提高幾何精度,為未來的研究提供了一條有希望的途徑。
實時渲染。為了便于實時渲染,Scaffold GS引入了來自稀疏體素網(wǎng)格的錨點,這有助于分布局部3D高斯,從而提高渲染速度。然而,該方法對統(tǒng)一網(wǎng)格大小的依賴限制了其適應(yīng)性。八叉樹表示的使用是一種很有前途的替代方法,它可以靈活地將更復(fù)雜的區(qū)域劃分為更小的網(wǎng)格進行詳細(xì)處理。雖然這些方法顯示出在小場景中實現(xiàn)實時渲染的潛力,但要擴展到大環(huán)境(如城市景觀),還需要進一步的創(chuàng)新和額外的努力。
Few-shot的3D-GS。最近的一些few-shot研究探索了在一些few-shot設(shè)置中使用深度引導(dǎo)優(yōu)化高斯飛濺。雖然這些方法很有希望,但也面臨著顯著的挑戰(zhàn)。few-shot方法的成功在很大程度上取決于單目深度估計模型的準(zhǔn)確性。此外,它們的性能可能因不同的數(shù)據(jù)域而異,從而影響3D-GS的優(yōu)化過程。此外,對將估計深度擬合到COLMAP點的依賴性引入了對COLMAP本身性能的依賴。因此,這些限制在處理COLMAP可能遇到困難的無紋理區(qū)域或復(fù)雜表面方面帶來了挑戰(zhàn)。對于未來的研究,使用相互依存的深度估計來研究3D場景的優(yōu)化將是有益的,從而減少對COLMAP點的依賴。未來工作的另一個途徑是研究在不同數(shù)據(jù)集中正則化幾何體的方法,特別是在深度估計(如天空)面臨挑戰(zhàn)的領(lǐng)域。
物理學(xué)的融合。與材料的物理行為和視覺外觀本質(zhì)上相互關(guān)聯(lián)的自然世界不同,傳統(tǒng)的基于物理的視覺內(nèi)容生成管道是一個費力且多階段的過程。這個過程包括構(gòu)建幾何體,為模擬做準(zhǔn)備(通常使用四面體化等技術(shù)),模擬物理,并最終渲染場景。盡管該序列是有效的,但它引入了中間階段,這可能會導(dǎo)致模擬和最終可視化之間的差異。這種差異在NeRF范式中也很明顯,其中渲染幾何體嵌入模擬幾何體中。為了解決這個問題,建議將這兩個方面結(jié)合起來,提倡對可用于模擬和渲染目的的物質(zhì)進行統(tǒng)一表示。此外,一個很有前途的方向是將材料自動分配給3D-GS。
精確重建。原始3D-GS無法區(qū)分鏡面反射區(qū)域和非鏡面反射區(qū)域。因此,3D-GS會在鏡面反射部分產(chǎn)生不合理的三維高斯。非理性三維高斯的存在會顯著影響重建過程,導(dǎo)致產(chǎn)生有缺陷的網(wǎng)格。此外,已經(jīng)觀察到,包括鏡面反射分量也會導(dǎo)致產(chǎn)生不可靠的網(wǎng)格。因此,為了實現(xiàn)精確的重建,在精確重建網(wǎng)格之前,必須通過照明分解3D高斯。
真實生成。由DreamGaussianDreamer開創(chuàng)的3D-GS開始了其3D生成之旅。但是,生成的三維資產(chǎn)的幾何圖形和紋理仍需要改進。在幾何圖形方面,將更精確的SDF和UDF集成到3D-GS中,可以生成更逼真、更準(zhǔn)確的網(wǎng)格。此外,可以有效地利用各種傳統(tǒng)的圖形技術(shù),例如Medial Fields。關(guān)于紋理,最近提出的兩種方法,MVD和TexFusion,在紋理生成方面表現(xiàn)出了令人印象深刻的能力。這些進步有可能應(yīng)用于3D-GS紋理網(wǎng)格生成。此外,Relightable3DGaussianShader和GaussianShadowr已經(jīng)探索了3D-GS的著色方面。然而,在生成的網(wǎng)格上進行BRDF分解的問題仍然沒有答案。
使用大型基礎(chǔ)模型擴展3D-GS。施等最近的研究表明,將語言嵌入3D-GS可以顯著增強對3D場景的理解。隨著2023年大型基礎(chǔ)模型的出現(xiàn),它們的非凡能力在廣泛的視覺任務(wù)中得到了展示。值得注意的是,SAM模型已成為一種強大的分割工具,并在3D-GS中成功應(yīng)用。除了分割,LLM模型還有望用于語言引導(dǎo)的生成、操作和感知任務(wù)。這突出了這些模型在廣泛應(yīng)用中的多功能性和實用性,進一步強調(diào)了它們在3D-GS中的重要性。值得注意的是,SAM模型已成為一種強大的分割工具,在3D-GS中獲得了成功的應(yīng)用。除了分割,LLM模型還有望用于語言引導(dǎo)的生成、操作和感知任務(wù)。這突出了這些模型在廣泛應(yīng)用中的多功能性和實用性,進一步強調(diào)了它們在3D-GS中的重要性。
訓(xùn)練3D-GS用于其他方法。一些工作使用3D-GS作為輔助工具來提高性能。例如,NeuSG利用3D-GS來增強NeuS的重建,而SpecNerf結(jié)合了高斯方向編碼來對鏡面反射進行建模。因此,3D-GS的獨特特性可以無縫集成到現(xiàn)有方法中,以進一步提高其性能??梢韵胂?,3D-GS可以與大型重建模型(LRM)相結(jié)合,或者與自動駕駛汽車領(lǐng)域現(xiàn)有的感知技術(shù)相結(jié)合,以增強其感知能力。