開始棄用NeRF?為什么Gaussian Splatting在自動駕駛場景如此受歡迎?
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
寫在前面&筆者的個人理解
三維 Gaussian splatting(3DGS)是近年來在顯式輻射場和計算機(jī)圖形學(xué)領(lǐng)域出現(xiàn)的一種變革性技術(shù)。這種創(chuàng)新方法的特點是使用了數(shù)百萬個3D高斯,這與神經(jīng)輻射場(NeRF)方法有很大的不同,后者主要使用隱式的基于坐標(biāo)的模型將空間坐標(biāo)映射到像素值。3D GS憑借其明確的場景表示和可微分的渲染算法,不僅保證了實時渲染能力,而且引入了前所未有的控制和場景編輯水平。這將3D GS定位為下一代3D重建和表示的潛在游戲規(guī)則改變者。為此我們首次系統(tǒng)地概述了3D GS領(lǐng)域的最新發(fā)展和關(guān)鍵貢獻(xiàn)。首先詳細(xì)探索了3D GS出現(xiàn)的基本原理和公式,為理解其意義奠定了基礎(chǔ)。進(jìn)而深度討論3D GS的實用性。通過促進(jìn)實時性能,3D GS開辟了大量應(yīng)用,從虛擬現(xiàn)實到交互式媒體等等。此外,還對領(lǐng)先的3D GS模型進(jìn)行了比較分析,并在各種基準(zhǔn)任務(wù)中進(jìn)行了評估,以突出其性能和實用性。該綜述的結(jié)論是確定了當(dāng)前的挑戰(zhàn),并提出了該領(lǐng)域未來研究的潛在途徑。通過這項調(diào)查,我們旨在為新來者和經(jīng)驗豐富的研究人員提供寶貴的資源,促進(jìn)在適用和明確的輻射場表示方面的進(jìn)一步探索和進(jìn)步。
為了幫助讀者跟上3D GS的快速發(fā)展,我們提供了首個關(guān)于3D GS的調(diào)查綜述,我們系統(tǒng)而及時地收集了有關(guān)該主題的最重要的最新文獻(xiàn)。鑒于3D GS是最近的一項創(chuàng)新(圖1),我們的重點是自其推出以來出現(xiàn)的各種發(fā)展和貢獻(xiàn)。3D GS的相關(guān)工作主要來源于arxiv。文章的主要目標(biāo)是對3D GS的初步發(fā)展、理論基礎(chǔ)和新興應(yīng)用進(jìn)行全面和最新的分析,突出其在該領(lǐng)域的革命性潛力。承認(rèn)3D GS的新生但快速發(fā)展的性質(zhì),本次調(diào)查還旨在確定和討論該領(lǐng)域的當(dāng)前挑戰(zhàn)和未來前景。我們提供了對3D GS可能促進(jìn)的正在進(jìn)行的研究方向和潛在進(jìn)展的見解。希望給大家的不僅僅是提供一個學(xué)術(shù)綜述,而是促進(jìn)這一領(lǐng)域的進(jìn)一步研究和創(chuàng)新。本文的文章結(jié)構(gòu)如圖2所示:
背景介紹
本節(jié)首先提供輻射場的簡要公式,輻射場是場景渲染中的一個關(guān)鍵概念。它概述了兩種主要類型的輻射場表示:隱式如NeRF,它使用神經(jīng)網(wǎng)絡(luò)進(jìn)行直接但計算要求高的渲染;和顯式的比如網(wǎng)格,它采用離散結(jié)構(gòu)來更快地訪問,但代價是更高的內(nèi)存使用率。下文進(jìn)一步建立了與相關(guān)領(lǐng)域的聯(lián)系,如場景重建和渲染。
問題定義
輻射場:輻射場是三維空間中光分布的表示,它捕捉光如何與環(huán)境中的表面和材料相互作用。從數(shù)學(xué)上講,輻射場可以描述為函數(shù),其中將空間中的一個點和由球面坐標(biāo)指定的方向映射到非負(fù)輻射值。輻射場可以通過隱式或顯式表示進(jìn)行封裝,每種表示都具有特定的場景表示和渲染優(yōu)勢。
隱式輻射場:隱式輻射場表示場景中的光分布,而不明確定義場景的幾何體。在深度學(xué)習(xí)時代,它經(jīng)常使用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)連續(xù)的體積場景表示。最突出的例子是NeRF。在NeRF中,MLP網(wǎng)絡(luò)用于將一組空間坐標(biāo)和觀看方向映射到顏色和密度值。任何點的輻射度都不是明確存儲的,而是通過查詢神經(jīng)網(wǎng)絡(luò)實時計算的。因此,函數(shù)可以寫成:
這種格式允許對復(fù)雜場景進(jìn)行可微分和緊湊的表示,盡管由于體積光線行進(jìn),渲染過程中的計算負(fù)載往往很高。
顯式輻射場:相反,顯式輻射場直接表示離散空間結(jié)構(gòu)中的光分布,例如體素網(wǎng)格或點集。該結(jié)構(gòu)中的每個元素存儲其在空間中的相應(yīng)位置的輻射信息。這種方法允許更直接且通常更快地訪問輻射數(shù)據(jù),但代價是更高的內(nèi)存使用率和潛在的更低分辨率。顯式輻射場表示的一般形式可以寫成:
其中DataStructure可以是網(wǎng)格或點云,是基于觀看方向修改輻射的函數(shù)。
兩全其美的3D Gaussian Splatting:3D GS表示從隱式輻射場到顯式輻射場的轉(zhuǎn)變。它通過利用3D高斯作為靈活高效的表示,利用了這兩種方法的優(yōu)勢。這些高斯系數(shù)經(jīng)過優(yōu)化,可以準(zhǔn)確地表示場景,結(jié)合了基于神經(jīng)網(wǎng)絡(luò)的優(yōu)化和顯式結(jié)構(gòu)化數(shù)據(jù)存儲的優(yōu)點。這種混合方法旨在通過更快的訓(xùn)練和實時性能實現(xiàn)高質(zhì)量渲染,特別是對于復(fù)雜的場景和高分辨率輸出。3D高斯表示公式化為:
上下文和術(shù)語
許多技術(shù)和研究學(xué)科與3D GS有著密切的關(guān)系,下文將對其進(jìn)行簡要描述。
場景重建與渲染:粗略地說,場景重建涉及從圖像或其他數(shù)據(jù)的集合創(chuàng)建場景的3D模型。渲染是一個更具體的術(shù)語,專注于將計算機(jī)可讀信息(例如,場景中的3D對象)轉(zhuǎn)換為基于像素的圖像。早期的技術(shù)基于光場生成逼真的圖像。structure-from-motion(SfM)和多視圖立體(MVS)算法通過從圖像序列估計3D結(jié)構(gòu)進(jìn)一步推進(jìn)了這一領(lǐng)域。這些歷史方法為更復(fù)雜的場景重建和渲染技術(shù)奠定了基礎(chǔ)。
神經(jīng)渲染與輻射場:神經(jīng)渲染將深度學(xué)習(xí)與傳統(tǒng)圖形技術(shù)相結(jié)合,以創(chuàng)建照片級真實感圖像。早期的嘗試使用卷積神經(jīng)網(wǎng)絡(luò)(CNNs)來估計混合權(quán)重或紋理空間解決方案。輻射場表示一個函數(shù),該函數(shù)描述了通過空間中每個點在每個方向上傳播的光量。NeRFs使用神經(jīng)網(wǎng)絡(luò)對輻射場進(jìn)行建模,從而實現(xiàn)詳細(xì)逼真的場景渲染。
體積表示和Ray-Marching:體積表示不僅將目標(biāo)和場景建模為曲面,還將其建模為填充了材質(zhì)或空白空間的體積。這種方法可以更準(zhǔn)確地渲染霧、煙或半透明材料等現(xiàn)象。Ray-Marching是一種與體積表示一起使用的技術(shù),通過增量跟蹤穿過體積的光的路徑來渲染圖像。NeRF分享了體積射線行進(jìn)的相同精神,并引入了重要性采樣和位置編碼來提高合成圖像的質(zhì)量。在提供高質(zhì)量結(jié)果的同時,體積射線行進(jìn)在計算上是昂貴的,這促使人們尋找更有效的方法,如3D GS。
基于點的渲染:基于點的渲染是一種使用點而不是傳統(tǒng)多邊形來可視化3D場景的技術(shù)。這種方法對于渲染復(fù)雜、非結(jié)構(gòu)化或稀疏的幾何數(shù)據(jù)特別有效。點可以用額外的屬性來增強(qiáng),如可學(xué)習(xí)的神經(jīng)描述符,并有效地渲染,但這種方法可能會遇到諸如渲染中的漏洞或混疊效應(yīng)等問題。3D GS通過使用各向異性高斯來擴(kuò)展這一概念,以實現(xiàn)場景的更連續(xù)和更有凝聚力的表示。
顯式輻射場的3D高斯
3D GS在不依賴神經(jīng)組件的情況下,在實時、高分辨率圖像渲染方面取得了突破。
學(xué)習(xí)得到的3D高斯用于新視角合成
考慮一個由(數(shù)百萬)優(yōu)化的3D高斯表示的場景。目標(biāo)是根據(jù)指定的相機(jī)姿勢生成圖像?;叵胍幌?,NeRF是通過計算要求很高的體積射線行進(jìn)來完成這項任務(wù)的,對每個像素的3D空間點進(jìn)行采樣。這種模式難以實現(xiàn)高分辨率圖像合成,無法實現(xiàn)實時渲染速度。與此形成鮮明對比的是,3D GS首先將這些3D高斯投影到基于像素的圖像平面上,這一過程被稱為“splatting”(圖3a)。然后,3D GS對這些高斯進(jìn)行排序,并計算每個像素的值。如圖所示,NeRF和3D GS的渲染可以被視為彼此的逆過程。在接下來的內(nèi)容中,我們從3D高斯的定義開始,這是3D GS中場景表示的最小元素。接下來描述如何將這些3D高斯用于可微分渲染。最后介紹了3D GS中使用的加速技術(shù),這是快速渲染的關(guān)鍵。
三維高斯的性質(zhì):三維高斯的特征是其中心(位置)μ、不透明度α、三維協(xié)方差矩陣∑和顏色c。對于與視圖相關(guān)的外觀,c由球面諧波表示。所有屬性都是可學(xué)習(xí)的,并通過反向傳播進(jìn)行優(yōu)化。
Frustum Culling:給定指定的相機(jī)位姿,此步驟將確定哪些3D高斯位于相機(jī)的平截頭體之外。通過這樣做,給定視圖之外的3D高斯將不會參與后續(xù)計算,從而節(jié)省計算資源。
Splatting:**在該步驟中,3D高斯(橢球)被投影到2D圖像空間(橢球)中用于渲染。給定觀看變換W和3D協(xié)方差矩陣∑,投影的2D協(xié)方差矩陣∑′使用以下公式計算:
其中J是投影變換的仿射近似的Jacobian矩陣。
按像素渲染:在深入研究3D GS的最終版本之前,我們首先詳細(xì)介紹了其更簡單的形式,以深入了解其工作機(jī)制。3D GS利用多種技術(shù)來促進(jìn)并行計算。給定像素x的位置,其到所有重疊高斯的距離,即這些高斯的深度,可以通過觀看變換W來計算,形成高斯N的排序列表。然后,采用阿爾法合成來計算該像素的最終顏色:
其中是學(xué)習(xí)的顏色,最終不透明度是學(xué)習(xí)的不透明度和高斯值的乘積:
其中x′和μ是投影空間中的坐標(biāo)??紤]到生成所需的排序列表很難并行化,因此與NeRF相比,所描述的渲染過程可能會更慢,這是一個合理的擔(dān)憂。事實上,這種擔(dān)憂是有道理的;當(dāng)使用這種簡單的逐像素方法時,渲染速度可能會受到顯著影響。為了實現(xiàn)實時渲染,3DGS做出了一些讓步來適應(yīng)并行計算。
Tiles (Patches):為了避免為每個像素推導(dǎo)高斯系數(shù)的成本計算,3D GS將精度從像素級轉(zhuǎn)移到patch級細(xì)節(jié)。具體來說,3D GS最初將圖像劃分為多個不重疊的塊,在原始論文中稱為“tiles”。圖3b提供了tiles的圖示。每個瓦片包括16×16個像素。3D GS進(jìn)一步確定哪些tiles與這些投影的高斯圖相交。假設(shè)投影的高斯可能覆蓋多個tiles,邏輯方法包括復(fù)制高斯,為每個副本分配相關(guān)tiles的標(biāo)識符(即tile ID)。
并行渲染:在復(fù)制之后,3D GS將各個tile ID與從每個高斯的視圖變換獲得的深度值相組合。這生成字節(jié)的未排序列表,其中高位表示tile ID,低位表示深度。通過這樣做,排序后的列表可以直接用于渲染(即alpha合成)。圖3c和圖3d提供了這些概念的視覺演示。值得強(qiáng)調(diào)的是,渲染每個tile和像素都是獨立發(fā)生的,這使得這個過程非常適合并行計算。另一個好處是,每個tile的像素都可以訪問公共共享內(nèi)存,并保持統(tǒng)一的讀取序列,從而能夠以更高的效率并行執(zhí)行alpha合成。在原始論文的官方實現(xiàn)中,該框架將tile和像素的處理分別視為類似于CUDA編程架構(gòu)中的塊和線程。
簡而言之,3D GS在前向處理階段引入了幾種近似,以提高計算效率,同時保持高標(biāo)準(zhǔn)的圖像合成質(zhì)量。
3D Gaussian Splatting的優(yōu)化
3D GS的核心是一個優(yōu)化過程,旨在構(gòu)建大量的3D高斯集合,準(zhǔn)確捕捉場景的本質(zhì),從而促進(jìn)自由視點渲染。一方面,3D高斯的特性應(yīng)該通過可微分渲染來優(yōu)化,以適應(yīng)給定場景的紋理。另一方面,能夠很好地表示給定場景的3D高斯數(shù)是預(yù)先未知的。一個很有前途的途徑是讓神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)3D高斯密度。我們將介紹如何優(yōu)化每個高斯的性質(zhì)以及如何控制高斯的密度。這兩個過程在優(yōu)化工作流程中是交錯的。由于在優(yōu)化過程中有許多手動設(shè)置的超參數(shù),為了清晰起見,我們省略了大多數(shù)超參數(shù)的符號。
參數(shù)優(yōu)化
損失函數(shù):一旦圖像的合成完成,就將損失計算為渲染圖像和GT的差:
3D-GS的損失函數(shù)與NeRFs的損失函數(shù)略有不同。由于耗時的ray-marching,NeRF通常在像素級而不是圖像級進(jìn)行計算。
參數(shù)更新:3D高斯的大多數(shù)特性可以直接通過反向傳播進(jìn)行優(yōu)化。需要注意的是,直接優(yōu)化協(xié)方差矩陣∑會導(dǎo)致非正半定矩陣,這不符合通常與協(xié)方差矩陣相關(guān)的物理解釋。為了避免這個問題,3D GS選擇優(yōu)化四元數(shù)q和3D矢量s。q和s分別表示旋轉(zhuǎn)和縮放。這種方法允許協(xié)方差矩陣∑被重構(gòu)如下:
密度控制
初始化:3D GS從SfM或隨機(jī)初始化的稀疏點的初始集合開始。然后,采用點加密和修剪來控制三維高斯的密度。
點密集化:在點密集化階段,3D GS自適應(yīng)地增加高斯密度,以更好地捕捉場景的細(xì)節(jié)。這一過程特別關(guān)注幾何特征缺失的區(qū)域或高斯分布過于分散的區(qū)域。密集化在一定次數(shù)的迭代之后執(zhí)行,目標(biāo)是表現(xiàn)出大的視圖空間位置梯度(即,高于特定閾值)的高斯。它涉及在重建不足的區(qū)域克隆小高斯,或在重建過度的區(qū)域分裂大高斯。對于克隆,將創(chuàng)建高斯的副本,并將其移向位置梯度。對于分裂,用兩個較小的高斯代替一個較大的高斯,將它們的規(guī)??s小一個特定的因子。該步驟尋求高斯在3D空間中的最佳分布和表示,從而提高重建的整體質(zhì)量。
點修剪:點修剪階段涉及去除多余或影響較小的高斯,在某種程度上可以被視為一個正則化過程。這一步驟是通過消除幾乎透明的高斯(α低于指定閾值)和在世界空間或視圖空間中過大的高斯來執(zhí)行的。此外,為了防止輸入相機(jī)附近高斯密度的不合理增加,在一定次數(shù)的迭代后,將高斯的阿爾法值設(shè)置為接近零。這允許控制必要的高斯密度的增加,同時能夠淘汰多余的高斯。該過程不僅有助于節(jié)省計算資源,還確保模型中的高斯對場景的表示保持精確和有效。
應(yīng)用領(lǐng)域和任務(wù)
3D GS的變革潛力遠(yuǎn)遠(yuǎn)超出了其理論和計算的進(jìn)步。本節(jié)深入探討3D GS正在產(chǎn)生重大影響的各種開創(chuàng)性應(yīng)用領(lǐng)域,如機(jī)器人、場景重建和表示、人工智能生成的內(nèi)容、自動駕駛,甚至其他科學(xué)學(xué)科。3D GS的應(yīng)用展示了其多功能性和革命性的潛力。在這里,我們概述了一些最著名的應(yīng)用領(lǐng)域,深入了解3D GS如何在每個領(lǐng)域形成新的前沿。
SLAM
SLAM是機(jī)器人和自主系統(tǒng)的核心計算問題。它涉及機(jī)器人或設(shè)備在未知環(huán)境中理解其位置的挑戰(zhàn),同時建圖環(huán)境布局。SLAM在各種應(yīng)用中至關(guān)重要,包括自動駕駛汽車、增強(qiáng)現(xiàn)實和機(jī)器人導(dǎo)航。SLAM的核心是創(chuàng)建未知環(huán)境的地圖,并實時確定設(shè)備在該地圖上的位置。因此,SLAM對計算密集型場景表示技術(shù)提出了巨大的挑戰(zhàn),同時也是3D GS的良好試驗臺。
3D GS作為一種創(chuàng)新的場景表示方法進(jìn)入SLAM領(lǐng)域。傳統(tǒng)的SLAM系統(tǒng)通常使用點/曲面云或體素網(wǎng)格來表示環(huán)境。相比之下,3D GS利用各向異性高斯來更好地表示環(huán)境。這種表示提供了幾個好處:1)效率:自適應(yīng)地控制3D高斯的密度,以便緊湊地表示空間數(shù)據(jù),減少計算負(fù)載。2) 準(zhǔn)確性:各向異性高斯可以進(jìn)行更詳細(xì)、更準(zhǔn)確的環(huán)境建模,尤其適用于復(fù)雜或動態(tài)變化的場景。3) 適應(yīng)性:3D GS可以適應(yīng)各種規(guī)模和復(fù)雜的環(huán)境,使其適用于不同的SLAM應(yīng)用。一些創(chuàng)新研究在SLAM中使用了3D高斯飛濺,展示了這種范式的潛力和多功能性。
動態(tài)場景建模
動態(tài)場景建模是指捕捉和表示隨時間變化的場景的三維結(jié)構(gòu)和外觀的過程。這涉及到創(chuàng)建一個數(shù)字模型,該模型準(zhǔn)確地反映場景中對象的幾何體、運動和視覺方面。動態(tài)場景建模在各種應(yīng)用中至關(guān)重要,包括虛擬和增強(qiáng)現(xiàn)實、3D動畫和計算機(jī)視覺。4D高斯散射(4D GS)將3D GS的概念擴(kuò)展到動態(tài)場景。它結(jié)合了時間維度,允許對隨時間變化的場景進(jìn)行表示和渲染。這種范式在實時渲染動態(tài)場景的同時保持高質(zhì)量的視覺輸出方面提供了顯著的改進(jìn)。
AIGC
AIGC是指由人工智能系統(tǒng)自主創(chuàng)建或顯著改變的數(shù)字內(nèi)容,特別是在計算機(jī)視覺、自然語言處理和機(jī)器學(xué)習(xí)領(lǐng)域。AIGC的特點是能夠模擬、擴(kuò)展或增強(qiáng)人工生成的內(nèi)容,實現(xiàn)從逼真圖像合成到動態(tài)敘事創(chuàng)作的應(yīng)用。AIGC的意義在于其在各個領(lǐng)域的變革潛力,包括娛樂、教育和技術(shù)發(fā)展。它是不斷發(fā)展的數(shù)字內(nèi)容創(chuàng)作格局中的一個關(guān)鍵元素,為傳統(tǒng)方法提供了可擴(kuò)展、可定制且通常更高效的替代方案。
3D GS的這種明確特性有助于實現(xiàn)實時渲染功能以及前所未有的控制和編輯水平,使其與AIGC應(yīng)用程序高度相關(guān)。3D GS的顯式場景表示和可微分渲染算法完全符合AIGC生成高保真、實時和可編輯內(nèi)容的要求,這對虛擬現(xiàn)實、交互式媒體等領(lǐng)域的應(yīng)用至關(guān)重要。
自動駕駛
自動駕駛旨在讓車輛在沒有人為干預(yù)的情況下導(dǎo)航和操作。這些車輛配備了一套傳感器,包括相機(jī)、LiDAR以及雷達(dá),并結(jié)合了先進(jìn)的算法、機(jī)器學(xué)習(xí)模型和強(qiáng)大的計算能力。中心目標(biāo)是感知環(huán)境,做出明智的決策,安全高效地執(zhí)行機(jī)動。自動駕駛對交通運輸具有變革潛力,提供了關(guān)鍵好處,如通過減少人為失誤提高道路安全性,增強(qiáng)無法駕駛者的機(jī)動性,以及優(yōu)化交通流量,從而減少擁堵和環(huán)境影響。
自動駕駛汽車需要感知和解讀周圍環(huán)境,才能安全行駛。這包括實時重構(gòu)駕駛場景,準(zhǔn)確識別靜態(tài)和動態(tài)物體,并了解它們的空間關(guān)系和運動。在動態(tài)駕駛場景中,由于其他車輛、行人或動物等移動物體,環(huán)境不斷變化。實時準(zhǔn)確地重建這些場景對于安全導(dǎo)航至關(guān)重要,但由于所涉及元素的復(fù)雜性和可變性,這是一項挑戰(zhàn)。在自動駕駛中,3D GS可以用于通過將數(shù)據(jù)點(例如從LiDAR等傳感器獲得的數(shù)據(jù)點)混合成內(nèi)聚和連續(xù)的表示來重建場景。這對于處理不同密度的數(shù)據(jù)點和確保場景中靜態(tài)背景和動態(tài)目標(biāo)的平滑準(zhǔn)確重建特別有用。到目前為止,很少有作品使用3D高斯對動態(tài)駕駛/街道場景進(jìn)行建模,并且與現(xiàn)有方法相比,在場景重建方面表現(xiàn)出優(yōu)異的性能。
性能對比
本節(jié)通過展示我們之前討論的幾種3D GS算法的性能來提供更多的經(jīng)驗證據(jù)。3D GS在許多任務(wù)中的不同應(yīng)用,加上每個任務(wù)的定制算法設(shè)計,使得在單個任務(wù)或數(shù)據(jù)集中對所有3D GS算法進(jìn)行統(tǒng)一比較變得不切實際。因此,我們在3D GS領(lǐng)域中選擇了三個具有代表性的任務(wù)進(jìn)行深入的性能評估。性能主要來源于原始論文,除非另有說明。
定位性能
靜態(tài)場景渲染性能
動態(tài)場景渲染性能
駕駛場景渲染性能
數(shù)字人體性能
未來研究方向
盡管近幾個月來3D GS的后續(xù)工作取得了顯著進(jìn)展,但我們認(rèn)為仍存在一些有待克服的挑戰(zhàn)。
- 數(shù)據(jù)高效的3D GS解決方案:從有限的數(shù)據(jù)點生成新穎的視圖和重建場景是非常令人感興趣的,特別是因為它們有可能以最小的輸入增強(qiáng)真實感和用戶體驗。最近的進(jìn)展已經(jīng)探索了使用深度信息、密集概率分布和像素到高斯映射來促進(jìn)這種能力。然而,仍然迫切需要在這一領(lǐng)域進(jìn)行進(jìn)一步探索。此外,3D GS的一個顯著問題是在觀測數(shù)據(jù)不足的地區(qū)出現(xiàn)偽影。這一挑戰(zhàn)是輻射場渲染中的一個普遍限制,因為稀疏數(shù)據(jù)往往會導(dǎo)致重建不準(zhǔn)確。因此,在這些稀疏區(qū)域中開發(fā)新的數(shù)據(jù)插值或積分方法代表了未來研究的一條很有前途的途徑。
- 內(nèi)存高效的3D GS解決方案:雖然3D GS展示了非凡的能力,但其可擴(kuò)展性帶來了重大挑戰(zhàn),尤其是當(dāng)與基于NeRF的方法并置時。后者得益于僅存儲學(xué)習(xí)的MLP的參數(shù)的簡單性。在大規(guī)模場景管理的背景下,這種可擴(kuò)展性問題變得越來越嚴(yán)重,其中計算和內(nèi)存需求顯著增加。因此,迫切需要在訓(xùn)練階段和模型存儲期間優(yōu)化內(nèi)存利用率。探索更高效的數(shù)據(jù)結(jié)構(gòu)和研究先進(jìn)的壓縮技術(shù)是解決這些限制的有希望的途徑。
- 高級渲染算法:目前3D GS的渲染管道是向前的,可以進(jìn)一步優(yōu)化。例如,簡單的可見性算法可能導(dǎo)致高斯深度/混合順序的劇烈切換。這突出了未來研究的一個重要機(jī)會:實現(xiàn)更先進(jìn)的渲染算法。這些改進(jìn)的方法應(yīng)旨在更準(zhǔn)確地模擬給定場景中光和材料特性的復(fù)雜相互作用。一種有前景的方法可能涉及將傳統(tǒng)計算機(jī)圖形學(xué)中的既定原理同化和適應(yīng)到3D GS的特定環(huán)境中。在這方面值得注意的是,正在進(jìn)行的將增強(qiáng)渲染技術(shù)或混合模型集成到3D GS當(dāng)前計算框架中的努力。此外,逆渲染及其應(yīng)用的探索為研究提供了肥沃的土壤。
- 優(yōu)化和正則化:各向異性高斯雖然有利于表示復(fù)雜的幾何形狀,但會產(chǎn)生視覺偽像。例如,那些大的3D高斯,尤其是在具有依賴于視圖的外觀的區(qū)域,可能會導(dǎo)致彈出的偽影,視覺元素突然出現(xiàn)或消失,破壞沉浸感。在3D GS的正則化和優(yōu)化方面有相當(dāng)大的探索潛力。引入抗鋸齒可以緩解高斯深度和混合順序的突然變化。優(yōu)化算法的增強(qiáng)可能會更好地控制空間中的高斯系數(shù)。此外,將正則化納入優(yōu)化過程可以加速收斂、平滑視覺噪聲或提高圖像質(zhì)量。此外,如此大量的超參數(shù)影響了3D GS的泛化,這急需解決方案。
- 網(wǎng)格重建中的3D高斯:3D GS在網(wǎng)格重建中的潛力及其在體積和表面表示譜中的位置尚待充分探索。迫切需要研究高斯基元如何適用于網(wǎng)格重建任務(wù)。這一探索可以彌合體積繪制和傳統(tǒng)基于表面的方法之間的差距,為新的繪制技術(shù)和應(yīng)用提供見解。
- 賦予3D GS更多可能性:盡管3D GS具有巨大的潛力,但3D GS的全部應(yīng)用范圍在很大程度上仍未開發(fā)。一個很有前途的探索途徑是用額外的屬性來增強(qiáng)3D高斯,例如為特定應(yīng)用量身定制的語言和物理屬性。此外,最近的研究已經(jīng)開始揭示3D GS在幾個領(lǐng)域的能力,例如,相機(jī)姿態(tài)估計、手-物體相互作用的捕捉和不確定性的量化。這些初步發(fā)現(xiàn)為跨學(xué)科學(xué)者進(jìn)一步探索3D GS提供了重要機(jī)會。
結(jié)論
據(jù)我們所知,這篇綜述首次全面概述了3D GS,這是一項革命性的顯式輻射場和計算機(jī)圖形學(xué)技術(shù)。它描繪了傳統(tǒng)NeRF方法的范式轉(zhuǎn)變,突出了3D GS在實時渲染和增強(qiáng)可控性方面的優(yōu)勢。我們的詳細(xì)分析證明了3D GS在實際應(yīng)用中的優(yōu)勢,特別是那些需要實時性能的應(yīng)用。我們提供了對未來研究方向和該領(lǐng)域尚未解決的挑戰(zhàn)的見解??偟膩碚f,3D GS是一項變革性技術(shù),有望對3D重建和表示的未來發(fā)展產(chǎn)生重大影響。這項調(diào)查旨在作為一項基礎(chǔ)資源,推動這一快速發(fā)展領(lǐng)域的進(jìn)一步勘探和進(jìn)展。
原文鏈接:https://mp.weixin.qq.com/s/jH4g4Cx87nPUYN8iKaKcBA