讓3D編輯像PS一樣簡(jiǎn)單,新算法GaussianEditor在幾分鐘內(nèi)完成3D場(chǎng)景增刪改
3D 編輯在游戲和虛擬現(xiàn)實(shí)等領(lǐng)域中發(fā)揮著至關(guān)重要的作用,然而之前的 3D 編輯苦于耗時(shí)間長(zhǎng)以及可控性差等問(wèn)題,很難應(yīng)用到實(shí)際場(chǎng)景。近日,南洋理工大學(xué)聯(lián)合清華和商湯提出了一種全新的 3D 編輯算法 GaussianEditor,首次實(shí)現(xiàn)了在 2-7 分鐘完成對(duì) 3D 場(chǎng)景可控的多樣化的編輯,全面超越了之前的 3D 編輯工作。
近三年來(lái),3D 編輯領(lǐng)域的工作普遍聚焦于 NeRF(神經(jīng)輻射場(chǎng)),這是因?yàn)?NeRF 不僅能高保真地完成 3D 場(chǎng)景建模,而且其隱式特性極大地提高了可擴(kuò)展性,相較點(diǎn)云、網(wǎng)格等傳統(tǒng)方法有著顯著的優(yōu)勢(shì)。然而 NeRF 依賴(lài)高維多層感知網(wǎng)絡(luò)(MLP)對(duì)場(chǎng)景數(shù)據(jù)進(jìn)行編碼,這也帶來(lái)了一定限制。它難以直接修改場(chǎng)景的特定部分,同時(shí)在圖像修復(fù)和場(chǎng)景組合等任務(wù)上增加了復(fù)雜性。這種復(fù)雜性不僅影響了訓(xùn)練過(guò)程,也制約了其在實(shí)際應(yīng)用中的應(yīng)用。
GaussianEditor 為了解決上述問(wèn)題,另辟蹊徑,選擇了高斯濺射(Gaussian Splatting)作為其 3D 表示。Gaussian Splatting 是半年前提出的一種新型 3D 表示,該表示已經(jīng)在 3D,4D 重建等多項(xiàng) 3D 任務(wù)上超越了 NeRF,剛面世就引發(fā)了 3D 領(lǐng)域廣泛的關(guān)注,是今年 3D 領(lǐng)域最大的突破之一。Gaussian Splatting 表示具有極好的前景和潛力, GaussianEditor 更是首個(gè)實(shí)現(xiàn)了對(duì)這種 3D 表示完成編輯的工作。該項(xiàng)目已開(kāi)源,并提供了 WebUI 界面,便于學(xué)習(xí)和使用。
- 論文地址:https://arxiv.org/abs/2311.14521
- 主頁(yè)地址:https://buaacyw.github.io/gaussian-editor/
Gaussian Splatting 雖然有著高效的渲染算法,但其作為顯示表示,對(duì)其的編輯存在著不小的挑戰(zhàn)。一個(gè)主要問(wèn)題是缺乏有效的方法準(zhǔn)確識(shí)別編輯目標(biāo),這對(duì)于精確可控的編輯至關(guān)重要。此外,已有研究表明,使用高度隨機(jī)的生成指導(dǎo)(如 Stable Diffusion 等生成擴(kuò)散模型)優(yōu)化 Gaussian Splatting(GS)會(huì)遇到重大挑戰(zhàn)。這可能是因?yàn)?GS 直接受到損失中隨機(jī)性的影響,與神經(jīng)網(wǎng)絡(luò)緩沖的隱式表示不同。這種直接暴露導(dǎo)致更新不穩(wěn)定,訓(xùn)練過(guò)程中高斯點(diǎn)的屬性直接改變。此外,GS 的每個(gè)訓(xùn)練步驟可能涉及大量高斯點(diǎn)的更新,而這一過(guò)程沒(méi)有神經(jīng)網(wǎng)絡(luò)風(fēng)格的緩沖機(jī)制。這些問(wèn)題會(huì)導(dǎo)致 GS 的過(guò)度流動(dòng)性阻礙了其在訓(xùn)練中向隱式表示那樣的精細(xì)結(jié)果收斂。
為了解決上述問(wèn)題,團(tuán)隊(duì)首先引入了高斯語(yǔ)義追蹤來(lái)完成對(duì) Gaussian Splatting(GS)的精確控制。高斯語(yǔ)義追蹤在訓(xùn)練過(guò)程中始終能夠識(shí)別出需要編輯的高斯點(diǎn)。這與傳統(tǒng)的 3D 編輯方法不同,后者通常依賴(lài)于靜態(tài)的 2D 或 3D 掩碼。隨著 3D 模型的幾何形狀和外觀在訓(xùn)練中的變化,這些掩碼的會(huì)逐漸失效。高斯語(yǔ)義追蹤則是通過(guò)將 2D 分割掩碼投影到 3D 高斯點(diǎn)上并為每個(gè)高斯點(diǎn)分配語(yǔ)義標(biāo)簽來(lái)實(shí)現(xiàn)訓(xùn)練全程的追蹤。隨著訓(xùn)練過(guò)程中高斯點(diǎn)的變化,這些語(yǔ)義標(biāo)簽使得能夠追蹤到特定的目標(biāo)高斯點(diǎn)。高斯語(yǔ)義追蹤算法能確保只有目標(biāo)區(qū)域被修改,從而實(shí)現(xiàn)精確和可控的編輯。
下圖中紅色區(qū)域?yàn)楸蛔粉櫟哪繕?biāo)區(qū)域,語(yǔ)義追蹤的區(qū)域會(huì)隨著訓(xùn)練過(guò)程動(dòng)態(tài)更新來(lái)確保其有效性。
此外,為了應(yīng)對(duì) Gaussian Splatting(GS)在高度隨機(jī)的生成指導(dǎo)下難以實(shí)現(xiàn)精細(xì)結(jié)果的重大挑戰(zhàn),GaussinEditor 采用一種新的 GS 表示方式:層次化高斯濺射(Hierarchical Gaussian Splatting,HGS)。在 HGS 中,高斯點(diǎn)根據(jù)它們?cè)谟?xùn)練過(guò)程中的稠密化的順序被組織成不同的世代。在較早的稠密化過(guò)程中形成的高斯點(diǎn)被視為較老的世代,它們受到更嚴(yán)格的約束,目的是保持它們的原始狀態(tài),從而減少它們的流動(dòng)性。相反,后期階段形成的高斯點(diǎn)被視為較年輕的世代,受到較少或沒(méi)有約束,以提高其適應(yīng)性。HGS 的設(shè)計(jì)有效地調(diào)節(jié)了 GS 的流動(dòng)性,通過(guò)對(duì)較老的世代施加限制的同時(shí)保持了較新世代的靈活性。這種方法使得持續(xù)優(yōu)化朝向更好的結(jié)果成為可能,從而模擬了隱式表示中通過(guò)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的緩沖功能。
GaussianEditor 在此基礎(chǔ)上提出了高斯濺射表示的增、刪算法。在刪除目標(biāo)方面,該團(tuán)隊(duì)開(kāi)發(fā)了一種專(zhuān)門(mén)的局部修復(fù)算法,能有效地消除了對(duì)象與場(chǎng)景交界處的偽影。在添加目標(biāo)方面,GaussianEditor 能根據(jù)用戶(hù)提供一個(gè)的文本提示和 2D 掩碼來(lái)為指定區(qū)域添加指定目標(biāo)。GaussianEditor 先借助 2D 圖像 Inpainting 算法生成要添加的對(duì)象的單視圖圖像。然后,通過(guò) Image to 3D 的算法將該圖像轉(zhuǎn)換成一個(gè) 3D GS。最后將該目標(biāo)并入到高斯場(chǎng)景中。
在對(duì)比實(shí)驗(yàn)上,GaussianEditor 在視覺(jué)質(zhì)量,量化指標(biāo),可控性,生成速度上都大幅度超過(guò)了之前的工作。
該團(tuán)隊(duì)還通過(guò)消融實(shí)驗(yàn)驗(yàn)證了其提出的高斯語(yǔ)義追蹤和層次化高斯表示的有效性。
GaussianEditor 作為一種先進(jìn)的 3D 編輯算法,重點(diǎn)在于靈活和快速地編輯 3D 場(chǎng)景,并首次實(shí)現(xiàn)了對(duì)高斯濺射的編輯。
該算法的關(guān)鍵特點(diǎn)包括:
- Gaussian 語(yǔ)義追蹤:它能在訓(xùn)練過(guò)程中持續(xù)識(shí)別需要編輯的高斯點(diǎn),確保只有目標(biāo)區(qū)域被編輯。
- 層次化 Gaussian Splatting(HGS):這是一種新的 GS 表示方式,通過(guò)在不同訓(xùn)練階段形成的高斯點(diǎn)之間建立層次結(jié)構(gòu),以有效管理 GS 場(chǎng)景的流動(dòng)性,并模擬隱式表示中神經(jīng)網(wǎng)絡(luò)的緩沖功能。
- 3D 場(chǎng)景的增加和刪除算法:GaussianEditor 專(zhuān)為 GS 開(kāi)發(fā)設(shè)計(jì)了 3D 場(chǎng)景的增刪算法,能夠高效地從場(chǎng)景中移除或添加特定對(duì)象。