編輯任何場(chǎng)景! 3DitScene:通過語言引導(dǎo)的解耦 Gaussian Splatting開源來襲! 精華
文章:https://arxiv.org/pdf/2405.18424
項(xiàng)目:https://zqh0253.github.io/3DitScene/
HuggingFace: https://huggingface.co/spaces/qihang/3Dit-Scene
場(chǎng)景圖像編輯在娛樂、攝影和廣告設(shè)計(jì)中至關(guān)重要。現(xiàn)有方法僅專注于2D個(gè)體對(duì)象或3D全局場(chǎng)景編輯,導(dǎo)致缺乏一種在3D層面上以不同粒度有效控制和操作場(chǎng)景的統(tǒng)一方法。
本研究提出了3DitScene,這是一種新穎且統(tǒng)一的場(chǎng)景編輯框架,利用語言引導(dǎo)的解耦Gaussian Splatting實(shí)現(xiàn)從2D到3D的無縫編輯,允許對(duì)場(chǎng)景組成和個(gè)體對(duì)象進(jìn)行精確控制。首先結(jié)合通過生成先驗(yàn)和優(yōu)化技術(shù)細(xì)化的3D Gaussian Splatting。然后通過CLIP引入的語言特征為3D幾何體賦予語義,實(shí)現(xiàn)對(duì)象的解耦。借助解耦的Gaussian Splatting,3DitScene允許在全局和個(gè)體層面上進(jìn)行操作,革新了創(chuàng)意表達(dá)并增強(qiáng)了對(duì)場(chǎng)景和對(duì)象的控制。實(shí)驗(yàn)結(jié)果展示了3DitScene在場(chǎng)景圖像編輯中的有效性和多樣性。
效果視頻先睹為快:
介紹
場(chǎng)景圖像編輯在娛樂、專業(yè)攝影和廣告設(shè)計(jì)等多個(gè)領(lǐng)域具有重要意義。內(nèi)容編輯能夠?yàn)橛^眾創(chuàng)造沉浸式和引人入勝的體驗(yàn),有效傳達(dá)藝術(shù)愿景,并實(shí)現(xiàn)預(yù)期的美學(xué)效果。隨著深度生成建模的快速發(fā)展,許多嘗試已被用于有效編輯圖像。然而,這些方法遇到了限制,阻礙了它們的潛力。
以往的方法主要集中在2D圖像空間的場(chǎng)景編輯。它們通常依賴于生成先驗(yàn),如生成對(duì)抗網(wǎng)絡(luò)(GANs)和擴(kuò)散模型(DM),并采用修改交叉注意力機(jī)制和優(yōu)化網(wǎng)絡(luò)參數(shù)等技術(shù)來編輯場(chǎng)景圖像中的外觀和對(duì)象身份。盡管有些嘗試擴(kuò)展了這些方法到3D編輯,但它們忽視了3D線索,在改變相機(jī)姿態(tài)時(shí)難以保持3D一致性。此外,這些方法通常專注于全局場(chǎng)景,缺乏準(zhǔn)確解耦對(duì)象的能力,導(dǎo)致在3D層面上對(duì)個(gè)體對(duì)象的控制有限。
為了編輯任意場(chǎng)景圖像并實(shí)現(xiàn)對(duì)場(chǎng)景及其個(gè)體對(duì)象的3D控制,本文提出了3DitScene,一種利用新場(chǎng)景表示的場(chǎng)景編輯框架——語言引導(dǎo)的解耦Gaussian Splatting。具體來說,給定的圖像首先被投影到3D Gaussian Splatting中,這些Gaussian Splatting通過2D生成先驗(yàn)進(jìn)一步細(xì)化和豐富。因此獲得了一個(gè)綜合的3D場(chǎng)景表示,自然支持給定圖像的新視角合成。
此外,CLIP的語言特征被提取到相應(yīng)的3D Gaussian Splatting中,引入語義到3D幾何中。這些語義3D Gaussian Splatting幫助從整個(gè)場(chǎng)景表示中解耦出個(gè)體對(duì)象,形成語言引導(dǎo)的解耦Gaussian Splatting用于場(chǎng)景分解。它們還允許更用戶友好的交互,即用戶可以通過文本查詢特定對(duì)象或興趣點(diǎn)。為此,3DitScene實(shí)現(xiàn)了從2D到3D的無縫編輯,并允許在全局和個(gè)體層面上進(jìn)行修改,賦予創(chuàng)作者對(duì)場(chǎng)景構(gòu)圖和對(duì)象級(jí)別編輯的精確控制。
這一流程稱為3DitScene。不同于以前專注于單一類型編輯的工作,3DitScene在一個(gè)統(tǒng)一框架內(nèi)整合了編輯需求。示意圖展示了3DitScene的多功能性,展示了其在各種場(chǎng)景圖像中的應(yīng)用。在不同設(shè)置下對(duì)3DitScene進(jìn)行了評(píng)估,結(jié)果顯示相比基線方法有顯著改進(jìn)。
相關(guān)工作
使用生成模型進(jìn)行圖像編輯隨著生成對(duì)抗網(wǎng)絡(luò)(GANs)和擴(kuò)散模型的發(fā)展,2D圖像合成領(lǐng)域取得了顯著進(jìn)展。許多研究利用生成模型中embedding的豐富先驗(yàn)知識(shí)進(jìn)行圖像編輯。一些研究使用GANs進(jìn)行各種圖像編輯任務(wù),包括圖像到圖像翻譯、潛在空間操作以及文本引導(dǎo)的操作。
然而,由于在大規(guī)模數(shù)據(jù)上訓(xùn)練的限制,GANs在處理現(xiàn)實(shí)場(chǎng)景圖像時(shí)常表現(xiàn)不佳。隨著擴(kuò)散模型的顯著進(jìn)步,社區(qū)越來越關(guān)注利用強(qiáng)大的文本到圖像擴(kuò)散模型進(jìn)行真實(shí)圖像編輯。然而,這些方法局限于2D領(lǐng)域,難以在3D空間中編輯對(duì)象。同時(shí),其他研究試圖解決3D感知的圖像編輯,但在編輯過程中引入了不一致性,且無法改變整個(gè)場(chǎng)景的相機(jī)視角。相反,本文的模型利用顯式3D高斯將2D圖像轉(zhuǎn)換為3D空間,同時(shí)借助語言引導(dǎo)解耦對(duì)象。該方法不僅使本文的模型能夠一致地執(zhí)行3D感知對(duì)象編輯,還能促進(jìn)場(chǎng)景級(jí)的新視角合成。
單視角3D場(chǎng)景合成在3D場(chǎng)景生成領(lǐng)域中,基于單視角的條件生成提出了獨(dú)特的挑戰(zhàn)。先前的方法通過訓(xùn)練一個(gè)通用模型來應(yīng)對(duì)這一挑戰(zhàn),該模型能夠基于單個(gè)輸入圖像推斷場(chǎng)景的3D表示。然而,這些方法需要大量的數(shù)據(jù)集進(jìn)行訓(xùn)練,且在面對(duì)相機(jī)視角的顯著變化時(shí),往往會(huì)產(chǎn)生模糊的紋理。最近,一些工作采用擴(kuò)散先驗(yàn)來獲取未見視角的概率分布,從而獲得更好的合成效果。然而,這些方法通常集中于對(duì)象中心的場(chǎng)景或缺乏3D一致性。本文的方法通過顯式3D高斯連接2D圖像和3D場(chǎng)景,并結(jié)合擴(kuò)散知識(shí),克服了上述挑戰(zhàn)。
方法
本文的目標(biāo)是提出一個(gè)3D感知的場(chǎng)景圖像編輯框架,允許對(duì)相機(jī)和對(duì)象進(jìn)行同步控制。為實(shí)現(xiàn)這一目標(biāo),先介紹了一種新穎的場(chǎng)景表示方法,稱為語言引導(dǎo)的解耦Gaussian Splatting。為了實(shí)現(xiàn)對(duì)象級(jí)控制,進(jìn)一步將語言特征提取到Gaussian Splatting表示中,實(shí)現(xiàn)對(duì)象級(jí)解耦。接著詳細(xì)說明了優(yōu)化過程,最后展示了本文的框架在推理過程中所提供的靈活用戶控制。
從單個(gè)圖像生成3D Gaussian Splatting
其中,K和T分別是相機(jī)的內(nèi)參矩陣和外參矩陣。這些點(diǎn)云P然后被用來初始化3DGS,通過直接復(fù)制位置和顏色值來進(jìn)行初始化,其他與GS相關(guān)的參數(shù)則隨機(jī)初始化。為了優(yōu)化3DGS的外觀,采用重建損失:
其中,??是渲染函數(shù)。進(jìn)一步利用圖像生成基礎(chǔ)模型(即Stable Diffusion)的先驗(yàn)知識(shí)來增強(qiáng)渲染質(zhì)量。它以Score Distillation Sampling損失(記為L(zhǎng)SDS)的形式,為當(dāng)前3DGS渲染的圖像提供更新方向。
通過修補(bǔ)擴(kuò)展3D GS當(dāng)相機(jī)視角發(fā)生變化時(shí),由于遮擋或超出原始視錐的新區(qū)域,渲染視圖會(huì)出現(xiàn)空洞。使用Stable Diffusion來修補(bǔ)未覆蓋的區(qū)域。然后,需要將新添加的像素準(zhǔn)確地轉(zhuǎn)換到3D空間,以無縫對(duì)齊現(xiàn)有的3D高斯。
之前的方法首先預(yù)測(cè)深度值,然后使用啟發(fā)式方法調(diào)整這些值以對(duì)齊現(xiàn)有的3D結(jié)構(gòu)。然而,依賴啟發(fā)式方法往往忽略了各種場(chǎng)景,導(dǎo)致深度不連續(xù)或形狀變形等問題。
相反,本文提出了一種新方法,將新的內(nèi)容提升到3D,同時(shí)確保無縫對(duì)齊而無需任何啟發(fā)式過程。關(guān)鍵見解是將問題視為圖像修補(bǔ)任務(wù),并利用最先進(jìn)的基于擴(kuò)散的深度估計(jì)模型作為先驗(yàn)來解決任務(wù)。在去噪步驟中,不是使用模型預(yù)測(cè)整個(gè)圖像的噪聲,而是采用前向擴(kuò)散過程來確定固定區(qū)域的值。這種方法保證了最終結(jié)果在去噪后符合原始固定部分的深度,確保了平滑擴(kuò)展。
在通過深度修補(bǔ)平滑擴(kuò)展3DGS后,將設(shè)想的全新視圖作為參考視圖,并應(yīng)用重建損失Lrecon來監(jiān)督更新的3DGS。對(duì)于從用戶提供的視點(diǎn)和新設(shè)想視圖之間插值的相機(jī)視角渲染的視圖,采用SDS損失LSDS。
語言引導(dǎo)的解耦Gaussian Splatting
基于單個(gè)輸入圖像生成的3DGS,用戶可以生成新視圖。進(jìn)一步將CLIP語言特征提取到3D高斯中。這將語義引入到3D幾何中,有助于從整個(gè)場(chǎng)景表示中解耦個(gè)體對(duì)象。
場(chǎng)景分解在提取語言特征后,可以將場(chǎng)景分解為不同的對(duì)象。這使得用戶能夠查詢并定位特定對(duì)象,并對(duì)單個(gè)對(duì)象進(jìn)行編輯(例如平移、旋轉(zhuǎn)、移除、重新造型)。值得注意的是,這種場(chǎng)景分解特性不僅在推理階段允許更靈活的編輯,還在優(yōu)化過程中提供了對(duì)場(chǎng)景布局的增強(qiáng)。由于現(xiàn)在可以獨(dú)立查詢和渲染每個(gè)對(duì)象,對(duì)對(duì)象應(yīng)用隨機(jī)平移、旋轉(zhuǎn)和移除。這種對(duì)場(chǎng)景布局的增強(qiáng)顯著改善了遮擋區(qū)域的外觀,最終提升了編輯視圖的整體質(zhì)量。
訓(xùn)練總體訓(xùn)練目標(biāo)可以表示為:
推理
由于本文的表示方法具有解耦的特性,用戶現(xiàn)在可以以靈活的方式與對(duì)象進(jìn)行交互和操作。這里,主要討論通過兩種不同模態(tài)來提示對(duì)象:
文本提示用戶可以通過文本提示查詢對(duì)象,如下圖3所示。
根據(jù)LERF和LangSplat,計(jì)算3D高斯中的語言embedding e與文本提示的embedding 之間的相關(guān)性得分:
邊界框用戶還可以通過在輸入圖像上繪制一個(gè)大致的邊界框來選擇對(duì)象。首先識(shí)別邊界框內(nèi)的3D高斯,然后根據(jù)它們的語言embedding e進(jìn)行K均值聚類。假設(shè)對(duì)象是邊界框內(nèi)最顯著的一個(gè),數(shù)量不超過閾值比例的聚類將被丟棄。
同時(shí),用戶還可以通過指定內(nèi)參和外參來調(diào)整相機(jī)視點(diǎn)。
實(shí)驗(yàn)
###設(shè)置
實(shí)現(xiàn)細(xì)節(jié):為了將圖像提升到3D,使用GeoWizard估計(jì)其相對(duì)深度。采用Stable
Diffusion的修補(bǔ)流程為3DGS的擴(kuò)展生成新內(nèi)容。利用MobileSAM和OpenCLIP對(duì)渲染視圖進(jìn)行分割和計(jì)算特征圖,這些特征圖進(jìn)一步用于監(jiān)督3D高斯的語言embedding。在優(yōu)化過程中,使用Stable Diffusion進(jìn)行Score Distillation Sampling。得益于顯式3DGS初始化的良好圖像質(zhì)量,采用低分類器無關(guān)指導(dǎo)的比例。
基線:將本文的方法與以下場(chǎng)景圖像編輯工作進(jìn)行比較:
- AnyDoor是一種基于2D擴(kuò)散模型的方法,可以將目標(biāo)對(duì)象傳送到給定的場(chǎng)景圖像中。它通過微調(diào)Stable Diffusion來利用其強(qiáng)大的圖像生成先驗(yàn)。
- Object 3DIT旨在通過語言指令進(jìn)行3D感知的對(duì)象中心圖像編輯。它在包含原始圖像、語言指令和編輯圖像對(duì)的合成數(shù)據(jù)集上微調(diào)Stable Diffusion。
- Image Sculpting也旨在進(jìn)行3D感知的對(duì)象中心圖像編輯。它從輸入圖像中的對(duì)象估計(jì)3D模型,以實(shí)現(xiàn)對(duì)幾何形狀的精確3D控制。它還使用Stable Diffusion來優(yōu)化編輯后的圖像質(zhì)量。
- AdaMPI側(cè)重于相機(jī)視角的控制。它利用單目深度估計(jì)和顏色修補(bǔ),采用自適應(yīng)分層深度表示。
- LucidDreamer通過使用稠密相機(jī)軌跡查詢Stable Diffusion的修補(bǔ)流程來處理新視圖合成。
定量結(jié)果
研究者們進(jìn)行用戶研究,以比較本文方法與已建立基線方法的編輯結(jié)果。每種方法生成20個(gè)樣本,并要求用戶根據(jù)與原始圖像的一致性和每個(gè)樣本的質(zhì)量投票選擇其偏好。收集了25名用戶的反饋,并在下表1中報(bào)告結(jié)果。
本文的方法在一致性和圖像質(zhì)量方面始終優(yōu)于以前的基線。根據(jù)之前的研究建議,GPT-4v具有評(píng)估3D一致性和圖像質(zhì)量的能力。因此,將GPT-4v作為額外的評(píng)估標(biāo)準(zhǔn)。GPT-4v的偏好與人類偏好高度一致,這再次證明了3DitScene的優(yōu)越性。
定性結(jié)果
下圖4展示了本文框架生成的新視圖及其相應(yīng)的特征圖。特征圖顯示出在捕捉圖像的語義內(nèi)容方面具有顯著的準(zhǔn)確性。這種能夠清晰分離語義信息的能力在實(shí)現(xiàn)精確的對(duì)象級(jí)控制中起著關(guān)鍵作用。接下來,展示了本文框架實(shí)現(xiàn)的對(duì)場(chǎng)景圖像的靈活編輯,并與基線方法進(jìn)行了比較。
對(duì)象操作
由于不同的方法在不同的坐標(biāo)系中定義對(duì)象操作,特別是平移操作,因此在統(tǒng)一和公平的設(shè)置下評(píng)估它們變得具有挑戰(zhàn)性。因此,根據(jù)各自的特定設(shè)置評(píng)估每種方法,以達(dá)到最佳結(jié)果。如下圖5所示,AnyDoor在操作對(duì)象布局時(shí)難以維持對(duì)象身份和3D一致性,主要是由于缺乏3D線索。
Object 3DIT,在合成數(shù)據(jù)集上訓(xùn)練,展示了有限的對(duì)真實(shí)圖像的泛化能力。通過利用從輸入圖像中導(dǎo)出的3D模型,Image Sculpting取得了更好的結(jié)果。盡管如此,在操作對(duì)象時(shí)仍然遇到一致性問題。這是因?yàn)樗鼈儍H依賴3D模型提供粗略指導(dǎo),導(dǎo)致在優(yōu)化過程中丟失了更細(xì)微的細(xì)節(jié)。
相比之下,本文的方法提供了令人滿意的3D感知對(duì)象級(jí)編輯結(jié)果。在重新排列布局后,它保持了編輯對(duì)象的準(zhǔn)確3D一致性。此外,它保留了場(chǎng)景內(nèi)的遮擋關(guān)系,例如將女孩移動(dòng)到最后一行示例中被前景對(duì)象部分遮擋。
相機(jī)控制將本文的方法與AdaMPI和LucidDreamer進(jìn)行相機(jī)控制的比較。如下圖6所示,AdaMPI僅專注于相機(jī)放大的情況,并不考慮新視圖合成。因此,當(dāng)需要大范圍相機(jī)控制時(shí),此方法不適用于需要3D感知圖像編輯。LucidDreamer還利用Stable Diffusion的修補(bǔ)能力進(jìn)行新視圖合成。然而,它在幀內(nèi)內(nèi)容的突然轉(zhuǎn)換中遇到問題(參見底部行的示例)。它還需要密集的相機(jī)姿態(tài)。相比之下,本文的方法只需要盡少至三個(gè)相機(jī)姿態(tài),并實(shí)現(xiàn)了從輸入視圖到新視圖的平滑過渡,增強(qiáng)了用戶對(duì)相機(jī)視角的控制。
消融研究
優(yōu)化過程中的布局增強(qiáng)由于表示在對(duì)象級(jí)別上進(jìn)行了解纏,可以在優(yōu)化過程中進(jìn)行布局增強(qiáng)。在這里,研究了解纏屬性是否有助于優(yōu)化過程。使用移除對(duì)象的任務(wù)來評(píng)估解纏程度。如下圖7所示,在優(yōu)化過程中禁用布局增強(qiáng)時(shí),可以觀察到浮動(dòng)偽影。發(fā)現(xiàn)這些高斯位于對(duì)象內(nèi)部。它們被表面上的高斯遮擋。由于它們不會(huì)對(duì)渲染結(jié)果產(chǎn)生影響,因此它們?cè)趦?yōu)化過程中不會(huì)被梯度下降更新,導(dǎo)致它們的語言embedding無監(jiān)督。
相比之下,在優(yōu)化過程中應(yīng)用布局增強(qiáng),當(dāng)前景對(duì)象移開時(shí),這些高斯將會(huì)暴露出來,因此得到更新。通過這種消融,得出結(jié)論:所提出的表示的解纏屬性不僅能夠?qū)崿F(xiàn)更靈活的推斷,而且有助于優(yōu)化過程。
綜上所述,SDS和重建損失對(duì)于獲得體面的圖像質(zhì)量至關(guān)重要。
深度修補(bǔ)在擴(kuò)展3DGS到新視圖時(shí),需要估計(jì)未見區(qū)域的深度圖。這里將基于修復(fù)的深度估計(jì)與啟發(fā)式方法進(jìn)行了比較。下圖9顯示了左側(cè)部分具有深度圖像的圖像。任務(wù)是預(yù)測(cè)右側(cè)部分的深度圖。依賴啟發(fā)式對(duì)齊的方法會(huì)導(dǎo)致深度不連續(xù)等偽影。相比之下,本文提出的方法能夠生成準(zhǔn)確的深度圖,與左側(cè)已知部分很好地對(duì)齊。
結(jié)論與討論
本文提出了一個(gè)新的框架,3DitScene,用于場(chǎng)景圖像編輯。主要目標(biāo)是在統(tǒng)一的框架內(nèi)促進(jìn)對(duì)對(duì)象和整個(gè)場(chǎng)景的3D感知編輯。通過利用新的場(chǎng)景表示,即語言引導(dǎo)的解纏場(chǎng)景表示,實(shí)現(xiàn)了這一目標(biāo)。通過將CLIP的語言特征蒸餾到3D高斯中來學(xué)習(xí)此表示。語義3D高斯有效地從整個(gè)場(chǎng)景中解纏出單個(gè)對(duì)象,從而實(shí)現(xiàn)了局部對(duì)象編輯。通過在不同的設(shè)置下測(cè)試了3DitScene,并證明了與先前方法相比其優(yōu)越性。
本文轉(zhuǎn)自 AI生成未來 ,作者:QiHang Zhang等
