ECCV`24 | 新加坡國(guó)立&華為提出Vista3D: 實(shí)現(xiàn)快速且多視角一致的3D生成
文章鏈接:https://arxiv.org/pdf/2409.12193
gitbub鏈接:https://github.com/florinshen/Vista3D
亮點(diǎn)直擊
- 提出了Vista3D,一個(gè)用于揭示單張圖像3D darkside 的框架,能夠高效地利用2D先驗(yàn)生成多樣的3D物體。
- 開(kāi)發(fā)了一種從高斯投影到等值面3D表示的轉(zhuǎn)換方法,通過(guò)可微等值面方法和解耦紋理來(lái)優(yōu)化粗糙幾何,實(shí)現(xiàn)紋理化網(wǎng)格的創(chuàng)建。
- 提出了一種角度組合方法用于擴(kuò)散先驗(yàn),通過(guò)約束其梯度幅度,在不犧牲3D一致性的情況下實(shí)現(xiàn)3D潛力的多樣性。
總結(jié)速覽
解決的問(wèn)題
- 解決單張圖像生成3D對(duì)象時(shí)多視圖不一致的問(wèn)題。
- 平衡3D生成中的一致性與多樣性。
提出的方案
- Vista3D框架采用兩階段方法:粗略階段通過(guò)高斯投影生成初始幾何,精細(xì)階段優(yōu)化符號(hào)距離函數(shù)(SDF)。
- 使用角度組合方法進(jìn)行擴(kuò)散先驗(yàn),通過(guò)約束梯度幅度實(shí)現(xiàn)多樣性。
應(yīng)用的技術(shù)
- 高斯投影和可微等值面方法。
- 解耦紋理技術(shù)。
- 使用兩個(gè)獨(dú)立隱函數(shù)捕捉物體的可見(jiàn)和隱藏方面。
達(dá)到的效果
- 在短短5分鐘內(nèi)實(shí)現(xiàn)快速且一致的3D生成。
- 提升生成質(zhì)量,維持3D物體一致性和多樣性之間的平衡。
方法
本節(jié)概述了利用2D擴(kuò)散先驗(yàn)從單張圖像生成詳細(xì)3D對(duì)象的框架。如下圖2所示,本文對(duì)單張圖像3D darkside的探索始于通過(guò)3D高斯投影高效生成基礎(chǔ)幾何。在精細(xì)化階段,本文設(shè)計(jì)了一種方法,將初步的3D高斯幾何轉(zhuǎn)換為符號(hào)距離場(chǎng),隨后引入可微分的等值面表示,以進(jìn)一步增強(qiáng)幾何和紋理。為了實(shí)現(xiàn)給定單張圖像的多樣化3D darkside,本文提出了一種新穎的方法來(lái)約束兩個(gè)擴(kuò)散先驗(yàn),通過(guò)限制梯度幅度來(lái)創(chuàng)造多樣而連貫的暗面紋理。通過(guò)這些方法,可以高效地從單張圖像生成多樣化且高保真的網(wǎng)格。
Gaussian Splatting 的粗略幾何
在本文框架的粗略階段,專注于使用Gaussian Splatting構(gòu)建基礎(chǔ)對(duì)象幾何。該技術(shù)將3D場(chǎng)景表示為一組各向異性3D高斯。與其他神經(jīng)逆渲染方法(如NeRF)相比,Gaussian Splatting在逆渲染任務(wù)中表現(xiàn)出顯著更快的收斂速度。
一些研究,比如[3, 41, 49] 嘗試將 Gaussian Splatting 引入3D生成模型。在這些方法中,發(fā)現(xiàn)直接使用 Gaussian Splatting 生成詳細(xì)的3D對(duì)象需要優(yōu)化大量的3D高斯,這需要大量時(shí)間進(jìn)行優(yōu)化和密集化,仍然耗時(shí)。然而, Gaussian Splatting 可以在一分鐘內(nèi)使用有限數(shù)量的3D高斯從單張圖像快速創(chuàng)建粗略幾何。因此,在本文的方法中,僅利用 Gaussian Splatting 進(jìn)行初始粗略幾何生成。
基于Top-K梯度的加密策略:在優(yōu)化過(guò)程中,發(fā)現(xiàn)使用簡(jiǎn)單梯度閾值的周期性加密由于SDS的隨機(jī)特性而難以調(diào)整。因此,本文采用了一種更穩(wěn)健的加密策略。在每個(gè)間隔期間,僅對(duì)具有Top-K梯度的高斯點(diǎn)進(jìn)行加密,這種簡(jiǎn)單的策略可以在各種給定圖像中穩(wěn)定訓(xùn)練。
尺度與透射率正則化:本文添加了兩個(gè)正則化項(xiàng),以鼓勵(lì) Gaussian Splatting在此階段學(xué)習(xí)更詳細(xì)的幾何形狀。引入了尺度正則化以避免過(guò)大的3D高斯,并采用另一種透射率正則化以鼓勵(lì)幾何學(xué)習(xí)從透明到實(shí)心。此階段的總體損失函數(shù)可以寫為:
網(wǎng)格細(xì)化和紋理解耦
在細(xì)化階段,重點(diǎn)是將通過(guò)Gaussian Splatting生成的粗糙幾何體轉(zhuǎn)化為符號(hào)距離場(chǎng)(SDF),并使用混合表示來(lái)優(yōu)化其參數(shù)。這個(gè)階段對(duì)于克服粗糙階段遇到的挑戰(zhàn)至關(guān)重要,特別是Gaussian Splatting常常引入的表面?zhèn)斡?。由于Gaussian Splatting無(wú)法直接提供表面法線的估計(jì),無(wú)法采用傳統(tǒng)的平滑方法來(lái)減輕這些偽影。為了解決這個(gè)問(wèn)題,本文引入了一種混合網(wǎng)格表示,即將3D對(duì)象的幾何體建模為可微分的等值面,并使用兩個(gè)不同、解耦的網(wǎng)絡(luò)來(lái)學(xué)習(xí)紋理。這種雙重方法不僅可以平滑表面不規(guī)則性,還能顯著提高3D模型的逼真度和整體質(zhì)量。
通過(guò)預(yù)先構(gòu)圖實(shí)現(xiàn)黑暗面多樣性
在實(shí)現(xiàn)pipeline時(shí),遇到了與未見(jiàn)視角缺乏多樣性相關(guān)的關(guān)鍵挑戰(zhàn)。這一問(wèn)題主要源于依賴Zero-1-to-3 XL先驗(yàn),該模型是在ObjaverseXL中的合成3D物體上訓(xùn)練的。雖然該先驗(yàn)在基于參考圖像和相對(duì)相機(jī)姿態(tài)進(jìn)行3D感知生成方面表現(xiàn)出色,但在未見(jiàn)視角中往往會(huì)產(chǎn)生過(guò)于簡(jiǎn)化或過(guò)于平滑的結(jié)果。當(dāng)處理真實(shí)世界中捕獲的物體時(shí),這一限制尤為明顯。
為了解決這個(gè)問(wèn)題,研究者們引入了來(lái)自Stable-Diffusion的額外先驗(yàn),以其合成多樣化圖像的能力而聞名。
實(shí)驗(yàn)
實(shí)驗(yàn)細(xì)節(jié)
定性比較
在下圖3中,本文展示了高效的Vista3D-S能夠以比現(xiàn)有粗到細(xì)方法快20倍的速度生成具有競(jìng)爭(zhēng)力的3D對(duì)象。對(duì)于Vista3D-L,如上圖1和下圖4所示,本文強(qiáng)調(diào)了本文的角度梯度約束,這使得本文的框架區(qū)別于以往的圖像到3D方法,因?yàn)樗梢栽诓粻奚?D一致性的情況下探索單幅圖像背面的多樣性。在下圖3中,本文主要將Vista3D-S與兩個(gè)基準(zhǔn)方法Magic123和DreamGaussian進(jìn)行比較,用于從單一參考視圖生成3D對(duì)象。在生成的3D對(duì)象質(zhì)量方面,本文的方法在幾何和紋理上都優(yōu)于這兩種方法。關(guān)于Vista3D-L,本文將其與兩個(gè)僅推理的單視圖重建模型進(jìn)行比較,具體來(lái)說(shuō)是One-2-3-45和Wonder3D。如下圖4所示,One-2-3-45往往會(huì)產(chǎn)生模糊的紋理,并可能導(dǎo)致復(fù)雜對(duì)象的幾何不完整,而本文的Vista3D-L通過(guò)用戶指定的文本提示實(shí)現(xiàn)了更精細(xì)的紋理,特別是在3D對(duì)象的背面。Wonder3D由于主要在合成數(shù)據(jù)集上訓(xùn)練,通常采用更簡(jiǎn)單的紋理,這偶爾會(huì)導(dǎo)致某些對(duì)象的分布外問(wèn)題。相比之下,Vista3D-L通過(guò)控制兩個(gè)擴(kuò)散先驗(yàn)提供零樣本3D對(duì)象重建,從而實(shí)現(xiàn)更詳細(xì)和一致的紋理。此外,鑒于僅提供對(duì)象的單一參考視圖,本文認(rèn)為對(duì)象在優(yōu)化過(guò)程中應(yīng)該可以通過(guò)用戶指定的提示進(jìn)行編輯。為了說(shuō)明這一點(diǎn),本文在圖1中展示了幾個(gè)強(qiáng)調(diào)編輯潛力的結(jié)果。
定量比較
在本文的評(píng)估中,本文使用CLIP相似度指標(biāo)來(lái)評(píng)估本文的方法在使用RealFusion數(shù)據(jù)集進(jìn)行3D重建時(shí)的性能,該數(shù)據(jù)集包含15張不同的圖像。與以往研究中使用的設(shè)置一致,本文在每個(gè)對(duì)象的方位角范圍為[-180, 180]度的零仰角處均勻采樣8個(gè)視圖。然后使用這些渲染視圖和參考視圖的CLIP特征計(jì)算余弦相似度。下表1顯示,Vista3D-S獲得了0.831的CLIP相似度分?jǐn)?shù),平均生成時(shí)間僅為5分鐘,從而超越了Magic123的性能。此外,與另一種基于優(yōu)化的方法DreamGaussian相比,盡管Vista3D-S可能需要5分鐘的時(shí)間,但它顯著提高了一致性,這從更高的CLIP相似度分?jǐn)?shù)中得到了證明。對(duì)于Vista3D-L,本文應(yīng)用了僅增強(qiáng)設(shè)置。通過(guò)使用角度擴(kuò)散先驗(yàn)組合,本文的方法實(shí)現(xiàn)了更高的0.868 CLIP相似度。
Vista3D-L的能力,特別是在通過(guò)先驗(yàn)組合生成具有更詳細(xì)和逼真紋理的對(duì)象方面,在圖4中得到了展示。此外,本文在Google Scanned Object (GSO)數(shù)據(jù)集上進(jìn)行了定量實(shí)驗(yàn),遵循SyncDreamer的設(shè)置。本文使用30個(gè)對(duì)象評(píng)估每種方法,并計(jì)算3D對(duì)象的渲染視圖與16個(gè)真值anchor視圖之間的PSNR、SSIM和LPIPS。結(jié)果如下表2所示,顯示本文的Vista3D-L在這些方法中以較大優(yōu)勢(shì)實(shí)現(xiàn)了SOTA性能。盡管Vista3D-S只有單一擴(kuò)散先驗(yàn),但也展示了具有競(jìng)爭(zhēng)力的性能。
用戶研究
在本文的用戶研究中,本文評(píng)估了參考視圖一致性和整體3D模型質(zhì)量。評(píng)估涵蓋了四種方法:DreamGaussian 、Magic123,以及本文自己的Vista3D-S和Vista3D-L。本文招募了10名參與者進(jìn)行這項(xiàng)用戶研究。每位參與者被要求根據(jù)視圖一致性和整體質(zhì)量分別對(duì)不同方法生成的3D對(duì)象進(jìn)行排序。因此,每個(gè)指標(biāo)的得分范圍為1到4。下表3中的結(jié)果顯示,本文的Vista3D-S在視圖一致性和整體質(zhì)量上均優(yōu)于之前的方法。此外,Vista3D-L中采用的角度先驗(yàn)組合進(jìn)一步提高了生成3D對(duì)象的一致性和質(zhì)量。
消融研究
粗到細(xì)框架。 本文的框架集成了一個(gè)粗略階段以學(xué)習(xí)初始幾何形狀,然后是一個(gè)細(xì)化階段以優(yōu)化幾何形狀和著色紋理。本文在下圖5(a)中驗(yàn)證了這種粗到細(xì)流程的必要性。本文首先使用等值面表示直接學(xué)習(xí)幾何形狀,發(fā)現(xiàn)如果沒(méi)有初步的幾何初始化,幾何優(yōu)化容易崩潰。因此,粗略初始化變得至關(guān)重要。此外,本文展示了從粗略階段的3DGS中提取的粗糙網(wǎng)格的法線貼圖??梢杂^察到,粗略階段往往會(huì)生成粗糙甚至不閉合的幾何形狀,且難以緩解。這些發(fā)現(xiàn)表明,結(jié)合這兩個(gè)階段對(duì)于Vista3D的最佳性能是至關(guān)重要的。
結(jié)論
本文提出了一種從粗到細(xì)的框架 Vista3D,以探索單張輸入圖像的3D暗面。該框架通過(guò)文本提示實(shí)現(xiàn)用戶驅(qū)動(dòng)的編輯,或通過(guò)圖像字幕提高生成質(zhì)量。生成過(guò)程從通過(guò)高斯噴射獲得的粗略幾何開(kāi)始,隨后使用等值面表示進(jìn)行細(xì)化,并輔以解耦的紋理。這些3D表示的設(shè)計(jì)能夠在短短5分鐘內(nèi)生成紋理網(wǎng)格。此外,擴(kuò)散先驗(yàn)的角度組合使本文的框架能夠揭示未見(jiàn)視角的多樣性,同時(shí)保持3D一致性。本文的方法在現(xiàn)實(shí)感和細(xì)節(jié)方面超越了以往的方法,在生成時(shí)間和紋理網(wǎng)格質(zhì)量之間達(dá)到了最佳平衡。本文希望本文的貢獻(xiàn)能夠激勵(lì)未來(lái)的進(jìn)步,并促進(jìn)對(duì)單張圖像3D暗面的進(jìn)一步探索。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:Qiuhong Shen等
