幾秒生成逼真3D場(chǎng)景,泛化媲美Stable Diffusion | 浙大&螞蟻等提出Prometheus
論文鏈接:https://arxiv.org/pdf/2412.21117
git鏈接:https://freemty.github.io/project-prometheus/
亮點(diǎn)直擊
- Prometheus,這是一種面向文本到3D生成的3D感知隱空間擴(kuò)散模型,適用于對(duì)象和場(chǎng)景級(jí)別。
- 按照標(biāo)準(zhǔn)的隱空間擴(kuò)散范式,將訓(xùn)練分為兩個(gè)不同的階段。在第一階段,訓(xùn)練一個(gè)3D高斯變分自編碼器(GS-VAE),它以多視角或單視角RGB-D圖像為輸入,預(yù)測(cè)每個(gè)像素對(duì)齊的3D高斯。在第二階段,訓(xùn)練一個(gè)多視角LDM,聯(lián)合預(yù)測(cè)多視角RGB-D隱空間code,并以相機(jī)姿態(tài)和文本提示為條件。
- 此外,本文的完整模型在9個(gè)多視角和單視角數(shù)據(jù)集的組合上進(jìn)行訓(xùn)練,旨在實(shí)現(xiàn)與Stable Diffusion相當(dāng)?shù)姆夯芰Α?/li>
- 展示了該方法在前饋3D高斯重建和文本到3D生成中的有效性,表明本模型能夠在幾秒鐘內(nèi)生成3D場(chǎng)景,同時(shí)很好地泛化到各種3D對(duì)象和場(chǎng)景。
總結(jié)速覽
解決的問(wèn)題
- 實(shí)現(xiàn)從文本到3D場(chǎng)景的高效生成,適用于對(duì)象級(jí)別和場(chǎng)景級(jí)別。
- 提升生成3D內(nèi)容的保真度和幾何質(zhì)量,同時(shí)確保模型具備良好的泛化能力。
- 改善現(xiàn)有方法在3D生成中的效率問(wèn)題,實(shí)現(xiàn)快速且高質(zhì)量的3D生成。
提出的方案
- 多視圖、前饋、像素對(duì)齊的3D高斯生成:將3D場(chǎng)景生成表述為在隱空間變量擴(kuò)散框架中的這一過(guò)程。
- 兩階段訓(xùn)練框架:
- 第一階段:訓(xùn)練3D高斯變分自編碼器(GS-VAE),以多視角或單視角的RGB-D圖像為輸入,預(yù)測(cè)每個(gè)像素對(duì)齊的3D高斯。
- 第二階段:訓(xùn)練多視角隱空間變量擴(kuò)散模型(LDM),聯(lián)合預(yù)測(cè)多視角RGB-D隱空間代碼,并以相機(jī)姿態(tài)和文本提示為條件進(jìn)行生成。
- RGB-D隱空間變量空間的引入:通過(guò)解耦外觀和幾何信息,優(yōu)化3D高斯生成的效率和質(zhì)量。
- 基于預(yù)訓(xùn)練模型的微調(diào):以預(yù)訓(xùn)練的文本到圖像生成模型為基礎(chǔ),進(jìn)行最小調(diào)整后,利用來(lái)自單視圖和多視圖數(shù)據(jù)集的大量圖像進(jìn)行訓(xùn)練。
應(yīng)用的技術(shù)
- 隱空間變量擴(kuò)散模型(LDM):作為生成框架,結(jié)合3D高斯生成和多視角條件。
- 3D高斯變分自編碼器(GS-VAE):用于從RGB-D圖像中提取隱空間變量并生成像素對(duì)齊的3D高斯。
- RGB-D隱變量空間:解耦外觀(RGB)和幾何信息(D),提升生成的保真度和幾何質(zhì)量。
- 多視角訓(xùn)練數(shù)據(jù):結(jié)合9個(gè)多視角和單視角數(shù)據(jù)集,增強(qiáng)模型的泛化能力。
- 前饋生成策略:相比傳統(tǒng)方法,顯著加速生成過(guò)程。
達(dá)到的效果
- 高效生成:在幾秒內(nèi)實(shí)現(xiàn)對(duì)象級(jí)別和場(chǎng)景級(jí)別的3D生成。
- 高質(zhì)量輸出:生成的3D內(nèi)容在保真度和幾何質(zhì)量上表現(xiàn)優(yōu)異。
- 良好的泛化能力:在不同類(lèi)型的3D對(duì)象和場(chǎng)景中均表現(xiàn)出色,與Stable Diffusion相當(dāng)?shù)姆夯芰Α?/li>
- 實(shí)驗(yàn)驗(yàn)證:大量實(shí)驗(yàn)結(jié)果證明了Prometheus在前饋3D高斯重建和文本到3D生成中的有效性。
方法
如下圖2所示,Prometheus遵循常見(jiàn)的隱空間變量擴(kuò)散框架,該框架包括兩個(gè)訓(xùn)練階段。在第一個(gè)階段,3D自動(dòng)編碼器GS-VAE從多視圖圖像中學(xué)習(xí)壓縮和抽象的隱空間變量空間。隨后,它將該隱空間變量空間解碼為像素對(duì)齊的3D高斯(3DGS)表示,作為場(chǎng)景級(jí)別的表示。在第二個(gè)階段,一個(gè)隱空間變量多視圖擴(kuò)散模型(MVLDM)在第一階段自動(dòng)編碼器生成的隱空間變量表示上進(jìn)行訓(xùn)練,從而形成一個(gè)完全生成的模型。最后,詳細(xì)說(shuō)明了采樣策略,該策略能夠在幾秒鐘內(nèi)采樣出3D場(chǎng)景,同時(shí)保持一致性和視覺(jué)保真度。
第一階段: GS-VAE
在階段 1 中,目標(biāo)是訓(xùn)練一個(gè)能夠?qū)?shù)據(jù)壓縮到隱空間并隨后將其重建為3D表示的3D自動(dòng)編碼器。給定具有相機(jī)位姿的多視角輸入圖像,GS-VAE輸出多視角像素對(duì)齊的3D高斯表示(3DGS)。這些輸出隨后被合并為場(chǎng)景級(jí)別的3D表示。
其中h x w是下采樣后的分辨率。在實(shí)際操作中,使用預(yù)訓(xùn)練的 Stable Diffusion (SD) 圖像編碼器,并在訓(xùn)練過(guò)程中凍結(jié)它。最近的方法(如 Marigold)表明,SD 編碼器在處理深度圖時(shí)表現(xiàn)出強(qiáng)大的泛化能力。因此,我們選擇使用相同的 SD 編碼器分別對(duì)圖像和深度進(jìn)行編碼,而無(wú)需進(jìn)行微調(diào)。隨后,我們將這些編碼表示進(jìn)行拼接,以獲得完整的多視圖隱空間變量Z,該隱空間變量可用于 3D 重建。此外,我們的擴(kuò)散模型在聯(lián)合的 RGB-D 隱空間變量空間中進(jìn)行訓(xùn)練。
融合多視圖隱空間變量圖像 最近的研究進(jìn)展 [26, 35, 77, 101, 102] 強(qiáng)調(diào)了基于 Transformer 的模型在整合多視圖信息方面的顯著潛力。由于每個(gè)視圖的隱空間變量編碼Z是獨(dú)立生成的,我們采用多視圖 Transformer 來(lái)促進(jìn)跨視圖信息的交換。
第二階段: 幾何感知多視圖降噪器
在第一階段的訓(xùn)練之后,獲得了一個(gè)GS-VAE,其具備以下能力:
- 能夠高效地將圖像壓縮到一個(gè)緊湊的隱空間空間中;
- 通過(guò)3D高斯解碼器在2D和3D之間架起橋梁.
其中,y和R分別是文本和相機(jī)姿態(tài)的條件。MV-LDM 是通過(guò)在隱空間中使用去噪得分匹配 (DSM)進(jìn)行訓(xùn)練的。
幾秒鐘內(nèi)生成文本到 3D 場(chǎng)景
為了以高質(zhì)量進(jìn)行采樣并與條件對(duì)齊,使用無(wú)分類(lèi)器引導(dǎo)(CFG)來(lái)引導(dǎo)多視圖生成朝向條件信號(hào) 。
實(shí)驗(yàn)
訓(xùn)練數(shù)據(jù)
本文方法在大規(guī)模單視圖和多視圖數(shù)據(jù)集上進(jìn)行訓(xùn)練,詳見(jiàn)下表1。關(guān)于單視圖數(shù)據(jù)集,使用了高質(zhì)量的 SAM-1B 數(shù)據(jù)集,該數(shù)據(jù)集包含詳細(xì)的描述,并出現(xiàn)在 PixArt-α 中。本文模型在9個(gè)多視圖數(shù)據(jù)集的組合上進(jìn)行訓(xùn)練,這些數(shù)據(jù)集包括以物體為中心、室內(nèi)、室外和駕駛場(chǎng)景。每個(gè)場(chǎng)景的文本提示由多模態(tài)大語(yǔ)言模型 生成。
實(shí)施細(xì)節(jié)
在GS-VAE的訓(xùn)練階段(階段1),為每個(gè)多視圖場(chǎng)景設(shè)置輸入視圖和新視圖的數(shù)量為N=4。為了提高模型的泛化能力,還在多視圖圖像旁采樣2個(gè)單視圖圖像,并僅對(duì)單視圖圖像的輸入視圖應(yīng)用損失。GS-VAE在8個(gè)A800 GPU上以32的批量大小進(jìn)行訓(xùn)練。最終模型經(jīng)過(guò)200,000次迭代,大約需要4天。使用gsplat作為我們的3D高斯渲染器。從預(yù)訓(xùn)練的RayDiff模型初始化跨視圖Transformer的權(quán)重。
對(duì)于MV-LDM(階段2),采用Stable Diffusion 2.1作為基礎(chǔ)模型。在訓(xùn)練過(guò)程中,為每個(gè)多視圖場(chǎng)景設(shè)置N=8。與階段1類(lèi)似,在多視圖圖像旁采樣M=4個(gè)單視圖圖像。每次迭代時(shí),在每個(gè)GPU上采樣批大小為8的圖像。最終的MV-LDM模型在32個(gè)A800 GPU上訓(xùn)練,總批量大小為3072張圖像。模型經(jīng)過(guò)350,000次迭代,大約需要7天。使用DepthAnything-V2-S模型動(dòng)態(tài)估計(jì)深度圖。為了在采樣過(guò)程中實(shí)現(xiàn)無(wú)分類(lèi)器引導(dǎo),在訓(xùn)練過(guò)程中,以10%的概率隨機(jī)丟棄文本條件t和姿態(tài)條件p。
評(píng)估協(xié)議
3D生成(階段2)。 為了評(píng)估本文模型的文本到3D生成能力,使用來(lái)自T3Bench 的兩個(gè)文本提示集——單對(duì)象和單對(duì)象帶環(huán)境。這些集合共同評(píng)估模型在對(duì)象級(jí)別和場(chǎng)景級(jí)別生成任務(wù)中的熟練程度。此外,收集了80個(gè)涵蓋室內(nèi)和室外場(chǎng)景的多樣化場(chǎng)景級(jí)別文本提示。定量結(jié)果使用CLIPScore、NIQE 和BRISQUE 指標(biāo)進(jìn)行評(píng)估。CLIPScore評(píng)估生成圖像與文本提示之間的一致性,而NIQE和BRISQUE則表示圖像質(zhì)量。
與基線(xiàn)比較
3D生成。 將Prometheus與三種文本到3D的基線(xiàn)方法進(jìn)行比較,涵蓋了基于優(yōu)化的方法和前饋方法。GaussianDreamer 是一種最先進(jìn)的基于SDS的3DGS方法。還實(shí)現(xiàn)了一個(gè)基線(xiàn),它將多視圖到3D的方法LGM 應(yīng)用于由MVDream 生成的圖像。我們還與一種前饋方法Director3D(不帶精煉器)進(jìn)行比較。下圖4和下圖5顯示,本文方法能夠生成對(duì)象和場(chǎng)景級(jí)別的內(nèi)容,包含背景和豐富的細(xì)節(jié),優(yōu)于基于優(yōu)化和前饋的基線(xiàn)。下表3顯示,整體指標(biāo)在對(duì)象級(jí)別上不如Director3D,但在其他情況下領(lǐng)先。這歸因于對(duì)象中心設(shè)置中的失敗案例。請(qǐng)注意,我們方法僅需8秒即可生成,優(yōu)于所有基線(xiàn)。
GS-VAE 消融 (Stage 1)
在下表4中,對(duì)Tartanair的困難模式進(jìn)行了消融研究,分析了GS-VAE的以下因素。
深度先驗(yàn)對(duì)GS-VAE的有效性: 研究了在第一階段訓(xùn)練中RGB-D隱空間空間的影響。上表4中的結(jié)果顯示,僅使用RGB隱空間空間而不使用RGB-D隱空間空間進(jìn)行訓(xùn)練,會(huì)導(dǎo)致幾何結(jié)果比完整模型更差。此外,這種較差的幾何將導(dǎo)致重建圖像的質(zhì)量不佳,詳見(jiàn)圖6中的定性結(jié)果。
大規(guī)模數(shù)據(jù)集在可泛化重建中的重要性: 接下來(lái),對(duì)大規(guī)模數(shù)據(jù)集的有效性進(jìn)行了消融研究,在上表4中標(biāo)記為“w/o single-view”。排除單視圖數(shù)據(jù)集會(huì)導(dǎo)致重建圖像和幾何性能的下降。這強(qiáng)調(diào)了大規(guī)模數(shù)據(jù)集在實(shí)現(xiàn)穩(wěn)健的可泛化重建中的重要作用。也在下圖6中展示了定性結(jié)果。
MV-LDM 消融(Stage 2)
在下表 5 中,對(duì) T3Bench 的 SingleObject-with-Surroundings 子集進(jìn)行了消融研究,分析了 MV-LDM 的訓(xùn)練和推理策略。
單視圖數(shù)據(jù)集 (Single-View Dataset)
評(píng)估了單視圖數(shù)據(jù)的影響。當(dāng)僅使用多視圖數(shù)據(jù)進(jìn)行訓(xùn)練(即不包含單視圖數(shù)據(jù),w/o single-view data)時(shí),模型性能出現(xiàn)了下降。這種性能下降可歸因于缺乏單視圖數(shù)據(jù),導(dǎo)致模型的泛化能力降低,這與 MVDream 中的觀察結(jié)果一致。
混合采樣和 CFG 重標(biāo)定 (Hybrid Sampling and CFG-Rescale)
最后,評(píng)估了前文中推理策略的設(shè)計(jì),具體包括混合 CFG 采樣和 CFG 重標(biāo)定。在實(shí)驗(yàn)中,僅對(duì)文本提示應(yīng)用 CFG(即不使用混合采樣,w/o hybrid sampling),并將 CFG 重標(biāo)定因子設(shè)置為 0(w/o CFG-rescale)。上表 5 顯示,缺乏混合采樣和 CFG 重標(biāo)定會(huì)導(dǎo)致指標(biāo)在不同程度上下降。
結(jié)論
Prometheus,這是一種3D感知的隱空間擴(kuò)散模型,專(zhuān)為在對(duì)象級(jí)別和場(chǎng)景級(jí)別上實(shí)現(xiàn)文本到3D生成而設(shè)計(jì),并且能夠在數(shù)秒內(nèi)完成。通過(guò)大量實(shí)驗(yàn),展示了該方法在前饋重建和3D生成任務(wù)中的有效性。相信,本工作為文本到3D場(chǎng)景生成提供了重要貢獻(xiàn),提升了通用性、保真度和效率。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)
