ICLR 2025 | 原生3D+流匹配,現(xiàn)有SOTA被GaussianAnything超越
蘭宇時(shí),MMLab@NTU博士生,導(dǎo)師為 Chen Change Loy。本科畢業(yè)于北京郵電大學(xué),目前主要研究興趣為基于神經(jīng)渲染的 3D 生成模型、3D 重建與編輯。
盡管 3D 內(nèi)容生成技術(shù)取得了顯著進(jìn)展,現(xiàn)有方法仍在輸入格式、潛空間設(shè)計(jì)和輸出表示上面臨挑戰(zhàn)。
在 ICLR 2025 中,來(lái)自南洋理工大學(xué) S-Lab、上海 AI Lab、北京大學(xué)以及香港大學(xué)的研究者提出的基于 Flow Matching 技術(shù)的全新 3D 生成框架 GaussianAnything,針對(duì)現(xiàn)有問(wèn)題引入了一種交互式的點(diǎn)云結(jié)構(gòu)化潛空間,實(shí)現(xiàn)了可擴(kuò)展的、高質(zhì)量的 3D 生成,并支持幾何-紋理解耦生成與可控編輯能力。
該方法在 Objaverse 數(shù)據(jù)集上進(jìn)行了大規(guī)模訓(xùn)練,并在文本、圖像、點(diǎn)云引導(dǎo)的 3D 生成任務(wù)中超越了現(xiàn)有的原生 3D 生成方法。
目前,項(xiàng)目所有模型和測(cè)試/訓(xùn)練代碼均已全面開(kāi)源至 Github/Huggingface, 并支持多卡、自動(dòng)混合精度 (AMP) 訓(xùn)練、flash-attention 以及 BF16 等加速技巧。
- 論文項(xiàng)目主頁(yè): https://nirvanalan.github.io/projects/GA/
- 論文代碼: https://github.com/NIRVANALAN/GaussianAnything
- Gradio demo 地址: https://huggingface.co/spaces/yslan/GaussianAnything-AIGC3D
- 個(gè)人主頁(yè): https://nirvanalan.github.io/
- 論文標(biāo)題:GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation
研究背景
近年來(lái),以可微渲染和生成模型為核心的神經(jīng)渲染技術(shù) (Neural Rendering) 取得了快速的進(jìn)展,在新視角合成、3D 物體生成和編輯上取得了令人滿意的效果。在統(tǒng)一圖片/視頻生成的 LDM 框架的基礎(chǔ)上,近期關(guān)于原生 (native) 3D diffusion model 的研究也展現(xiàn)了更優(yōu)的泛化性,更快的生成速度與更好的可編輯性。
然而,一些關(guān)于原生 3D diffusion 模型的設(shè)計(jì)挑戰(zhàn)仍然存在: (1) 3D VAE 輸入格式,(2) 3D 隱空間結(jié)構(gòu)設(shè)計(jì),(3) 3D 輸出表征選擇。
為了解決上述問(wèn)題,研究者提出基于 Flow Matching 的可控點(diǎn)云結(jié)構(gòu)化隱空間 3D 生成模型 GaussianAnything,支持多模態(tài)可控的高效、高質(zhì)量的 3D 資產(chǎn)生成。
方法
方法概覽圖 (3D VAE 部分):
研究者提出的 3D-aware flow matching 模型主要包含以下三個(gè)部分:
- 利用編碼器 (3D VAE Encoder) 將 3D 物體的 RGB-D (epth)-N (ormal) 多視圖渲染圖壓縮到點(diǎn)云結(jié)構(gòu)的 3D 隱空間。
- 在 3D 隱空間中訓(xùn)練幾何 + 紋理的級(jí)聯(lián)流匹配模型 (Flow Matching model), 支持圖片、文字、和稀疏點(diǎn)云引導(dǎo)的 3D 物體生成。
- 使用 3D VAE Decoder 上采樣生成的點(diǎn)云隱變量,并解碼為稠密的表面高斯 (Surfel Gaussian)。
Point-cloud structured 3D VAE
結(jié)構(gòu)化的高效、高質(zhì)量 3D 壓縮
高效的 3D 物體編碼
首先,和圖片/視頻 LDM 模型類似,3D 隱空間生成模型也同樣需要與之適配的 3D VAE 模型,且該模型的效果決定了 3D 生成模型的上限。因此,研究者采取了以下設(shè)計(jì)來(lái)提升原生 3D VAE 的性能:
在 3D 編碼器端,相較于目前普遍使用的基于稠密點(diǎn)云 (dense point cloud) 的方法 (CLAY [1], Craftsman [2]), 研究者選擇使用多視圖 RGB-D (epth)-N (ormal) 渲染圖來(lái)作為輸入 3D 物體的等效表達(dá),并聯(lián)合 Plucker 相機(jī)編碼一起共 15 維信息作為多視圖編碼器的輸入。
為了更好地編碼多視圖輸入,相較于直接使用圖像/視頻領(lǐng)域常見(jiàn)的 U-Net 模型,研究者使用基于 3D-attention 的 Transformer [3] 結(jié)構(gòu)來(lái)處理多視圖輸入。相較于使用稠密點(diǎn)云作為輸入的方法,本文的 3D VAE Encoder 更高效自然地?fù)碛衼?lái)自多種輸入格式的豐富的 3D 信息,并能夠同時(shí)壓縮顏色與幾何信息。
基于 3D 點(diǎn)云結(jié)構(gòu)化隱空間表達(dá)
雖然上述過(guò)程已經(jīng)將 3D 物體壓縮為 multi-view latent , 本文中研究者認(rèn)為該隱空間并不適合直接用于 3D diffusion 的訓(xùn)練。首先,
的維度
較高,在高分辨率下訓(xùn)練開(kāi)銷巨大。其次,multi-view latent
并非原生的 3D 表達(dá),無(wú)法直觀靈活地用于 3D 編輯任務(wù).
為了解決上述缺陷,研究者提出在點(diǎn)云結(jié)構(gòu)的 3D 隱空間表達(dá)進(jìn)行 3D diffusion 的學(xué)習(xí)。具體地,他們使用 Cross Attention 操作將特征
投影到從輸入物體表面采樣得到的稀疏的 3D 點(diǎn)云 上。最終的點(diǎn)云結(jié)構(gòu)化隱變量
被用于 diffusion 生成模型的訓(xùn)練。
高質(zhì)量 3D 高斯上采樣/解碼
在得到點(diǎn)云結(jié)構(gòu)化隱變量后,研究者首先使用 3D Transformer 結(jié)構(gòu)對(duì)其進(jìn)一步解碼,得到深層次特征。
在此基礎(chǔ)上,他們通過(guò) K 個(gè)上采樣模塊將低分辨率點(diǎn)云逐步上采樣至高分辨率高斯點(diǎn)云,其中每一個(gè)模塊都由 transformer 實(shí)現(xiàn): 。該設(shè)計(jì)同時(shí)支持不同細(xì)節(jié)層次 (Level of Details) 的 3D 資產(chǎn)輸出,提升了本文方法的實(shí)用性。
與此同時(shí),該上采樣設(shè)計(jì)能夠有效保證較高的高斯利用率 (98% 以上),而傳統(tǒng)多視圖方法 (LGM) 由于視角重疊問(wèn)題僅有 50% 的高斯利用率。
VAE 模型訓(xùn)練
本文的 3D VAE 模型可端到端學(xué)習(xí),并同時(shí)使用 2D Rendering loss 和幾何 loss 共同監(jiān)督:
其中為多視圖重建損失,
為 VAE KL 約束,
約束物體表面幾何,
用于提升 3D 材質(zhì)真實(shí)性。在實(shí)驗(yàn)數(shù)據(jù)上,研究者使用目前最大規(guī)模的開(kāi)源 3D 數(shù)據(jù)集 Objaverse 來(lái)進(jìn)行 VAE 訓(xùn)練,并公布了 DiT-L/2 尺寸的 VAE 預(yù)訓(xùn)練模型供用戶使用。
Cascaded 3D Generation with Flow Matching
級(jí)聯(lián) 3D 生成框架
在第二階段,研究者在訓(xùn)練完成的 3D VAE space 上進(jìn)行 Flow Matching 訓(xùn)練。在使用文本/單目圖像作為輸入條件時(shí),他們均使用 Cross Attention 進(jìn)行條件信息編碼并送入 DiT 框架中進(jìn)行訓(xùn)練。同時(shí)分為兩個(gè)階段單獨(dú)學(xué)習(xí)幾何 (稀疏點(diǎn)云) 和紋理 (點(diǎn)云結(jié)構(gòu)的低維特征)。
具體而言,研究者首先訓(xùn)練一個(gè)稀疏點(diǎn)云上的 Flow Matching 模型:
在此基礎(chǔ)上,研究者將點(diǎn)云輸出作為條件信息進(jìn)一步輸出細(xì)節(jié)紋理特征:
該生成范式有效的支持了幾何 - 紋理解耦的生成與編輯。
實(shí)驗(yàn)結(jié)果
Image-conditioned 3D Generation | 圖生 3D
考慮到 3D 內(nèi)容創(chuàng)作更多采用圖片作為參考,本文方法同樣支持在給定單目圖像條件下實(shí)現(xiàn)高質(zhì)量 3D 生成。相比于多視圖生成 + 重建的兩階段方法,本文方案在 3D 生成效果、多樣性以及 3D 一致性上有更穩(wěn)定的表現(xiàn):
數(shù)值結(jié)果:
可視化結(jié)果:
Text-conditioned 3D Generation | 文生 3D
在大規(guī)模 3D 數(shù)據(jù)集 Objaverse 上,研究者基于 Flow Matching 的 3D 生成模型支持從文本描述直接生成豐富,帶有細(xì)節(jié)紋理的高質(zhì)量 3D 資產(chǎn),并支持 textured-mesh 的導(dǎo)出。生成過(guò)程僅需數(shù)秒即可完成??梢暬瘜?duì)比結(jié)果如下:
在數(shù)值指標(biāo)上,GaussianAnything 同樣優(yōu)于投稿時(shí)最優(yōu)的原生 text-conditioned 3D 生成方法。
更多內(nèi)容請(qǐng)參考原論文與項(xiàng)目主頁(yè)。