ECCV 2024 | 引入DiT的原生3D通用框架,適用任意神經(jīng)場(chǎng)、秒級(jí)生成
論文一作蘭宇時(shí)為南洋理工大學(xué)(NTU)博士生,導(dǎo)師為 Chen Change Loy。本科畢業(yè)于北京郵電大學(xué),目前主要研究興趣為基于神經(jīng)渲染的 3D 生成模型、3D 重建與編輯。
在 ECCV 2024 中,來自南洋理工大學(xué) S-Lab、上海 AI Lab 以及北京大學(xué)的研究者提出了一種原生 3D LDM 生成框架。具體來講,他們針對(duì)現(xiàn)有原生 3D 生成模型可拓展性差、訓(xùn)練效率低、泛化性較差等問題,提出一種基于 3D VAE 和 3D-DiT 的兩階段通用 3D 生成框架 Latent Neural ?elds 3D Diffusion (LN3Diff)。該方法在 Objaverse 數(shù)據(jù)集上進(jìn)行了大規(guī)模訓(xùn)練,并在多個(gè)基準(zhǔn)測(cè)試中取得了優(yōu)異成績(jī),并擁有更快的推理速度。
- 論文項(xiàng)目主頁: https://nirvanalan.github.io/projects/ln3diff/
- 論文代碼: https://github.com/NIRVANALAN/LN3Diff
- Gradio demo 地址: https://huggingface.co/spaces/yslan/LN3Diff_I23D
- 個(gè)人主頁: https://nirvanalan.github.io/
- 論文標(biāo)題: LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation?
研究背景
近年來,以可微渲染和生成模型為核心的神經(jīng)渲染技術(shù) (Neural Rendering) 取得了很大的進(jìn)展,并在新視角合成、3D 編輯和 3D 物體生成上取得了非常好的效果。然而,相較于統(tǒng)一圖片 / 視頻生成的 LDM 框架,基于 diffusion 模型的原生 3D 生成模型依然缺少通用的框架。
目前基于 SDS 蒸餾的方法受限于優(yōu)化時(shí)長(zhǎng)和飽和度較高的問題,而基于多視圖生成 + Feedforward 重建的兩階段方法受限于多視圖生成效果與多樣性。這些限制極大地制約了 3D AIGC 的性能與自由度。
為了解決上述問題,研究者提出將基于 LDM (Latent Diffusion Model) 的原生生成框架引入 3D 生成,通過在 3D 隱空間直接進(jìn)行 diffusion 采樣來實(shí)現(xiàn)高效、高質(zhì)量的 3D 資產(chǎn)生成。
方法效果圖
方法
方法概覽圖
盡管之前的工作也嘗試使用 LDM 直接進(jìn)行 3D 生成,但受制于可拓展性、生成效率與在大數(shù)據(jù)上的泛化能力,并沒有成為主流的 3D 生成方案。
因此,研究者提出 Latent Neural ?elds 3D Diffusion (LN3Diff),一種適用于任意 Neural Fields 的通用 3D 生成框架,以實(shí)現(xiàn)高效、高質(zhì)量、可控的 3D 生成。
3D-aware VAE : 高效信息壓縮
首先,和圖片 / 視頻生成模型類似,3D 隱空間生成模型需要與之適配的 VAE 模型來實(shí)現(xiàn)高效的信息壓縮。為了更好地兼容 3D 模態(tài),相較于直接使用 SD VAE 模型來進(jìn)行信息編碼,本文選擇在大規(guī)模 3D 數(shù)據(jù)上重新訓(xùn)練 3D-aware VAE 模型。
在編碼器端,研究者選擇 3D 物體的多視圖 (multi-view images) 作為 3D VAE 的輸入形式,以保留紋理建模能力并更好地兼容 2D 圖像編碼器的結(jié)構(gòu)。同時(shí)將多視圖圖像、對(duì)應(yīng)的深度圖以及 Plucker 相機(jī)信息作為模型輸入,并在 token 空間進(jìn)行 3D-aware attention 運(yùn)算以實(shí)現(xiàn)更好地 3D 一致性。
在解碼器端,為了實(shí)現(xiàn)更優(yōu)的信息壓縮,研究者使用基于 3D-DiT 的 VAE 解碼器。為了更好地支持 3D-aware 操作,在 3D-DiT 解碼器端提出 Self-plane attention 與 Cross-plane attention 來使用注意力運(yùn)算在 token 空間提升 3D-aware 表達(dá)能力。隨后,3D-DiT 解碼器輸出的 tokens 會(huì)逐步上采樣為 tri-plane, 并渲染成多視圖來進(jìn)行目標(biāo)函數(shù)計(jì)算:
其中
?為多視圖重建損失,
為 VAE KL 約束,
為物體表面幾何平滑約束,
用于提升 3D 材質(zhì)真實(shí)性。在實(shí)驗(yàn)數(shù)據(jù)上,研究者使用目前最大規(guī)模的開源 3D 數(shù)據(jù)集 Objaverse 來進(jìn)行 VAE 訓(xùn)練,并公布了 DiT-L/2 尺寸的 VAE 預(yù)訓(xùn)練模型供用戶使用。
DiT-based 3D Latent Diffusion Model: 通用 3D 生成框架
在第二階段,研究者在訓(xùn)練完成的 3D VAE space 上進(jìn)行 conditional 的 diffusion 訓(xùn)練。得益于 3D-VAE 強(qiáng)大的壓縮性能與隱空間的通用性,他們可以直接在壓縮得到的 3D latent space 上使用成熟的 conditional latent diffusion model 框架進(jìn)行訓(xùn)練。
在 ShapeNet 等較小規(guī)模數(shù)據(jù)集上,研究者使用 U-Net 模型結(jié)構(gòu)進(jìn)行 image-conditioned 訓(xùn)練;在較大規(guī)模的 Objaverse 數(shù)據(jù)集上,研究者使用 3D-aware DiT 模型進(jìn)行 image-condition 和 text-condition 兩個(gè)版本的模型訓(xùn)練。得益于 3D latent space 高效的表達(dá)能力,使用有限的計(jì)算資源 (4xA100 80GB) 便可以實(shí)現(xiàn)高質(zhì)量的 3D diffusion 訓(xùn)練,并將模型尺寸 scale up 至 DiT-L/2。
實(shí)驗(yàn)
數(shù)據(jù)集 ShapeNet 對(duì)比
為了與目前 3D 生成方法進(jìn)行公平對(duì)比,研究者同時(shí)選擇了小規(guī)模數(shù)據(jù)集 ShapeNet 與大規(guī)模通用 3D 數(shù)據(jù)集 Objaverse 進(jìn)行試驗(yàn)。
結(jié)果顯示,在數(shù)據(jù)集 ShapeNet 的三個(gè)子類上,本文方法在各項(xiàng)指標(biāo)均取得了 SoTA 的性能。相比于目前 unconditional 的生成方法,本文方法同時(shí)支持 text/image conditioned 生成。
以文本為條件的 Objaverse 3D 生成
在大規(guī)模 3D 數(shù)據(jù)集 Objaverse 上,本文基于 DiT 的 3D 生成模型支持從文本描述直接生成豐富、帶有細(xì)節(jié)紋理的高質(zhì)量 3D 資產(chǎn),并支持 textured-mesh 的導(dǎo)出。得益于原生 3D diffusion 框架的支持,生成過程僅需數(shù)秒即可完成。
在數(shù)值指標(biāo)上,LN3Diff 同樣優(yōu)于目前最優(yōu)的原生 text-conditioned 3D 生成方法。
以圖像為條件的 Objaverse 3D 生成
考慮到 3D 內(nèi)容創(chuàng)作更多采用圖片作為參考,本文方法同樣支持在給定單目圖片條件下實(shí)現(xiàn)高質(zhì)量 3D 生成。相比于多視圖生成 + 重建的兩階段方法,本文方法在 3D 生成效果、多樣性以及 3D 一致性上有更穩(wěn)定的表現(xiàn):
模型輸入 (single image condition):
模型輸出:
模型實(shí)現(xiàn) / 開源
目前項(xiàng)目所有模型和測(cè)試 / 訓(xùn)練代碼均已全面開源至 Github/Huggingface, 并支持多卡、自動(dòng)混合精度訓(xùn)練、flash-attention 以及 BF16 等加速技巧。
本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心
