自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ECCV 2024 | 引入DiT的原生3D通用框架,適用任意神經(jīng)場(chǎng)、秒級(jí)生成

發(fā)布于 2024-8-26 09:39
瀏覽
0收藏

論文一作蘭宇時(shí)為南洋理工大學(xué)(NTU)博士生,導(dǎo)師為 Chen Change Loy。本科畢業(yè)于北京郵電大學(xué),目前主要研究興趣為基于神經(jīng)渲染的 3D 生成模型、3D 重建與編輯。


在 ECCV 2024 中,來自南洋理工大學(xué) S-Lab、上海 AI Lab 以及北京大學(xué)的研究者提出了一種原生 3D LDM 生成框架。具體來講,他們針對(duì)現(xiàn)有原生 3D 生成模型可拓展性差、訓(xùn)練效率低、泛化性較差等問題,提出一種基于 3D VAE 和 3D-DiT 的兩階段通用 3D 生成框架 Latent Neural ?elds 3D Diffusion (LN3Diff)。該方法在 Objaverse 數(shù)據(jù)集上進(jìn)行了大規(guī)模訓(xùn)練,并在多個(gè)基準(zhǔn)測(cè)試中取得了優(yōu)異成績(jī),并擁有更快的推理速度。 


ECCV 2024 | 引入DiT的原生3D通用框架,適用任意神經(jīng)場(chǎng)、秒級(jí)生成-AI.x社區(qū)

  • 論文項(xiàng)目主頁: https://nirvanalan.github.io/projects/ln3diff/
  • 論文代碼: https://github.com/NIRVANALAN/LN3Diff
  • Gradio demo 地址: https://huggingface.co/spaces/yslan/LN3Diff_I23D
  • 個(gè)人主頁: https://nirvanalan.github.io/
  • 論文標(biāo)題: LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation?

研究背景

近年來,以可微渲染和生成模型為核心的神經(jīng)渲染技術(shù) (Neural Rendering) 取得了很大的進(jìn)展,并在新視角合成、3D 編輯和 3D 物體生成上取得了非常好的效果。然而,相較于統(tǒng)一圖片 / 視頻生成的 LDM 框架,基于 diffusion 模型的原生 3D 生成模型依然缺少通用的框架。


目前基于 SDS 蒸餾的方法受限于優(yōu)化時(shí)長(zhǎng)和飽和度較高的問題,而基于多視圖生成 + Feedforward 重建的兩階段方法受限于多視圖生成效果與多樣性。這些限制極大地制約了 3D AIGC 的性能與自由度。 


為了解決上述問題,研究者提出將基于 LDM (Latent Diffusion Model) 的原生生成框架引入 3D 生成,通過在 3D 隱空間直接進(jìn)行 diffusion 采樣來實(shí)現(xiàn)高效、高質(zhì)量的 3D 資產(chǎn)生成。 


ECCV 2024 | 引入DiT的原生3D通用框架,適用任意神經(jīng)場(chǎng)、秒級(jí)生成-AI.x社區(qū)

方法效果圖

方法

ECCV 2024 | 引入DiT的原生3D通用框架,適用任意神經(jīng)場(chǎng)、秒級(jí)生成-AI.x社區(qū)

方法概覽圖


盡管之前的工作也嘗試使用 LDM 直接進(jìn)行 3D 生成,但受制于可拓展性、生成效率與在大數(shù)據(jù)上的泛化能力,并沒有成為主流的 3D 生成方案。


因此,研究者提出 Latent Neural ?elds 3D Diffusion (LN3Diff),一種適用于任意 Neural Fields 的通用 3D 生成框架,以實(shí)現(xiàn)高效、高質(zhì)量、可控的 3D 生成。 

3D-aware VAE : 高效信息壓縮 

首先,和圖片 / 視頻生成模型類似,3D 隱空間生成模型需要與之適配的 VAE 模型來實(shí)現(xiàn)高效的信息壓縮。為了更好地兼容 3D 模態(tài),相較于直接使用 SD VAE 模型來進(jìn)行信息編碼,本文選擇在大規(guī)模 3D 數(shù)據(jù)上重新訓(xùn)練 3D-aware VAE 模型。

在編碼器端,研究者選擇 3D 物體的多視圖 (multi-view images) 作為 3D VAE 的輸入形式,以保留紋理建模能力并更好地兼容 2D 圖像編碼器的結(jié)構(gòu)。同時(shí)將多視圖圖像、對(duì)應(yīng)的深度圖以及 Plucker 相機(jī)信息作為模型輸入,并在 token 空間進(jìn)行 3D-aware attention 運(yùn)算以實(shí)現(xiàn)更好地 3D 一致性。 


在解碼器端,為了實(shí)現(xiàn)更優(yōu)的信息壓縮,研究者使用基于 3D-DiT 的 VAE 解碼器。為了更好地支持 3D-aware 操作,在 3D-DiT 解碼器端提出 Self-plane attention 與 Cross-plane attention 來使用注意力運(yùn)算在 token 空間提升 3D-aware 表達(dá)能力。隨后,3D-DiT 解碼器輸出的 tokens 會(huì)逐步上采樣為 tri-plane, 并渲染成多視圖來進(jìn)行目標(biāo)函數(shù)計(jì)算: 

ECCV 2024 | 引入DiT的原生3D通用框架,適用任意神經(jīng)場(chǎng)、秒級(jí)生成-AI.x社區(qū)

其中

ECCV 2024 | 引入DiT的原生3D通用框架,適用任意神經(jīng)場(chǎng)、秒級(jí)生成-AI.x社區(qū)

?為多視圖重建損失,

ECCV 2024 | 引入DiT的原生3D通用框架,適用任意神經(jīng)場(chǎng)、秒級(jí)生成-AI.x社區(qū)

為 VAE KL 約束,

ECCV 2024 | 引入DiT的原生3D通用框架,適用任意神經(jīng)場(chǎng)、秒級(jí)生成-AI.x社區(qū)

為物體表面幾何平滑約束,

ECCV 2024 | 引入DiT的原生3D通用框架,適用任意神經(jīng)場(chǎng)、秒級(jí)生成-AI.x社區(qū)

用于提升 3D 材質(zhì)真實(shí)性。在實(shí)驗(yàn)數(shù)據(jù)上,研究者使用目前最大規(guī)模的開源 3D 數(shù)據(jù)集 Objaverse 來進(jìn)行 VAE 訓(xùn)練,并公布了 DiT-L/2 尺寸的 VAE 預(yù)訓(xùn)練模型供用戶使用。 


DiT-based 3D Latent Diffusion Model: 通用 3D 生成框架 


在第二階段,研究者在訓(xùn)練完成的 3D VAE space 上進(jìn)行 conditional 的 diffusion 訓(xùn)練。得益于 3D-VAE 強(qiáng)大的壓縮性能與隱空間的通用性,他們可以直接在壓縮得到的 3D latent space 上使用成熟的 conditional latent diffusion model 框架進(jìn)行訓(xùn)練。


在 ShapeNet 等較小規(guī)模數(shù)據(jù)集上,研究者使用 U-Net 模型結(jié)構(gòu)進(jìn)行 image-conditioned 訓(xùn)練;在較大規(guī)模的 Objaverse 數(shù)據(jù)集上,研究者使用 3D-aware DiT 模型進(jìn)行 image-condition 和 text-condition 兩個(gè)版本的模型訓(xùn)練。得益于 3D latent space 高效的表達(dá)能力,使用有限的計(jì)算資源 (4xA100 80GB) 便可以實(shí)現(xiàn)高質(zhì)量的 3D diffusion 訓(xùn)練,并將模型尺寸 scale up 至 DiT-L/2。 

ECCV 2024 | 引入DiT的原生3D通用框架,適用任意神經(jīng)場(chǎng)、秒級(jí)生成-AI.x社區(qū)

實(shí)驗(yàn)

數(shù)據(jù)集 ShapeNet 對(duì)比 

為了與目前 3D 生成方法進(jìn)行公平對(duì)比,研究者同時(shí)選擇了小規(guī)模數(shù)據(jù)集 ShapeNet 與大規(guī)模通用 3D 數(shù)據(jù)集 Objaverse 進(jìn)行試驗(yàn)。


結(jié)果顯示,在數(shù)據(jù)集 ShapeNet 的三個(gè)子類上,本文方法在各項(xiàng)指標(biāo)均取得了 SoTA 的性能。相比于目前 unconditional 的生成方法,本文方法同時(shí)支持 text/image conditioned 生成。

ECCV 2024 | 引入DiT的原生3D通用框架,適用任意神經(jīng)場(chǎng)、秒級(jí)生成-AI.x社區(qū)

以文本為條件的 Objaverse 3D 生成

在大規(guī)模 3D 數(shù)據(jù)集 Objaverse 上,本文基于 DiT 的 3D 生成模型支持從文本描述直接生成豐富、帶有細(xì)節(jié)紋理的高質(zhì)量 3D 資產(chǎn),并支持 textured-mesh 的導(dǎo)出。得益于原生 3D diffusion 框架的支持,生成過程僅需數(shù)秒即可完成。 

ECCV 2024 | 引入DiT的原生3D通用框架,適用任意神經(jīng)場(chǎng)、秒級(jí)生成-AI.x社區(qū)


在數(shù)值指標(biāo)上,LN3Diff 同樣優(yōu)于目前最優(yōu)的原生 text-conditioned 3D 生成方法。

ECCV 2024 | 引入DiT的原生3D通用框架,適用任意神經(jīng)場(chǎng)、秒級(jí)生成-AI.x社區(qū)

以圖像為條件的 Objaverse 3D 生成

考慮到 3D 內(nèi)容創(chuàng)作更多采用圖片作為參考,本文方法同樣支持在給定單目圖片條件下實(shí)現(xiàn)高質(zhì)量 3D 生成。相比于多視圖生成 + 重建的兩階段方法,本文方法在 3D 生成效果、多樣性以及 3D 一致性上有更穩(wěn)定的表現(xiàn): 


模型輸入 (single image condition): 


ECCV 2024 | 引入DiT的原生3D通用框架,適用任意神經(jīng)場(chǎng)、秒級(jí)生成-AI.x社區(qū)

模型輸出: 

ECCV 2024 | 引入DiT的原生3D通用框架,適用任意神經(jīng)場(chǎng)、秒級(jí)生成-AI.x社區(qū)


ECCV 2024 | 引入DiT的原生3D通用框架,適用任意神經(jīng)場(chǎng)、秒級(jí)生成-AI.x社區(qū)



ECCV 2024 | 引入DiT的原生3D通用框架,適用任意神經(jīng)場(chǎng)、秒級(jí)生成-AI.x社區(qū)

模型實(shí)現(xiàn) / 開源 

目前項(xiàng)目所有模型和測(cè)試 / 訓(xùn)練代碼均已全面開源至 Github/Huggingface, 并支持多卡、自動(dòng)混合精度訓(xùn)練、flash-attention 以及 BF16 等加速技巧。 


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/wxvD7NOXS35aG6cKNVErOg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦