自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

ICLR 2025 | 原生3D+流匹配,現(xiàn)有SOTA被GaussianAnything超越

人工智能 新聞
在 ICLR 2025 中,來(lái)自南洋理工大學(xué) S-Lab、上海 AI Lab 、北京大學(xué)以及香港大學(xué)的研究者提出的基于 Flow Matching 技術(shù)的全新 3D 生成框架 GaussianAnything。

蘭宇時(shí),MMLab@NTU博士生,導(dǎo)師為 Chen Change Loy。本科畢業(yè)于北京郵電大學(xué),目前主要研究興趣為基于神經(jīng)渲染的 3D 生成模型、3D 重建與編輯。

盡管 3D 內(nèi)容生成技術(shù)取得了顯著進(jìn)展,現(xiàn)有方法仍在輸入格式、潛空間設(shè)計(jì)和輸出表示上面臨挑戰(zhàn)。

在 ICLR 2025 中,來(lái)自南洋理工大學(xué) S-Lab、上海 AI Lab、北京大學(xué)以及香港大學(xué)的研究者提出的基于 Flow Matching 技術(shù)的全新 3D 生成框架 GaussianAnything,針對(duì)現(xiàn)有問(wèn)題引入了一種交互式的點(diǎn)云結(jié)構(gòu)化潛空間,實(shí)現(xiàn)了可擴(kuò)展的、高質(zhì)量的 3D 生成,并支持幾何-紋理解耦生成與可控編輯能力。

該方法在 Objaverse 數(shù)據(jù)集上進(jìn)行了大規(guī)模訓(xùn)練,并在文本、圖像、點(diǎn)云引導(dǎo)的 3D 生成任務(wù)中超越了現(xiàn)有的原生 3D 生成方法。

目前,項(xiàng)目所有模型和測(cè)試/訓(xùn)練代碼均已全面開(kāi)源至 Github/Huggingface, 并支持多卡、自動(dòng)混合精度 (AMP) 訓(xùn)練、flash-attention 以及 BF16 等加速技巧。

圖片

  • 論文項(xiàng)目主頁(yè): https://nirvanalan.github.io/projects/GA/
  • 論文代碼: https://github.com/NIRVANALAN/GaussianAnything
  • Gradio demo 地址: https://huggingface.co/spaces/yslan/GaussianAnything-AIGC3D
  • 個(gè)人主頁(yè): https://nirvanalan.github.io/
  • 論文標(biāo)題:GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation

圖片

研究背景

近年來(lái),以可微渲染和生成模型為核心的神經(jīng)渲染技術(shù) (Neural Rendering) 取得了快速的進(jìn)展,在新視角合成、3D 物體生成和編輯上取得了令人滿意的效果。在統(tǒng)一圖片/視頻生成的 LDM 框架的基礎(chǔ)上,近期關(guān)于原生 (native) 3D diffusion model 的研究也展現(xiàn)了更優(yōu)的泛化性,更快的生成速度與更好的可編輯性。

然而,一些關(guān)于原生 3D diffusion 模型的設(shè)計(jì)挑戰(zhàn)仍然存在: (1) 3D VAE 輸入格式,(2) 3D 隱空間結(jié)構(gòu)設(shè)計(jì),(3) 3D 輸出表征選擇。

為了解決上述問(wèn)題,研究者提出基于 Flow Matching 的可控點(diǎn)云結(jié)構(gòu)化隱空間 3D 生成模型 GaussianAnything,支持多模態(tài)可控的高效、高質(zhì)量的 3D 資產(chǎn)生成。

方法

方法概覽圖 (3D VAE 部分):

圖片

研究者提出的 3D-aware flow matching 模型主要包含以下三個(gè)部分:

  1. 利用編碼器 (3D VAE Encoder) 將 3D 物體的 RGB-D (epth)-N (ormal) 多視圖渲染圖壓縮到點(diǎn)云結(jié)構(gòu)的 3D 隱空間。
  2. 在 3D 隱空間中訓(xùn)練幾何 + 紋理的級(jí)聯(lián)流匹配模型 (Flow Matching model), 支持圖片、文字、和稀疏點(diǎn)云引導(dǎo)的 3D 物體生成。
  3. 使用 3D VAE Decoder 上采樣生成的點(diǎn)云隱變量,并解碼為稠密的表面高斯 (Surfel Gaussian)。

Point-cloud structured 3D VAE

結(jié)構(gòu)化的高效、高質(zhì)量 3D 壓縮

高效的 3D 物體編碼

首先,和圖片/視頻 LDM 模型類似,3D 隱空間生成模型也同樣需要與之適配的 3D VAE 模型,且該模型的效果決定了 3D 生成模型的上限。因此,研究者采取了以下設(shè)計(jì)來(lái)提升原生 3D VAE 的性能:

在 3D 編碼器端,相較于目前普遍使用的基于稠密點(diǎn)云 (dense point cloud) 的方法 (CLAY [1], Craftsman [2]), 研究者選擇使用多視圖 RGB-D (epth)-N (ormal) 渲染圖來(lái)作為輸入 3D 物體的等效表達(dá),并聯(lián)合 Plucker 相機(jī)編碼一起共 15 維信息圖片作為多視圖編碼器的輸入。

為了更好地編碼多視圖輸入,相較于直接使用圖像/視頻領(lǐng)域常見(jiàn)的 U-Net 模型,研究者使用基于 3D-attention 的 Transformer [3] 結(jié)構(gòu)來(lái)處理多視圖輸入圖片。相較于使用稠密點(diǎn)云作為輸入的方法,本文的 3D VAE Encoder 更高效自然地?fù)碛衼?lái)自多種輸入格式的豐富的 3D 信息,并能夠同時(shí)壓縮顏色與幾何信息。

基于 3D 點(diǎn)云結(jié)構(gòu)化隱空間表達(dá)

雖然上述過(guò)程已經(jīng)將 3D 物體壓縮為 multi-view latent圖片 , 本文中研究者認(rèn)為該隱空間并不適合直接用于 3D diffusion 的訓(xùn)練。首先,圖片的維度圖片較高,在高分辨率下訓(xùn)練開(kāi)銷巨大。其次,multi-view latent 圖片并非原生的 3D 表達(dá),無(wú)法直觀靈活地用于 3D 編輯任務(wù).

為了解決上述缺陷,研究者提出在點(diǎn)云結(jié)構(gòu)的 3D 隱空間表達(dá)進(jìn)行 3D diffusion 的學(xué)習(xí)。具體地,他們使用 Cross Attention 操作圖片將特征圖片投影到從輸入物體表面采樣得到的稀疏的 3D 點(diǎn)云 上。最終的點(diǎn)云結(jié)構(gòu)化隱變量圖片被用于 diffusion 生成模型的訓(xùn)練。

高質(zhì)量 3D 高斯上采樣/解碼

在得到點(diǎn)云結(jié)構(gòu)化隱變量后,研究者首先使用 3D Transformer 結(jié)構(gòu)對(duì)其進(jìn)一步解碼圖片,得到深層次特征。

在此基礎(chǔ)上,他們通過(guò) K 個(gè)上采樣模塊將低分辨率點(diǎn)云逐步上采樣至高分辨率高斯點(diǎn)云,其中每一個(gè)模塊都由 transformer 實(shí)現(xiàn): 圖片。該設(shè)計(jì)同時(shí)支持不同細(xì)節(jié)層次 (Level of Details) 的 3D 資產(chǎn)輸出,提升了本文方法的實(shí)用性。

與此同時(shí),該上采樣設(shè)計(jì)能夠有效保證較高的高斯利用率 (98% 以上),而傳統(tǒng)多視圖方法 (LGM) 由于視角重疊問(wèn)題僅有 50% 的高斯利用率。

VAE 模型訓(xùn)練

本文的 3D VAE 模型可端到端學(xué)習(xí),并同時(shí)使用 2D Rendering loss 和幾何 loss 共同監(jiān)督:

圖片

其中圖片為多視圖重建損失,圖片為 VAE KL 約束,圖片約束物體表面幾何,圖片用于提升 3D 材質(zhì)真實(shí)性。在實(shí)驗(yàn)數(shù)據(jù)上,研究者使用目前最大規(guī)模的開(kāi)源 3D 數(shù)據(jù)集 Objaverse 來(lái)進(jìn)行 VAE 訓(xùn)練,并公布了 DiT-L/2 尺寸的 VAE 預(yù)訓(xùn)練模型供用戶使用。

Cascaded 3D Generation with Flow Matching

級(jí)聯(lián) 3D 生成框架

圖片

在第二階段,研究者在訓(xùn)練完成的 3D VAE space 上進(jìn)行 Flow Matching 訓(xùn)練。在使用文本/單目圖像作為輸入條件時(shí),他們均使用 Cross Attention 進(jìn)行條件信息編碼并送入 DiT 框架中進(jìn)行訓(xùn)練。同時(shí)分為兩個(gè)階段單獨(dú)學(xué)習(xí)幾何 (稀疏點(diǎn)云) 和紋理 (點(diǎn)云結(jié)構(gòu)的低維特征)。

具體而言,研究者首先訓(xùn)練一個(gè)稀疏點(diǎn)云上的 Flow Matching 模型:

圖片

在此基礎(chǔ)上,研究者將點(diǎn)云輸出作為條件信息進(jìn)一步輸出細(xì)節(jié)紋理特征:

圖片

該生成范式有效的支持了幾何 - 紋理解耦的生成與編輯。

實(shí)驗(yàn)結(jié)果

Image-conditioned 3D Generation | 圖生 3D

考慮到 3D 內(nèi)容創(chuàng)作更多采用圖片作為參考,本文方法同樣支持在給定單目圖像條件下實(shí)現(xiàn)高質(zhì)量 3D 生成。相比于多視圖生成 + 重建的兩階段方法,本文方案在 3D 生成效果、多樣性以及 3D 一致性上有更穩(wěn)定的表現(xiàn):

數(shù)值結(jié)果:

圖片

可視化結(jié)果:

圖片

Text-conditioned 3D Generation | 文生 3D

在大規(guī)模 3D 數(shù)據(jù)集 Objaverse 上,研究者基于 Flow Matching 的 3D 生成模型支持從文本描述直接生成豐富,帶有細(xì)節(jié)紋理的高質(zhì)量 3D 資產(chǎn),并支持 textured-mesh 的導(dǎo)出。生成過(guò)程僅需數(shù)秒即可完成??梢暬瘜?duì)比結(jié)果如下:

圖片

在數(shù)值指標(biāo)上,GaussianAnything 同樣優(yōu)于投稿時(shí)最優(yōu)的原生 text-conditioned 3D 生成方法。

圖片

更多內(nèi)容請(qǐng)參考原論文與項(xiàng)目主頁(yè)。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-03-10 08:25:00

機(jī)器人AI模型

2024-04-24 11:23:11

3D檢測(cè)雷達(dá)

2024-04-23 09:30:07

3D模型

2024-03-27 10:20:31

模型場(chǎng)景

2025-03-03 08:50:00

AI目標(biāo)檢測(cè)模型

2025-04-25 09:05:00

2012-11-26 12:39:07

商教投影機(jī)

2025-03-21 09:30:42

2025-02-27 13:00:00

2025-02-07 15:00:00

語(yǔ)音識(shí)別算法AI

2025-02-21 09:35:00

3DAI生成

2023-11-02 09:22:13

自動(dòng)駕駛框架

2025-02-19 14:10:00

AI3D生成

2024-06-17 12:33:34

2024-10-15 13:07:38

2022-03-07 10:04:09

機(jī)器學(xué)習(xí)訓(xùn)練模型

2018-03-15 07:12:18

區(qū)塊鏈3D打印分布式

2025-02-14 10:56:58

2023-09-25 14:53:55

3D檢測(cè)

2024-08-21 10:04:14

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)