自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="e299g"><i id="e299g"><video id="e299g"></video></i></blockquote>

<p id="e299g"><li id="e299g"></li></p>

<sub id="e299g"></sub>

^{<blockquote id="e299g"><i id="e299g"></i></blockquote>}

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

ICLR 2025 | 原生3D+流匹配，現(xiàn)有SOTA被GaussianAnything超越

作者：機(jī)器之心 2025-03-11 13:13:28

人工智能新聞

在 ICLR 2025 中，來(lái)自南洋理工大學(xué) S-Lab、上海 AI Lab 、北京大學(xué)以及香港大學(xué)的研究者提出的基于 Flow Matching 技術(shù)的全新 3D 生成框架 GaussianAnything。

蘭宇時(shí)，MMLab@NTU博士生，導(dǎo)師為 Chen Change Loy。本科畢業(yè)于北京郵電大學(xué)，目前主要研究興趣為基于神經(jīng)渲染的 3D 生成模型、3D 重建與編輯。

盡管 3D 內(nèi)容生成技術(shù)取得了顯著進(jìn)展，現(xiàn)有方法仍在輸入格式、潛空間設(shè)計(jì)和輸出表示上面臨挑戰(zhàn)。

在 ICLR 2025 中，來(lái)自南洋理工大學(xué) S-Lab、上海 AI Lab、北京大學(xué)以及香港大學(xué)的研究者提出的基于 Flow Matching 技術(shù)的全新 3D 生成框架 GaussianAnything，針對(duì)現(xiàn)有問(wèn)題引入了一種交互式的點(diǎn)云結(jié)構(gòu)化潛空間，實(shí)現(xiàn)了可擴(kuò)展的、高質(zhì)量的 3D 生成，并支持幾何-紋理解耦生成與可控編輯能力。

該方法在 Objaverse 數(shù)據(jù)集上進(jìn)行了大規(guī)模訓(xùn)練，并在文本、圖像、點(diǎn)云引導(dǎo)的 3D 生成任務(wù)中超越了現(xiàn)有的原生 3D 生成方法。

目前，項(xiàng)目所有模型和測(cè)試/訓(xùn)練代碼均已全面開(kāi)源至 Github/Huggingface, 并支持多卡、自動(dòng)混合精度 (AMP) 訓(xùn)練、flash-attention 以及 BF16 等加速技巧。

論文項(xiàng)目主頁(yè): https://nirvanalan.github.io/projects/GA/
論文代碼: https://github.com/NIRVANALAN/GaussianAnything
Gradio demo 地址: https://huggingface.co/spaces/yslan/GaussianAnything-AIGC3D
個(gè)人主頁(yè): https://nirvanalan.github.io/
論文標(biāo)題：GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation

研究背景

近年來(lái)，以可微渲染和生成模型為核心的神經(jīng)渲染技術(shù) (Neural Rendering) 取得了快速的進(jìn)展，在新視角合成、3D 物體生成和編輯上取得了令人滿意的效果。在統(tǒng)一圖片/視頻生成的 LDM 框架的基礎(chǔ)上，近期關(guān)于原生 (native) 3D diffusion model 的研究也展現(xiàn)了更優(yōu)的泛化性，更快的生成速度與更好的可編輯性。

然而，一些關(guān)于原生 3D diffusion 模型的設(shè)計(jì)挑戰(zhàn)仍然存在: (1) 3D VAE 輸入格式，(2) 3D 隱空間結(jié)構(gòu)設(shè)計(jì)，(3) 3D 輸出表征選擇。

為了解決上述問(wèn)題，研究者提出基于 Flow Matching 的可控點(diǎn)云結(jié)構(gòu)化隱空間 3D 生成模型 GaussianAnything，支持多模態(tài)可控的高效、高質(zhì)量的 3D 資產(chǎn)生成。

方法

方法概覽圖 (3D VAE 部分)：

研究者提出的 3D-aware flow matching 模型主要包含以下三個(gè)部分:

利用編碼器 (3D VAE Encoder) 將 3D 物體的 RGB-D (epth)-N (ormal) 多視圖渲染圖壓縮到點(diǎn)云結(jié)構(gòu)的 3D 隱空間。
在 3D 隱空間中訓(xùn)練幾何 + 紋理的級(jí)聯(lián)流匹配模型 (Flow Matching model), 支持圖片、文字、和稀疏點(diǎn)云引導(dǎo)的 3D 物體生成。
使用 3D VAE Decoder 上采樣生成的點(diǎn)云隱變量，并解碼為稠密的表面高斯 (Surfel Gaussian)。

Point-cloud structured 3D VAE

結(jié)構(gòu)化的高效、高質(zhì)量 3D 壓縮

高效的 3D 物體編碼

首先，和圖片/視頻 LDM 模型類似，3D 隱空間生成模型也同樣需要與之適配的 3D VAE 模型，且該模型的效果決定了 3D 生成模型的上限。因此，研究者采取了以下設(shè)計(jì)來(lái)提升原生 3D VAE 的性能:

在 3D 編碼器端，相較于目前普遍使用的基于稠密點(diǎn)云 (dense point cloud) 的方法 (CLAY [1], Craftsman [2]), 研究者選擇使用多視圖 RGB-D (epth)-N (ormal) 渲染圖來(lái)作為輸入 3D 物體的等效表達(dá)，并聯(lián)合 Plucker 相機(jī)編碼一起共 15 維信息作為多視圖編碼器的輸入。

為了更好地編碼多視圖輸入，相較于直接使用圖像/視頻領(lǐng)域常見(jiàn)的 U-Net 模型，研究者使用基于 3D-attention 的 Transformer [3] 結(jié)構(gòu)來(lái)處理多視圖輸入。相較于使用稠密點(diǎn)云作為輸入的方法，本文的 3D VAE Encoder 更高效自然地?fù)碛衼?lái)自多種輸入格式的豐富的 3D 信息，并能夠同時(shí)壓縮顏色與幾何信息。

基于 3D 點(diǎn)云結(jié)構(gòu)化隱空間表達(dá)

雖然上述過(guò)程已經(jīng)將 3D 物體壓縮為 multi-view latent , 本文中研究者認(rèn)為該隱空間并不適合直接用于 3D diffusion 的訓(xùn)練。首先，的維度較高，在高分辨率下訓(xùn)練開(kāi)銷巨大。其次，multi-view latent 并非原生的 3D 表達(dá)，無(wú)法直觀靈活地用于 3D 編輯任務(wù).

為了解決上述缺陷，研究者提出在點(diǎn)云結(jié)構(gòu)的 3D 隱空間表達(dá)進(jìn)行 3D diffusion 的學(xué)習(xí)。具體地，他們使用 Cross Attention 操作將特征投影到從輸入物體表面采樣得到的稀疏的 3D 點(diǎn)云上。最終的點(diǎn)云結(jié)構(gòu)化隱變量被用于 diffusion 生成模型的訓(xùn)練。

高質(zhì)量 3D 高斯上采樣/解碼

在得到點(diǎn)云結(jié)構(gòu)化隱變量后，研究者首先使用 3D Transformer 結(jié)構(gòu)對(duì)其進(jìn)一步解碼，得到深層次特征。

在此基礎(chǔ)上，他們通過(guò) K 個(gè)上采樣模塊將低分辨率點(diǎn)云逐步上采樣至高分辨率高斯點(diǎn)云，其中每一個(gè)模塊都由 transformer 實(shí)現(xiàn): 。該設(shè)計(jì)同時(shí)支持不同細(xì)節(jié)層次 (Level of Details) 的 3D 資產(chǎn)輸出，提升了本文方法的實(shí)用性。

與此同時(shí)，該上采樣設(shè)計(jì)能夠有效保證較高的高斯利用率 (98% 以上)，而傳統(tǒng)多視圖方法 (LGM) 由于視角重疊問(wèn)題僅有 50% 的高斯利用率。

VAE 模型訓(xùn)練

本文的 3D VAE 模型可端到端學(xué)習(xí)，并同時(shí)使用 2D Rendering loss 和幾何 loss 共同監(jiān)督:

其中為多視圖重建損失，為 VAE KL 約束，約束物體表面幾何，用于提升 3D 材質(zhì)真實(shí)性。在實(shí)驗(yàn)數(shù)據(jù)上，研究者使用目前最大規(guī)模的開(kāi)源 3D 數(shù)據(jù)集 Objaverse 來(lái)進(jìn)行 VAE 訓(xùn)練，并公布了 DiT-L/2 尺寸的 VAE 預(yù)訓(xùn)練模型供用戶使用。

Cascaded 3D Generation with Flow Matching

級(jí)聯(lián) 3D 生成框架

在第二階段，研究者在訓(xùn)練完成的 3D VAE space 上進(jìn)行 Flow Matching 訓(xùn)練。在使用文本/單目圖像作為輸入條件時(shí)，他們均使用 Cross Attention 進(jìn)行條件信息編碼并送入 DiT 框架中進(jìn)行訓(xùn)練。同時(shí)分為兩個(gè)階段單獨(dú)學(xué)習(xí)幾何 (稀疏點(diǎn)云) 和紋理 (點(diǎn)云結(jié)構(gòu)的低維特征)。

具體而言，研究者首先訓(xùn)練一個(gè)稀疏點(diǎn)云上的 Flow Matching 模型：

在此基礎(chǔ)上，研究者將點(diǎn)云輸出作為條件信息進(jìn)一步輸出細(xì)節(jié)紋理特征：

該生成范式有效的支持了幾何 - 紋理解耦的生成與編輯。

實(shí)驗(yàn)結(jié)果

Image-conditioned 3D Generation | 圖生 3D

考慮到 3D 內(nèi)容創(chuàng)作更多采用圖片作為參考，本文方法同樣支持在給定單目圖像條件下實(shí)現(xiàn)高質(zhì)量 3D 生成。相比于多視圖生成 + 重建的兩階段方法，本文方案在 3D 生成效果、多樣性以及 3D 一致性上有更穩(wěn)定的表現(xiàn):

數(shù)值結(jié)果：

可視化結(jié)果:

Text-conditioned 3D Generation | 文生 3D

在大規(guī)模 3D 數(shù)據(jù)集 Objaverse 上，研究者基于 Flow Matching 的 3D 生成模型支持從文本描述直接生成豐富，帶有細(xì)節(jié)紋理的高質(zhì)量 3D 資產(chǎn)，并支持 textured-mesh 的導(dǎo)出。生成過(guò)程僅需數(shù)秒即可完成?？梢暬瘜?duì)比結(jié)果如下:

在數(shù)值指標(biāo)上，GaussianAnything 同樣優(yōu)于投稿時(shí)最優(yōu)的原生 text-conditioned 3D 生成方法。

更多內(nèi)容請(qǐng)參考原論文與項(xiàng)目主頁(yè)。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型數(shù)據(jù)訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)