自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

3D數(shù)字人生成來了!南洋理工提出StructLDM:高質(zhì)量可控3D生成并支持編輯

人工智能 新聞
我們提出了一種從 2D 圖像集合生成 3D 人體的新范例。

三維數(shù)字人生成和編輯在數(shù)字孿生、元宇宙、游戲、全息通訊等領(lǐng)域有廣泛應(yīng)用。傳統(tǒng)三維數(shù)字人制作往往費時耗力,近年來研究者提出基于三維生成對抗網(wǎng)絡(luò)(3D GAN)從 2D 圖像中學(xué)習(xí)三維數(shù)字人,極大提高了數(shù)字人制作效率。這些方法往往在一維隱向量空間建模數(shù)字人,而一維隱向量無法表征人體的幾何結(jié)構(gòu)和語義信息,因此限制了其生成質(zhì)量和編輯能力。

針對此問題,南洋理工大學(xué)提出了結(jié)構(gòu)化隱空間擴(kuò)散模型(Structured Latent Diffusion Model)的三維數(shù)字人生成新范式 StructLDM, 這是一種從 2D 圖像集合中生成 3D 人體的新范式(與現(xiàn)有的 3D GAN 相比),具有 3 個關(guān)鍵設(shè)計:

  • 結(jié)構(gòu)化 2D 潛在空間;
  • 結(jié)構(gòu)化自動解碼器;
  • 結(jié)構(gòu)化潛在擴(kuò)散模型。

圖片StructLDM 生成多樣化的視圖一致的人類,并支持不同級別的可控生成和編輯,例如通過混合從 a) 中選擇的五個部分進(jìn)行合成生成,以及部分感知編輯,例如身份交換、局部服裝編輯、3D 虛擬試穿等。請注意,生成和編輯與服裝無關(guān),無需服裝類型或面具。

相關(guān)鏈接

論文地址:https://arxiv.org/pdf/2404.01241

項目主頁:https://taohuumd.github.io/projects/StructLDM

實驗室主頁:https://www.ntu.edu.sg/s-lab

論文閱讀

圖片StructLDM:用于 3D 人體生成的結(jié)構(gòu)化潛在擴(kuò)散

摘要

近期,3D 人體生成模型通過從 2D 圖像中學(xué)習(xí) 3D 感知 GAN 取得了顯著進(jìn)展。然而,現(xiàn)有的 3D 人體生成方法在緊湊的一維潛在空間中對人體進(jìn)行建模,忽略了人體拓?fù)涞那逦Y(jié)構(gòu)和語義。在本文中,我們探索了用于 3D 人體建模的更具表現(xiàn)力和更高維度的潛在空間,并提出了 StructLDM,這是一種基于擴(kuò)散的無條件 3D 人體生成模型,該模型是從 2D 圖像中學(xué)習(xí)的。StructLDM 通過三個關(guān)鍵設(shè)計解決了由于潛在空間高維增長而帶來的挑戰(zhàn):

  1. 在統(tǒng)計人體模板的稠密表面流形上定義的語義結(jié)構(gòu)化潛在空間。
  2. 一種結(jié)構(gòu)化的 3D 感知自動解碼器,將全局潛在空間分解為幾個語義身體部位,由一組錨定到身體模板的條件結(jié)構(gòu)化局部 NeRF 參數(shù)化,它嵌入從 2D 訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的屬性,可以解碼以呈現(xiàn)不同姿勢和服裝風(fēng)格下的視圖一致的人類。
  3. 一種用于生成人體外觀采樣的結(jié)構(gòu)化潛在擴(kuò)散模型。

大量實驗驗證了 StructLDM 最先進(jìn)的生成性能,并說明了結(jié)構(gòu)化潛在空間相對于廣為采用的 1D 潛在空間的表現(xiàn)力。值得注意的是,StructLDM 支持不同級別的可控 3D 人體生成和編輯,包括姿勢/視圖/形狀控制,以及高級任務(wù),包括構(gòu)圖生成、部分感知服裝編輯、3D 虛擬試穿等。

方法

圖片兩階段框架。 在第 1 階段,給定一個包含各種人體主體圖像的訓(xùn)練數(shù)據(jù)集,其中包含估計的 SMPL 和相機(jī)參數(shù)分布,學(xué)習(xí)自動解碼器以優(yōu)化每個訓(xùn)練主體的結(jié)構(gòu)化潛在 z ∈ Z。結(jié)構(gòu)化體積渲染器 G1 和全局風(fēng)格混合器 (GM) G2 可以將每個潛在渲染成與姿勢和視圖相關(guān)的圖像。

在第 2 階段,凍結(jié)自動解碼器參數(shù),然后使用學(xué)習(xí)到的結(jié)構(gòu)化潛在 Z 來訓(xùn)練潛在擴(kuò)散模型。在推理時,潛在被隨機(jī)采樣并由 G2 ? G1 解碼以進(jìn)行人體渲染。

圖片StructLDM 支持合成 3D 人體生成和部位感知編輯。從 a) 中選取六個身體部位,可以在 b) 中實現(xiàn)連貫的合成和混合結(jié)果。使用 Diff-Render 程序,部位感知編輯可以在 c) 中實現(xiàn)大量下游任務(wù)。

效果

在UBCFashion上的不同生成結(jié)果

圖片

渲染人的不同生成結(jié)果

圖片

創(chuàng)作生成

圖片

UBCFashion上的新穎視角合成

圖片

更多結(jié)果

圖片圖片圖片圖片

結(jié)論

我們提出了一種從 2D 圖像集合生成 3D 人體的新范例。 關(guān)鍵是結(jié)構(gòu)化的 2D 潛在空間,它可以實現(xiàn)更好的人體建模和 編輯。結(jié)構(gòu)化自動解碼器和潛在擴(kuò)散模型用于 嵌入和采樣結(jié)構(gòu)化潛在空間。在三個人體數(shù)據(jù)集上的實驗展示了最先進(jìn)的性能,定性生成和編輯結(jié)果進(jìn)一步證明了結(jié)構(gòu)化潛在空間的優(yōu)勢。

局限性。

  1. 我們從頭開始訓(xùn)練模型,就像 EVA3D/AG3D/PrimDiff 一樣。缺乏具有準(zhǔn)確配準(zhǔn)的多樣化自然人體數(shù)據(jù)集是該領(lǐng)域的一個常見問題。由于規(guī)模有限和數(shù)據(jù)集偏差,多樣性無法與 2D 擴(kuò)散模型相比。然而,在多樣性方面的表現(xiàn)優(yōu)于基線 EVA3D 和 AG3D。
  2. 受自動解碼器訓(xùn)練的限制,從單視圖 2D 圖像集合中學(xué)習(xí)具有挑戰(zhàn)性。然而,結(jié)構(gòu)化潛在表示使得從 DeepFashion 上的單幅圖像中自動解碼3D人體成為可能,生成具有合理幾何重建的逼真人體圖像。
責(zé)任編輯:張燕妮 來源: AIGC Studio
相關(guān)推薦

2025-01-07 13:19:48

模型AI訓(xùn)練

2024-07-31 15:30:05

2023-12-10 15:17:59

開源模型3D

2024-12-31 07:15:00

2023-12-07 10:37:55

3D框架AI

2023-05-29 10:39:00

AI算法

2024-07-04 09:26:16

2023-08-21 10:57:17

3D模型

2024-10-08 09:25:00

3D模型生成

2023-05-09 09:35:22

2024-07-16 12:02:11

2012-11-26 12:51:44

木材3D打

2025-01-09 12:32:18

2024-06-11 07:02:00

大模型3D內(nèi)容生成技術(shù)

2011-10-06 13:30:45

宏碁投影儀

2023-03-03 21:42:18

鴻蒙

2024-08-14 16:30:00

3D AIGC

2011-08-26 14:50:23

2011-05-26 10:05:07

優(yōu)派投影機(jī)

2023-12-14 12:51:28

LLM3D場景
點贊
收藏

51CTO技術(shù)棧公眾號