自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NeurIPS 2024 | 從單圖到3D:HumanSplat 基于Gaussian Splatting實(shí)現(xiàn)高保真人體3D生成

人工智能
HumanSplat設(shè)計(jì)了一個(gè)泛化的人體3DGS生成框架,通過(guò)在人體數(shù)據(jù)集上精調(diào)的2D多視角擴(kuò)散模型和精心設(shè)計(jì)的基于參數(shù)化模型的3D人體結(jié)構(gòu)先驗(yàn)實(shí)現(xiàn)高保真度的人體重建。

在虛擬和增強(qiáng)現(xiàn)實(shí)中,構(gòu)建寫(xiě)實(shí)風(fēng)格的虛擬人體形象已成為實(shí)現(xiàn)自然交互和逼真體驗(yàn)的關(guān)鍵技術(shù)之一,并且在社交媒體、游戲、電商、遠(yuǎn)程交流等領(lǐng)域擁有廣泛應(yīng)用。然而,現(xiàn)有的人體重建方法通常依賴(lài)大量的多視圖圖像輸入或需要對(duì)每個(gè)實(shí)例進(jìn)行耗時(shí)的優(yōu)化處理,這不僅限制了其在實(shí)際場(chǎng)景中的適用性和效率,也難以滿足快速和高質(zhì)量建模的需求。因此,僅從單張輸入圖像生成高保真度的人體模型仍然是一個(gè)充滿挑戰(zhàn)的課題。

在近日召開(kāi)的神經(jīng)信息處理系統(tǒng)大會(huì)(NeurIPS 2024)中,來(lái)自字節(jié)跳動(dòng) PICO 交互感知團(tuán)隊(duì)、清華大學(xué)和北京大學(xué)的研究人員發(fā)表了最新研究成果《HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors》。該論文提出了一種創(chuàng)新的單張圖像人體重建方法——HumanSplat,這是一個(gè)基于結(jié)構(gòu)先驗(yàn)的泛化人體3D生成框架,可以高效地從單張輸入圖像預(yù)測(cè)人體的3D重建結(jié)果。

圖片

HumanSplat在保持最快運(yùn)行時(shí)間的同時(shí),實(shí)現(xiàn)了領(lǐng)先的渲染質(zhì)量:(a) 定性結(jié)果對(duì)比;(b) 效果和運(yùn)行時(shí)間對(duì)比

論文鏈接:

https://arxiv.org/pdf/2406.12459

項(xiàng)目主頁(yè):

https://humansplat.github.io/

代碼鏈接:

https://github.com/humansplat/humansplat


背景

目前,單圖像人體重建方法主要分為顯式方法和隱式方法。顯式方法(如基于參數(shù)化人體模型SMPL的方法)通過(guò)直接優(yōu)化模型參數(shù)和服裝偏移以擬合輸入圖像,從而生成人體網(wǎng)格。然而,這些方法通常難以處理復(fù)雜的服裝樣式,并且需要較長(zhǎng)的優(yōu)化時(shí)間。隱式方法則通過(guò)連續(xù)函數(shù)(如占據(jù)場(chǎng)、SDF 或 NeRF)表示人體,這些方法在建模靈活拓?fù)浣Y(jié)構(gòu)上表現(xiàn)較好,但由于訓(xùn)練和推理的高計(jì)算成本,其在可擴(kuò)展性和效率方面存在局限性。

近期,3D Gaussian Splatting(3DGS)技術(shù)為3D人體模型重建提供了效率與渲染質(zhì)量的平衡。然而,已有的方法通常需要多視圖圖像或單目視頻作為輸入,并未能解決單圖像輸入重建問(wèn)題。此外,一些基于擴(kuò)散模型的研究通過(guò)得分蒸餾采樣(SDS)將二維擴(kuò)散模型先驗(yàn)提升到三維,但每個(gè)實(shí)例通常需要長(zhǎng)達(dá)數(shù)小時(shí)的優(yōu)化時(shí)間;一些泛化的人/物體生成模型雖然能夠直接生成三維表示,但往往忽略了人體幾何先驗(yàn),或仍然需要多視圖輸入,導(dǎo)致其在穩(wěn)定性和實(shí)用性上的不足

圖片


HumanSplat 的核心是結(jié)合2D生成擴(kuò)散模型和人體幾何結(jié)構(gòu)先驗(yàn),在統(tǒng)一的框架中整合幾何和語(yǔ)義信息,從而在保持高質(zhì)量的同時(shí)實(shí)現(xiàn)高效重建。為了解決單視圖輸入下的不可見(jiàn)區(qū)域問(wèn)題,HumanSplat 首先利用一個(gè) 2D 多視角擴(kuò)散模型(novel-view synthesizer)生成目標(biāo)人體的不可見(jiàn)區(qū)域,然后通過(guò)一個(gè)泛化的隱空間重建 Transformer (latent reconstruction transformer)將擴(kuò)散模型生成的特征與人體結(jié)構(gòu)先驗(yàn)進(jìn)行深度交互,最終重建基于3DGS表達(dá)的人體模型。

方法

HumanSplat設(shè)計(jì)了一個(gè)泛化的人體3DGS生成框架,通過(guò)在人體數(shù)據(jù)集上精調(diào)的2D多視角擴(kuò)散模型和精心設(shè)計(jì)的基于參數(shù)化模型的3D人體結(jié)構(gòu)先驗(yàn)實(shí)現(xiàn)高保真度的人體重建。與現(xiàn)有的3DGS方法不同,我們的方法直接從單張輸入圖像推斷3DGS的高斯屬性,無(wú)需對(duì)每個(gè)實(shí)例進(jìn)行優(yōu)化,也無(wú)需密集捕獲的目標(biāo)人體的圖像數(shù)據(jù),從而有效地在各種場(chǎng)景下進(jìn)行泛化,提供高質(zhì)量的重建結(jié)果。

核心框架 HumanSplat網(wǎng)絡(luò)的核心框架如下圖所示,它結(jié)合了2D生成式擴(kuò)散模型(novel view synthesizer,圖中(a)所示)與隱空間重建Transformer(latent reconstruction transformer,圖中(b)所示),并在統(tǒng)一框架中充分融合了人體幾何先驗(yàn)、2D外觀先驗(yàn)和基于人體語(yǔ)義信息的分層監(jiān)督和定制損失函數(shù)(圖中(c)所示)。我們的方法主要分為以下幾步:

圖片

  1. 結(jié)構(gòu)先驗(yàn)與CLIP特征提取 我們首先使用SMPL預(yù)測(cè)器估計(jì)人體結(jié)構(gòu)先驗(yàn),即當(dāng)前圖像對(duì)應(yīng)的參數(shù)化人體模型SMPL參數(shù),并通過(guò)CLIP特征提取器提取輸入圖像的嵌入式特征。
  2. 多視角特征生成器 我們采用了基于時(shí)間-空間隱式編碼的2D擴(kuò)散模型,即通過(guò)人體數(shù)據(jù)精調(diào)SV3D視頻生成模型,然后結(jié)合輸入圖像和CLIP嵌入式特征生成多視角潛空間特征。
  3. 隱空間重建與高斯點(diǎn)云生成 我們提出了一種新穎的隱空間重建Transformer,結(jié)合第一步中得到的人體幾何先驗(yàn)與和第二步中得到的多視角隱空間特征,經(jīng)過(guò)一個(gè)Transformer框架的模型進(jìn)行信息交互,信息交互方式如下圖所示,然后生成人體高斯屬性。隨后,這些高斯點(diǎn)被渲染成新的視角圖像。

圖片

  1. 分層語(yǔ)義損失設(shè)計(jì) 最后,為了提升人體的細(xì)節(jié)重建質(zhì)量并更好地約束多視角生成結(jié)果,我們還設(shè)計(jì)了分層語(yǔ)義感知損失,將人體語(yǔ)義先驗(yàn)融入到訓(xùn)練中。

訓(xùn)練與推理

  • 訓(xùn)練階段 我們使用3000個(gè)3D掃描的人體數(shù)據(jù)進(jìn)行訓(xùn)練,以確保網(wǎng)絡(luò)能夠從不同視角獲取準(zhǔn)確的監(jiān)督信號(hào)。訓(xùn)練過(guò)程在八卡A100上不超過(guò)3天。
  • 推理階段 在推理時(shí),直接基于訓(xùn)練好的模型從單張圖像生成新視角,無(wú)需任何微調(diào)或優(yōu)化步驟。

貢獻(xiàn)總結(jié)

  1. 提出了一個(gè)新穎的泛化的單圖人體高斯生成網(wǎng)絡(luò),實(shí)現(xiàn)從單圖像進(jìn)行高保真度人體重建。我們的方法首次結(jié)合2D生成式擴(kuò)散模型與隱空間高斯重建模型,在端到端框架中高效且準(zhǔn)確地進(jìn)行單圖像人體重建。
  2. 通過(guò)結(jié)合SMPL模型中的人體幾何先驗(yàn)與2D生成式擴(kuò)散模型中的外觀先驗(yàn),穩(wěn)定了人體幾何的高質(zhì)量生成,并幫助生成有著復(fù)雜幾何人體的不可見(jiàn)部分。
  3. 通過(guò)引入語(yǔ)義線索、分層監(jiān)督和定制損失函數(shù),提升了重建人體模型的細(xì)節(jié)保真度,實(shí)驗(yàn)結(jié)果表明,我們的方法超越了現(xiàn)有方法,達(dá)到了領(lǐng)先的效果。

實(shí)驗(yàn)結(jié)果

在我們的實(shí)驗(yàn)中,HumanSplat展現(xiàn)了顯著的優(yōu)勢(shì),尤其在渲染質(zhì)量、重建速度和泛化能力方面,超越了現(xiàn)有的一些最先進(jìn)的方法。

  1. 重建速度:HumanSplat 在視頻擴(kuò)散模型生成多視角潛在特征的速度上僅需約 9秒,而后續(xù)的3D高斯重建只需 0.3秒,顯著提升了效率。此外,基于 NVIDIA A100 GPU,它能夠以超過(guò) 150 FPS 的速度渲染新視角,極大提升了實(shí)時(shí)渲染性能。
  2. 定量對(duì)比:在 THuman2.0 和 Twindom 數(shù)據(jù)集上,HumanSplat 在 PSNR 和 LPIPS 等指標(biāo)上都表現(xiàn)出色,尤其在 Twindom 數(shù)據(jù)集上,PSNR 提升了 10.16%,LPIPS 減少了 0.063,超越了最新的 TeCH 方法。與 TeCH 需要 4.5小時(shí)的重建時(shí)間相比,HumanSplat 的重建時(shí)間僅為 9.3秒,大大提高了實(shí)用性。
  3. 定性對(duì)比:如下圖所示,和已有的方法對(duì)比,HumanSplat 顯示出更加細(xì)致和高保真度的結(jié)果,HumanSplat 比 GTA 和 LGM 更能還原細(xì)節(jié)。此外,HumanSplat 能有效預(yù)測(cè)3D高斯點(diǎn)的屬性,無(wú)需針對(duì)每個(gè)實(shí)例進(jìn)行優(yōu)化,展示了強(qiáng)大的泛化能力。

圖片


    a.在復(fù)雜姿勢(shì)、不同身份和攝像機(jī)視角下的重建的對(duì)比見(jiàn)下圖:

圖片

    b. 在挑戰(zhàn)性較大的一般(In-the-wild)圖像中的對(duì)比見(jiàn)下圖:

圖片

圖片

總結(jié)

HumanSplat 展示了僅依靠單張圖像即可生成高保真虛擬人體模型的能力,特別是在面部和手部等關(guān)鍵區(qū)域?qū)崿F(xiàn)了高質(zhì)量的重建效果。該方法結(jié)合了生成式擴(kuò)散模型與隱碼重建Transformer模型,并融入了人體結(jié)構(gòu)先驗(yàn)與語(yǔ)義感知的分層損失設(shè)計(jì),實(shí)現(xiàn)了無(wú)需優(yōu)化或微調(diào)的高保真度重建,特別是在面部和手部等關(guān)鍵區(qū)域效果顯著。與現(xiàn)有方法相比,HumanSplat在質(zhì)量與效率上均有顯著提升,能夠穩(wěn)健應(yīng)對(duì)復(fù)雜姿態(tài)和寬松服飾。

相信在未來(lái)的虛擬現(xiàn)實(shí)與沉浸式體驗(yàn)場(chǎng)景中,借助 HumanSplat 的技術(shù),個(gè)性化虛擬形象的生成將變得更加高效便捷。無(wú)論是在社交媒體、虛擬會(huì)議還是游戲娛樂(lè)中,每個(gè)人都能快速創(chuàng)建專(zhuān)屬的高真實(shí)感形象,顯著提升互動(dòng)的沉浸感與真實(shí)感,為各種領(lǐng)域的用戶體驗(yàn)帶來(lái)改變。

責(zé)任編輯:龐桂玉 來(lái)源: 字節(jié)跳動(dòng)技術(shù)團(tuán)隊(duì)
相關(guān)推薦

2023-12-10 15:17:59

開(kāi)源模型3D

2024-01-11 09:55:00

AI訓(xùn)練

2024-12-10 15:17:11

2024-03-20 15:51:00

AI數(shù)據(jù)

2024-03-06 14:57:13

火山引擎

2024-07-16 12:02:11

2022-09-19 19:16:42

輪播圖has

2024-10-09 09:42:26

2011-09-22 10:07:52

奧圖碼投影儀

2024-07-31 15:30:05

2011-10-06 13:30:45

宏碁投影儀

2012-11-26 12:51:44

木材3D打

2012-06-16 16:57:52

WebGL

2012-02-27 10:00:50

HTML 5

2011-05-26 10:55:39

2011-12-21 12:46:43

2025-01-10 14:00:00

3D模型生成

2011-05-26 10:05:07

優(yōu)派投影機(jī)

2014-09-12 10:30:51

HTML5熱力圖

2023-12-07 10:37:55

3D框架AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)