一張圖,快速生成可拆分3D角色!騰訊清華新SOTA | CVPR 2025
任意一張立繪,就可以生成可拆分3D角色!
來自騰訊AI Lab、清華提出StdGEN。與以往方法在分拆能力有限、質(zhì)量不理想和優(yōu)化時(shí)間過長(zhǎng)等問題上表現(xiàn)不佳不同,它具備高質(zhì)量、高效性和可分拆性,能夠在3分鐘內(nèi)生成具有精細(xì)細(xì)節(jié)的3D角色(粗粒度模型僅需1分鐘),并分離出語義組件,如身體、衣服和頭發(fā)。
可以預(yù)見到它能夠?yàn)樘摂M現(xiàn)實(shí)、游戲和電影制作等領(lǐng)域注入新的活力!該研究成果接收于CVPR 2025,代碼和在線Gradio Demo已開源。
StdGEN的核心是語義感知大規(guī)模重建模型 (S-LRM),這是一個(gè)基于Transformer的可泛化模型,以前饋方式從多視角圖像中聯(lián)合重建幾何、顏色和語義信息。
此外,還引入了一種可微分的多層語義表面提取方案,用于從S-LRM重建的混合隱式場(chǎng)中獲取網(wǎng)格。
在流程中,還集成了專門設(shè)計(jì)的多視角擴(kuò)散模型和迭代式的多層優(yōu)化模塊,以促進(jìn)高質(zhì)量、可分解的3D角色生成。
大量實(shí)驗(yàn)表明,他們?cè)?D動(dòng)漫角色生成方面達(dá)到了最先進(jìn)的性能,在幾何、紋理和分解性方面顯著超越了現(xiàn)有基線,并在真人數(shù)據(jù)等風(fēng)格具有泛化性。
StdGEN 提供了可直接使用的語義分解的3D角色模型,為廣泛的應(yīng)用場(chǎng)景提供了靈活的定制能力。
△圖1 StdGEN應(yīng)用流程
單圖生成可解耦3D角色StdGEN
StdGEN首先從參考角色圖像生成多視角標(biāo)準(zhǔn)角色圖像。為了從多視角圖像重建可分解的3D角色,他們?cè)贚RM(大型重建模型)的基礎(chǔ)上擴(kuò)展了語義場(chǎng),從而實(shí)現(xiàn)基于語義的分層生成。最后通過多層優(yōu)化過程來增強(qiáng)結(jié)果,改進(jìn)幾何結(jié)構(gòu)并提供更精細(xì)的紋理。
由于直接從任意姿態(tài)參考圖重建3D角色模型可能會(huì)受到不同視角下自遮擋的影響,本方法首先將參考角色圖像轉(zhuǎn)化為多視角的標(biāo)準(zhǔn)姿態(tài)角色圖像。
這一過程包括兩個(gè)步驟:
(1)將任意參考圖像規(guī)范化為A-pose角色,通過訓(xùn)練擴(kuò)散模型+圖像條件的ReferenceNet,在生成過程中不斷引入角色參考圖信息,生成A-pose下的標(biāo)準(zhǔn)角色圖像;
(2)從A-pose圖像生成多視角RGB圖像和法線貼圖(共6個(gè)視角),通過訓(xùn)練多視角擴(kuò)散模型完成,為后續(xù)3D重建和優(yōu)化提供充足信息。
△圖2 帶語義感知的大型重建模型(S-LRM)示意圖
接下來將上一階段生成的圖像提取為特征并輸入帶語義感知的大型重建模型(S-LRM),得到基于Triplane的三維隱式特征,該特征被進(jìn)一步解碼為顏色、體密度、語義和帶符號(hào)距離場(chǎng)(SDF)等顯式三維信息,為了實(shí)現(xiàn)語義解耦的三維角色生成,他們提出了一種新的語義等價(jià)神經(jīng)隱式場(chǎng)和帶符號(hào)距離場(chǎng)公式,用于根據(jù)特定語義提取角色的不同部分,能夠?qū)崿F(xiàn)角色各部分的語義分解,得到拆分后的粗糙三維模型。
△圖3 帶語義感知的大型重建模型(S-LRM)通過指定語義提取三維信息示意圖
為了訓(xùn)練該模型學(xué)習(xí)多層語義信息的能力,團(tuán)隊(duì)提出了三階段訓(xùn)練流程,通過在已有大型重建模型的權(quán)重以及添加LoRA的方式使訓(xùn)練更快進(jìn)行:
(1)訓(xùn)練單層語義的神經(jīng)輻射場(chǎng)(NeRF),學(xué)習(xí)足夠可靠的三維表面及其語義信息,用于更好的引導(dǎo)后續(xù)訓(xùn)練;
(2)訓(xùn)練多層語義的神經(jīng)輻射場(chǎng)(NeRF),通過屏蔽隨機(jī)數(shù)量的語義及其對(duì)應(yīng)的三維信息部分引導(dǎo)物體內(nèi)部的語義、幾何和顏色信息生成;
(3)訓(xùn)練多層語義的帶符號(hào)距離場(chǎng)(SDF),通過在重建模型的后面加入FlexiCubes模塊,實(shí)現(xiàn)更高分辨率的監(jiān)督和更貼合實(shí)際應(yīng)用的三維Mesh網(wǎng)格輸出。
由于大型重建模型在幾何結(jié)構(gòu)和紋理細(xì)節(jié)上的表現(xiàn)有限,重建后的網(wǎng)格通常需要進(jìn)一步優(yōu)化以提高細(xì)節(jié)精度。他們采取了分階段、多層次的方法,通過多視角標(biāo)準(zhǔn)化角色生成模塊生成的法線圖以及多視角一致性約束對(duì)于生成的分層三維角色結(jié)果進(jìn)行迭代式優(yōu)化——
首先通過指定不同的語義,提取網(wǎng)格的不同部分,并僅優(yōu)化基礎(chǔ)的人體模型;優(yōu)化完成后,將衣服部分疊加至人體上,固定人體基礎(chǔ)模型,僅優(yōu)化衣服部分;最后添加頭發(fā)部分,固定之前已優(yōu)化的兩層,僅優(yōu)化頭發(fā)部分,實(shí)現(xiàn)所有模型的精細(xì)化處理。
實(shí)驗(yàn)結(jié)果
首先在Anime3D++數(shù)據(jù)集上進(jìn)行了定量測(cè)試,包括2D多視角生成能力和3D角色生成能力。考慮到其他方法不具備從單張任意姿態(tài)圖像生成可解耦的3D模型的能力,與其他方法對(duì)比他們的非分層結(jié)果,并在A-pose圖像和任意姿態(tài)圖像輸入上均進(jìn)行測(cè)試以保證公平性。
結(jié)果表明在所有定量指標(biāo)上他們的方法均優(yōu)于現(xiàn)有方法。
與其他先進(jìn)方法的定性比較結(jié)果(包含數(shù)據(jù)集域外的測(cè)例、真人測(cè)例等)與3D解耦模型結(jié)果如下。
△表1 StdGEN及其他先進(jìn)方法在Anime3D++數(shù)據(jù)集上的評(píng)價(jià)結(jié)果
△圖3 StdGEN及其他先進(jìn)方法的主觀質(zhì)量對(duì)比
△圖4 StdGEN的3D解耦生成能力展示
△圖5 StdGEN在真人測(cè)例上的泛化能力展示(THuman2.0 數(shù)據(jù)集)
實(shí)際應(yīng)用
隨著游戲、虛擬現(xiàn)實(shí)和影視制作等行業(yè)的不斷發(fā)展,用戶對(duì)角色定制化的需求日益增加?,F(xiàn)有游戲、虛擬現(xiàn)實(shí)等應(yīng)用場(chǎng)景中要求三維角色模型的各個(gè)部分可拆分、單獨(dú)綁定動(dòng)畫。
StdGEN基于語義解耦的設(shè)計(jì),能夠生成每個(gè)部分(如人體、衣服、頭發(fā)等)獨(dú)立的三維組件,使得生成的3D角色不僅具有更高的質(zhì)量,還能更好地應(yīng)用于現(xiàn)有的游戲和虛擬現(xiàn)實(shí)等場(chǎng)景,確保其可用性和靈活性,彌補(bǔ)了先前工作的不足。
△圖6 StdGEN 僅需用戶進(jìn)行2D Inpainting實(shí)現(xiàn)可拆分3D編輯
△圖7 StdGEN 的3D可拆分結(jié)果能夠?qū)崿F(xiàn)更符合人類觀感和物理特性的動(dòng)畫
論文鏈接:
https://arxiv.org/abs/2411.05738
在線 Gradio Demo: https://huggingface.co/spaces/hyz317/StdGEN
GitHub 代碼倉(cāng)庫: https://github.com/hyz317/StdGEN
HuggingFace 模型倉(cāng)庫: https://huggingface.co/hyz317/StdGEN