一分鐘原畫(huà)變3D角色,清華VAST成果入選圖形學(xué)頂會(huì)SIGGRAPH
隨便一張立繪都能生成游戲角色,任意IP快速三維化有新招了!
來(lái)自清華大學(xué)和VAST的研究人員聯(lián)合推出了CharacterGen——
一種三維風(fēng)格化人物生成框架。
圖片
具體而言,CharacterGen采用兩階段生成模式,可在1分鐘內(nèi)從單圖生成高質(zhì)量的標(biāo)準(zhǔn)姿態(tài)三維人體。
目前相關(guān)論文已入選計(jì)算機(jī)圖形學(xué)頂會(huì)SIGGRAPH 2024,且在社區(qū)引發(fā)了熱烈討論。
CharacterGen開(kāi)源后,已有玩家第一時(shí)間將其納入了ComfyUI-3D工作流。
圖片
網(wǎng)友們搓手表示:
迫不及待看到構(gòu)建3D角色工作流更簡(jiǎn)單!
圖片
更多詳情接下來(lái)一起康康~
1分鐘單圖變3D角色
新框架CharacterGen想做的事兒,是將用戶(hù)輸入的復(fù)雜人物圖像轉(zhuǎn)換為標(biāo)準(zhǔn)Pose的三維人物網(wǎng)格。
總體而言,框架可分為如下兩部分:
- 多視角人物圖像生成器。以給定的帶姿勢(shì)人物圖作為輸入,通過(guò)Diffusion模型生成高度一致性的四視角圖像。
- 三維重建模型。將生成的四視角圖像重建,得到最終的三維人體以及對(duì)應(yīng)的粗紋理。
最終,通過(guò)紋理投影策略,將多視角圖像投影到重建的粗紋理之中,得到最后的高質(zhì)量三維人物模型。
整個(gè)流程可以在A800單卡上1分鐘內(nèi)完成。
并且由于A-pose(人物兩腳并攏,雙手自然下垂,身體直立)的設(shè)置,可以方便地運(yùn)用于下游的各種任務(wù)。
“A-pose”是動(dòng)畫(huà)和3D建模中的一個(gè)基準(zhǔn)點(diǎn),它提供了一個(gè)簡(jiǎn)單、統(tǒng)一的起點(diǎn)來(lái)進(jìn)行后續(xù)的建模和動(dòng)畫(huà)工作。
圖片
為了進(jìn)一步提高擴(kuò)散模型理解3D角色的能力,團(tuán)隊(duì)準(zhǔn)備了包含13,746個(gè)風(fēng)格化角色主題的Anime3D數(shù)據(jù)集。
而且為了讓多視角人物圖像生成器能學(xué)到足夠的先驗(yàn),完成對(duì)風(fēng)格化人物的多視角生成和人物的姿勢(shì)轉(zhuǎn)換,團(tuán)隊(duì)渲染并篩選了組數(shù)據(jù)。
每一組數(shù)據(jù)都包含了多組同一個(gè)人物在一個(gè)非標(biāo)準(zhǔn)姿勢(shì)和標(biāo)準(zhǔn)姿勢(shì)下的四視角渲染圖像。
多視角人物圖像生成器
團(tuán)隊(duì)采用了Dual-pass的多視角人物圖像生成器。
它不僅能生成四視圖的人物圖像,還能在生成過(guò)程中完成姿勢(shì)的標(biāo)準(zhǔn)化。
圖片
此外,團(tuán)隊(duì)在基本的多視角diffusion模型之外,添加了一個(gè)同樣結(jié)構(gòu)的IDUNet來(lái)提取輸入人物圖片的特征。
IDUNet逐層提取未加噪的圖像的外表特征,通過(guò)Cross-Attention機(jī)制和Base-Diffusion模型中的多視角圖像進(jìn)行Patch-level的交互,使得最終生成的多視角人物具有極高的一致性。
最后,生成器也包含一個(gè)布局姿勢(shì)指導(dǎo)器Pose Guider,進(jìn)一步為人物的姿勢(shì)提供先驗(yàn),并且使得生成人物的布局能夠位于圖片正中。
三維重建模型
參考三維重建大模型(LRM),團(tuán)隊(duì)設(shè)計(jì)了針對(duì)四視角輸入圖像的三維重建模型。
團(tuán)隊(duì)首先仿照LRM,訓(xùn)練了基于NeRF的重建模型。
為了獲得更好的表面幾何,在訓(xùn)練第二階段使用SDF表達(dá)作為輸出,進(jìn)一步精調(diào)重建模型。
最后,由于重建模型難以獲得高清晰度的紋理,研究團(tuán)隊(duì)還引入了紋理投影機(jī)制。
具體而言,通過(guò)四視角本身預(yù)設(shè)的相機(jī)參數(shù),將高質(zhì)量的四視角生成圖片投影到粗紋理圖上,同時(shí)使用法向數(shù)值來(lái)篩出重疊和邊緣的像素,得到最終的紋理貼圖。
圖片
實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)分別從二維多視角圖片質(zhì)量以及三維人物模型質(zhì)量上對(duì)方法進(jìn)行了評(píng)估。
在二維方法上,研究團(tuán)隊(duì)選取了Zero123和SyncDreamer作為Baseline進(jìn)行比較。
結(jié)果顯示,在生成人物圖像的紋理質(zhì)量和外表一致性上,CharacterGen取得了超越之前方法的效果。
圖片
在三維方法上,團(tuán)隊(duì)選取了Magic123和ImageDream作為泛用圖像驅(qū)動(dòng)生成的Baseline,選擇TeCH作為圖像驅(qū)動(dòng)SMPL生成的Baseline。
實(shí)驗(yàn)表明,CharacterGen生成的標(biāo)準(zhǔn)A-pose姿勢(shì)人體能夠避免網(wǎng)格的黏貼問(wèn)題,并且在紋理和幾何上擁有更高的質(zhì)量。
圖片
此外,團(tuán)隊(duì)也在Anime3D的驗(yàn)證集上,對(duì)CharacterGen和Baseline方法進(jìn)行了定量的比較。
評(píng)估指標(biāo)包括:
- SSIM和LPIPS指標(biāo):衡量生成的對(duì)應(yīng)視角圖片與ground-truth圖片的相似程度
- FID指標(biāo):評(píng)價(jià)風(fēng)格上的一致性
- Chamfer-Distance指標(biāo):比較生成網(wǎng)格的幾何質(zhì)量
在這些指標(biāo)上,CharacterGen都能獲得更優(yōu)的效果。
圖片
目前相關(guān)論文已公開(kāi),感興趣可以進(jìn)一步了解。
此外,研究團(tuán)隊(duì)還開(kāi)源了基于Jittor框架JDiffusion庫(kù)的CharacterGen實(shí)現(xiàn)(計(jì)圖Jittor是清華大學(xué)計(jì)算機(jī)系圖形學(xué)實(shí)驗(yàn)室于2020年3月20日發(fā)布并開(kāi)源的深度學(xué)習(xí)框架)。
計(jì)圖Jittor倉(cāng)庫(kù)鏈接:https://github.com/JittorRepos/JDiffusion/tree/master/examples/CharacterGen
項(xiàng)目主頁(yè):https://charactergen.github.io/論文:https://arxiv.org/abs/2402.17214Huggingface Gradio Demo: https://huggingface.co/spaces/VAST-AI/CharacterGenGitHub:https://github.com/zjp-shadow/CharacterGen