五分鐘生成漫威3D數(shù)字人!美隊(duì)蜘蛛俠小丑都能搞定,高清還原面部細(xì)節(jié)
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
隨著計(jì)算機(jī)圖形學(xué)的發(fā)展,3D生成技術(shù)正逐漸成為研究熱點(diǎn)。然而,從文本或圖像生成3D模型仍然存在許多挑戰(zhàn)。
近期,Google、NVIDIA和微軟等公司推出了基于神經(jīng)輻射場(NeRF)的3D生成方法,但這些方法與傳統(tǒng)的3D渲染軟件(如Unity、Unreal Engine和Maya等)存在兼容性問題,限制了其在實(shí)際應(yīng)用中的廣泛應(yīng)用。
為此,影眸科技與上??萍即髮W(xué)的研發(fā)團(tuán)隊(duì)提出了一種文本指導(dǎo)的漸進(jìn)式3D生成框架,旨在解決這些問題。
根據(jù)文字描述生成3D資產(chǎn)
該研究團(tuán)隊(duì)提出的文本指導(dǎo)的漸進(jìn)式3D生成框架(簡稱DreamFace),結(jié)合了視覺-語言模型、隱式擴(kuò)散模型和基于物理的材質(zhì)擴(kuò)散技術(shù),生成符合計(jì)算機(jī)圖形制作標(biāo)準(zhǔn)的3D資產(chǎn)。
這一框架的創(chuàng)新之處在于其幾何體生成、基于物理的材質(zhì)擴(kuò)散生成和動(dòng)畫能力生成三個(gè)模塊。
這項(xiàng)工作已被頂級(jí)期刊Transactions on Graphics接收,并將在國際計(jì)算機(jī)圖形學(xué)頂級(jí)會(huì)議SIGGRAPH 2023上展示。
項(xiàng)目網(wǎng)站:https://sites.google.com/view/dreamface
預(yù)印版論文:https://arxiv.org/abs/2304.03117
Web Demo: https://hyperhuman.top
HuggingFace Space:https://huggingface.co/spaces/DEEMOSTECH/ChatAvatar
如何實(shí)現(xiàn)DreamFace三大功能
DreamFace主要包括三個(gè)模塊,幾何體生成,基于物理的材質(zhì)擴(kuò)散和動(dòng)畫能力生成。相比先前的3D生成工作,這項(xiàng)工作的主要貢獻(xiàn)包括:
- 提出了DreamFace這一新穎的生成方案,將最近的視覺-語言模型與可動(dòng)畫和物理材質(zhì)的面部資產(chǎn)相結(jié)合,通過漸進(jìn)式學(xué)習(xí)來分離幾何、外觀和動(dòng)畫能力。
- 引入了雙通道外觀生成的設(shè)計(jì),將一種新穎的材質(zhì)擴(kuò)散模型與預(yù)訓(xùn)練模型相結(jié)合,同時(shí)在潛在空間和圖像空間進(jìn)行兩階段優(yōu)化。
- 使用BlendShapes或生成的Personalized BlendShapes的面部資產(chǎn)具備動(dòng)畫能力,并進(jìn)一步展示了DreamFace在自然人物設(shè)計(jì)方面的應(yīng)用。
幾何體生成:該模塊通過CLIP(Contrastive Language-Image Pre-Training)選擇框架根據(jù)文本提示生成幾何模型。
首先從人臉幾何參數(shù)空間隨機(jī)采樣候選項(xiàng),然后根據(jù)文本提示選擇匹配得分最高的粗略幾何模型。
接下來,使用隱式擴(kuò)散模型(LDM)和得分蒸餾采樣(SDS)處理,從而在粗略幾何模型中添加面部細(xì)節(jié)和詳細(xì)的法線貼圖,生成高精度幾何體。
基于物理的材質(zhì)擴(kuò)散生成:該模塊針對預(yù)測幾何體和文本提示生成面部紋理。首先,對LDM進(jìn)行微調(diào),得到兩個(gè)擴(kuò)散模型。
然后,通過聯(lián)合訓(xùn)練方案協(xié)調(diào)這兩個(gè)模型,一個(gè)用于直接去噪U(xiǎn)紋理貼圖,另一個(gè)用于監(jiān)督渲染圖像。此外,還采用了提示學(xué)習(xí)策略和非面部區(qū)域遮罩以確保生成的漫反射貼圖的質(zhì)量。
最后,應(yīng)用超分辨率模塊生成4K基于物理的紋理,以進(jìn)行高質(zhì)量渲染。
動(dòng)畫能力生成:DreamFace生成的模型具備動(dòng)畫能力。與傳統(tǒng)基于BlendShapes的方法不同,該框架通過預(yù)測獨(dú)特的變形為靜息(Neutral)模型賦予動(dòng)畫效果,從而生成個(gè)性化的動(dòng)畫。
首先訓(xùn)練幾何生成器學(xué)習(xí)表情潛在空間,然后訓(xùn)練表情編碼器從RGB圖像中提取表情特征。最終,通過使用單目RGB圖像生成個(gè)性化的動(dòng)畫。
5分鐘生成指定3D資產(chǎn)
DreamFace框架在名人生成、描述生成角色等任務(wù)上取得了良好的效果,并在用戶評估中獲得了超過先前工作的成績。
同時(shí),與現(xiàn)有方法相比,運(yùn)行時(shí)間上具有明顯優(yōu)勢。
此外,DreamFace支持使用提示和草圖進(jìn)行紋理編輯,實(shí)現(xiàn)全局編輯效果(如老化、化妝)和局部編輯效果(如紋身、胡須、胎記)。
可用于影視、游戲等行業(yè)
作為一種文本指導(dǎo)的漸進(jìn)式3D生成框架,DreamFace結(jié)合了視覺-語言模型、隱式擴(kuò)散模型和基于物理的材質(zhì)擴(kuò)散技術(shù),實(shí)現(xiàn)了高精度、高效率和良好兼容性的3D生成。
該框架為解決復(fù)雜的3D生成任務(wù)提供了有效解決方案,有望推動(dòng)更多類似的研究和技術(shù)發(fā)展。
此外,基于物理的材質(zhì)擴(kuò)散生成和動(dòng)畫能力生成將推動(dòng) 3D生成技術(shù)在影視制作、游戲開發(fā)和其他相關(guān)行業(yè)的應(yīng)用。