3D大模型助力,15分鐘即可訓(xùn)練高質(zhì)量、個性化的數(shù)字人模型,代碼已開放
本文的作者主要來自于浙江大學(xué)和字節(jié)跳動。第一作者是浙江大學(xué)計算機(jī)學(xué)院的博士生葉振輝,導(dǎo)師為趙洲教授,主要研究方向是說話人視頻合成,并在 NeurIPS、ICLR、ACL 等會議發(fā)表相關(guān)論文。共一作者是來自浙江大學(xué)計算機(jī)學(xué)院的碩士生鐘添蕓。
個性化精品數(shù)字人(Personalized Talking Face Generation)強(qiáng)調(diào)合成的數(shù)字人視頻在感官上與真人具有極高的相似性(不管是說話人的外表還是神態(tài))。目前業(yè)界主流的個性化精品數(shù)字人通常屬于在單個目標(biāo)人數(shù)據(jù)上從頭訓(xùn)練的小模型,雖然這種小模型能夠有效地學(xué)到說話人的外表和說話風(fēng)格,這種做法存在低訓(xùn)練效率、低樣本效率、低魯棒性的問題。相比之下,近年來許多工作專注于單圖驅(qū)動的通用數(shù)字人大模型,這些模型僅需單張圖片輸入即可完成數(shù)字人制作,但仍存在外表相似度較低、無法模仿目標(biāo)人說話風(fēng)格等問題。
為了連接個性化數(shù)字人小模型和單圖驅(qū)動通用數(shù)字人大模型兩個領(lǐng)域之間的空白,浙江大學(xué)與字節(jié)跳動提出了 MimicTalk 算法。通過(1)將單圖驅(qū)動的通用 3D 數(shù)字人大模型 Real3D-Portrait (ICLR 2024) 適應(yīng)到目標(biāo)數(shù)字人的高效微調(diào)策略和(2)具有上下文學(xué)習(xí)能力的人臉動作生成模型,MimicTalk 可以生成相比原有方法更高質(zhì)量、更具表現(xiàn)力的數(shù)字人視頻。此外,單個數(shù)字人模型的訓(xùn)練時間可以被壓縮到 15 分鐘以內(nèi),相比現(xiàn)有最高效的同類方法快了 47 倍。
MimicTalk 算法被人工智能頂級會議 NeurIPS 2024 錄用,目前已開放源代碼和預(yù)訓(xùn)練權(quán)重。
- 論文標(biāo)題:MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes
- 論文鏈接:https://arxiv.org/pdf/2410.06734
- 項目主頁:https://mimictalk.github.io/
- 代碼鏈接:https://github.com/yerfor/MimicTalk
話不多說直接看效果,以下視頻中的數(shù)字人模型都通過從 3D 數(shù)字人大模型進(jìn)行 1000 步微調(diào)(5 分鐘訓(xùn)練時間)得到。
模型技術(shù)原理
深悉 MimicTalk 模型的內(nèi)在原理,還要回到開頭提到的個性化數(shù)字人兩個核心目標(biāo):(1)外表上與真人相似;(2)說話風(fēng)格上與真人相似。
MimicTalk 分別使用(1)基于通用 3D 數(shù)字人大模型微調(diào)的高質(zhì)量人臉渲染器和(2)一個具有上下文學(xué)習(xí)能力的人臉動作生成模型來實現(xiàn)它們。
圖 2. MimicTalk 包含一個高質(zhì)量人臉渲染器(紫色)和一個能夠模仿說話風(fēng)格的動作生成器(藍(lán)色)
對于第一個問題,傳統(tǒng)方法通常從頭訓(xùn)練一個小規(guī)模的 NeRF 模型來記憶目標(biāo)人的外表特征,但這種做法通常導(dǎo)致較長的訓(xùn)練時間(數(shù)個小時)、較高的數(shù)據(jù)量要求(數(shù)分鐘)、較低的魯棒性(對極端條件無法輸出正確的結(jié)果)。針對這一問題,團(tuán)隊首次提出采用一個單圖驅(qū)動的通用 3D 數(shù)字人大模型作為基礎(chǔ)模型,并提出了一個「動靜結(jié)合」的高效率微調(diào)方案。
他們發(fā)現(xiàn)通用大模型的輸出通常存在牙齒、頭發(fā)等靜態(tài)細(xì)節(jié)不足,且肌肉運動等動態(tài)細(xì)節(jié)不真實的問題。因此針對靜態(tài)細(xì)節(jié)和動態(tài)細(xì)節(jié)的特性設(shè)計了動靜結(jié)合的微調(diào)方案。
具體來說,研究者發(fā)現(xiàn)現(xiàn)有的 3D 數(shù)字人通用模型通常會將 3D 人臉的靜態(tài)細(xì)節(jié)儲存在一個 3D 人臉表征(tri-plane)中作為模型的輸入,而 3D 人臉的動態(tài)細(xì)節(jié),則通過模型內(nèi)部的參數(shù)進(jìn)行儲存。因此,MimicTalk 在個性化數(shù)字人渲染器的訓(xùn)練過程中,不僅會更新儲存靜態(tài)細(xì)節(jié)的 3D 人臉表征,還通過 LoRA 技術(shù)對通用模型的參數(shù)進(jìn)行了可拆卸的高效微調(diào)。
圖 2. 將通用 3D 數(shù)字人大模型適應(yīng)到單個目標(biāo)人,動靜結(jié)合的高效微調(diào)方案
在實現(xiàn)圖像上與真人的高度相似后,下一個問題是如何生成與真人說話風(fēng)格相似的面部動作。傳統(tǒng)方法通常會額外訓(xùn)練一個說話風(fēng)格編碼器,但是由于模型內(nèi)部信息瓶頸的存在通常會性能損失。與之相比,受啟發(fā)大語言模型、語音合成等領(lǐng)域的啟發(fā),MimicTalk 首次提出從上下文中學(xué)習(xí)目標(biāo)人說話風(fēng)格的訓(xùn)練范式。在訓(xùn)練階段,F(xiàn)low Matching 模型通過語音軌道和部分未被遮擋的人臉動作軌道的信息,對被遮擋的人臉動作進(jìn)行去噪。在推理階段,給定任意音頻 - 視頻對作為說話人風(fēng)格提示,模型都能生成模仿該說話風(fēng)格的人臉動作。
圖 3. 能在上下文中學(xué)習(xí)目標(biāo)人說話風(fēng)格的人臉動作生成模型
模型的應(yīng)用前景
總體來看,MimicTalk 模型首次實現(xiàn)了高效率的個性化精品數(shù)字人視頻合成??梢灶A(yù)見的是,隨著技術(shù)的不斷迭代、普及,在智能助手、虛擬現(xiàn)實、視頻會議等多個應(yīng)用場景中都將會出現(xiàn)虛擬人的身影。而借助 MimicTalk 算法,個性化高質(zhì)量數(shù)字人的訓(xùn)練成本被「打了下去」,人們將會享受到更真實、更舒適的交互體驗。隨著各個領(lǐng)域的大模型技術(shù)的興起,擁抱大模型的超強(qiáng)能力并與垂直領(lǐng)域中的特殊場景、需求相結(jié)合,已經(jīng)成為了技術(shù)演進(jìn)的大勢所趨。而 MimicTalk 模型為后續(xù)基于數(shù)字人通用模型的個性化數(shù)字人算法研究工作提供了參考。但現(xiàn)階段 MimicTalk 也并不是完美無缺的,由于依賴通用大模型的結(jié)果作為初始化,對基礎(chǔ)模型的質(zhì)量有較高的要求,此外從推理效率上看與現(xiàn)有小模型還存在一定差距。
總而言之,過去幾年,隨著個性化數(shù)字人技術(shù)的不斷進(jìn)步,口型精度、圖像質(zhì)量已然不斷提高;而 MimicTalk 模型的提出,進(jìn)一步解決了制約個性化數(shù)字人的訓(xùn)練成本問題。讓我們一同期待虛擬人技術(shù)的加速發(fā)展,用戶也將獲得更加極致的視覺體驗和生活便利。