讓數(shù)字人視頻告別"恐怖谷"!字節(jié)團(tuán)隊(duì)最新DreamActor-M1實(shí)現(xiàn)人類表情動(dòng)作像素級操控
論文鏈接:https://arxiv.org/pdf/2504.01724
項(xiàng)目鏈接:https://grisoon.github.io/DreamActor-M1/
亮點(diǎn)直擊
- 提出了一個(gè)整體的基于DiT的框架和一種漸進(jìn)的訓(xùn)練策略,用于支持靈活多尺度合成的人像動(dòng)畫。
- 設(shè)計(jì)了混合控制信號,結(jié)合了隱式面部表征、顯式3D頭部球體和身體骨架,以實(shí)現(xiàn)富有表現(xiàn)力的身體和面部動(dòng)作合成,同時(shí)支持多樣化的角色風(fēng)格。
- 開發(fā)了互補(bǔ)的外觀引導(dǎo),以緩解視頻片段之間未見區(qū)域的信息差距,從而實(shí)現(xiàn)長時(shí)間段內(nèi)的一致視頻生成。
總結(jié)速覽
解決的問題
最近的基于圖像的人像動(dòng)畫方法在逼真的身體和面部動(dòng)作合成方面取得了一定進(jìn)展,但在細(xì)粒度整體可控性、多尺度適應(yīng)性和長期時(shí)間一致性上仍存在不足,導(dǎo)致表現(xiàn)力和魯棒性較低。
提出的方案
提出了一個(gè)基于 diffusion transformer (DiT)的框架,DreamActor-M1,并結(jié)合混合引導(dǎo)來解決這些限制。
應(yīng)用的技術(shù)
- 動(dòng)作引導(dǎo):使用混合控制信號,整合隱式面部表征、3D頭部球體和3D身體骨架,實(shí)現(xiàn)穩(wěn)健的面部表情和身體動(dòng)作控制。
- 尺度適應(yīng):采用漸進(jìn)的訓(xùn)練策略,處理從肖像到全身視圖的各種身體姿勢和圖像尺度。
- 外觀引導(dǎo):整合連續(xù)幀的運(yùn)動(dòng)模式與互補(bǔ)的視覺參考,確保在復(fù)雜運(yùn)動(dòng)中未見區(qū)域的長期時(shí)間一致性。
達(dá)到的效果
實(shí)驗(yàn)結(jié)果表明,該方法在肖像、上半身和全身生成方面優(yōu)于現(xiàn)有最先進(jìn)技術(shù),提供了表現(xiàn)力強(qiáng)且具有穩(wěn)健長期一致性的動(dòng)畫效果。
方法
預(yù)備知識
如下圖2所示,整體框架遵循隱空間擴(kuò)散模型(LDM),在預(yù)訓(xùn)練的3D變分自編碼器(VAE)的隱空間中訓(xùn)練模型。本文使用MMDiT作為骨干網(wǎng)絡(luò),該網(wǎng)絡(luò)已在文本到視頻和圖像到視頻任務(wù)上進(jìn)行了預(yù)訓(xùn)練,Seaweed。注意,本文采用流匹配作為訓(xùn)練目標(biāo)。
混合動(dòng)作引導(dǎo)
為了實(shí)現(xiàn)富有表現(xiàn)力和魯棒性的人體動(dòng)畫,本文精細(xì)地設(shè)計(jì)了動(dòng)作引導(dǎo),并提出了由隱式面部表征、3D頭部球體和3D身體骨架組成的混合控制信號。
3D頭部球體。由于隱式面部表征僅用于控制面部表情,本文引入了額外的3D頭部球體來獨(dú)立管理頭部姿態(tài)。這種雙重控制策略確保面部表情和頭部運(yùn)動(dòng)的解耦,實(shí)現(xiàn)更精確和靈活的動(dòng)畫。具體來說,本文利用現(xiàn)成的面部跟蹤方法 [44] 從驅(qū)動(dòng)視頻中提取3D面部參數(shù),包括攝像機(jī)參數(shù)和旋轉(zhuǎn)角度。然后使用這些參數(shù)將頭部渲染為投影到二維圖像平面上的彩色球體。球體的位置與視頻幀中驅(qū)動(dòng)頭部的位置精確對齊,確保空間一致性。此外,球體的大小按比例縮放以匹配參考頭部的大小,而其顏色則由驅(qū)動(dòng)頭部的方向動(dòng)態(tài)確定,提供頭部旋轉(zhuǎn)的視覺提示。這種3D球體表示提供了一種高度靈活和直觀的頭部姿態(tài)控制方式,通過將復(fù)雜的3D頭部運(yùn)動(dòng)抽象為簡單而有效的2D表示,顯著降低了模型的學(xué)習(xí)復(fù)雜性。這種方法在保留參考角色獨(dú)特頭部結(jié)構(gòu)方面特別有利,尤其是那些來自動(dòng)漫和卡通領(lǐng)域的角色。
3D身體骨架。為了實(shí)現(xiàn)身體控制,本文引入了具有骨骼長度調(diào)整的3D身體骨架。具體來說,本文首先使用4DHumans 和 HaMeR 來估計(jì)SMPL-X 模型的身體和手部參數(shù)。然后,本文選擇身體關(guān)節(jié),將其投影到二維圖像平面上,并用線條連接它們以構(gòu)建骨架圖。本文選擇使用骨架而不是像Champ那樣渲染完整的身體,以避免為模型提供關(guān)于身體形狀的強(qiáng)引導(dǎo)。通過利用骨架,本文鼓勵(lì)模型直接從參考圖像中學(xué)習(xí)角色的形狀和外觀。這種方法不僅減少了由預(yù)定義身體形狀引入的偏差,還增強(qiáng)了模型在不同身體類型和姿勢上的泛化能力,從而實(shí)現(xiàn)更靈活和真實(shí)的結(jié)果。身體骨架和頭部球體在通道維度上連接,并輸入到姿勢編碼器Ep中以獲得姿勢特征。然后將姿勢特征和加噪視頻特征連接并通過MLP層處理以獲得噪聲 token 。
在推理過程中,為了解決不同主體間骨骼比例的變化,本文采用歸一化過程來調(diào)整骨骼長度。首先,本文使用一個(gè)預(yù)訓(xùn)練的圖像編輯模型 [35] 將參考和驅(qū)動(dòng)圖像轉(zhuǎn)換為標(biāo)準(zhǔn)的A姿勢配置。接下來,本文利用RTMPose [17] 計(jì)算驅(qū)動(dòng)主體和參考主體的骨骼比例。最后,通過按比例調(diào)整驅(qū)動(dòng)主體的骨骼長度以匹配參考主體的骨骼測量,進(jìn)行解剖對齊。
補(bǔ)充的外觀引導(dǎo)
本文提出了一種新穎的多參考注入?yún)f(xié)議,以增強(qiáng)模型在多尺度、多視圖和長期視頻生成中的魯棒性。該方法解決了在不同視角和延長時(shí)間框架內(nèi)保持時(shí)間一致性和視覺保真度的挑戰(zhàn)。在訓(xùn)練過程中,本文計(jì)算輸入視頻中所有幀的旋轉(zhuǎn)角度,并根據(jù)它們的z軸旋轉(zhuǎn)值(偏航)進(jìn)行排序。從這個(gè)排序集中,本文戰(zhàn)略性地選擇三個(gè)關(guān)鍵幀,分別對應(yīng)于最大、最小和中位數(shù)的z軸旋轉(zhuǎn)角度。這些幀作為代表性視點(diǎn),確保對對象方向的全面覆蓋。此外,對于包含全身構(gòu)圖的視頻,本文引入了一個(gè)額外步驟:隨機(jī)選擇一個(gè)單幀并裁剪為半身肖像格式,然后將其作為輔助參考幀加入。這一步豐富了模型對全局和局部結(jié)構(gòu)細(xì)節(jié)的理解。
在推理過程中,本文的協(xié)議提供了一種可選的兩階段生成模式,以處理具有挑戰(zhàn)性的場景,例如參考圖像是單一正面半身肖像,而驅(qū)動(dòng)視頻包含復(fù)雜運(yùn)動(dòng)如轉(zhuǎn)身或側(cè)視的全身幀。首先,利用模型從單一參考圖像合成一個(gè)多視圖視頻序列。這個(gè)初始輸出捕捉了一系列可能的視點(diǎn),并作為進(jìn)一步優(yōu)化的基礎(chǔ)。本文應(yīng)用與訓(xùn)練時(shí)相同的幀選擇策略,選擇最具信息量的幀。然后將這些選定的幀重新整合到模型中作為補(bǔ)充的外觀引導(dǎo),從而生成一個(gè)在空間和時(shí)間上具有增強(qiáng)一致性的最終輸出。這種迭代方法不僅提高了模型的魯棒性,還確保即使在受限輸入條件下也能獲得高質(zhì)量的結(jié)果。
漸進(jìn)的訓(xùn)練過程
本文訓(xùn)練過程分為三個(gè)不同的階段,以確保模型的逐步和有效適應(yīng)。在第一階段,僅使用兩個(gè)控制信號:3D身體骨架和3D頭部球體,故意排除隱式面部表征。這個(gè)初始階段旨在促進(jìn)基礎(chǔ)視頻生成模型向人體動(dòng)畫任務(wù)的過渡。通過避免過于復(fù)雜的控制信號可能對模型學(xué)習(xí)過程的干擾,允許模型建立對任務(wù)的堅(jiān)實(shí)基礎(chǔ)理解。在第二階段,引入隱式面部表征,同時(shí)保持所有其他模型參數(shù)凍結(jié)。在此階段,僅訓(xùn)練面部運(yùn)動(dòng)編碼器和面部注意力層,使模型能夠?qū)W⒂趯W(xué)習(xí)面部表情的細(xì)節(jié),而不受其他變量的干擾。最后,在第三階段,本文解凍所有模型參數(shù)并進(jìn)行全面的訓(xùn)練,以通過聯(lián)合優(yōu)化所有組件來微調(diào)模型性能。這種分階段的方法確保了一個(gè)穩(wěn)健和穩(wěn)定的訓(xùn)練過程,最終導(dǎo)致一個(gè)更有效和適應(yīng)性更強(qiáng)的模型。
實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集。 為了訓(xùn)練,通過從各種來源收集視頻數(shù)據(jù)構(gòu)建了一個(gè)綜合數(shù)據(jù)集,總計(jì)500小時(shí)的視頻素材。該數(shù)據(jù)集涵蓋了多種場景,包括舞蹈、體育、電影場景和演講,確保對人類運(yùn)動(dòng)和表情的廣泛覆蓋。數(shù)據(jù)集在構(gòu)圖方面是平衡的,全身鏡頭和半身鏡頭各占數(shù)據(jù)的約50%。此外,本文利用Nersemble 進(jìn)一步提高面部合成質(zhì)量。為了評估,使用本文收集的數(shù)據(jù)集,該數(shù)據(jù)集提供了一個(gè)多樣且具有挑戰(zhàn)性的基準(zhǔn),能夠?qū)δP驮诓煌瑘鼍跋碌姆夯芰M(jìn)行穩(wěn)健評估。
評估指標(biāo)。 本文遵循先前研究中采用的評估指標(biāo),包括FID、SSIM、LPIPS、PSNR和FVD。前四個(gè)用于評估每幀的生成質(zhì)量,而最后一個(gè)用于評估視頻保真度。
與現(xiàn)有方法的比較
為了全面展示本文工作的有效性,本文在身體動(dòng)畫和肖像動(dòng)畫任務(wù)上進(jìn)行了實(shí)驗(yàn)。注意,本文的方法在大多數(shù)情況下僅使用單個(gè)參考圖像就表現(xiàn)出強(qiáng)大的性能。為了確保與其他方法的公平比較,本文僅在消融研究中使用多個(gè)參考圖像,而在比較分析中使用單個(gè)參考圖像。本文強(qiáng)烈建議讀者查看補(bǔ)充視頻。
與身體動(dòng)畫方法的比較。 本文對DreamActor-M1進(jìn)行了定性和定量評估,并與現(xiàn)有的身體動(dòng)畫方法進(jìn)行比較,包括Animate Anyone、Champ、MimicMotion和DisPose,如下表1和下圖4所示。本文可以看到,本文提出的DreamActor-M1優(yōu)于當(dāng)前的最新結(jié)果。
與肖像動(dòng)畫方法的比較。 本文還將DreamActor-M1與最先進(jìn)的肖像動(dòng)畫方法進(jìn)行比較,包括LivePortrait、XPortrait、SkyReels-A1和Act-One,如下表2和下圖5所示。正如下表2所示,在本文收集的數(shù)據(jù)集上,視頻驅(qū)動(dòng)的結(jié)果在所有指標(biāo)上始終優(yōu)于所有競爭方法。
雖然在本文的框架中面部表情和頭部姿態(tài)是解耦的,但本文的方法也可以擴(kuò)展到音頻驅(qū)動(dòng)的面部動(dòng)畫。具體來說,本文訓(xùn)練了一個(gè)面部運(yùn)動(dòng)編碼器,將語音信號映射到面部運(yùn)動(dòng) token ,從而實(shí)現(xiàn)逼真和同步的動(dòng)畫。作為一個(gè)擴(kuò)展應(yīng)用,本文省略了定量比較。
消融研究
本文進(jìn)行了全面的消融研究,以評估本文方法的幾個(gè)核心組件的影響。
多參考協(xié)議。 本文比較了兩種設(shè)置:(a)使用單個(gè)參考圖像進(jìn)行推理,(b)如前文所述的兩階段推理方法,首先生成偽參考圖像,然后進(jìn)行多參考推理。結(jié)果如下表3所示。它表明偽多參考推理在長時(shí)間視頻生成質(zhì)量和時(shí)間一致性方面優(yōu)于單參考推理。這是因?yàn)樵跀U(kuò)展的視頻生成過程中,補(bǔ)充的參考圖像提供了關(guān)于未見區(qū)域的額外視覺信息,使視頻生成過程能夠利用參考細(xì)節(jié)。這有助于避免信息丟失,從而在整個(gè)視頻中保持一致性。然而,單個(gè)參考圖像達(dá)到的性能仍然具有競爭力,表明它足以應(yīng)對大多數(shù)場景。
混合控制信號。 本文進(jìn)一步通過消融關(guān)鍵組件來研究混合控制信號的貢獻(xiàn):(a)用3D網(wǎng)格替換3D頭部球體和骨架,(b)用3D面部標(biāo)志替換隱式面部表示。結(jié)果如下圖6所示。這些設(shè)置下的顯著性能下降強(qiáng)調(diào)了本文混合控制框架中每個(gè)組件的重要性。具體來說,具有骨長調(diào)整的3D骨架提供了更準(zhǔn)確的空間指導(dǎo),而隱式面部表示比傳統(tǒng)標(biāo)志更有效地捕捉細(xì)微的表情細(xì)節(jié)。這些發(fā)現(xiàn)證明了本文提出的混合控制信號在實(shí)現(xiàn)高質(zhì)量和逼真人像動(dòng)畫方面的有效性和優(yōu)越性。
結(jié)論
本文提出了一個(gè)全面的人像動(dòng)畫框架DreamActor-M1,解決了多尺度適應(yīng)、細(xì)粒度面部表情和身體運(yùn)動(dòng)控制,以及未見區(qū)域的長期一致性。本文采用漸進(jìn)式訓(xùn)練策略,使用具有不同分辨率和尺度的數(shù)據(jù)來處理從肖像到全身視圖的各種圖像尺度。通過混合控制信號解耦身份、身體姿勢和面部表情,本文的方法在保持角色身份的同時(shí),實(shí)現(xiàn)了精確的面部動(dòng)態(tài)和生動(dòng)的身體運(yùn)動(dòng)。所提出的補(bǔ)充外觀指導(dǎo)解決了跨尺度動(dòng)畫和未見區(qū)域合成中的信息缺口。相信這些創(chuàng)新為復(fù)雜動(dòng)作建模的未來研究和表達(dá)性人像動(dòng)畫的實(shí)際部署提供了潛在的見解。
局限性。 本文的框架在控制動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)方面面臨固有的困難,無法生成與環(huán)境物體的物理交互。此外,本文的方法使用[35]進(jìn)行的骨長調(diào)整在極端情況下表現(xiàn)出不穩(wěn)定性,需要多次迭代手動(dòng)選擇以獲得最佳結(jié)果。這些挑戰(zhàn)仍需在未來的研究中解決。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
