擊敗擴(kuò)散和非擴(kuò)散奪得SOTA!FLOAT:基于流匹配的音頻驅(qū)動說話者頭像生成模型 精華
論文鏈接:https://arxiv.org/pdf/2412.01064
github鏈接:https://deepbrainai-research.github.io/float/
亮點直擊
- FLOAT,這是一種基于流匹配的音頻驅(qū)動說話者頭像生成模型,利用了學(xué)習(xí)的運動隱空間,比基于像素的隱空間更高效和有效。
- 引入了一種簡單而有效的基于Transformer的流向量場預(yù)測器,用于時間一致的運動隱空間采樣,這也使得語音驅(qū)動的情感控制成為可能。
- 大量實驗表明,與基于擴(kuò)散和非擴(kuò)散的方法相比,F(xiàn)LOAT達(dá)到了最先進(jìn)的性能。
總結(jié)速覽
解決的問題
- 在基于擴(kuò)散的生成模型中,迭代采樣導(dǎo)致時間一致的視頻生成困難。
- 如何實現(xiàn)快速采樣以提高生成效率。
- 如何在音頻驅(qū)動的頭像圖像動畫中自然地融入情感和表現(xiàn)力豐富的動作。
提出的方案
- 將生成建模從基于像素的隱空間轉(zhuǎn)移到學(xué)習(xí)的運動隱空間,以實現(xiàn)更高效的時間一致運動設(shè)計。
- 引入基于Transformer的向量場預(yù)測器,具有簡單而有效的逐幀條件機(jī)制。
應(yīng)用的技術(shù)
- 流匹配生成模型,用于優(yōu)化運動隱空間的學(xué)習(xí)。
- Transformer模型,用于預(yù)測流向量場,實現(xiàn)時間一致的運動采樣。
- 逐幀條件機(jī)制,確保時間一致性并支持語音驅(qū)動的情感控制。
達(dá)到的效果
- 在視覺質(zhì)量上,生成的頭像更加逼真,表現(xiàn)力更豐富。
- 在運動保真度上,動作更加自然流暢。
- 在效率上,相較于基于擴(kuò)散和非擴(kuò)散的方法,F(xiàn)LOAT具有更高的采樣速度和生成效率。
- 支持語音驅(qū)動的情感增強(qiáng),能夠自然地融入表現(xiàn)力豐富的動作。
方法:音頻驅(qū)動的說話頭像的流程匹配
運動隱空間自動編碼器
近期的說話頭像方法利用了Stable Diffusion (SD) 的VAE,因為其具有豐富的基于像素的語義隱空間。然而,當(dāng)應(yīng)用于視頻生成任務(wù)時,這些方法常常難以生成時間一致的幀 [8, 29, 76, 89, 101]。因此,第一個目標(biāo)是為逼真的說話頭像獲得良好的運動隱空間,能夠捕捉全局(例如頭部運動)和細(xì)粒度局部(例如面部表情、嘴部運動、瞳孔運動)動態(tài)。為此,我們采用隱空間圖像動畫器 (LIA) 作為我們的運動自動編碼器,而不是使用SD的VAE。關(guān)鍵區(qū)別在于訓(xùn)練目標(biāo):LIA被訓(xùn)練為從同一視頻片段中采樣的源圖像重建驅(qū)動圖像,這要求隱空間編碼包含能夠捕捉時間上相鄰和遠(yuǎn)離的運動的隱式運動。
運動隱空間中的流匹配
語音驅(qū)動的情感標(biāo)簽。 如何使說話動作更具表現(xiàn)力和自然性?在說話過程中,人類通過聲音自然地反映出他們的情感,而這些情感會影響說話的動作。例如,一個悲傷說話的人可能更傾向于搖頭并避免眼神接觸。這種由情感引發(fā)的非語言動作對說話者頭像的自然性有著重要影響。
現(xiàn)有的工作 [30, 81, 90] 使用圖像-情感配對數(shù)據(jù)或圖像驅(qū)動的情感預(yù)測器 [63] 來生成情感感知的動作。相比之下,我們結(jié)合了語音驅(qū)動的情感,這是一種更直觀的音頻驅(qū)動說話者頭像的情感控制方式。具體來說,我們利用一個預(yù)訓(xùn)練的語音情感預(yù)測器,它輸出七種不同情感的 softmax 概率:憤怒、厭惡、恐懼、快樂、中性、悲傷和驚訝,然后我們將其輸入到 FMT 中。
然而,由于人們在說話時并不總是表現(xiàn)出單一、明確的情感,僅憑音頻來判斷情感往往是模糊的。簡單地引入語音驅(qū)動的情感可能會使情感感知的動作生成更加困難。為了解決這個問題,我們在訓(xùn)練階段將情感與其他驅(qū)動條件一起注入,并在推理階段對其進(jìn)行修改。
我們擴(kuò)展了 CFV 到增量 CFV,以便分別調(diào)整音頻和情感,靈感來自 [3]:
采樣后,ODE 求解器接收估計的向量場,通過數(shù)值積分計算運動隱空間變量。我們通過實驗發(fā)現(xiàn),F(xiàn)LOAT 可以在大約 10 次函數(shù)評估(NFE)內(nèi)生成合理的運動。
最后,我們將源身份隱空間變量添加到生成的運動隱空間變量中,并使用運動隱空間變量解碼器將其解碼為視頻幀。
實驗
數(shù)據(jù)集和預(yù)處理
經(jīng)過預(yù)處理后,對于 HDTF,我們使用了總計 11.3 小時的 240 個視頻,這些視頻包含 230 個不同的身份用于訓(xùn)練,并使用 78 個不同身份的視頻進(jìn)行測試,每個視頻長 15 秒。對于 RAVDESS,我們使用 22 個身份的視頻進(jìn)行訓(xùn)練,剩余 2 個身份的視頻用于測試,每個視頻長 3-4 秒,代表 14 種情感強(qiáng)度。請注意,兩個數(shù)據(jù)集中訓(xùn)練和測試的身份是不重疊的。
實現(xiàn)細(xì)節(jié)
評估
指標(biāo)和基線。 為了評估圖像和視頻生成的質(zhì)量,我們測量了Fréchet Inception Distance (FID) 和16幀的Fréchet Video Distance (FVD)。對于面部身份、表情和頭部運動,我們分別測量了身份embedding的余弦相似度 (CSIM)、表情FID (E-FID) 和姿態(tài)FID (P-FID)。最后,我們測量了音頻與視覺對齊的唇同步誤差距離和置信度 (LSE-D 和 LSE-C)。
我們將我們的方法與當(dāng)前最先進(jìn)的語音驅(qū)動說話者頭像方法進(jìn)行比較,這些方法的官方實現(xiàn)是公開可用的。對于非擴(kuò)散方法,我們與SadTalker和EDTalk進(jìn)行比較。對于擴(kuò)散方法,我們與AniTalker、Hallo和EchoMimic進(jìn)行比較。
比較結(jié)果。在上表1和上圖4中,我們分別展示了定量和定性的比較結(jié)果。FLOAT在大多數(shù)指標(biāo)和視覺質(zhì)量上都優(yōu)于兩個數(shù)據(jù)集中的其他方法。
消融研究
關(guān)于FMT和流匹配的消融研究。 我們將使用逐幀AdaLN(和門控)并通過掩碼自注意力將條件分離與注意力分開的FMT,與同時執(zhí)行條件和注意力的基于交叉注意力的Transformer進(jìn)行比較。如下表2所示,這兩種方法都在圖像和視頻質(zhì)量上表現(xiàn)出競爭力,而FMT在表情生成和唇同步方面表現(xiàn)更佳。
對NFE的消融研究。 一般來說,增加函數(shù)評估次數(shù)(NFE)可以減少ODE的解誤差。如下表3所示,即使在NFE=2較小的情況下,F(xiàn)LOAT也能實現(xiàn)有競爭力的圖像質(zhì)量(FID)和唇同步(LSE-D)。然而,它在捕捉一致且富有表現(xiàn)力的動作(FVD和E-FID)方面表現(xiàn)不佳,導(dǎo)致頭部動作不穩(wěn)和表情靜態(tài)。這是因為FLOAT在隱空間中生成動作,而圖像保真度由自動編碼器決定。
進(jìn)一步的研究
值得注意的是,引入姿態(tài)參數(shù)顯著改善了圖像和視頻指標(biāo)。這是因為驅(qū)動的頭部姿態(tài)有助于捕捉目標(biāo)分布的頭部姿態(tài)。此外,語音驅(qū)動的情感和圖像驅(qū)動的情感都一致地提高了在情感密集數(shù)據(jù)集中生成的動作質(zhì)量,其中圖像驅(qū)動的情感取得了略好一些的指標(biāo)。這是因為與語音驅(qū)動的方法相比,圖像驅(qū)動的方法稍微不那么模糊。
重定向語音驅(qū)動的情感。 由于 FLOAT 是在情感密集型視頻數(shù)據(jù)集上訓(xùn)練的,我們可以通過手動將預(yù)測的情感標(biāo)簽重定向為另一種(例如,一個獨熱標(biāo)簽),在推理時將生成的情感感知說話動作更改為不同的情感。如下圖7所示,當(dāng)從語音預(yù)測的情感復(fù)雜或模糊時,這可以實現(xiàn)手動重定向。
用戶研究。 在下表 6 中,我們進(jìn)行了一項基于平均意見得分(MOS)的用戶研究,以比較每種方法的感知質(zhì)量(例如,牙齒清晰度和情感自然性)。我們使用基線和 FLOAT 生成了 6 個視頻,并請 15 名參與者根據(jù)五個評估因素對每個生成的視頻進(jìn)行 1 到 5 的評分。如下表 6 所示,F(xiàn)LOAT 優(yōu)于基線。
結(jié)論
FLOAT,這是一種基于流匹配的音頻驅(qū)動說話者頭像生成模型,利用了學(xué)習(xí)到的運動隱空間。引入了一個基于transformer的矢量場預(yù)測器,實現(xiàn)了時間上一致的運動生成。此外,將語音驅(qū)動的情感標(biāo)簽納入運動采樣過程,以提高音頻驅(qū)動說話動作的自然性。FLOAT 通過流匹配減少采樣時間,同時實現(xiàn)了卓越的樣本質(zhì)量,解決了當(dāng)前基于擴(kuò)散的方法在生成說話者頭像視頻時的核心限制。大量實驗驗證了 FLOAT 在視覺質(zhì)量、運動逼真度和效率方面達(dá)到了最新的性能。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
