賈佳亞團隊新作MagicMirror:生成身份一致且高質量個性化視頻,效果驚艷!
文章鏈接:https://arxiv.org/pdf/2501.03931
項目鏈接:https://julianjuaner.github.io/projects/MagicMirror/
亮點直擊
- 提出了Magic Mirror,這是一種無需微調的新型框架,用于生成身份一致性的視頻;
- 設計了一種輕量級適配器,結合條件自適應歸一化,實現面部嵌入在全注意力擴散Transformer架構中的有效融合;
- 開發(fā)了一種數據集構建方法,通過合成數據生成和漸進式訓練策略相結合,解決個性化視頻生成中的數據稀缺問題。
效果速覽
總結速覽
解決的問題
- 當前視頻生成方法在身份(ID)一致性和自然動態(tài)性之間難以平衡:
- 現有方法需要針對特定人物進行微調,或在生成動態(tài)內容時無法保持身份一致性。
- 多數方法生成的視頻動態(tài)性不足,僅實現靜態(tài)的“復制粘貼”。
- 兩階段方法(圖像個性化+圖像到視頻生成)在長序列生成中缺乏穩(wěn)定性。
- 現有視頻生成模型(如全注意力的Video DiT)在文本-視頻對齊優(yōu)化中犧牲了空間保真度,導致細粒度身份特征難以保留。
- 高質量、身份一致的圖像-視頻訓練數據稀缺。
提出的方案
- 提出Magic Mirror單階段框架,用于生成高質量、身份一致且動態(tài)自然的視頻。
- 引入三個關鍵組件:
- 利用身份一致的合成數據進行初步訓練。
- 在視頻數據上進行細化訓練,確保時序一致性。
- 集成到CogVideoX框架中。
- 采用條件自適應歸一化(CAN),高效融合身份信息。
- 雙分支面部特征提取器:同時捕捉高層次身份特征和參考特定的結構信息。
- 輕量級跨模態(tài)適配器:
- 兩階段訓練策略:
應用的技術
- 構建于Video Diffusion Transformer(Video DiT)之上,優(yōu)化動態(tài)視頻生成。
- 條件自適應歸一化(CAN)模塊:
- 融合身份條件,提供注意力引導和特征分布引導。
- 數據合成策略:
- 利用身份保留模型生成高質量圖像-視頻對。
- 通過漸進式學習方法,先進行圖像預訓練,再進行視頻微調。
- 構建人類中心的視頻生成測試集,用于評價生成質量和一致性。
達到的效果
- 在身份一致性和自然動態(tài)性之間取得良好平衡:
- 動態(tài)視頻生成效果優(yōu)于現有方法。
- 在多項指標上表現優(yōu)越,包括VBench等基準測試。
- 通過無需人物特定微調的方法,實現個性化視頻生成:
- 保持面部一致性的同時,生成豐富的動態(tài)內容。
- 低參數開銷的同時實現高質量生成:
- 為數字化創(chuàng)作提供更多個性化、動態(tài)化的表達方式。
Magic Mirror
Magic Mirror 的概覽如下圖 3 所示。該雙分支框架從一個或多個參考圖像r 中提取面部身份特征。這些嵌入隨后通過增強了輕量級跨模態(tài)適配器的 DiT 主干進行處理,并結合條件自適應歸一化。該架構使 Magic Mirror 能夠生成身份一致的文本到視頻輸出。
面部特征解耦提取
條件自適應歸一化
其中,為簡潔起見,省略了模態(tài)特定的下標。
此外,為了增強特定參考身份(ID)的文本和視頻隱空間變量的分布學習能力,引入了條件自適應歸一化(CAN),其靈感來自類條件的 DiT 和 StyleGAN 的條件控制方法。CAN 為視頻和文本模態(tài)預測分布偏移。
數據與訓練
與諸如 Magic-Me 之類的微調方法相比,訓練一個零樣本定制適配器面臨著獨特的數據挑戰(zhàn)。我們模型的全注意力架構不可分割地結合了空間和時間組件,因此需要采用兩階段訓練策略。如下圖 5 所示,首先在多樣性和高質量數據集上訓練,以培養(yǎng)穩(wěn)健的身份保持能力。
漸進式訓練pipeline利用多樣化的數據集來增強模型性能,特別是在身份保持方面。對于圖像預訓練,首先使用 LAION-Face 數據集,該數據集包含大規(guī)模的網絡真實圖像,為生成自參考圖像提供了豐富的資源。為了進一步增加身份的多樣性,使用了 SFHQ 數據集,該數據集應用了標準文本提示的自參考技術。為了防止過擬合并促進生成多樣化的臉部-頭部運動,以 FFHQ 數據集為基礎。從一個人像描述提示池中隨機抽取文本提示,并使用 PhotoMaker-V2 生成身份條件的圖像對,通過精心的篩選確保身份的相似性和多樣性。
對于視頻后訓練,利用了高質量的 Pexels 和 Mixkit 數據集,以及從網絡自采的小規(guī)模視頻集合。同樣地,與每個關鍵幀的面部參考對應的合成圖像數據被生成為參考。組合數據集為模型在圖像和視頻上的訓練提供了豐富的視覺內容。
目標函數結合了身份感知和通用去噪損失:
實驗
實現細節(jié)
評估與比較將本文提出的方法與最先進的身份一致視頻生成模型 ID-Animator 以及領先的圖像到視頻 (I2V) 框架(包括 DynamiCrafter、CogVideoX和 EasyAnimate)進行了對比評估。評估中使用了標準化的視頻生成評測工具 VBench,以衡量運動質量和文本-運動對齊性能。對于身份保持,采用面部識別嵌入相似度 和面部運動指標進行評估。
評估數據集包括來自 VBench 的 40 個單角色提示(確保人口統(tǒng)計學的多樣性)以及 40 個特定動作提示用于運動評估。身份參考從 PubFig 數據集中的 50 個面部身份中抽取,每個身份生成 4 個基于不同提示的個性化視頻。
定量評估
定量結果總結在下表1中。使用VBench和EvalCrafter的通用指標評估生成的視頻,包括:
- 動態(tài)度:衡量生成視頻中動作的程度。
- 文本提示一致性:評估與給定文本描述的一致性。
- Inception Score (IS):評估生成視頻內容的質量和多樣性。
身份保持
對于身份保持,引入了平均相似度,它評估生成的面部與每個身份參考圖像的平均相似度之間的距離。此方法避免了通過簡單的復制粘貼策略獲得人為的高分,如下圖2所示。
面部運動指標面部運動使用兩個指標進行評估:
- FMref:衡量生成面部與參考面部之間的相對距離。
- FMinter:評估連續(xù)幀之間的距離。
定性評估
除了下圖1中展示的示例外,下圖6中展示了比較結果。與傳統(tǒng)的CogVideoX推理方法相比,本文的方法保持了較高的文本一致性、運動動態(tài)和視頻質量。與現有的圖像到視頻方法相比,Magic Mirror展示了在各幀之間更好的身份一致性,同時保持了自然的運動。本文的方法還在動態(tài)范圍和文本對齊方面優(yōu)于ID-Animator,后者在運動變化和提示遵循方面存在一定的局限性。
為了補充定量指標,進行了全面的用戶研究,評估生成結果的感知質量。該研究共涉及173名參與者,參與者評估了以下四個關鍵方面:運動動態(tài)、文本-運動對齊、視頻質量和身份一致性。參與者按1-10分的尺度對每個方面進行評分,結果總結在下表2中。如表1所示的總體偏好評分,Magic Mirror在所有評估維度上始終優(yōu)于基準方法,展示了其在人類評估中的卓越感知質量。
消融研究
與條件相關的模塊
通過消融研究評估了關鍵架構組件,結果展示在下圖7的左側。沒有參考特征嵌入分支時,模型失去了關鍵的高層次注意力引導,導致身份忠實度顯著下降。條件自適應歸一化(CAN)對于分布對齊至關重要,增強了跨幀的身份保持。下圖8進一步展示了CAN在面部條件注入中的有效性,表明在圖像預訓練階段,身份信息捕獲的訓練收斂性得到了改善。
訓練策略上圖7的右側展示了不同訓練策略的影響。圖像預訓練對于穩(wěn)健的身份保持至關重要,而視頻后訓練確保了時間一致性。然而,僅在圖像數據上訓練會導致視頻推理過程中出現顏色偏移偽影。這個偽影是由不同訓練階段中調制因子不一致造成的。我們的兩階段訓練方法通過利用兩個階段的優(yōu)勢,生成具有高身份忠實度和動態(tài)面部運動的視頻,達到了最佳結果。
討論
計算開銷與基準模型相比,本文分析了生成一段49幀480P視頻時的GPU內存利用、參數數量和推理延遲等計算要求。大多數附加參數集中在嵌入提取階段,這只需要一次前向傳遞。因此,如下表3所示,Magic Mirror在GPU內存消耗和推理時間方面相較于基準模型引入了最小的計算開銷。
限制與未來工作
盡管Magic Mirror在身份一致的視頻生成方面表現強勁,但仍然面臨一些挑戰(zhàn)。首先,當前框架不支持多身份定制化生成。其次,本文的方法主要聚焦于面部特征,對于服飾和配件等細粒度屬性的保持仍有改進空間。將身份一致性擴展到這些更廣泛的視覺元素,代表了一個有前景的方向,適用于實際的多鏡頭定制視頻生成。
結論
Magic Mirror,一種zero-shot身份保持視頻生成框架。Magic Mirror將雙重面部嵌入和條件自適應歸一化(CAN)集成到基于DiT的架構中。本文的方法能夠實現穩(wěn)健的身份保持和穩(wěn)定的訓練收斂。大量實驗表明,Magic Mirror能夠生成高質量的個性化視頻,同時保持單一參考圖像的身份一致性,在多個基準和人工評估中優(yōu)于現有方法。
本文轉自AI生成未來 ,作者:AI生成未來
