自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

直擊痛點,新一代身份保持視頻生成解決方案!阿里等提出FantasyID:多視角與3D融合!

發(fā)布于 2025-2-25 10:42
瀏覽
0收藏

直擊痛點,新一代身份保持視頻生成解決方案!阿里等提出FantasyID:多視角與3D融合!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2502.13995 
項目鏈接:https://fantasy-amap.github.io/fantasy-id/ 

直擊痛點,新一代身份保持視頻生成解決方案!阿里等提出FantasyID:多視角與3D融合!-AI.x社區(qū)


亮點直擊

  • 首次嘗試從單視角參考圖像中提取3D面部先驗,以增強面部結構的穩(wěn)定性,從而在整個視頻生成過程中有益于身份(ID)保持。
  • 通過采用多視角面部增強策略,能夠顯著增強對廣泛視角下2D面部外觀的感知,從而有益于與面部表情和頭部姿勢相關的運動動態(tài)。
  • 設計了一種可學習的層次化特征引導機制,以促進對身份保持和動態(tài)建模的精確控制,從而生成具有更好時間一致性和身份一致性的高保真人物視頻。

總結速覽

解決的問題

  • 面部動態(tài)表現(xiàn)不足:現(xiàn)有的身份保持文本到視頻生成(IPT2V)方法在生成視頻時,難以在保持身份一致性的同時,實現(xiàn)滿意的面部動態(tài)表現(xiàn)。
  • “復制-粘貼”問題:使用單視角參考面部圖像進行模型調優(yōu)時,模型可能會簡單地復制參考面部圖像,導致生成視頻中的面部表情和頭部姿勢缺乏多樣性。
  • 層次化控制信號的敏感性:擴散Transformer(DiT)的層次化結構導致不同層對控制信號的敏感性不同,需要專門的調節(jié)策略來平衡身份保持和時間一致性。

提出的方案

  • 引入3D面部幾何先驗:通過集成3D面部幾何先驗,確保在視頻合成過程中面部結構的穩(wěn)定性和一致性。使用DECA提取身份特定的3D特征(如形狀點云),并丟棄與身份無關的特征(如姿勢和表情)。
  • 多視角面部增強策略:通過從不同視角增強單視角參考面部圖像,形成一個面部池,從中隨機選擇圖像作為預訓練視頻模型的輸入,以避免模型學習“復制-粘貼”的捷徑。
  • 層次化自適應注入機制:將融合的2D和3D面部特征通過基于Transformer的特征融合模塊進行混合,并引入層次化自適應注入機制,選擇性地將融合特征注入到每個DiT層中,以平衡身份保持和運動動態(tài)。

應用的技術

  • 3D面部幾何先驗:使用DECA提取3D面部幾何特征。
  • 多視角面部增強:通過多視角圖像增強技術,生成多樣化的面部圖像。
  • Transformer特征融合:使用基于Transformer的特征融合模塊,將2D和3D面部特征進行融合。
  • 層次化自適應注入機制:引入層次化自適應注入機制,選擇性地將融合特征注入到DiT的不同層中。

達到的效果

  • 提升面部動態(tài)表現(xiàn):通過引入3D面部幾何先驗和多視角面部增強策略,顯著提升了生成視頻中面部表情和頭部姿勢的多樣性。
  • 避免“復制-粘貼”問題:多視角面部增強策略有效避免了模型簡單地復制參考面部圖像,增強了生成視頻的動態(tài)性。
  • 平衡身份保持和運動動態(tài):層次化自適應注入機制使得模型能夠自適應地選擇最有益的特征,從而在保持身份一致性的同時,實現(xiàn)更好的運動動態(tài)表現(xiàn)。
  • 實驗驗證:實驗結果表明,該方法在當前的無調優(yōu)IPT2V方法中具有優(yōu)越性。

方法

給定一張參考面部圖像,FantasyID旨在生成一個忠實保留個體身份特征的視頻。下圖2展示了FantasyID的概述。對于每個訓練視頻,構建一個多視角面部集合,并隨機選擇一張參考圖像作為輸入條件。接著,利用面部抽象器提取2D clip tokens,使用DECA解耦與核心身份無關的特征(如表情、姿勢)并提取3D結構信息,并通過融合Transformer將2D tokens和3D tokens融合為面部描述符嵌入。此外,通過采用層次化信號注入方法對基于DiT的模型進行控制,確保每一層的精確調制。

直擊痛點,新一代身份保持視頻生成解決方案!阿里等提出FantasyID:多視角與3D融合!-AI.x社區(qū)

多視角集合與面部抽象器

多視角面部集合。在訓練階段獲取有效的身份參考至關重要。為了確保模型專注于關鍵區(qū)域,首先從視頻的每一幀中裁剪出面部區(qū)域,消除背景干擾。借鑒MovieGen的方法,單一參考圖像可能導致模型學習直接復制面部的捷徑,因此在訓練階段構建了一個包含不同視角的面部圖像集合。使用RetinaFace提取面部關鍵點之間的幾何關系,以計算頭部姿勢角度,并選擇六張視角差異最顯著的圖像形成一個多視角面部集合I。通過為模型提供多樣化的視角,它能夠更全面地理解主體,從而增強其在各種姿勢和表情下保持身份一致性的能力。

直擊痛點,新一代身份保持視頻生成解決方案!阿里等提出FantasyID:多視角與3D融合!-AI.x社區(qū)

3D約束

直擊痛點,新一代身份保持視頻生成解決方案!阿里等提出FantasyID:多視角與3D融合!-AI.x社區(qū)

融合Transformer

直擊痛點,新一代身份保持視頻生成解決方案!阿里等提出FantasyID:多視角與3D融合!-AI.x社區(qū)

層次化控制信號注入

受DiT架構中每一層對整體性能有獨特貢獻的觀察啟發(fā),本文采用類似的方法來控制基于DiT的面部視頻生成。不同層對控制信號的敏感性不同。為了解決這一問題,本文提出了一種層次化控制信號注入機制,根據(jù)每一層的作用動態(tài)調整控制信號的集成。


對于每個MM-DiT塊,采用一個輕量級模型Fl來學習最優(yōu)特征表示。該輕量級網絡由一個卷積塊和歸一化組成。每一層的獨立權重增強了保真度和多樣性,使控制信號精確地適應每一層的需求。這確保了輸出的穩(wěn)定性和表現(xiàn)潛力。該過程由以下公式定義:

直擊痛點,新一代身份保持視頻生成解決方案!阿里等提出FantasyID:多視角與3D融合!-AI.x社區(qū)

直擊痛點,新一代身份保持視頻生成解決方案!阿里等提出FantasyID:多視角與3D融合!-AI.x社區(qū)

實驗

實驗設置

直擊痛點,新一代身份保持視頻生成解決方案!阿里等提出FantasyID:多視角與3D融合!-AI.x社區(qū)

評估指標。本文采用 ArcFace嵌入相似度來評估兩個關鍵方面。首先,參考相似度(Reference Similarity, RS) 計算參考圖像與視頻幀之間的相似度,以評估身份保持能力。其次,幀間相似度(Inter-Frame Similarity, IFS) 測量連續(xù)視頻幀之間的相似度,以評估運動過程中身份特征的穩(wěn)定性。此外,我們通過分析面部區(qū)域的 Fréchet Inception Distance (FID) [3] 來評估視頻質量,并使用由平均密集光流 測量的面部運動(Face Motion, FM) 來評估運動程度。我們使用了 50 張細節(jié)豐富的肖像參考圖像。為了更準確地衡量身份保持能力,我們從每個視頻中裁剪出面部區(qū)域進行定量評估。

定性分析

為了進行定性評估,展示了與基于擴散的身份保持模型(ConsisID 和 ID-Animator)的比較結果。其他模型,如 VideoMaker和 MagicMirror,由于未開源,因此未包含在直接比較中。


下圖 3 展示了 ID-Animator 在生成面部以外的人體部位時存在困難,并表現(xiàn)出明顯的“復制-粘貼”偽影。此外,生成的內容通常顯得過于靜態(tài),缺乏自然運動。這些限制顯著限制了其在需要動態(tài)和真實人類行為或交互的場景中的實際應用。對于 ConsisID,雖然整體視覺質量較高,但在面部運動過程中仍存在結構不穩(wěn)定的問題,如案例 1 所示。盡管 ConsisID 保留了參考圖像中的皮膚紋理等特征,但在案例 3 和 4 中未能準確再現(xiàn)整體面部結構。相比之下,本文的方法在視覺質量、從參考圖像中保留主體身份以及在運動過程中保持幀間一致的面部結構方面取得了最佳效果。

直擊痛點,新一代身份保持視頻生成解決方案!阿里等提出FantasyID:多視角與3D融合!-AI.x社區(qū)

為了進一步驗證我們提出方法的有效性,本文進行了一項包含 32 名參與者的綜合用戶研究。每位參與者被要求評估四個關鍵方面:整體質量(Overall Quality, OQ)面部相似度(Face Similarity, F-Sim)、面部結構(Facial Structure, F-Str) 和 面部動態(tài)(Facial Dynamics, FD),并在 0 到 10 的范圍內對每個方面進行評分。如下表 1 所示,評分結果表明 FantasyID 在所有評估維度上均優(yōu)于基線方法,證明了其在人類評估中的優(yōu)越感知質量。

直擊痛點,新一代身份保持視頻生成解決方案!阿里等提出FantasyID:多視角與3D融合!-AI.x社區(qū)

定量分析

下表 2 展示了各種面部視頻生成方法的綜合定量評估結果。ID-Animator 在 FID 分數(shù)和 IFS 分數(shù)上表現(xiàn)優(yōu)異。然而,這種表現(xiàn)可以歸因于其傾向于生成更靜態(tài)的內容,從而確保了高質量和出色的身份一致性。這種對靜態(tài)表示的關注可能限制了其生成多樣化和動態(tài)面部運動的能力。相比之下,盡管本文的方法在 FID 分數(shù)上略高,但在捕捉動態(tài)表情方面表現(xiàn)出色,面部運動分數(shù)達到 0.61,同時取得了最高的 RS 分數(shù) 0.57,反映了卓越的身份保持能力。值得注意的是,本模型在所有指標上均優(yōu)于 ConsisID,展現(xiàn)了在動態(tài)性和身份保持方面的卓越能力。

直擊痛點,新一代身份保持視頻生成解決方案!阿里等提出FantasyID:多視角與3D融合!-AI.x社區(qū)

消融實驗

這些實驗系統(tǒng)地移除了各個組件,以評估它們對模型整體性能的影響,結果如下表 3 所示。本文研究了排除多視角面部集合(Multi-View Face Collection, MFC)、面部抽象器(Face Abstractor, FA)、面部頂點(Face Vertex, FV) 和 層次化控制信號注入(Layer-Aware Control Signal Injection, LACSI) 的影響。此外,修改了不同輸入的面部頂點數(shù)據(jù),以驗證 3D 約束的有效性。

直擊痛點,新一代身份保持視頻生成解決方案!阿里等提出FantasyID:多視角與3D融合!-AI.x社區(qū)

定性分析

3D 約束的效果。為了驗證 3D 約束控制機制的有效性,修改了 3D 面部頂點以生成具有不同面部寬度和下頜線銳度的視頻。下圖 4 展示的定性結果顯示了面部結構的顯著變化,從而證實了3D 約束在引導面部特征生成方面的有效性。這證明了本文的方法在控制面部特征方面的靈活性和精確性。

直擊痛點,新一代身份保持視頻生成解決方案!阿里等提出FantasyID:多視角與3D融合!-AI.x社區(qū)

無面部頂點。我們通過排除框架中的面部頂點來評估 3D 約束的重要性。下圖 5 的定性結果表明,缺少 3D 面部頂點數(shù)據(jù)會導致模型僅依賴 2D 特征提取,從而導致運動過程中面部結構的扭曲。前面表 2 的定量結果顯示所有指標均有所下降,表明面部運動更加不穩(wěn)定。這些結果表明,3D 頂點集成在保持結構完整性和確保平滑面部動態(tài)方面起著關鍵作用。

直擊痛點,新一代身份保持視頻生成解決方案!阿里等提出FantasyID:多視角與3D融合!-AI.x社區(qū)

無多視角面部集合。我們在訓練階段用單一面部圖像替換了多視角面部集合。如下圖 6 所示,這種方法顯著減少了捕捉到的面部運動范圍,限制了模型理解和表示不同角度的能力。如前面表 3 所示,這種方法在 FID 和 IFS 分數(shù)上表現(xiàn)最佳。這種表現(xiàn)可以歸因于模型傾向于通過優(yōu)先考慮與參考圖像的更高相似性來走捷徑,從而以犧牲動態(tài)范圍為代價保持一致性。

直擊痛點,新一代身份保持視頻生成解決方案!阿里等提出FantasyID:多視角與3D融合!-AI.x社區(qū)

無面部抽象器將面部抽象器替換為 Q-Former,如上面圖 6 所示,這導致了一些面部扭曲。這些扭曲可能是由于 Q-Former 傾向于破壞面部 CLIP 特征的空間特性。此外,上表 2 中的結果表明,這種方法在 FID、RS 和 IFS 分數(shù)上表現(xiàn)較低。這表明面部抽象器在捕捉全面且空間一致的面部信息方面更為有效。


無層次化控制信號注入通過移除層次化控制信號注入模塊 ,觀察到面部相似度顯著下降,如上圖 6 所示,同時所有指標分數(shù)也有所下降,詳見前面表 3。這些結果表明視頻質量和身份保持能力均有所下降。相比之下,層次化控制方法通過學習每一層最合適的特征控制信號,能夠更有效地適應不同 DiT 塊之間的獨特特征分布。這種方法在生成身份特征時確保了最佳性能和保真度。

結論

FantasyID 提出了一種突破性的身份保持人物視頻生成方法,克服了傳統(tǒng)方法的局限性。通過采用多視角面部集合、面部抽象器、3D 約束和層次化控制信號注入,它顯著提升了視頻質量、身份保持能力和時間一致性。這種可擴展的無訓練解決方案在復雜運動中保持了高保真表示。未來的工作將專注于優(yōu)化多身份保持,并擴展 FantasyID 在動態(tài)視頻制作和個性化內容創(chuàng)作中的作用。


本文轉自 AI生成未來  ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/YQfVXjyxKT8B9exicNnZsQ??

收藏
回復
舉報
回復
相關推薦