自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

你要跳舞么?復(fù)旦&微軟提出StableAnimator:可實(shí)現(xiàn)高質(zhì)量和高保真的ID一致性人類視頻生成

人工智能 新聞
StableAnimator是一種視頻擴(kuò)散模型,具有專用的訓(xùn)練和推理模塊,可生成高質(zhì)量、保留 ID 的人體圖像動(dòng)畫。

本文經(jīng)AIGC Studio公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。

由復(fù)旦、微軟、虎牙、CMU的研究團(tuán)隊(duì)提出的StableAnimator框架,實(shí)現(xiàn)了高質(zhì)量和高保真的ID一致性人類視頻生成。

圖片StableAnimator 生成的姿勢驅(qū)動(dòng)的人體圖像動(dòng)畫展示了其合成高保真和 ID 保留視頻的能力。FaceFusion 是一個(gè)換臉工具。GFP-GAN 和 CodeFormer 是人臉恢復(fù)模型。ControlNeXt 是最新的開源動(dòng)畫模型。

圖片圖片

相關(guān)鏈接

  • 論文:https://arxiv.org/abs/2411.17697
  • 主頁:https://francis-rings.github.io/StableAnimator/
  • 代碼:https://github.com/Francis-Rings/StableAnimator
  • Demo: https://www.bilibili.com/video/BV1X5zyYUEuD

論文閱讀

圖片StableAnimator:高質(zhì)量且可保留身份的人體圖像動(dòng)畫

論文介紹

當(dāng)前用于人體圖像動(dòng)畫的擴(kuò)散模型難以確保身份 (ID) 一致性。論文介紹了 StableAnimator,這是第一個(gè)端到端 ID 保留視頻擴(kuò)散框架,它以參考圖像和一系列姿勢為條件,無需任何后期處理即可合成高質(zhì)量視頻?;谝曨l擴(kuò)散模型,StableAnimator 包含精心設(shè)計(jì)的模塊,用于訓(xùn)練和推理,力求實(shí)現(xiàn)身份一致性。

具體而言,StableAnimator 首先分別使用現(xiàn)成的提取器計(jì)算圖像和人臉嵌入,然后通過使用全局內(nèi)容感知人臉編碼器與圖像嵌入交互來進(jìn)一步細(xì)化人臉嵌入。然后,StableAnimator 引入了一種新穎的分布感知 ID 適配器,可防止時(shí)間層造成的干擾,同時(shí)通過對(duì)齊保留 ID。在推理過程中,

論文提出了一種基于 Hamilton-Jacobi-Bellman (HJB) 方程的新型優(yōu)化,以進(jìn)一步提高人臉質(zhì)量。論文證明了求解 HJB 方程可以集成到擴(kuò)散去噪過程中,并且得到的解可以限制去噪路徑,從而有利于 ID 保存。在多個(gè)基準(zhǔn)測試上的實(shí)驗(yàn)從定性和定量兩個(gè)方面證明了 StableAnimator 的有效性。

方法介紹

圖片StableAnimator 基于先前研究而來的常用 SVD。參考圖像通過擴(kuò)散模型通過三種途徑進(jìn)行處理:

  1. 由凍結(jié)的 VAE 編碼器轉(zhuǎn)換為潛在代碼。潛在代碼被復(fù)制以匹配視頻幀,然后與主潛在代碼連接。
  2. 由 CLIP 圖像編碼器編碼以獲得圖像嵌入,這些嵌入分別被饋送到去噪 U-Net 的每個(gè)交叉注意力塊和我們的人臉編碼器,以調(diào)節(jié)合成的外觀。
  3. 輸入到 Arcface 以獲得人臉嵌入,隨后通過我們的人臉編碼器對(duì)其進(jìn)行細(xì)化以進(jìn)一步對(duì)齊。然后將細(xì)化的人臉嵌入輸入到去噪 U-Net。

具有與 AnimateAnyone 類似架構(gòu)的 PoseNet 提取姿勢序列的特征,然后將其添加到噪聲潛在代碼中。在推理過程中用隨機(jī)噪聲替換原始輸入視頻幀,而其他輸入保持不變。論文提出了一種基于 HJB 方程的新型人臉優(yōu)化方法,以提高 ID 一致性并消除對(duì)第三方后處理工具的依賴。它將 HJB 方程的求解過程集成到去噪中,從而實(shí)現(xiàn)最佳梯度方向以實(shí)現(xiàn)較高的 ID 一致性。

結(jié)果展示

圖片

圖片與最先進(jìn)方法的定性比較。

圖片

面部增強(qiáng)策略的消融研究。

圖片

結(jié)論

StableAnimator是一種視頻擴(kuò)散模型,具有專用的訓(xùn)練和推理模塊,可生成高質(zhì)量、保留 ID 的人體圖像動(dòng)畫。StableAnimator 首先使用現(xiàn)成的模型來獲取圖像和人臉嵌入。為了捕捉參考的全局上下文,StableAnimator 引入了 8 個(gè)人臉編碼器來細(xì)化人臉嵌入。StableAnimator 進(jìn)一步設(shè)計(jì)了一個(gè) ID 適配器,它應(yīng)用對(duì)齊來減輕時(shí)間建模的干擾,實(shí)現(xiàn)無縫人臉嵌入集成而不會(huì)造成視頻保真度損失。在推理過程中,為了進(jìn)一步提高人臉質(zhì)量,StableAnimator 將 HJB 方程與擴(kuò)散去噪結(jié)合起來進(jìn)行人臉優(yōu)化。它與去噪并行運(yùn)行,創(chuàng)建了一個(gè)端到端管道,從而無需第三方換臉工具??绺鞣N數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果證明了該模型在生成高質(zhì)量保留 ID 的人體動(dòng)畫方面的優(yōu)勢。

責(zé)任編輯:張燕妮 來源: AIGC Studio
相關(guān)推薦

2025-03-20 09:20:00

2023-10-20 12:54:00

數(shù)據(jù)訓(xùn)練

2025-02-06 10:45:00

2024-09-10 11:21:30

2025-01-20 10:23:00

圖像生成AI模型

2025-04-28 09:28:14

2022-12-14 08:23:30

2025-03-03 08:32:00

模型AI訓(xùn)練

2024-01-22 08:59:00

AI

2022-10-09 12:12:56

谷歌AI歌手

2017-07-25 14:38:56

數(shù)據(jù)庫一致性非鎖定讀一致性鎖定讀

2020-11-24 09:03:41

一致性MySQLMVCC

2025-03-11 10:15:00

模型視頻生成

2024-03-20 00:00:00

StabilityAI開源人工智能

2016-12-19 18:41:09

哈希算法Java數(shù)據(jù)

2022-11-10 07:49:09

hash算法代碼

2025-04-02 08:50:00

AI視頻生成

2025-03-27 09:24:16

2023-06-25 09:44:00

一致性哈希數(shù)據(jù)庫
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)