自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<legend id="vwpg6"><abbr id="vwpg6"></abbr></legend>

<sub id="vwpg6"></sub>

<sub id="vwpg6"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

你要跳舞么？復(fù)旦&微軟提出StableAnimator：可實(shí)現(xiàn)高質(zhì)量和高保真的ID一致性人類視頻生成

作者：AIGC Studio 2025-01-22 10:30:00

人工智能新聞

StableAnimator是一種視頻擴(kuò)散模型，具有專用的訓(xùn)練和推理模塊，可生成高質(zhì)量、保留 ID 的人體圖像動(dòng)畫。

本文經(jīng)AIGC Studio公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

由復(fù)旦、微軟、虎牙、CMU的研究團(tuán)隊(duì)提出的StableAnimator框架，實(shí)現(xiàn)了高質(zhì)量和高保真的ID一致性人類視頻生成。

StableAnimator 生成的姿勢驅(qū)動(dòng)的人體圖像動(dòng)畫展示了其合成高保真和 ID 保留視頻的能力。FaceFusion 是一個(gè)換臉工具。GFP-GAN 和 CodeFormer 是人臉恢復(fù)模型。ControlNeXt 是最新的開源動(dòng)畫模型。

相關(guān)鏈接

論文：https://arxiv.org/abs/2411.17697
主頁：https://francis-rings.github.io/StableAnimator/
代碼：https://github.com/Francis-Rings/StableAnimator
Demo: https://www.bilibili.com/video/BV1X5zyYUEuD

論文閱讀

StableAnimator：高質(zhì)量且可保留身份的人體圖像動(dòng)畫

論文介紹

當(dāng)前用于人體圖像動(dòng)畫的擴(kuò)散模型難以確保身份 (ID) 一致性。論文介紹了 StableAnimator，這是第一個(gè)端到端 ID 保留視頻擴(kuò)散框架，它以參考圖像和一系列姿勢為條件，無需任何后期處理即可合成高質(zhì)量視頻?；谝曨l擴(kuò)散模型，StableAnimator 包含精心設(shè)計(jì)的模塊，用于訓(xùn)練和推理，力求實(shí)現(xiàn)身份一致性。

具體而言，StableAnimator 首先分別使用現(xiàn)成的提取器計(jì)算圖像和人臉嵌入，然后通過使用全局內(nèi)容感知人臉編碼器與圖像嵌入交互來進(jìn)一步細(xì)化人臉嵌入。然后，StableAnimator 引入了一種新穎的分布感知 ID 適配器，可防止時(shí)間層造成的干擾，同時(shí)通過對(duì)齊保留 ID。在推理過程中，

論文提出了一種基于 Hamilton-Jacobi-Bellman (HJB) 方程的新型優(yōu)化，以進(jìn)一步提高人臉質(zhì)量。論文證明了求解 HJB 方程可以集成到擴(kuò)散去噪過程中，并且得到的解可以限制去噪路徑，從而有利于 ID 保存。在多個(gè)基準(zhǔn)測試上的實(shí)驗(yàn)從定性和定量兩個(gè)方面證明了 StableAnimator 的有效性。

方法介紹

StableAnimator 基于先前研究而來的常用 SVD。參考圖像通過擴(kuò)散模型通過三種途徑進(jìn)行處理：

由凍結(jié)的 VAE 編碼器轉(zhuǎn)換為潛在代碼。潛在代碼被復(fù)制以匹配視頻幀，然后與主潛在代碼連接。
由 CLIP 圖像編碼器編碼以獲得圖像嵌入，這些嵌入分別被饋送到去噪 U-Net 的每個(gè)交叉注意力塊和我們的人臉編碼器，以調(diào)節(jié)合成的外觀。
輸入到 Arcface 以獲得人臉嵌入，隨后通過我們的人臉編碼器對(duì)其進(jìn)行細(xì)化以進(jìn)一步對(duì)齊。然后將細(xì)化的人臉嵌入輸入到去噪 U-Net。

具有與 AnimateAnyone 類似架構(gòu)的 PoseNet 提取姿勢序列的特征，然后將其添加到噪聲潛在代碼中。在推理過程中用隨機(jī)噪聲替換原始輸入視頻幀，而其他輸入保持不變。論文提出了一種基于 HJB 方程的新型人臉優(yōu)化方法，以提高 ID 一致性并消除對(duì)第三方后處理工具的依賴。它將 HJB 方程的求解過程集成到去噪中，從而實(shí)現(xiàn)最佳梯度方向以實(shí)現(xiàn)較高的 ID 一致性。

結(jié)果展示

與最先進(jìn)方法的定性比較。

面部增強(qiáng)策略的消融研究。

結(jié)論

StableAnimator是一種視頻擴(kuò)散模型，具有專用的訓(xùn)練和推理模塊，可生成高質(zhì)量、保留 ID 的人體圖像動(dòng)畫。StableAnimator 首先使用現(xiàn)成的模型來獲取圖像和人臉嵌入。為了捕捉參考的全局上下文，StableAnimator 引入了 8 個(gè)人臉編碼器來細(xì)化人臉嵌入。StableAnimator 進(jìn)一步設(shè)計(jì)了一個(gè) ID 適配器，它應(yīng)用對(duì)齊來減輕時(shí)間建模的干擾，實(shí)現(xiàn)無縫人臉嵌入集成而不會(huì)造成視頻保真度損失。在推理過程中，為了進(jìn)一步提高人臉質(zhì)量，StableAnimator 將 HJB 方程與擴(kuò)散去噪結(jié)合起來進(jìn)行人臉優(yōu)化。它與去噪并行運(yùn)行，創(chuàng)建了一個(gè)端到端管道，從而無需第三方換臉工具?？绺鞣N數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果證明了該模型在生成高質(zhì)量保留 ID 的人體動(dòng)畫方面的優(yōu)勢。

責(zé)任編輯：張燕妮來源： AIGC Studio

圖像生成模型 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

^{<blockquote id="nla4c"></blockquote>}