自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AniPortrait開源上線!音頻驅(qū)動逼真人像動畫合成!人人都是歌手!

發(fā)布于 2024-4-2 13:22
瀏覽
0收藏

AniPortrait開源上線!音頻驅(qū)動逼真人像動畫合成!人人都是歌手!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2403.17694

Github鏈接:??https://github.com/Zejun-Yang/AniPortrait??


本文提出了AniPortrait,一個新穎的框架,用于生成由音頻和參考人像驅(qū)動的高質(zhì)量動畫。方法分為兩個階段。首先,從音頻中提取3D中間表示,并將它們投影到一系列2D面部關(guān)鍵點(diǎn)上。隨后,采用了一個強(qiáng)大的擴(kuò)散模型,結(jié)合一個運(yùn)動模塊,將關(guān)鍵點(diǎn)序列轉(zhuǎn)換為逼真且時間上連貫的人像動畫。


實(shí)驗(yàn)結(jié)果表明,在面部自然性、姿勢多樣性和視覺質(zhì)量方面,AniPortrait具有優(yōu)越性,從而提供了增強(qiáng)的感知體驗(yàn)。此外,我們的方法在靈活性和可控性方面表現(xiàn)出了相當(dāng)大的潛力,可以有效應(yīng)用于面部運(yùn)動編輯或面部再現(xiàn)等領(lǐng)域。

介紹

從音頻和靜態(tài)圖像中創(chuàng)建逼真而富有表現(xiàn)力的人像動畫具有各種應(yīng)用,從虛擬現(xiàn)實(shí)和游戲到數(shù)字媒體都有涉及。然而,制作視覺上引人入勝且保持時間一致性的高質(zhì)量動畫是一個重大挑戰(zhàn)。這種復(fù)雜性源于需要精細(xì)協(xié)調(diào)嘴唇運(yùn)動、面部表情頭部位置,以營造出視覺上引人入勝的效果。


現(xiàn)有方法通常未能克服這一挑戰(zhàn),主要是因?yàn)樗鼈円蕾囉谟糜谝曈X內(nèi)容創(chuàng)建的容量有限的生成器,如GANs、NeRF或基于運(yùn)動的解碼器。這些網(wǎng)絡(luò)展現(xiàn)出有限的泛化能力,并且在生成高質(zhì)量內(nèi)容方面經(jīng)常缺乏穩(wěn)定性。最近,擴(kuò)散模型的出現(xiàn)促進(jìn)了高質(zhì)量圖像的生成。一些研究在此基礎(chǔ)上進(jìn)行了進(jìn)一步探索,通過引入時間模塊,使擴(kuò)散模型在創(chuàng)建引人入勝的視頻方面表現(xiàn)出色。


在擴(kuò)散模型的進(jìn)展基礎(chǔ)上,介紹AniPortrait,這是一個新穎的框架,旨在生成由音頻和參考圖像驅(qū)動的高質(zhì)量動畫人像。AniPortrait分為兩個明確的階段。

第一個階段,采用基于transformer的模型從音頻輸入中提取一系列3D面部網(wǎng)格和頭部姿勢,隨后將它們投影到一系列2D面部關(guān)鍵點(diǎn)上。這一階段能夠從音頻中捕捉微妙的表情和嘴唇運(yùn)動,以及與音頻節(jié)奏同步的頭部運(yùn)動。


第二個階段,利用了一個強(qiáng)大的擴(kuò)散模型,結(jié)合了一個運(yùn)動模塊,將面部關(guān)鍵點(diǎn)序列轉(zhuǎn)換為時間一致且逼真的動態(tài)人像。具體地,借鑒了AnimateAnyone的網(wǎng)絡(luò)架構(gòu),該架構(gòu)利用了強(qiáng)大的擴(kuò)散模型 Stable Diffusion 1.5,根據(jù)身體運(yùn)動序列和參考圖像生成流暢而逼真的視頻。特別值得注意的是我們對該網(wǎng)絡(luò)內(nèi)姿勢引導(dǎo)模塊的重新設(shè)計(jì)。這種修改不僅保持了輕量級設(shè)計(jì),而且在生成嘴唇運(yùn)動方面表現(xiàn)出了更高的精度。


實(shí)驗(yàn)結(jié)果顯示了AniPortrait在創(chuàng)建具有出色面部自然性、多樣化姿勢和優(yōu)秀視覺質(zhì)量的動畫方面的優(yōu)越性。通過使用3D面部表示作為中間特征,我們獲得了根據(jù)需要修改這些表示的靈活性。這種適應(yīng)性極大地增強(qiáng)了本文的框架在面部運(yùn)動編輯和面部再現(xiàn)等領(lǐng)域的適用性。

方法

所提出的框架包括兩個模塊,Audio2Lmk 和 Lmk2Video。前者旨在從音頻輸入中提取一系列能夠捕捉復(fù)雜面部表情和嘴唇運(yùn)動的關(guān)鍵點(diǎn)序列。后者利用這些關(guān)鍵點(diǎn)序列生成具有時間穩(wěn)定性的高質(zhì)量人像視頻。下圖1中概述了該框架,并在下文提供了更多細(xì)節(jié)。

AniPortrait開源上線!音頻驅(qū)動逼真人像動畫合成!人人都是歌手!-AI.x社區(qū)

Audio2Lmk

AniPortrait開源上線!音頻驅(qū)動逼真人像動畫合成!人人都是歌手!-AI.x社區(qū)

采用預(yù)訓(xùn)練的 wav2vec 來提取音頻特征。該模型具有很高的泛化能力,并且能夠準(zhǔn)確識別音頻中的發(fā)音和語調(diào),這在生成逼真的面部動畫中起著關(guān)鍵作用。通過利用獲得的穩(wěn)健語音特征,可以有效地使用由兩個全連接層組成的簡單架構(gòu)將這些特征轉(zhuǎn)換為 3D 面部網(wǎng)格。觀察到,這種簡單的設(shè)計(jì)不僅確保了準(zhǔn)確性,還提高了推理過程的效率。

在將音頻轉(zhuǎn)換為姿勢的任務(wù)中,我用相同的 wav2vec 網(wǎng)絡(luò)作為骨干。然而,不與音頻到網(wǎng)格模塊共享權(quán)重。這是因?yàn)樽藙菖c音頻中存在的節(jié)奏和語調(diào)更為密切相關(guān),這與音頻到網(wǎng)格任務(wù)有不同的重點(diǎn)。為了考慮前面狀態(tài)的影響,使用 transformer 解碼器來解碼姿勢序列。在此過程中,使用交叉注意力機(jī)制將音頻特征集成到解碼器中。對于上述兩個模塊,使用簡單的 L1 損失進(jìn)行訓(xùn)練。

在獲得網(wǎng)格和姿勢序列后,使用透視投影將它們轉(zhuǎn)換為一系列 2D 面部關(guān)鍵點(diǎn)。這些關(guān)鍵點(diǎn)隨后被用作下一階段的輸入信號。

Lmk2Video

AniPortrait開源上線!音頻驅(qū)動逼真人像動畫合成!人人都是歌手!-AI.x社區(qū)

Lmk2Video 的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)受到 AnimateAnyone 的啟發(fā)。本文利用 SD-1.5 作為骨干,集成了一個時間運(yùn)動模塊,將多幀噪聲輸入有效地轉(zhuǎn)換為一系列視頻幀。同時,使用一個 ReferenceNet,鏡像了 SD-1.5 的結(jié)構(gòu),用于從參考圖像中提取外觀信息并將其整合到骨干中。這種戰(zhàn)略性的設(shè)計(jì)確保了輸出視頻中的人臉I(yè)D保持一致。與 AnimateAnyone 不同的是,我們增強(qiáng)了 PoseGuider 的設(shè)計(jì)復(fù)雜性。原始版本僅包括幾個卷積層,之后關(guān)鍵點(diǎn)特征與骨干輸入層的潛變量合并。這種基本設(shè)計(jì)無法捕捉到嘴唇的復(fù)雜運(yùn)動。因此,本文采用了 ControlNet 的多尺度策略,將相應(yīng)尺度的關(guān)鍵點(diǎn)特征合并到骨干的不同模塊中。盡管進(jìn)行了這些增強(qiáng),也成功地保持了參數(shù)數(shù)量相對較低。

本文還引入了一個額外的改進(jìn):將參考圖像的關(guān)鍵點(diǎn)作為額外輸入。PoseGuider 的交叉注意力模塊促進(jìn)了參考關(guān)鍵點(diǎn)和每幀目標(biāo)關(guān)鍵點(diǎn)之間的交互。這個過程為網(wǎng)絡(luò)提供了額外的線索,以理解面部關(guān)鍵點(diǎn)和外觀之間的相關(guān)性,從而有助于生成具有更精確運(yùn)動的人像動畫。

實(shí)驗(yàn)

實(shí)施細(xì)節(jié)

在 Audio2Lmk 階段,采用 wav2vec2.0 作為我們的骨干網(wǎng)絡(luò)。利用 MediaPipe 提取 3D 網(wǎng)格和 6D 姿勢進(jìn)行標(biāo)注。Audio2Mesh 的訓(xùn)練數(shù)據(jù)來自內(nèi)部數(shù)據(jù)集,該數(shù)據(jù)集包含來自單個發(fā)言者的近一小時高質(zhì)量語音數(shù)據(jù)。為了確保 MediaPipe 提取的 3D 網(wǎng)格穩(wěn)定,我們指示演員在整個錄制過程中保持穩(wěn)定的頭部位置,面向攝像機(jī)。使用 HDTF 訓(xùn)練 Audio2Pose。所有訓(xùn)練操作都在一臺 A100 上執(zhí)行,利用 Adam 優(yōu)化器,學(xué)習(xí)率為 le-5。


在 Lmk2Video 過程中,實(shí)施了兩步訓(xùn)練方法。在初始步驟中,專注于訓(xùn)練骨干網(wǎng)絡(luò)、ReferenceNet 和 PoseGuider 的 2D 組件,略過運(yùn)動模塊。在隨后的步驟中,凍結(jié)所有其他組件,并集中精力訓(xùn)練運(yùn)動模塊。利用兩個大規(guī)模、高質(zhì)量的面部視頻數(shù)據(jù)集 VFHQ 和 CelebV-HQ 訓(xùn)練模型。所有數(shù)據(jù)經(jīng)過 MediaPipe 處理,以提取 2D 面部關(guān)鍵點(diǎn)。為了增強(qiáng)網(wǎng)絡(luò)對嘴唇運(yùn)動的敏感性,在從 2D 關(guān)鍵點(diǎn)渲染姿勢圖像時使用不同的顏色區(qū)分上下嘴唇。所有圖像都被調(diào)整為 512x512 分辨率。利用 4 個 A100 GPU 進(jìn)行模型訓(xùn)練,每個步驟耗時兩天。采用 AdamW 優(yōu)化器,保持學(xué)習(xí)率為le-5 。

結(jié)果

如下圖2所示,我們的方法生成了一系列在質(zhì)量和真實(shí)感上引人注目的動畫。利用中間的3D表示,可以對其進(jìn)行編輯以操控最終輸出。例如,可以從源中提取關(guān)鍵點(diǎn)并改變其ID,從而使我們能夠創(chuàng)建面部重現(xiàn)效果。

AniPortrait開源上線!音頻驅(qū)動逼真人像動畫合成!人人都是歌手!-AI.x社區(qū)

結(jié)論和未來工作

本研究提出了基于擴(kuò)散模型的人像動畫框架。通過簡單地輸入音頻片段和參考圖像,該框架能夠生成具有流暢嘴唇運(yùn)動和自然頭部運(yùn)動的人像視頻。利用擴(kuò)散模型強(qiáng)大的泛化能力,該框架創(chuàng)建的動畫展現(xiàn)出令人印象深刻的逼真圖像質(zhì)量和令人信服的運(yùn)動。然而,這種方法需要使用中間的3D表示,獲取大規(guī)模、高質(zhì)量的3D數(shù)據(jù)的成本相當(dāng)高。因此,生成的人像視頻中的面部表情和頭部姿勢無法擺脫“詭異谷”效應(yīng)。在未來,我們計(jì)劃采用EMO的方法,直接從音頻預(yù)測人像視頻,以實(shí)現(xiàn)更令人驚嘆的生成結(jié)果。


本文轉(zhuǎn)自 Huawei Wei等 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/JRq8xJlesDfhLqi7Gh2PJg??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦