UBCFashion和TikTok新SOTA!復(fù)旦和騰訊優(yōu)圖發(fā)布端到端人像動畫生成器VividPose!
文章鏈接:https://arxiv.org/pdf/2405.18156
項目鏈接:https://kelu007.github.io/vivid-pose/
人像動畫涉及通過遵循指定的姿勢序列從靜態(tài)圖像生成視頻。目前的方法通常采用多階段pipeline,分別學(xué)習(xí)外觀和動作,這往往導(dǎo)致外觀退化和時間不一致。今天和大家分享一篇優(yōu)化這些問題的工作————VividPose,這是一種基于Stable Video Diffusion (SVD)的創(chuàng)新端到端pipeline,確保了優(yōu)越的時間穩(wěn)定性。為了增強人類身份的保留,提出了一種身份感知外觀控制器,該控制器集成了額外的面部信息,同時不影響服裝紋理和背景等其他外觀細(xì)節(jié)。這種方法確保生成的視頻在各種姿勢下保持對人類主體身份的高度保真度,保留關(guān)鍵面部特征。
為了適應(yīng)多樣的人體姿勢和手部動作,引入了一種幾何感知姿勢控制器,該控制器利用SMPL-X的密集渲染圖和稀疏骨架圖。這使得生成的視頻能夠準(zhǔn)確對齊姿勢和形狀,提供了一個能夠處理廣泛的體型和動態(tài)手部動作的強大框架。在UBCFashion和TikTok基準(zhǔn)上的大量定性和定量實驗表明,本文的方法實現(xiàn)了最先進的性能。此外,VividPose在提出的數(shù)據(jù)集上展示了出色的泛化能力。
本文的主要貢獻:
- 提出了VividPose,這是一種利用Stable Video Diffusion的創(chuàng)新端到端pipeline,顯著增強了人像動畫視頻的時間一致性和平滑度。
- 引入了一種身份感知外觀控制器,該控制器集成了額外的面部信息,同時保留了服裝紋理等其他外觀細(xì)節(jié)。該方法確保在不同姿勢下對人物身份的高度保真度。
- 提出了一種幾何感知姿勢控制器,該控制器利用密集渲染圖和稀疏骨架圖,確保了準(zhǔn)確的體型生成,并有效適應(yīng)各種體型和動態(tài)手部動作。
方法
概述
預(yù)備知識:Stable Video Diffusion (SVD)SVD 是一種最前沿的視頻生成模型,它通過將潛在擴散模型從2D圖像合成擴展到高分辨率、時間一致的視頻創(chuàng)建,接收文本和圖像作為輸入。從技術(shù)上講,SVD 引入了3D卷積和時間注意力層。這些時間層也集成到VAE解碼器中。SVD的一個主要改進是從DDPM 噪聲調(diào)度器轉(zhuǎn)換為EDM調(diào)度器,該調(diào)度器使用連續(xù)噪聲尺度σ進行更靈活和有效的采樣,取代了離散時間步長。這種端到端的訓(xùn)練模式和pipeline在視頻生成中保持了強大的時間一致性,使其特別適合于人像動畫。
預(yù)備知識:SMPL-X SMPL-X是一種先進的3D參數(shù)化人體模型,通過結(jié)合詳細(xì)的面部、手部和身體特征增強了SMPL 模型的能力。它將人體表示為具有固定拓?fù)涞木W(wǎng)格,由形狀、姿勢和表情參數(shù)控制。形狀參數(shù)(β)捕捉身份特定的屬性,姿勢參數(shù)(θ)編碼關(guān)節(jié)旋轉(zhuǎn),表情參數(shù)(ψ)模擬面部表情。為了從SMPL-X模型生成2D渲染圖,采用了可微渲染過程。使用相機投影函數(shù)(Π),渲染過程公式化為:
SMPL-X基礎(chǔ)姿勢序列在工作中,上述過程準(zhǔn)確地將3D人體模型投影到2D圖像平面。對于人像動畫,從參考圖像中獲取形狀和表情參數(shù)(β和ψ),而姿勢參數(shù)(θ)則從驅(qū)動視頻中提取。生成的渲染圖作為姿勢條件,確保生成視頻的體型與參考圖像準(zhǔn)確對齊,同時跟隨驅(qū)動視頻中的動態(tài)姿勢,從而生成逼真且連貫的動畫。
身份感知的外觀控制
其中,
其中
其中,
因此,解耦交叉注意力的最終公式定義如下:
額外的注意力,如方程式3所示,增強了面部身份,而不影響其他外觀信息,如服裝紋理和背景,從而確保將細(xì)粒度的面部特征有效地與UNet特征集成,而不干擾其他外觀特征。
幾何感知姿勢控制
人體圖像動畫pipeline以參考圖像和從任何駕駛視頻中提取的姿勢序列作為輸入。現(xiàn)有方法通常使用骨架圖或密集圖(均來自2D姿勢估計器)作為姿勢驅(qū)動信號。這經(jīng)常導(dǎo)致形狀不對齊問題。具體而言,骨架圖僅捕獲姿勢信息,忽略了身體形狀的細(xì)節(jié)。而密集圖包含姿勢和形狀信息,但身體形狀來自駕駛視頻,無法修改以與參考圖像的身體形狀對齊。因此,這導(dǎo)致姿勢驅(qū)動信號的形狀與參考圖像中的形狀不對齊,從而在生成的視頻人體形狀中產(chǎn)生不準(zhǔn)確性。
為了解決這個問題,將3D參數(shù)化人體模型SMPL-X的渲染圖納入姿勢驅(qū)動信號中。由于SMPL-X的參數(shù)化表示,可以建立重構(gòu)的SMPL-X與從駕駛視頻中提取的基于SMPL-X的姿勢序列之間的幾何對應(yīng)關(guān)系。這種對齊不僅確保了姿勢驅(qū)動信號的形狀與參考圖像的形狀匹配,而且從3D信息中提供了額外的幾何關(guān)系(例如,手交叉和身體遮擋)。通過分別從參考圖像和駕駛視頻中提取形狀和姿勢參數(shù),可以創(chuàng)建渲染圖,確保生成的視頻人體形狀與參考圖像對齊,同時遵循駕駛視頻的姿勢。這種全面的表示對于實現(xiàn)逼真和連貫的動畫至關(guān)重要,捕捉手部動作中的微妙細(xì)微差別,并有效處理身體形狀的變化。
將添加到噪聲潛變量中,然后將其輸入到UNet中。
實驗
設(shè)置
數(shù)據(jù)集。在兩個常用的學(xué)術(shù)基準(zhǔn)數(shù)據(jù)集上進行實驗,即UBC-Fashion和 TikTok 數(shù)據(jù)集。還精心收集和處理了來自互聯(lián)網(wǎng)的 3000 個視頻,以進一步驗證本文的方法在實際場景中的適用性。具體而言,UBC-Fashion 包括 500 個訓(xùn)練視頻和 100 個測試視頻,每個視頻大約包含 350 幀。該數(shù)據(jù)集非常適用于與時尚相關(guān)的人體動畫任務(wù)。TikTok 包含 340 個單人舞蹈視頻,每個視頻持續(xù) 10-15 秒。大多數(shù) TikTok 視頻側(cè)重于人物的上半身。遵循 DISCO 并使用相同的訓(xùn)練和測試劃分。精心篩選的數(shù)據(jù)集包括來自嗶哩嗶哩的 2224 個舞蹈視頻和來自抖音的 776 個視頻。這些視頻涵蓋了各種外觀和姿勢變化,如室內(nèi)外場景、不同的服裝紋理、不同年齡段和各種舞蹈風(fēng)格。所有這些數(shù)據(jù)集的幀都根據(jù)原始視頻的幀速率提取,并分別應(yīng)用于每幀的 DWPose和 SMPLer-X 來推斷骨架圖和渲染圖。
評估指標(biāo)。評估單幀圖像質(zhì)量和整體視頻保真度,以確保全面評估。對于單幀質(zhì)量,使用 L1 誤差、SSIM 、LPIPS 、PSNR 和 FID 。視頻保真度通過 FID-VID 和 FVD進行評估。這些指標(biāo)能夠嚴(yán)格衡量單個幀的視覺質(zhì)量和生成視頻的時間連貫性,確保對方法的性能進行徹底評估。
實現(xiàn)細(xì)節(jié)。在訓(xùn)練過程中,個別視頻幀被采樣、調(diào)整大小并居中裁剪到分辨率為 512×768。使用 SVD-img2vid 初始化去噪 UNet 來一次生成 14 幀,并使用 SD2.1 初始化 ReferenceNet。去噪 UNet、ReferenceNet、身份控制器和姿勢控制器都以端到端的方式進行訓(xùn)練。所有實驗都在 8 個 NVIDIA 80GB H800 GPU 上進行,batch大小為 32。
比較方法。評估包括與人體圖像動畫領(lǐng)域一系列最先進方法的全面比較:(1) MRAA 是一種基于 GAN 的方法,利用來自駕駛序列的光流估計來扭曲源圖像。最近的基于擴散的方法,如 (2) MagicAnimate 和 (3) AnimateAnyone ,以其復(fù)雜的外觀和時序建模而聞名,表現(xiàn)出令人印象深刻的性能。為了進行定量比較,還與 (4) DreamPose 進行了比較,該方法設(shè)計了一個適配器,以整合人體圖像的特征。(5) DisCo也是一種先進的基于擴散的方法,它包含用于各種元素的不同條件模塊,例如姿勢、前景人物和背景。(6) BDMM 在時尚視頻生成方面表現(xiàn)良好。由于采用了相同的基準(zhǔn)和數(shù)據(jù)分割,定量比較是基于直接引用原始論文的統(tǒng)計數(shù)據(jù)進行的。
比較
定性比較。從下圖3可以明顯看出,本文的方法在激烈運動過程中保持了更好的面部身份一致性,并成功實現(xiàn)了復(fù)雜的手勢。一個有趣的案例(第四行,最后一列)顯示,在劇烈運動后,本文的方法生成的角色佩戴的太陽鏡從頭上掉落,完美地落在了眼睛上。這表明本文的方法對物理世界有著更優(yōu)秀的理解,進一步強調(diào)了它在創(chuàng)建逼真動畫方面的優(yōu)勢。
總之,VividPose在幾個關(guān)鍵領(lǐng)域明顯優(yōu)于最先進的方法。本文的方法在保留服裝紋理細(xì)節(jié)、保持高度的面部身份一致性以及準(zhǔn)確捕捉身體姿勢變化方面表現(xiàn)出色。此外,VividPose有效地處理了涉及手部交叉和動態(tài)運動的復(fù)雜場景。這些優(yōu)勢突顯了本文方法的穩(wěn)健性和精確性,確保了超越現(xiàn)有技術(shù)性能的逼真連貫的人體圖像動畫。
定量比較。對TikTok和UBCFashion數(shù)據(jù)集進行了廣泛的定量比較,評估VividPose與幾種最先進方法(包括BDMM、DisCo、MagicAnimate、AnimateAnyone和DreamPose)的性能。在TikTok數(shù)據(jù)集上的結(jié)果(下表1)顯示,VividPose在多個指標(biāo)上優(yōu)于其他方法,實現(xiàn)了最低的FID得分、最高的SSIM和PSNR,以及最低的LPIPS得分之一。這些結(jié)果表明了出色的視覺質(zhì)量、結(jié)構(gòu)相似性和感知相似性。
在視頻保真度方面,VividPose以最低的FID-VID和FVD表現(xiàn)出色,顯示出優(yōu)秀的時間一致性。當(dāng)VividPose在精心篩選的數(shù)據(jù)集上進行訓(xùn)練時,性能進一步提高。在UBCFashion數(shù)據(jù)集上的結(jié)果(下表2)突顯了VividPose的優(yōu)勢,在保持圖像質(zhì)量和感知相似性方面實現(xiàn)了最高的SSIM和PSNR,以及最低的LPIPS,表明了其在保留圖像質(zhì)量和感知相似性方面的優(yōu)越能力。此外,VividPose實現(xiàn)了最低的FVD,證實了其生成時間連貫視頻的能力。這些結(jié)果突顯了VividPose在保留細(xì)粒度外觀細(xì)節(jié)、保持面部身份和準(zhǔn)確捕捉復(fù)雜身體姿勢和動作方面的優(yōu)勢。VividPose在圖像質(zhì)量和視頻保真度方面持續(xù)優(yōu)于現(xiàn)有方法,使其成為人體圖像動畫的穩(wěn)健可靠解決方案。
消融研究
ID控制器的有效性。在TikTok數(shù)據(jù)集上的定量和定性割舍研究,如下表3和圖5所示,強調(diào)了ID控制器的有效性。定量上,包含ID控制器改善了圖像質(zhì)量指標(biāo):FID從33.58降至31.89,SSIM從0.731增至0.758,LPIPS從0.283降至0.261。定性上,ID控制器確保了更好的面部身份一致性,在不同的姿勢中保留了關(guān)鍵的面部特征。這對于保持被拍攝對象的識別度至關(guān)重要,特別是在動態(tài)場景中。ID控制器通過有效地編碼和保留特定于身份的特征,確保生成的視頻既視覺上吸引人,又在時間上連貫。
姿勢控制器的有效性。姿勢控制器利用骨架圖和渲染圖,對于保持運動連續(xù)性和處理復(fù)雜手勢至關(guān)重要。如表3和下圖6所示,啟用這兩個組件會導(dǎo)致更好的視頻質(zhì)量指標(biāo)。骨架圖為整體身體結(jié)構(gòu)和運動提供了稀疏的框架,而渲染圖則補充了關(guān)于身體形狀和表面變形的詳細(xì)信息。這種雙重方法允許對動態(tài)姿勢和復(fù)雜手勢進行精確建模,這些通常很難復(fù)制。這些改進突顯了姿勢控制器在確保平滑連貫運動方面的有效性,特別是在涉及復(fù)雜手勢和動態(tài)姿勢的場景中。
結(jié)論
本文介紹了VividPose,一種基于Stable Video Diffusion(SVD)的人體圖像動畫的新型端到端pipeline。VividPose包括兩個主要模塊:(1)身份感知外觀控制器通過合并面部信息增強了人體身份的保留,而不影響其他外觀細(xì)節(jié)。
(2)幾何感知姿勢控制器使用來自SMPL-X的密集渲染圖和稀疏骨架圖,以適應(yīng)多樣化的身體形狀和手勢效果。在UBCFashion和TikTok基準(zhǔn)上的大量實驗表明,VividPose在時間一致性、視覺保真度和泛化能力方面取得了最先進的結(jié)果。它在數(shù)據(jù)集上也表現(xiàn)出色,展示了在實際場景中的穩(wěn)健性。
本文轉(zhuǎn)自 AI生成未來,作者:Qilin Wang等
