自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

全網(wǎng)都在模仿的「科目三」,梅西、鋼鐵俠、二次元小姐姐馬上拿下

人工智能 新聞
來(lái)自阿里的研究團(tuán)隊(duì)提出了一種名為 Animate Anyone 的方法,只需一張人物照片,再配合骨骼動(dòng)畫(huà)引導(dǎo),就能生成動(dòng)畫(huà)視頻。

最近一段時(shí)間,你可能或多或少的聽(tīng)到過(guò)「科目三」,搖花手、半崴不崴的腳,配合著節(jié)奏鮮明的音樂(lè),這一舞蹈動(dòng)作遭全網(wǎng)模仿。

如果相似的舞蹈,讓 AI 生成會(huì)怎樣?就像下圖所展示的,不管是現(xiàn)代人、還是紙片人,都做著整齊劃一的動(dòng)作。你可能猜不到的是,這是根據(jù)一張圖片生成的舞蹈視頻。

圖片

人物動(dòng)作難度加大,生成的視頻也非常絲滑(最右邊):

圖片

讓梅西、鋼鐵俠動(dòng)起來(lái),也不在話下:

圖片


圖片

還有各種動(dòng)漫小姐姐。

圖片

圖片

上述效果是如何做到的呢?我們接著往下看。

角色動(dòng)畫(huà)(Character Animation)是將源角色圖像按照所需的姿態(tài)序列動(dòng)畫(huà)化為逼真視頻的任務(wù),具有許多潛在的應(yīng)用,例如在線零售、娛樂(lè)視頻、藝術(shù)創(chuàng)作和虛擬角色等。 

從 GAN 開(kāi)始,研究者一直在不斷深入了解將圖像進(jìn)行動(dòng)畫(huà)化以及進(jìn)行姿態(tài)遷移的探索,然而,生成的圖像或視頻仍然存在局部失真、細(xì)節(jié)模糊、語(yǔ)義不一致和時(shí)間不穩(wěn)定等問(wèn)題,從而阻礙了這些方法的應(yīng)用。

本文,來(lái)自阿里的研究者提出了一種名為 Animate Anybody 的方法,該方法能夠?qū)⒔巧珗D像轉(zhuǎn)換為動(dòng)畫(huà)視頻,而形成的視頻遵循所要求的姿態(tài)序列。該研究繼承了 Stable Diffusion 的網(wǎng)絡(luò)設(shè)計(jì)和預(yù)訓(xùn)練權(quán)重,并修改了去噪 UNet 以適應(yīng)多幀輸入。

圖片

  • 論文地址:https://arxiv.org/pdf/2311.17117.pdf
  • 項(xiàng)目地址:https://humanaigc.github.io/animate-anyone/

為了保持外觀一致性,該研究還引入了 ReferenceNet,它被設(shè)計(jì)為對(duì)稱的 UNet 結(jié)構(gòu),用于捕獲參考圖像的空間細(xì)節(jié)。在 UNet 塊的每個(gè)相應(yīng)層,該研究使用空間 - 注意力將 ReferenceNet 的特征集成到去噪 UNet 中,這種架構(gòu)使模型能夠在一致的特征空間中全面學(xué)習(xí)與參考圖像的關(guān)系。

為了確保姿態(tài)可控性,該研究設(shè)計(jì)了一種輕量級(jí)姿態(tài)引導(dǎo)器,以有效地將姿態(tài)控制信號(hào)集成到去噪過(guò)程中。為了實(shí)現(xiàn)時(shí)間穩(wěn)定性,本文引入了時(shí)間層( temporal layer)來(lái)對(duì)多個(gè)幀之間的關(guān)系進(jìn)行建模,從而在模擬連續(xù)且平滑的時(shí)間運(yùn)動(dòng)過(guò)程的同時(shí)保留視覺(jué)質(zhì)量的高分辨率細(xì)節(jié)。

Animate Anybody 是在 5K 角色視頻剪輯的內(nèi)部數(shù)據(jù)集上訓(xùn)練而成,圖 1 顯示了各種角色的動(dòng)畫(huà)結(jié)果。與以前的方法相比,本文的方法具有幾個(gè)顯著的優(yōu)點(diǎn):

  • 首先,它有效地保持了視頻中人物外觀的空間和時(shí)間一致性。 
  • 其次,它生成的高清視頻不會(huì)出現(xiàn)時(shí)間抖動(dòng)或閃爍等問(wèn)題。 
  • 第三,它能夠?qū)⑷魏谓巧珗D像動(dòng)畫(huà)化為視頻,不受特定領(lǐng)域的限制。 

本文在兩個(gè)特定的人類視頻合成基準(zhǔn)(UBC 時(shí)尚視頻數(shù)據(jù)集和 TikTok 數(shù)據(jù)集)上進(jìn)行了評(píng)估。結(jié)果顯示,Animate Anybody 取得了 SOTA 結(jié)果。此外,該研究還將 Animate Anybody 方法與在大規(guī)模數(shù)據(jù)上訓(xùn)練的一般圖像到視頻方法進(jìn)行了比較,結(jié)果顯示 Animate Anybody 在角色動(dòng)畫(huà)方面展示了卓越的能力。

圖片

Animate Anybody 與其他方法的比較:

圖片

圖片

方法介紹

本文方法如下圖 2 所示,網(wǎng)絡(luò)的初始輸入由多幀噪聲組成。研究者基于 SD 設(shè)計(jì)來(lái)配置去噪 UNet,采用了相同的框架和塊單元,并繼承了來(lái)自 SD 的訓(xùn)練權(quán)重。具體來(lái)講,該方法包含了三個(gè)關(guān)鍵組成部分,分別如下:

  • ReferenceNet,編碼參考圖像角色的外觀特征;
  • Pose Guider(姿態(tài)引導(dǎo)器),編碼動(dòng)作控制信號(hào)以實(shí)現(xiàn)可控角色運(yùn)動(dòng);
  • Temporal layer(時(shí)間層),編碼時(shí)間關(guān)系以確保角色動(dòng)作的連續(xù)性。

圖片

ReferenceNet

ReferenceNet 是一個(gè)參考圖像特征提取網(wǎng)絡(luò),它的框架與去噪 UNet 大致相同,僅有時(shí)間層不同。因此,ReferenceNet 繼承了與去噪 UNet 類似的原始 SD 權(quán)重,并且每個(gè)權(quán)重更新都是獨(dú)立進(jìn)行的。研究者解釋了將 ReferenceNet 的特征集成到去噪 UNet 的方法。

ReferenceNet 的設(shè)計(jì)有兩個(gè)優(yōu)勢(shì)。第一,ReferenceNet 可以利用原始 SD 的預(yù)訓(xùn)練圖像特征建模能力,產(chǎn)生初始化良好的特征。第二,由于 ReferenceNet 與去噪 UNet 本質(zhì)上具有相同的網(wǎng)絡(luò)結(jié)構(gòu)和共享初始化權(quán)重,因而去噪 UNet 可以選擇性地從 ReferenceNet 中學(xué)習(xí)在同一特征空間關(guān)聯(lián)的特征。

姿態(tài)引導(dǎo)器

輕量級(jí)的姿態(tài)引導(dǎo)器使用四個(gè)卷積層(4×4 內(nèi)核、2×2 步幅、使用 16、32、64、128 個(gè)通道,類似于 [56] 中的條件編碼器)來(lái)對(duì)齊分辨率與潛在噪聲相同的姿態(tài)圖像,接著處理后的姿態(tài)圖像在被輸入到去噪 UNet 之前添加到潛在噪聲中。姿態(tài)引導(dǎo)器使用高斯權(quán)重進(jìn)行初始化,并在最終的映射層用到了零卷積。

時(shí)間層

時(shí)間層的設(shè)計(jì)靈感來(lái)自 AnimateDiff。對(duì)于一個(gè)特征圖 x∈R^b×t×h×w×c,研究者首先將它變形為 x∈R^(b×h×w)×t×c,然后執(zhí)行時(shí)間注意力,即沿著維度 t 的自注意力。時(shí)間層的特征通過(guò)殘差連接合并到了原始特征中,這種設(shè)計(jì)與下文的雙階段訓(xùn)練方法相一致。時(shí)間層專門(mén)在去噪 UNet 的 Res-Trans 塊內(nèi)使用。

訓(xùn)練策略

訓(xùn)練過(guò)程分為兩個(gè)階段。

第一階段,使用單個(gè)視頻幀進(jìn)行訓(xùn)練。在去噪 UNet 中,研究者暫時(shí)排除了時(shí)間層,模型將單幀噪聲作為輸入。參考網(wǎng)絡(luò)和姿態(tài)引導(dǎo)器也在這一階段進(jìn)行訓(xùn)練。參考圖像是從整個(gè)視頻片段中隨機(jī)選取的。他們根據(jù) SD 的預(yù)訓(xùn)練權(quán)重初始化去噪 UNet 和 ReferenceNet 的模型。姿態(tài)引導(dǎo)器使用高斯權(quán)重進(jìn)行初始化,但最后的投影層除外,該層使用零卷積。VAE 的編碼器和解碼器以及 CLIP 圖像編碼器的權(quán)重都保持不變。這一階段的優(yōu)化目標(biāo)是使模型在給定參考圖像和目標(biāo)姿態(tài)的條件下生成高質(zhì)量的動(dòng)畫(huà)圖像。

在第二階段,研究者將時(shí)間層引入先前訓(xùn)練好的模型,并使用 AnimateDiff 中預(yù)先訓(xùn)練好的權(quán)重對(duì)其進(jìn)行初始化。模型的輸入包括一個(gè) 24 幀的視頻片段。在這一階段,只訓(xùn)練時(shí)間層,同時(shí)固定網(wǎng)絡(luò)其他部分的權(quán)重。

實(shí)驗(yàn)與結(jié)果

定性結(jié)果:如圖 3 顯示,本文方法可以制作任意角色的動(dòng)畫(huà),包括全身人像、半身人像、卡通人物和仿人角色。該方法能夠生成高清晰度和逼真的人物細(xì)節(jié)。即使在大幅度運(yùn)動(dòng)的情況下,它也能與參考圖像保持時(shí)間上的一致性,并在幀與幀之間表現(xiàn)出時(shí)間上的連續(xù)性。

圖片

時(shí)尚視頻合成。時(shí)尚視頻合成的目的是利用驅(qū)動(dòng)姿態(tài)序列將時(shí)尚照片轉(zhuǎn)化為逼真的動(dòng)畫(huà)視頻。實(shí)驗(yàn)在 UBC 時(shí)尚視頻數(shù)據(jù)集上進(jìn)行,該數(shù)據(jù)集由 500 個(gè)訓(xùn)練視頻和 100 個(gè)測(cè)試視頻組成,每個(gè)視頻包含約 350 個(gè)幀。定量比較見(jiàn)表 1。在結(jié)果中可以發(fā)現(xiàn),本文方法優(yōu)于其他方法,尤其是在視頻度量指標(biāo)方面表現(xiàn)出明顯的領(lǐng)先優(yōu)勢(shì)。

圖片

定性比較如圖 4 所示。為了進(jìn)行公平比較,研究者使用 DreamPose 的開(kāi)源代碼獲得了未進(jìn)行樣本微調(diào)的結(jié)果。在時(shí)尚視頻領(lǐng)域,對(duì)服裝細(xì)節(jié)的要求非常嚴(yán)格。然而,DreamPose 和 BDMM 生成的視頻無(wú)法保持服裝細(xì)節(jié)的一致性,并在顏色和精細(xì)結(jié)構(gòu)元素方面表現(xiàn)出明顯的誤差。相比之下,本文方法生成的結(jié)果能更有效保持服裝細(xì)節(jié)的一致性。

圖片

人類舞蹈生成。人類舞蹈生成聚焦于將現(xiàn)實(shí)舞蹈場(chǎng)景圖像進(jìn)行動(dòng)畫(huà)處理。研究者們使用了 TikTok 數(shù)據(jù)集,其中包括 340 個(gè)訓(xùn)練視頻和 100 個(gè)測(cè)試視頻。按照 DisCo 的數(shù)據(jù)集劃分方法,使用利用相同的測(cè)試集,其中包含 10 個(gè) TikTok 風(fēng)格的視頻,研究者進(jìn)行了定量比較,見(jiàn)表 2。本文方法取得了最佳結(jié)果。為了增強(qiáng)泛化能力,DisCo 結(jié)合了人類屬性預(yù)訓(xùn)練,利用大量圖像對(duì)進(jìn)行模型預(yù)訓(xùn)練。相比之下,研究者訓(xùn)練只在 TikTok 數(shù)據(jù)集上進(jìn)行,結(jié)果優(yōu)于 DisCo。

圖片

圖 5 中展示了與 DisCo 的定性比較。考慮到場(chǎng)景的復(fù)雜性,DisCo 的方法需要額外使用 SAM 來(lái)生成人類前景掩碼。相反,本文方法表明,即使沒(méi)有明確的人體掩碼學(xué)習(xí),模型也能從被攝體的運(yùn)動(dòng)中掌握前景與背景的關(guān)系,而無(wú)需事先進(jìn)行人體分割。此外,在復(fù)雜的舞蹈序列中,該模型在保持整個(gè)動(dòng)作的視覺(jué)連續(xù)性方面表現(xiàn)突出,并在處理不同的角色外觀方面表現(xiàn)出更強(qiáng)的穩(wěn)健性。

圖片

圖像 - 視頻的通用方法。目前,許多研究都提出了基于大規(guī)模訓(xùn)練數(shù)據(jù)、具有強(qiáng)大生成能力的視頻擴(kuò)散模型。研究者選擇了兩種最著名、最有效的圖像 - 視頻方法進(jìn)行比較:AnimateDiff 和 Gen2。由于這兩種方法不進(jìn)行姿態(tài)控制,因此研究者只比較了它們保持參考圖像外觀保真度的能力。如圖 6 所示,當(dāng)前的圖像 - 視頻方法在生成大量角色動(dòng)作方面面臨挑戰(zhàn),并且難以在視頻中保持長(zhǎng)期的外觀一致性,從而阻礙了對(duì)一致角色動(dòng)畫(huà)的有效支持。

圖片

了解更多內(nèi)容,請(qǐng)參考原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2022-06-07 12:25:16

GPT-3AI

2023-12-26 15:07:00

AI數(shù)據(jù)

2017-03-27 14:00:38

白熊視頻/趣聞錄

2015-11-09 15:09:11

騰訊嗶哩嗶哩BAT

2024-01-04 08:32:28

2024-11-07 18:54:26

2020-03-16 09:26:56

開(kāi)發(fā)技能代碼

2021-01-31 18:28:13

二次元Python開(kāi)發(fā)

2019-09-23 10:04:26

抖音識(shí)別器Github

2023-11-16 12:39:13

模型數(shù)據(jù)

2019-08-05 08:54:01

三次握手四次揮手TCP協(xié)議

2018-07-02 17:48:31

視頻

2011-08-10 23:53:05

筆記本評(píng)測(cè)

2013-05-20 10:32:53

RunJS

2011-08-10 15:12:08

2020-06-08 10:03:33

視頻AI動(dòng)畫(huà)

2019-12-25 14:29:35

神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)開(kāi)源項(xiàng)目
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)