自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<kbd id="00xu3"></kbd>

<sub id="00xu3"><s id="00xu3"></s></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

全網(wǎng)都在模仿的「科目三」，梅西、鋼鐵俠、二次元小姐姐馬上拿下

作者：機(jī)器之心 2023-12-03 08:36:33

人工智能新聞

來(lái)自阿里的研究團(tuán)隊(duì)提出了一種名為 Animate Anyone 的方法，只需一張人物照片，再配合骨骼動(dòng)畫(huà)引導(dǎo)，就能生成動(dòng)畫(huà)視頻。

最近一段時(shí)間，你可能或多或少的聽(tīng)到過(guò)「科目三」，搖花手、半崴不崴的腳，配合著節(jié)奏鮮明的音樂(lè)，這一舞蹈動(dòng)作遭全網(wǎng)模仿。

如果相似的舞蹈，讓 AI 生成會(huì)怎樣？就像下圖所展示的，不管是現(xiàn)代人、還是紙片人，都做著整齊劃一的動(dòng)作。你可能猜不到的是，這是根據(jù)一張圖片生成的舞蹈視頻。

人物動(dòng)作難度加大，生成的視頻也非常絲滑（最右邊）：

讓梅西、鋼鐵俠動(dòng)起來(lái)，也不在話下：

還有各種動(dòng)漫小姐姐。

上述效果是如何做到的呢？我們接著往下看。

角色動(dòng)畫(huà)（Character Animation）是將源角色圖像按照所需的姿態(tài)序列動(dòng)畫(huà)化為逼真視頻的任務(wù)，具有許多潛在的應(yīng)用，例如在線零售、娛樂(lè)視頻、藝術(shù)創(chuàng)作和虛擬角色等。

從 GAN 開(kāi)始，研究者一直在不斷深入了解將圖像進(jìn)行動(dòng)畫(huà)化以及進(jìn)行姿態(tài)遷移的探索，然而，生成的圖像或視頻仍然存在局部失真、細(xì)節(jié)模糊、語(yǔ)義不一致和時(shí)間不穩(wěn)定等問(wèn)題，從而阻礙了這些方法的應(yīng)用。

本文，來(lái)自阿里的研究者提出了一種名為 Animate Anybody 的方法，該方法能夠?qū)⒔巧珗D像轉(zhuǎn)換為動(dòng)畫(huà)視頻，而形成的視頻遵循所要求的姿態(tài)序列。該研究繼承了 Stable Diffusion 的網(wǎng)絡(luò)設(shè)計(jì)和預(yù)訓(xùn)練權(quán)重，并修改了去噪 UNet 以適應(yīng)多幀輸入。

論文地址：https://arxiv.org/pdf/2311.17117.pdf
項(xiàng)目地址：https://humanaigc.github.io/animate-anyone/

為了保持外觀一致性，該研究還引入了 ReferenceNet，它被設(shè)計(jì)為對(duì)稱的 UNet 結(jié)構(gòu)，用于捕獲參考圖像的空間細(xì)節(jié)。在 UNet 塊的每個(gè)相應(yīng)層，該研究使用空間 - 注意力將 ReferenceNet 的特征集成到去噪 UNet 中，這種架構(gòu)使模型能夠在一致的特征空間中全面學(xué)習(xí)與參考圖像的關(guān)系。

為了確保姿態(tài)可控性，該研究設(shè)計(jì)了一種輕量級(jí)姿態(tài)引導(dǎo)器，以有效地將姿態(tài)控制信號(hào)集成到去噪過(guò)程中。為了實(shí)現(xiàn)時(shí)間穩(wěn)定性，本文引入了時(shí)間層（ temporal layer）來(lái)對(duì)多個(gè)幀之間的關(guān)系進(jìn)行建模，從而在模擬連續(xù)且平滑的時(shí)間運(yùn)動(dòng)過(guò)程的同時(shí)保留視覺(jué)質(zhì)量的高分辨率細(xì)節(jié)。

Animate Anybody 是在 5K 角色視頻剪輯的內(nèi)部數(shù)據(jù)集上訓(xùn)練而成，圖 1 顯示了各種角色的動(dòng)畫(huà)結(jié)果。與以前的方法相比，本文的方法具有幾個(gè)顯著的優(yōu)點(diǎn)：

首先，它有效地保持了視頻中人物外觀的空間和時(shí)間一致性。
其次，它生成的高清視頻不會(huì)出現(xiàn)時(shí)間抖動(dòng)或閃爍等問(wèn)題。
第三，它能夠?qū)⑷魏谓巧珗D像動(dòng)畫(huà)化為視頻，不受特定領(lǐng)域的限制。

本文在兩個(gè)特定的人類視頻合成基準(zhǔn)（UBC 時(shí)尚視頻數(shù)據(jù)集和 TikTok 數(shù)據(jù)集）上進(jìn)行了評(píng)估。結(jié)果顯示，Animate Anybody 取得了 SOTA 結(jié)果。此外，該研究還將 Animate Anybody 方法與在大規(guī)模數(shù)據(jù)上訓(xùn)練的一般圖像到視頻方法進(jìn)行了比較，結(jié)果顯示 Animate Anybody 在角色動(dòng)畫(huà)方面展示了卓越的能力。

Animate Anybody 與其他方法的比較：

方法介紹

本文方法如下圖 2 所示，網(wǎng)絡(luò)的初始輸入由多幀噪聲組成。研究者基于 SD 設(shè)計(jì)來(lái)配置去噪 UNet，采用了相同的框架和塊單元，并繼承了來(lái)自 SD 的訓(xùn)練權(quán)重。具體來(lái)講，該方法包含了三個(gè)關(guān)鍵組成部分，分別如下：

ReferenceNet，編碼參考圖像角色的外觀特征；
Pose Guider（姿態(tài)引導(dǎo)器），編碼動(dòng)作控制信號(hào)以實(shí)現(xiàn)可控角色運(yùn)動(dòng)；
Temporal layer（時(shí)間層），編碼時(shí)間關(guān)系以確保角色動(dòng)作的連續(xù)性。

ReferenceNet

ReferenceNet 是一個(gè)參考圖像特征提取網(wǎng)絡(luò)，它的框架與去噪 UNet 大致相同，僅有時(shí)間層不同。因此，ReferenceNet 繼承了與去噪 UNet 類似的原始 SD 權(quán)重，并且每個(gè)權(quán)重更新都是獨(dú)立進(jìn)行的。研究者解釋了將 ReferenceNet 的特征集成到去噪 UNet 的方法。

ReferenceNet 的設(shè)計(jì)有兩個(gè)優(yōu)勢(shì)。第一，ReferenceNet 可以利用原始 SD 的預(yù)訓(xùn)練圖像特征建模能力，產(chǎn)生初始化良好的特征。第二，由于 ReferenceNet 與去噪 UNet 本質(zhì)上具有相同的網(wǎng)絡(luò)結(jié)構(gòu)和共享初始化權(quán)重，因而去噪 UNet 可以選擇性地從 ReferenceNet 中學(xué)習(xí)在同一特征空間關(guān)聯(lián)的特征。

姿態(tài)引導(dǎo)器

輕量級(jí)的姿態(tài)引導(dǎo)器使用四個(gè)卷積層（4×4 內(nèi)核、2×2 步幅、使用 16、32、64、128 個(gè)通道，類似于 [56] 中的條件編碼器）來(lái)對(duì)齊分辨率與潛在噪聲相同的姿態(tài)圖像，接著處理后的姿態(tài)圖像在被輸入到去噪 UNet 之前添加到潛在噪聲中。姿態(tài)引導(dǎo)器使用高斯權(quán)重進(jìn)行初始化，并在最終的映射層用到了零卷積。

時(shí)間層

時(shí)間層的設(shè)計(jì)靈感來(lái)自 AnimateDiff。對(duì)于一個(gè)特征圖 x∈R^b×t×h×w×c，研究者首先將它變形為 x∈R^(b×h×w)×t×c，然后執(zhí)行時(shí)間注意力，即沿著維度 t 的自注意力。時(shí)間層的特征通過(guò)殘差連接合并到了原始特征中，這種設(shè)計(jì)與下文的雙階段訓(xùn)練方法相一致。時(shí)間層專門(mén)在去噪 UNet 的 Res-Trans 塊內(nèi)使用。

訓(xùn)練策略

訓(xùn)練過(guò)程分為兩個(gè)階段。

第一階段，使用單個(gè)視頻幀進(jìn)行訓(xùn)練。在去噪 UNet 中，研究者暫時(shí)排除了時(shí)間層，模型將單幀噪聲作為輸入。參考網(wǎng)絡(luò)和姿態(tài)引導(dǎo)器也在這一階段進(jìn)行訓(xùn)練。參考圖像是從整個(gè)視頻片段中隨機(jī)選取的。他們根據(jù) SD 的預(yù)訓(xùn)練權(quán)重初始化去噪 UNet 和 ReferenceNet 的模型。姿態(tài)引導(dǎo)器使用高斯權(quán)重進(jìn)行初始化，但最后的投影層除外，該層使用零卷積。VAE 的編碼器和解碼器以及 CLIP 圖像編碼器的權(quán)重都保持不變。這一階段的優(yōu)化目標(biāo)是使模型在給定參考圖像和目標(biāo)姿態(tài)的條件下生成高質(zhì)量的動(dòng)畫(huà)圖像。

在第二階段，研究者將時(shí)間層引入先前訓(xùn)練好的模型，并使用 AnimateDiff 中預(yù)先訓(xùn)練好的權(quán)重對(duì)其進(jìn)行初始化。模型的輸入包括一個(gè) 24 幀的視頻片段。在這一階段，只訓(xùn)練時(shí)間層，同時(shí)固定網(wǎng)絡(luò)其他部分的權(quán)重。

實(shí)驗(yàn)與結(jié)果

定性結(jié)果：如圖 3 顯示，本文方法可以制作任意角色的動(dòng)畫(huà)，包括全身人像、半身人像、卡通人物和仿人角色。該方法能夠生成高清晰度和逼真的人物細(xì)節(jié)。即使在大幅度運(yùn)動(dòng)的情況下，它也能與參考圖像保持時(shí)間上的一致性，并在幀與幀之間表現(xiàn)出時(shí)間上的連續(xù)性。

時(shí)尚視頻合成。時(shí)尚視頻合成的目的是利用驅(qū)動(dòng)姿態(tài)序列將時(shí)尚照片轉(zhuǎn)化為逼真的動(dòng)畫(huà)視頻。實(shí)驗(yàn)在 UBC 時(shí)尚視頻數(shù)據(jù)集上進(jìn)行，該數(shù)據(jù)集由 500 個(gè)訓(xùn)練視頻和 100 個(gè)測(cè)試視頻組成，每個(gè)視頻包含約 350 個(gè)幀。定量比較見(jiàn)表 1。在結(jié)果中可以發(fā)現(xiàn)，本文方法優(yōu)于其他方法，尤其是在視頻度量指標(biāo)方面表現(xiàn)出明顯的領(lǐng)先優(yōu)勢(shì)。

定性比較如圖 4 所示。為了進(jìn)行公平比較，研究者使用 DreamPose 的開(kāi)源代碼獲得了未進(jìn)行樣本微調(diào)的結(jié)果。在時(shí)尚視頻領(lǐng)域，對(duì)服裝細(xì)節(jié)的要求非常嚴(yán)格。然而，DreamPose 和 BDMM 生成的視頻無(wú)法保持服裝細(xì)節(jié)的一致性，并在顏色和精細(xì)結(jié)構(gòu)元素方面表現(xiàn)出明顯的誤差。相比之下，本文方法生成的結(jié)果能更有效保持服裝細(xì)節(jié)的一致性。

人類舞蹈生成。人類舞蹈生成聚焦于將現(xiàn)實(shí)舞蹈場(chǎng)景圖像進(jìn)行動(dòng)畫(huà)處理。研究者們使用了 TikTok 數(shù)據(jù)集，其中包括 340 個(gè)訓(xùn)練視頻和 100 個(gè)測(cè)試視頻。按照 DisCo 的數(shù)據(jù)集劃分方法，使用利用相同的測(cè)試集，其中包含 10 個(gè) TikTok 風(fēng)格的視頻，研究者進(jìn)行了定量比較，見(jiàn)表 2。本文方法取得了最佳結(jié)果。為了增強(qiáng)泛化能力，DisCo 結(jié)合了人類屬性預(yù)訓(xùn)練，利用大量圖像對(duì)進(jìn)行模型預(yù)訓(xùn)練。相比之下，研究者訓(xùn)練只在 TikTok 數(shù)據(jù)集上進(jìn)行，結(jié)果優(yōu)于 DisCo。

圖 5 中展示了與 DisCo 的定性比較。考慮到場(chǎng)景的復(fù)雜性，DisCo 的方法需要額外使用 SAM 來(lái)生成人類前景掩碼。相反，本文方法表明，即使沒(méi)有明確的人體掩碼學(xué)習(xí)，模型也能從被攝體的運(yùn)動(dòng)中掌握前景與背景的關(guān)系，而無(wú)需事先進(jìn)行人體分割。此外，在復(fù)雜的舞蹈序列中，該模型在保持整個(gè)動(dòng)作的視覺(jué)連續(xù)性方面表現(xiàn)突出，并在處理不同的角色外觀方面表現(xiàn)出更強(qiáng)的穩(wěn)健性。

圖像 - 視頻的通用方法。目前，許多研究都提出了基于大規(guī)模訓(xùn)練數(shù)據(jù)、具有強(qiáng)大生成能力的視頻擴(kuò)散模型。研究者選擇了兩種最著名、最有效的圖像 - 視頻方法進(jìn)行比較：AnimateDiff 和 Gen2。由于這兩種方法不進(jìn)行姿態(tài)控制，因此研究者只比較了它們保持參考圖像外觀保真度的能力。如圖 6 所示，當(dāng)前的圖像 - 視頻方法在生成大量角色動(dòng)作方面面臨挑戰(zhàn)，并且難以在視頻中保持長(zhǎng)期的外觀一致性，從而阻礙了對(duì)一致角色動(dòng)畫(huà)的有效支持。

了解更多內(nèi)容，請(qǐng)參考原論文。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

^{<thead id="70lcm"></thead>}