自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

音頻驅(qū)動(dòng)人像視頻模型:字節(jié)Loopy、CyberHost研究成果揭秘

人工智能 新聞
Loopy 模型采用了 Diffusion 視頻生成框架。輸入一張圖片和一段音頻,就可以生成相應(yīng)的視頻。

近期,來(lái)自字節(jié)跳動(dòng)的視頻生成模型 Loopy,一經(jīng)發(fā)布就在 X 上引起了廣泛的討論。Loopy 可以僅僅通過(guò)一張圖片和一段音頻生成逼真的肖像視頻,對(duì)聲音中呼吸,嘆氣,挑眉等細(xì)節(jié)都能生成的非常自然,讓網(wǎng)友直呼哈利波特的魔法也不過(guò)如此。

圖片

圖片

圖片

Loopy 模型采用了 Diffusion 視頻生成框架。輸入一張圖片和一段音頻,就可以生成相應(yīng)的視頻。不但可以實(shí)現(xiàn)準(zhǔn)確的音頻和口型同步,還可以生成細(xì)微自然的表情動(dòng)作,例如人物跟隨情緒節(jié)奏做出抬眉、吸氣、憋嘴停頓、嘆氣、肩膀運(yùn)動(dòng)等非語(yǔ)言類動(dòng)作也能很好地被捕捉到;在唱歌時(shí)也能表現(xiàn)得活靈活現(xiàn),駕馭不同風(fēng)格。

柔和

高昂

rap

更多豐富風(fēng)格的展示,可移步項(xiàng)目主頁(yè):https://Loopyavatar.github.io/, https://arxiv.org/pdf/2409.02634

在不同的圖片風(fēng)格上,Loopy 也都表現(xiàn)得不錯(cuò),像古風(fēng)畫像、粘土風(fēng)格、油畫風(fēng)格、3D 素材以及側(cè)臉的情況等等。

Loopy 技術(shù)方案

具體來(lái)說(shuō),Loopy 是如何僅需音頻,就能實(shí)現(xiàn)這樣生動(dòng)的效果呢?

圖片


Loopy 框架中分別對(duì)外觀信息(對(duì)應(yīng)圖中左上角)和音頻信息(圖中左下角)做了相應(yīng)的方法設(shè)計(jì),在外觀上團(tuán)隊(duì)引入了 inter/intra- clip temporal layers 模塊,通過(guò) inter-clip temporal layer 來(lái)捕捉跨時(shí)間片段的時(shí)序信息,通過(guò) intra-clip temporal layer 來(lái)捕捉單個(gè)片段內(nèi)的時(shí)序信息,通過(guò)分而治之的方式更好建模人物的運(yùn)動(dòng)信息。

圖片

同時(shí)為了進(jìn)一步的提升效果,團(tuán)隊(duì)設(shè)計(jì)了 Temporal Segment Module 使得 inter-clip temporal layer 可以捕捉長(zhǎng)達(dá) 100 幀以上的時(shí)序信息,從而可以更好的基于數(shù)據(jù)學(xué)習(xí)長(zhǎng)時(shí)運(yùn)動(dòng)信息依賴,拋棄了空間模版的限制,最終生成更好的人像運(yùn)動(dòng)。這就不難理解為什么 Loopy 可以僅僅依靠音頻,不需要任何空間輔助信號(hào)就可以生成自然逼真的人像視頻了。

圖片

除此以外,為了能夠捕捉到細(xì)膩的表情變化,團(tuán)隊(duì)設(shè)計(jì)了一個(gè)名為 audio to latents(A2L)的模塊,用來(lái)增強(qiáng)音頻和頭部運(yùn)動(dòng)之間的關(guān)聯(lián)關(guān)系。這個(gè) A2L 模塊在訓(xùn)練過(guò)程中會(huì)隨機(jī)選取音頻、表情參數(shù)、運(yùn)動(dòng)參數(shù)中的一個(gè),將其轉(zhuǎn)化為 motion latents,作為 diffusion model 的運(yùn)動(dòng)控制信號(hào)。在測(cè)試的時(shí)候,只需要音頻就能夠得到 motion latents。通過(guò)這種方式,可以借助與肖像運(yùn)動(dòng)強(qiáng)相關(guān)的條件(表情參數(shù)、運(yùn)動(dòng)參數(shù))來(lái)幫助較弱相關(guān)的條件(audio)生成更好的 motion latents,進(jìn)而實(shí)現(xiàn)對(duì)細(xì)微生動(dòng)的肖像運(yùn)動(dòng)及表情的生成。

Loopy 在不同場(chǎng)景下都和近期的方法做了數(shù)值對(duì)比,也體現(xiàn)了相當(dāng)?shù)膬?yōu)勢(shì):

圖片

CyberHost 半身人像版模型,手部動(dòng)作也能驅(qū)動(dòng)

除此以外,該團(tuán)隊(duì)近期還推出了一個(gè)名為 CyberHost 的半身人像版本。這款模型是首個(gè)采用端到端算法框架進(jìn)行純音頻驅(qū)動(dòng)的半身視頻生成系統(tǒng),將驅(qū)動(dòng)范圍從肖像擴(kuò)大到了半身,不僅表情自然、口型準(zhǔn)確,也能生成和音頻同步的手部動(dòng)作,這在該領(lǐng)域是一個(gè)重大突破。

手部動(dòng)作生成一直是視頻生成技術(shù)中的難題,鮮有模型能實(shí)現(xiàn)穩(wěn)定的效果。特別是在純音頻驅(qū)動(dòng)的場(chǎng)景下,由于缺乏骨架信息輸入,保持手部動(dòng)作的穩(wěn)定性更具挑戰(zhàn)。CyberHost 通過(guò)專門設(shè)計(jì)的 Codebook Attention 來(lái)強(qiáng)化對(duì)人臉和手部等關(guān)鍵區(qū)域的結(jié)構(gòu)先驗(yàn)學(xué)習(xí),在純音頻驅(qū)動(dòng)下的手部生成質(zhì)量甚至超越了許多基于視頻驅(qū)動(dòng)的方法。

圖片

圖片

Codebook Attention 引入了一系列可學(xué)習(xí)的時(shí)空聯(lián)合隱變量參數(shù),專注于在訓(xùn)練過(guò)程中學(xué)習(xí)數(shù)據(jù)集中局部區(qū)域的結(jié)構(gòu)特征和運(yùn)動(dòng)模式。同時(shí),該機(jī)制還提取了關(guān)鍵區(qū)域的外觀特征,強(qiáng)化了局部 ID 的一致性。團(tuán)隊(duì)將這一機(jī)制應(yīng)用于臉部和手部區(qū)域,并在 Denoising U-Net 的各個(gè)階段進(jìn)行插入,提升了對(duì)關(guān)鍵區(qū)域的建模能力。

圖片

此外,CyberHost 還設(shè)計(jì)了一系列基于人體結(jié)構(gòu)先驗(yàn)的訓(xùn)練策略,旨在減少音頻驅(qū)動(dòng)下人體動(dòng)作生成的不確定性。這些策略包括 Body Movement Map 和 Hand Clarity Score。Body Movement Map 可以用于限制視頻生成中人體的運(yùn)動(dòng)范圍。而 Hand Clarity Score 通過(guò)計(jì)算局部像素的 laplacian 算子來(lái)控制生成手部的清晰度,規(guī)避手部運(yùn)動(dòng)模糊帶來(lái)的效果劣化。

更多細(xì)節(jié)見論文以及項(xiàng)目主頁(yè):

CyberHost: https://cyberhost.github.io/, https://arxiv.org/pdf/2409.01876

團(tuán)隊(duì)介紹

字節(jié)跳動(dòng)智能創(chuàng)作數(shù)字人團(tuán)隊(duì),智能創(chuàng)作是字節(jié)跳動(dòng) AI & 多媒體技術(shù)團(tuán)隊(duì),覆蓋了計(jì)算機(jī)視覺、音視頻編輯、特效處理等技術(shù)領(lǐng)域,借助公司豐富的業(yè)務(wù)場(chǎng)景、基礎(chǔ)設(shè)施資源和技術(shù)協(xié)作氛圍,實(shí)現(xiàn)了前沿算法 - 工程系統(tǒng) - 產(chǎn)品全鏈路的閉環(huán),旨在以多種形式為公司內(nèi)部各業(yè)務(wù)提供業(yè)界前沿的內(nèi)容理解、內(nèi)容創(chuàng)作、互動(dòng)體驗(yàn)與消費(fèi)的能力和行業(yè)解決方案。其中數(shù)字人方向?qū)W⒂诮ㄔO(shè)行業(yè)領(lǐng)先的數(shù)字人生成和驅(qū)動(dòng)技術(shù),豐富智能創(chuàng)作內(nèi)容生態(tài)。

目前,智能創(chuàng)作團(tuán)隊(duì)已通過(guò)字節(jié)跳動(dòng)旗下的云服務(wù)平臺(tái)火山引擎向企業(yè)開放技術(shù)能力和服務(wù)。更多大模型算法相關(guān)崗位開放中。


責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-11-21 16:43:57

2023-12-25 09:07:50

AI人工智能Ferret

2014-12-15 09:57:43

綠色網(wǎng)格綠色數(shù)據(jù)中心

2023-02-17 10:50:32

字節(jié)跳動(dòng)卷積神經(jīng)網(wǎng)絡(luò)BERT

2013-06-20 18:22:32

PTC制造業(yè)

2022-06-23 13:51:37

火山引擎預(yù)訓(xùn)練模型

2013-09-29 13:03:53

微軟WindowsKinect

2019-08-08 13:21:31

2010-03-05 11:49:02

2024-12-02 13:30:00

2014-07-16 09:45:58

2020-05-25 10:49:10

安恒信息

2024-02-29 11:53:22

神經(jīng)網(wǎng)絡(luò)NNVMC偏微分方程求解器

2020-12-09 22:32:49

Zotero開源開源應(yīng)用

2021-05-13 13:33:39

數(shù)字化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)