自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="d1f8d"><p id="d1f8d"></p></blockquote>

<sup id="d1f8d"></sup>

<cite id="d1f8d"></cite><sub id="d1f8d"><p id="d1f8d"></p></sub>

<blockquote id="d1f8d"><p id="d1f8d"></p></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

阿里又整活兒：一張人臉一句話就能跳《擦玻璃》，服裝背景隨意換！

作者：量子位 2023-12-12 13:24:00

雖然像Stable Video Diffusion和Gen2等文本到視頻（text-to-video，T2V）模型的出現(xiàn)，在視頻生成方面取得了突破性進(jìn)展，但現(xiàn)在仍然有諸多挑戰(zhàn)需要面對(duì)。

繼AnimateAnyone之后，阿里又一項(xiàng)“舞蹈整活兒”論文火了——

這一次，只需一張臉部照片、一句話描述，就能讓你在任何地方跳舞！

例如下面這段《擦玻璃》的舞蹈視頻：

圖片

你所需要做的就是“投喂”一張人像，以及一段prompt：

一個(gè)女孩，微笑著，在秋天的金色樹葉中跳舞，穿著淺藍(lán)色的連衣裙。

而且隨著prompt的變化，人物背景和身上的衣服也會(huì)隨之發(fā)生改變。例如我們?cè)贀Q兩句：

一個(gè)女孩，微笑著，在木屋里跳舞，穿著毛衣和長(zhǎng)褲。

一個(gè)女孩，微笑著，在時(shí)代廣場(chǎng)跳舞，穿著連衣裙般的白襯衫，長(zhǎng)袖，長(zhǎng)褲。

圖片

這便是阿里最新的一項(xiàng)研究——DreaMoving，主打的就是讓任何人、隨時(shí)且隨地地跳舞。

圖片

而且不僅是真人，就連卡通動(dòng)漫人物也都是可以hold住的哦~

圖片

項(xiàng)目一出，也是引發(fā)了不少網(wǎng)友的關(guān)注，有人在看過(guò)效果之后直呼“Unbelievable”~

圖片

那么如此效果，這項(xiàng)研究又是如何做到的呢？

背后原理

雖然像Stable Video Diffusion和Gen2等文本到視頻（text-to-video，T2V）模型的出現(xiàn)，在視頻生成方面取得了突破性進(jìn)展，但現(xiàn)在仍然有諸多挑戰(zhàn)需要面對(duì)。

例如在數(shù)據(jù)集方面，目前缺乏開源的人類舞蹈視頻數(shù)據(jù)集以及難以獲得相應(yīng)的精確文本描述，這就使得讓模型們?nèi)ド啥鄻有?、幀一致性、時(shí)長(zhǎng)更長(zhǎng)的視頻成為挑戰(zhàn)。

并且在以人為中心的內(nèi)容生成領(lǐng)域，生成結(jié)果的個(gè)性化和可控性也是關(guān)鍵因素。

圖片

面對(duì)這兩大難點(diǎn)，阿里團(tuán)隊(duì)先從數(shù)據(jù)集著手做處理。

研究者們首先從互聯(lián)網(wǎng)收集了大約1000個(gè)高質(zhì)量的人類舞蹈視頻。然后，他們將這些視頻分割成大約6000個(gè)短視頻（每個(gè)視頻8至10秒），以確保視頻片段中沒(méi)有轉(zhuǎn)場(chǎng)和特殊效果，這樣有利于時(shí)間模塊的訓(xùn)練。

此外，為了生成視頻的文本描述，他們使用了Minigpt-v2作為視頻字幕器（video captioner），特別采用了“grounding”版本，指令是詳細(xì)描述這個(gè)幀。

基于關(guān)鍵幀中心幀生成的字幕代表了整個(gè)視頻片段的描述，主要是準(zhǔn)確描述主題和背景內(nèi)容。

在框架方面，阿里團(tuán)隊(duì)則是提出了一個(gè)名叫DreaMoving、基于Stable Diffusion的模型。

它主要由三個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)成，包括去噪U(xiǎn)-Net（Denoising U-Net）、視頻控制網(wǎng)絡(luò)（Video ControlNet）和內(nèi)容引導(dǎo)器（Content Guider）。

圖片

其中，Video ControlNet是在每U-Net塊之后注入運(yùn)動(dòng)塊（Motion Block）的圖像控制網(wǎng)絡(luò)，將控制序列（姿態(tài)或深度）處理為額外的時(shí)間殘差。

Denoising U-Net是一種衍生的Stable-Diffusion U-Net，帶有用于視頻生成的運(yùn)動(dòng)塊。

而Content Guider則是將輸入文本提示和外觀表情（如人臉）傳輸?shù)絻?nèi)容嵌入中。

在如此操作之下，DreaMoving便可以在給定引導(dǎo)序列和簡(jiǎn)單的內(nèi)容描述（如文本和參考圖像）作為輸入的情況下生成高質(zhì)量、高保真度的視頻。

圖片

不過(guò)很可惜的一點(diǎn)是，目前DreaMoving項(xiàng)目并沒(méi)有開源代碼。

感興趣的小伙伴可以先關(guān)注一波，坐等代碼開源了~

參考鏈接：[1]https://dreamoving.github.io/dreamoving/[2]https://arxiv.org/abs/2312.05107[3]https://twitter.com/ProperPrompter/status/1734192772465258499[4]https://github.com/dreamoving/dreamoving-project

責(zé)任編輯：武曉燕來(lái)源：量子位

項(xiàng)目 prompt T2V

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<pre id="znhzi"><big id="znhzi"></big></pre>

<cite id="znhzi"></cite>