自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

視頻生成新突破:PixelDance,輕松呈現(xiàn)復(fù)雜動(dòng)作與炫酷特效

人工智能 新聞
近期,Meta 也發(fā)布了視頻生成模型 Emu Video。從 Emu Video 的官方示例中可以看出,其視頻的動(dòng)態(tài)性比 Gen-2 有明顯提高,但仍然局限于較為簡單的動(dòng)作。

最近,除了大語言模型繼續(xù)持續(xù)刷屏,視頻生成技術(shù)也取得了重大進(jìn)展,多家公司相繼發(fā)布了新模型。

首先,作為最早探索視頻生成領(lǐng)域的領(lǐng)頭羊之一,Runway 升級(jí)了其 Gen-2 模型,帶來了電影級(jí)別的高清晰度,令人矚目,并稱視頻生成的一致性得到了重大改進(jìn)。

但是,這種一致性的提升似乎是以犧牲視頻動(dòng)態(tài)性為代價(jià)的。從 Gen-2 的官方宣傳視頻中可以看出,盡管集合了多個(gè)短片段,但每個(gè)片段的動(dòng)態(tài)性相對(duì)較弱,難以捕捉到人物、動(dòng)物或物體的清晰動(dòng)作和運(yùn)動(dòng)。

近期,Meta 也發(fā)布了視頻生成模型 Emu Video。從 Emu Video 的官方示例中可以看出,其視頻的動(dòng)態(tài)性比 Gen-2 有明顯提高,但仍然局限于較為簡單的動(dòng)作。

圖片

開發(fā)出了經(jīng)典的文生圖模型 Stable Diffusion 的公司 Stability.ai,也于近日發(fā)布了開源視頻生成模型 Stable Video Diffusion (SVD),引發(fā)了開源社區(qū)的大量關(guān)注和討論。SVD 效果能和 Gen-2 相當(dāng),通過測試樣例能看出 SVD 生成的視頻也相對(duì)缺少動(dòng)態(tài)性。

圖片

SVD 論文里面提到了目前 SVD 生成的視頻存在動(dòng)態(tài)性不足的情況。

上述示例表明,生成有高度一致性且有豐富動(dòng)態(tài)性的視頻,讓視頻內(nèi)容真正地動(dòng)起來,是目前視頻生成領(lǐng)域中的最大挑戰(zhàn)。

在這方面,最新的研究成果 PixelDance 邁出了關(guān)鍵性的一步,其生成結(jié)果的動(dòng)態(tài)性顯著優(yōu)于目前現(xiàn)有的其它模型,引起了業(yè)界的關(guān)注。

圖片

Twitter知名AI博主@_akhaliq轉(zhuǎn)發(fā)的PixelDance新聞已有近8萬瀏覽量。

圖片

圖片

圖片

在官網(wǎng)(https://makepixelsdance.github.io)中,PixelDance 給出了兩種不同的視頻生成模式。

第一種是基礎(chǔ)模式(Basic Mode),用戶只需要提供一張指導(dǎo)圖片+文本描述,PixelDance 就可以生成有高度一致性且有豐富動(dòng)態(tài)性的視頻,其中指導(dǎo)圖片可以是真實(shí)圖片,也可以利用現(xiàn)有的文生圖模型生成。

從展示的結(jié)果來看,真實(shí)風(fēng)格、動(dòng)畫風(fēng)格、二次元風(fēng)格、魔幻風(fēng)格,PixelDance 通通都可以解決,人物動(dòng)作、臉部表情、相機(jī)視角控制、特效動(dòng)作,Pixeldance 也都可以很好的完成。只能說一句 tql!

圖片

第二種是高級(jí)魔法模式(Magic Mode),給了用戶更多發(fā)揮想象力和創(chuàng)造力的空間。在這種模式下,用戶需要提供兩張指導(dǎo)圖片+文本描述,可以更好地生成更有難度的視頻內(nèi)容。網(wǎng)站中展示了用魔法模式做出的各種炫酷特效鏡頭。

圖片

除此之外,官網(wǎng)還展示了完全使用 PixelDance 制作的 3 分鐘故事短片:

非常震撼的一點(diǎn)是,使用 PixelDance 能按照用戶預(yù)想的一個(gè)故事,制作每一個(gè)場景和對(duì)應(yīng)的動(dòng)作。不管是真實(shí)場景(如埃及、長城等),還是虛幻場景(如外星球),PixelDance 都能生成細(xì)節(jié)豐富、動(dòng)作豐富的視頻,甚至各種特效鏡頭也不在話下。

并且,主人公北極熊先生的黑色禮帽和紅色領(lǐng)結(jié)形象,在不同的場景中都得到了很好的保持。長視頻生成再也不是簡單的拼湊弱相關(guān)的短視頻片段了!

而達(dá)到這樣拔群的視頻生成效果,并沒有依賴復(fù)雜的數(shù)據(jù)集和大規(guī)模的模型訓(xùn)練,PixelDance 在公開的 WebVid-10M 數(shù)據(jù)集上僅用 1.5B 大小的模型就達(dá)到了上述效果。

圖片

論文地址:https://arxiv.org/abs/2311.10982

demo 地址:https://makepixelsdance.github.io

在相應(yīng)的論文《Make Pixels Dance: High-Dynamic Video Generation》中,作者指出了視頻生成難以做出好效果的原因:相比于圖片生成,視頻生成具有特征空間顯著更大、動(dòng)作多樣性顯著更強(qiáng)的特點(diǎn)。這就導(dǎo)致了現(xiàn)有的視頻生成方法難以學(xué)到有效的時(shí)域動(dòng)作信息,生成的視頻雖然圖片質(zhì)量較高,但動(dòng)態(tài)性非常有限。

針對(duì)上述問題,PixelDance 提出了基于文本指導(dǎo) + 首尾幀圖片指導(dǎo)的視頻生成方法,使得模型更充分地關(guān)注和學(xué)習(xí)視頻的動(dòng)態(tài)信息。

其中,首幀圖片指導(dǎo)為整個(gè)視頻內(nèi)容提供了框架和素材。此外,通過將上一個(gè)視頻片段的尾幀拿來作為下一個(gè)視頻片段的首幀指導(dǎo),可以生成更長的視頻。文本描述提供了對(duì)視頻動(dòng)作的描述。尾幀圖片指導(dǎo)為視頻生成過程提供了結(jié)束狀態(tài)的信息。作者提出了適配的方法,使得模型能接收比較粗糙的圖片作為指導(dǎo),這使得用戶可以使用基本的圖片編輯工具獲得尾幀圖片指導(dǎo)。

官網(wǎng)的信息顯示,目前還在積極地迭代模型效果中,未來 2-3 個(gè)月內(nèi)就會(huì)放出人人可以試用的模型。目前,作者也提供了途徑支持大家發(fā)送想要測試的樣例,目前官網(wǎng)中已經(jīng)放出了一些用戶的測試樣例:

圖片

如此看來,有了 PixelDance,只要有天馬行空的想象力,人人都可以成為「百萬特效大師」!

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-11-18 10:50:39

2025-03-03 08:32:00

模型AI訓(xùn)練

2025-03-27 09:24:16

2024-09-24 15:51:02

2024-01-09 08:07:09

JSThreeJSCSS

2009-12-08 15:23:13

Windows 7桌面

2025-04-28 09:28:14

2024-12-10 18:18:11

2024-12-26 00:51:38

2024-02-19 08:31:10

SoraAIOpenAI

2021-07-09 08:52:19

Python視頻生成神器Python基礎(chǔ)

2024-04-07 14:56:22

技術(shù)應(yīng)用

2015-01-19 17:44:02

Cocos引擎3D特效

2020-04-10 21:33:10

物聯(lián)網(wǎng)大數(shù)據(jù)物聯(lián)網(wǎng)工廠

2024-12-20 09:30:00

模型訓(xùn)練數(shù)據(jù)

2009-09-02 09:35:55

2024-10-28 07:30:00

2023-04-03 10:04:44

開源模型

2025-01-26 10:50:00

模型視頻生成
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)