自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從20億數(shù)據(jù)中學(xué)習(xí)物理世界,基于Transformer的通用世界模型成功挑戰(zhàn)視頻生成

人工智能 新聞
它把視頻生成轉(zhuǎn)換為一個(gè)序列預(yù)測(cè)任務(wù),可以對(duì)物理世界的變化和運(yùn)動(dòng)規(guī)律進(jìn)行充分地學(xué)習(xí)。

建立會(huì)做視頻的世界模型,也能通過(guò)Transformer來(lái)實(shí)現(xiàn)了!

來(lái)自清華和極佳科技的研究人員聯(lián)手,推出了全新的視頻生成通用世界模型——WorldDreamer。

它可以完成自然場(chǎng)景和自動(dòng)駕駛場(chǎng)景多種視頻生成任務(wù),例如文生視頻、圖生視頻、視頻編輯、動(dòng)作序列生視頻等。

圖片

據(jù)團(tuán)隊(duì)介紹,通過(guò)預(yù)測(cè)Token的方式來(lái)建立通用場(chǎng)景世界模型,WorldDreamer是業(yè)界首個(gè)。

它把視頻生成轉(zhuǎn)換為一個(gè)序列預(yù)測(cè)任務(wù),可以對(duì)物理世界的變化和運(yùn)動(dòng)規(guī)律進(jìn)行充分地學(xué)習(xí)。

可視化實(shí)驗(yàn)已經(jīng)證明,WorldDreamer已經(jīng)深刻理解了通用世界的動(dòng)態(tài)變化規(guī)律。

那么,它都能完成哪些視頻任務(wù),效果如何呢?

支持多種視頻任務(wù)

圖像生成視頻(Image to Video)

WorldDreamer可以基于單一圖像預(yù)測(cè)未來(lái)的幀。

只需首張圖像輸入,WorldDreamer將剩余的視頻幀視為被掩碼的視覺(jué)Token,并對(duì)這部分Token進(jìn)行預(yù)測(cè)。

如下圖所示,WorldDreamer具有生成高質(zhì)量電影級(jí)別視頻的能力。

其生成的視頻呈現(xiàn)出無(wú)縫的逐幀運(yùn)動(dòng),類(lèi)似于真實(shí)電影中流暢的攝像機(jī)運(yùn)動(dòng)。

而且,這些視頻嚴(yán)格遵循原始圖像的約束,確保幀構(gòu)圖的顯著一致性。

圖片

文本生成視頻(Text to Video)

WorldDreamer還可以基于文本進(jìn)行視頻生成。

僅僅給定語(yǔ)言文本輸入,此時(shí)WorldDreamer認(rèn)為所有的視頻幀都是被掩碼的視覺(jué)Token,并對(duì)這部分Token進(jìn)行預(yù)測(cè)。

下圖展示了WorldDreamer在各種風(fēng)格范式下從文本生成視頻的能力。

生成的視頻與輸入語(yǔ)言無(wú)縫契合,其中用戶(hù)輸入的語(yǔ)言可以塑造視頻內(nèi)容、風(fēng)格和相機(jī)運(yùn)動(dòng)。

圖片

視頻修改(Video Inpainting)

WorldDreamer進(jìn)一步可以實(shí)現(xiàn)視頻的inpainting任務(wù)。

具體來(lái)說(shuō),給定一段視頻,用戶(hù)可以指定mask區(qū)域,然后根據(jù)語(yǔ)言的輸入可以更改被mask區(qū)域的視頻內(nèi)容。

如下圖所示,WorldDreamer可以將水母更換為熊,也可以將蜥蜴更換為猴子,且更換后的視頻高度符合用戶(hù)的語(yǔ)言描述。

圖片

視頻風(fēng)格化(Video Stylization)

除此以外,WorldDreamer可以實(shí)現(xiàn)視頻的風(fēng)格化。

如下圖所示,輸入一個(gè)視頻段,其中某些像素被隨機(jī)掩碼,WorldDreamer可以改變視頻的風(fēng)格,例如根據(jù)輸入語(yǔ)言創(chuàng)建秋季主題效果。

圖片

基于動(dòng)作合成視頻(Action to Video)

WorldDreamer也可以實(shí)現(xiàn)在自動(dòng)駕駛場(chǎng)景下的駕駛動(dòng)作到視頻的生成。

如下圖所示,給定相同的初始幀以及不同的駕駛策略(如左轉(zhuǎn)、右轉(zhuǎn)),WorldDreamer可以生成高度符合首幀約束以及駕駛策略的視頻。

圖片

那么,WorldDreamer又是怎樣實(shí)現(xiàn)這些功能的呢?

用Transformer構(gòu)建世界模型

研究人員認(rèn)為,目前最先進(jìn)的視頻生成方法主要分為兩類(lèi)——基于Transformer的方法和基于擴(kuò)散模型的方法。

利用Transformer進(jìn)行Token預(yù)測(cè)可以高效學(xué)習(xí)到視頻信號(hào)的動(dòng)態(tài)信息,并可以復(fù)用大語(yǔ)言模型社區(qū)的經(jīng)驗(yàn),因此,基于Transformer的方案是學(xué)習(xí)通用世界模型的一種有效途徑。

而基于擴(kuò)散模型的方法難以在單一模型內(nèi)整合多種模態(tài),且難以拓展到更大參數(shù),因此很難學(xué)習(xí)到通用世界的變化和運(yùn)動(dòng)規(guī)律。

而當(dāng)前的世界模型研究主要集中在游戲、機(jī)器人和自動(dòng)駕駛領(lǐng)域,缺乏全面捕捉通用世界變化和運(yùn)動(dòng)規(guī)律的能力。

所以,研究團(tuán)隊(duì)提出了WorldDreamer來(lái)加強(qiáng)對(duì)通用世界的變化和運(yùn)動(dòng)規(guī)律的學(xué)習(xí)理解,從而顯著增強(qiáng)視頻生成的能力。

借鑒大型語(yǔ)言模型的成功經(jīng)驗(yàn),WorldDreamer采用Transformer架構(gòu),將世界模型建??蚣苻D(zhuǎn)換為一個(gè)無(wú)監(jiān)督的視覺(jué)Token預(yù)測(cè)問(wèn)題。

具體的模型結(jié)構(gòu)如下圖所示:

圖片

WorldDreamer首先使用視覺(jué)Tokenizer將視覺(jué)信號(hào)(圖像和視頻)編碼為離散的Token。

這些Token在經(jīng)過(guò)掩蔽處理后,輸入給研究團(tuán)隊(duì)提出的Sptial Temporal Patchwuse Transformer(STPT)模塊。

同時(shí),文本和動(dòng)作信號(hào)被分別編碼為對(duì)應(yīng)的特征向量,以作為多模態(tài)特征一并輸入給STPT。

STPT在內(nèi)部對(duì)視覺(jué)、語(yǔ)言、動(dòng)作等特征進(jìn)行充分的交互學(xué)習(xí),并可以預(yù)測(cè)被掩碼部分的視覺(jué)Token。

最終,這些預(yù)測(cè)出的視覺(jué)Token可以用來(lái)完成各種各樣的視頻生成和視頻編輯任務(wù)。

圖片

值得注意的是,在訓(xùn)練WorldDreamer時(shí),研究團(tuán)隊(duì)還構(gòu)建了Visual-Text-Action(視覺(jué)-文本-動(dòng)作)數(shù)據(jù)的三元組,訓(xùn)練時(shí)的損失函數(shù)僅涉及預(yù)測(cè)被掩蔽的視覺(jué)Token,沒(méi)有額外的監(jiān)督信號(hào)。

而在團(tuán)隊(duì)提出的這個(gè)數(shù)據(jù)三元組中,只有視覺(jué)信息是必須的,也就是說(shuō),即使在沒(méi)有文本或動(dòng)作數(shù)據(jù)的情況下,依然可以進(jìn)行WorldDreamer的訓(xùn)練。

這種模式不僅降低了數(shù)據(jù)收集的難度,還使得WorldDreamer可以支持在沒(méi)有已知或只有單一條件的情況下完成視頻生成任務(wù)。

研究團(tuán)隊(duì)使用大量數(shù)據(jù)對(duì)WorldDreamer進(jìn)行訓(xùn)練,其中包括20億經(jīng)過(guò)清洗的圖像數(shù)據(jù)、1000萬(wàn)段通用場(chǎng)景的視頻、50萬(wàn)段高質(zhì)量語(yǔ)言標(biāo)注的視頻、以及近千段自動(dòng)駕駛場(chǎng)景視頻。

團(tuán)隊(duì)對(duì)10億級(jí)別的可學(xué)習(xí)參數(shù)進(jìn)行了百萬(wàn)次迭代訓(xùn)練,收斂后的WorldDreamer逐漸理解了物理世界的變化和運(yùn)動(dòng)規(guī)律,并擁有了各種的視頻生成和視頻編輯能力。

論文地址:https://arxiv.org/abs/2401.09985
項(xiàng)目主頁(yè):https://world-dreamer.github.io/

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-05-24 12:53:06

AI訓(xùn)練

2023-12-12 13:52:00

數(shù)據(jù)訓(xùn)練

2024-05-13 12:53:06

AI模型

2025-04-08 09:30:00

模型AI機(jī)器人

2024-10-22 09:40:00

模型生成

2024-04-18 12:16:37

MetaAIOpenEQA

2025-02-14 09:30:00

視頻生成模型開(kāi)源機(jī)器人

2023-11-03 13:07:00

AI模型

2024-02-19 08:58:00

模型AI

2024-03-05 11:18:14

模型訓(xùn)練

2023-10-23 10:11:36

自動(dòng)駕駛技術(shù)

2023-12-20 14:54:29

谷歌Gen-2視頻

2022-06-10 12:38:07

物聯(lián)網(wǎng)IOT

2023-07-21 15:05:04

人工智能智能汽車(chē)數(shù)字技術(shù)

2024-07-01 13:02:53

2023-12-13 13:49:00

模型訓(xùn)練

2025-04-25 09:00:00

Transforme模型代碼

2024-11-08 09:11:24

2024-10-28 13:30:00

2024-10-05 08:10:01

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)