自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

李飛飛谷歌破局之作!用Transformer生成逼真視頻,下一個(gè)Pika來(lái)了?

人工智能 新聞
今天,李飛飛攜斯坦福聯(lián)袂谷歌,用Transformer生成了逼真視頻,效果媲美Gen-2比肩Pika。2023年儼然已成AI視頻元年!

視頻大數(shù)據(jù)時(shí)代,真的來(lái)了!

剛剛,李飛飛的斯坦福團(tuán)隊(duì)同谷歌合作,推出了用于生成逼真視頻的擴(kuò)散模型W.A.L.T。

這是一個(gè)在共享潛在空間中訓(xùn)練圖像和視頻生成的,基于Transformer的擴(kuò)散模型。

論文:https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf

英偉達(dá)高級(jí)科學(xué)家Jim Fan轉(zhuǎn)發(fā)評(píng)論道:2022年是影像之年,2023是聲波之年,而2024,是視頻之年!

首先,研究人員使用因果編碼器在共享潛在空間中壓縮圖像和視頻。

其次,為了提高記憶和訓(xùn)練效率,研究人員使用基于窗口注意的變壓器架構(gòu)來(lái)進(jìn)行潛在空間中的聯(lián)合空間和時(shí)間生成建模。

研究人員的模型可以根據(jù)自然語(yǔ)言提示生成逼真的、時(shí)間一致的運(yùn)動(dòng):

圖片

A Teddy bear skating carefully in Times Square,Slow Motion/一只泰迪熊在時(shí)代廣場(chǎng)上優(yōu)雅的滑冰,慢動(dòng)作

Pouring chocolate sauce over vanilla ice cream in a cone, studio lighting/將巧克力醬倒在香草冰淇淋甜筒上,工作室燈光

圖片

An stronaust riding a horse/一名宇航員騎著馬

圖片

A squirrel eating a burger/一只松鼠在吃漢堡

圖片

A panda taking a selfie/一只正在自拍的熊貓

圖片

An elephant wearing a birthday hat walking on the beach/一頭戴著生日帽的大象在海灘上行走

圖片

Sea lion admiring nature, river, waterfull, sun, forest/海獅欣賞自然,河流,瀑布,陽(yáng)光,森林

Pouring latte art into a silver cup with a golden spoon next to it/在銀杯中進(jìn)行拿鐵拉花,旁邊放著金勺子

圖片

Two knights dueling with lightsabers,cinematic action shot,extremely slow motion/兩個(gè)騎士用光劍決斗,電影動(dòng)作鏡頭,極其慢動(dòng)作

A swarm of bees flying around their hive/一群蜜蜂在他們的蜂巢周圍飛翔

這個(gè)結(jié)構(gòu)還可以用圖片生成視頻:

圖片

A giant dragon sitting in a snow covered landscape, breathing fire/一條巨大的龍盤踞在冰雪覆蓋的大地上,噴吐著火焰

圖片

A cute panda skateboarding in the sky, over snow covered mountains, with a dreamy and whimsical atmosphere/一只可愛(ài)的熊貓?jiān)谔炜罩谢?,越過(guò)雪山,充滿夢(mèng)幻和異想天開的氣氛

An asteroid collides with Earth, massive explosive, slow motion/小行星撞上地球,大規(guī)模爆炸,慢動(dòng)作

以及,生成一致性很高的3D相機(jī)運(yùn)動(dòng)的視頻。

圖片

Cameraturns around a cute bunny, studio lighting, 360 rotation/相機(jī)圍繞一只可愛(ài)的兔子旋轉(zhuǎn),工作室燈光,360度旋轉(zhuǎn)

圖片

Camera turns around utah teapot,studio lighting,360 rotation/相機(jī)圍繞茶壺旋轉(zhuǎn),工作室燈光,360度旋轉(zhuǎn)

圖片

Camera turns around a burger on a plate,studio lighting,360 rotation/相機(jī)圍繞盤子中的漢堡旋轉(zhuǎn),工作室燈光,360度旋轉(zhuǎn)

網(wǎng)友們驚嘆道,這些天好像已經(jīng)人手一個(gè)LLM或者圖像生成器。

今年簡(jiǎn)直是AI發(fā)展的煽動(dòng)性的一年。

兩個(gè)關(guān)鍵決策,組成三模型級(jí)聯(lián)

W.A.L.T的方法有兩個(gè)關(guān)鍵決策。

首先,研究者使用因果編碼器在統(tǒng)一的潛在空間內(nèi)聯(lián)合壓縮圖像和視頻,從而實(shí)現(xiàn)跨模態(tài)的訓(xùn)練和生成。

其次,為了提高記憶和訓(xùn)練效率,研究者使用了為空間和時(shí)空聯(lián)合生成建模量身定制的窗口注意力架構(gòu)。

通過(guò)這兩個(gè)關(guān)鍵決策,團(tuán)隊(duì)在已建立的視頻(UCF-101 和 Kinetics-600)和圖像(ImageNet)生成基準(zhǔn)測(cè)試上實(shí)現(xiàn)了SOTA,而無(wú)需使用無(wú)分類器指導(dǎo)。

最后,團(tuán)隊(duì)還訓(xùn)練了三個(gè)模型的級(jí)聯(lián),用于文本到視頻的生成任務(wù),包括一個(gè)基本的潛在視頻擴(kuò)散模型和兩個(gè)視頻超分辨率擴(kuò)散模型,以每秒8幀的速度,生成512 x 896分辨率的視頻。

W.A.L.T的關(guān)鍵,是將圖像和視頻編碼到一個(gè)共享的潛在空間中。

Transformer主干通過(guò)具有兩層窗口限制注意力的塊來(lái)處理這些潛在空間——空間層捕捉圖像和視頻中的空間關(guān)系,而時(shí)空層模擬視頻中的時(shí)間動(dòng)態(tài),并通過(guò)身份注意力掩碼傳遞圖像。

而文本調(diào)節(jié),是通過(guò)空間交叉注意完成的。

W.A.L.T解決視頻生成建模難題

Transformer是高度可擴(kuò)展和可并行的神經(jīng)網(wǎng)絡(luò)架構(gòu),是目前最當(dāng)紅的構(gòu)架。

這種理想的特性也讓研究界越來(lái)越青睞Transformer,而不是語(yǔ)言 、音頻、語(yǔ)音、視覺(jué)、機(jī)器人技術(shù)等不同領(lǐng)域的特定領(lǐng)域架構(gòu)。

這種統(tǒng)一的趨勢(shì),使研究人員能夠共享不同傳統(tǒng)領(lǐng)域的進(jìn)步,這樣就造就了有利于Transformer的模型設(shè)計(jì)創(chuàng)新和改進(jìn)的良性循環(huán)。

然而,有一個(gè)例外,就是視頻的生成建模。

擴(kuò)散模型已成為圖像和視頻生成建模的領(lǐng)先范例。然而,由一系列卷積層和自注意力層組成的U-Net架構(gòu)一直是所有視頻擴(kuò)散方法的主流。

這種偏好源于這樣一個(gè)事實(shí):Transformer中完全注意力機(jī)制的記憶需求,與輸入序列的長(zhǎng)度呈二次方縮放。

在處理視頻等高維信號(hào)時(shí),這種縮放會(huì)導(dǎo)致成本過(guò)高。

潛在擴(kuò)散模型可以通過(guò)在從自動(dòng)編碼器派生的低維潛在空間中運(yùn)行,來(lái)降低計(jì)算要求。

在這種情況下,一個(gè)關(guān)鍵的設(shè)計(jì)選擇,就是所使用的潛在空間的類型:空間壓縮 (每幀潛在) 與時(shí)空壓縮。

空間壓縮通常是首選,因?yàn)樗梢岳妙A(yù)訓(xùn)練的圖像自動(dòng)編碼器和LDM,它們?cè)诖笮统蓪?duì)圖像文本數(shù)據(jù)集上進(jìn)行訓(xùn)練。

然而,這種選擇增加了網(wǎng)絡(luò)復(fù)雜性,并限制了Transformer作為骨干網(wǎng)的使用,尤其是由于內(nèi)存限制而生成高分辨率視頻時(shí)。

另一方面,雖然時(shí)空壓縮可以緩解這些問(wèn)題,但它排除了配對(duì)圖像文本數(shù)據(jù)集的使用,后者比視頻數(shù)據(jù)集更大、更多樣化。

因此,研究者提出了窗口注意力潛在Transformer (W.A.L.T) :一種基于Transformer的潛在視頻擴(kuò)散模型 (LVDM) 方法。

該方法由兩個(gè)階段組成。

首先,自動(dòng)編碼器將視頻和圖像映射到統(tǒng)一的低維潛在空間中。這種設(shè)計(jì)能夠在圖像和視頻數(shù)據(jù)集上聯(lián)合訓(xùn)練單個(gè)生成模型,并顯著減少生成高分辨率視頻的計(jì)算負(fù)擔(dān)。

隨后,研究者提出了一種用于潛在視頻擴(kuò)散建模的Transformer塊的新設(shè)計(jì),由在非重疊、窗口限制的空間和時(shí)空注意力之間交替的自注意力層組成。

這種設(shè)計(jì)有兩個(gè)主要好處——

首先,使用局部窗口注意力,可以顯著降低計(jì)算需求。

其次,它有利于聯(lián)合訓(xùn)練,其中空間層獨(dú)立處理圖像和視頻幀,而時(shí)空層致力于對(duì)視頻中的時(shí)間關(guān)系進(jìn)行建模。

雖然概念上很簡(jiǎn)單,但團(tuán)隊(duì)的方法讓Transformer在公共基準(zhǔn)上潛在視頻傳播中表現(xiàn)出了卓越的質(zhì)量和參數(shù)效率,這是第一個(gè)經(jīng)驗(yàn)證據(jù)。

具體來(lái)說(shuō),在類條件視頻生成 (UCF-101) 、幀預(yù)測(cè) (Kinetics-600) 和類條件圖像生成 (ImageNet)上, 不使用無(wú)分類指導(dǎo),就取得了SOTA。

最后,為了證明這種方法的可擴(kuò)展性和效率,研究者還生成了逼真的文本到視頻生成效果。

他們訓(xùn)練了由一個(gè)基本潛在視頻擴(kuò)散模型和兩個(gè)視頻超分辨率擴(kuò)散模型組成的級(jí)聯(lián)模型,以每秒8幀的速度生成512X896分辨率的視頻,并且在UCF-101基準(zhǔn)測(cè)試中,取得了SOTA的zero-shot FVC分?jǐn)?shù)。

學(xué)習(xí)視覺(jué)符號(hào)

視頻生成建模中的一個(gè)關(guān)鍵設(shè)計(jì)決策,就是潛在空間表征的選擇。

理想情況下,需要一個(gè)共享且統(tǒng)一的壓縮視覺(jué)表征,可用于圖像和視頻的生成建模。

統(tǒng)一的表征很重要,這是因?yàn)橛捎跇?biāo)記視頻數(shù)據(jù)(例如文本視頻對(duì))的稀缺,聯(lián)合的圖像-視頻學(xué)習(xí)更可取。

為了實(shí)現(xiàn)視頻和靜態(tài)圖像的統(tǒng)一表征,第一幀始終獨(dú)立于視頻的其余部分進(jìn)行編碼。

為了將這個(gè)設(shè)計(jì)實(shí)例化,研究者使用了MAGVIT-v2分詞器的因果3DCNN編碼器-解碼器。

通常,編碼器-解碼器由常規(guī)D卷積層組成,它們無(wú)法獨(dú)立處理第一幀。

而因果3D卷積層解決了這個(gè)問(wèn)題,因?yàn)榫矸e核僅對(duì)過(guò)去的圖片幀進(jìn)行操作。

這就確保了每個(gè)幀的輸出僅受前面幀的影響,從而使模型能夠獨(dú)立標(biāo)記第一幀。

實(shí)驗(yàn)

視頻生成

研究人員考慮了兩個(gè)標(biāo)準(zhǔn)視頻基準(zhǔn),即類別條件生成的UCF-101和帶有5個(gè)條件幀的視頻預(yù)測(cè)Kinetics-600。

研究人員使用FVD 作為主要評(píng)估指標(biāo)。在這兩個(gè)數(shù)據(jù)集上,W.A.L.T 顯著優(yōu)于之前的所有工作(下表1)。

與之前的視頻擴(kuò)散模型相比,研究人員在模型參數(shù)更少的情況下實(shí)現(xiàn)了最先進(jìn)的性能,并且需要50個(gè)DDIM推理步驟。

圖像生成

為了驗(yàn)證W.A.L.T在圖像領(lǐng)域的建模能力,研究人員訓(xùn)練了一個(gè)W.A.L.T版本,用于標(biāo)準(zhǔn)的ImageNet類別條件設(shè)置。

在評(píng)估中,研究人員遵循ADM并報(bào)告在50K樣本上用50個(gè)DDIM步驟生成的FID和Inception分?jǐn)?shù)。

研究人員將W.A.L.T與256 × 256分辨率的最先進(jìn)圖像生成方法進(jìn)行比較(下表2)。研究人員的模型在不需要專門的調(diào)度、卷積歸納偏見(jiàn)、改進(jìn)的擴(kuò)散損失和無(wú)分類器指導(dǎo)的情況下優(yōu)于之前的工作。盡管VDM++的FID分?jǐn)?shù)略有提高,但該模型的參數(shù)明顯更多(2B)。

消融實(shí)驗(yàn)

在使用ViT -based模型的各種計(jì)算機(jī)視覺(jué)任務(wù)中,已經(jīng)證明較小的補(bǔ)丁大小p可以始終提高性能。同樣,研究人員的研究結(jié)果也表明,減小補(bǔ)丁大小可以提高性能(下表3a)。

窗口注意力

研究人員比較了三種不同的STW窗口配置與全自注意(表3b)。研究人員發(fā)現(xiàn),局部自注意力可以在速度上顯著更快(高達(dá)2倍)并且減少加速器內(nèi)存的需求,同時(shí)達(dá)到有競(jìng)爭(zhēng)力(或更好)的性能。

文生視頻

研究者在文本-圖像和文本-視頻對(duì)上,聯(lián)合訓(xùn)練了文本到視頻的W.A.L.T。

使用的是來(lái)自公共互聯(lián)網(wǎng)和內(nèi)部來(lái)源的約970M文本-圖像對(duì),和約89M文本-視頻對(duì)的數(shù)據(jù)集。

定性評(píng)估

W.A.L.T根據(jù)自然語(yǔ)言提示生成的示例視頻,分辨率為512*896,持續(xù)時(shí)間為3.6秒,每秒8幀。

W.A.L.T模型能夠生成與文本提示一致、時(shí)間一致的逼真視頻。

研究人員在以1或2個(gè)潛在幀為條件的幀預(yù)測(cè)任務(wù)上,聯(lián)合訓(xùn)練了模型。

因此,模型可用于圖像動(dòng)畫(圖像到視頻)和生成具有連貫鏡頭運(yùn)動(dòng)的較長(zhǎng)視頻。

定量評(píng)價(jià)

科學(xué)地評(píng)估文本條件視頻生成系統(tǒng)仍然是一個(gè)重大挑戰(zhàn),部分原因是缺乏標(biāo)準(zhǔn)化的訓(xùn)練數(shù)據(jù)集和基準(zhǔn)。

到目前為止,研究人員的實(shí)驗(yàn)和分析主要集中在標(biāo)準(zhǔn)學(xué)術(shù)基準(zhǔn)上,這些基準(zhǔn)使用相同的訓(xùn)練數(shù)據(jù)來(lái)確保受控和公平的比較。

盡管如此,為了與之前的文本到視頻工作進(jìn)行比較,研究人員還在表 5 中的零樣本評(píng)估協(xié)議中報(bào)告了 UCF-101 數(shù)據(jù)集的結(jié)果。

研究人員框架的主要優(yōu)勢(shì)是它能夠同時(shí)在圖像和視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練。

在上表5中,研究人員消除了這種聯(lián)合訓(xùn)練方法的影響。

具體來(lái)說(shuō),研究人員使用第5.2 節(jié)中指定的默認(rèn)設(shè)置訓(xùn)練了兩個(gè)版本的W.A.L.T-L (每個(gè)版本有 419M 參數(shù))模型。

研究人員發(fā)現(xiàn)聯(lián)合培訓(xùn)可以使這兩個(gè)指標(biāo)都有顯著改善。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2012-05-22 14:50:16

Anonymous黑客網(wǎng)絡(luò)攻擊

2010-08-31 12:06:34

2013-04-23 10:04:15

谷歌Google Now

2015-10-29 09:35:12

BAT趨勢(shì)數(shù)據(jù)

2019-01-10 14:32:02

谷歌Android開發(fā)者

2010-10-19 10:44:49

李開復(fù)

2014-06-17 10:57:09

2019-03-19 19:19:19

Facebook微信轉(zhuǎn)型

2018-06-25 13:56:39

5G手機(jī)毫米波

2009-05-26 08:43:16

GoogleAndroid移動(dòng)OS

2012-12-11 14:59:31

移動(dòng)視頻通話

2011-12-20 20:44:36

移動(dòng)應(yīng)用

2009-03-28 09:22:12

MID移動(dòng)OS

2022-02-13 15:49:15

WebAssemblKubernetes容器

2015-08-03 14:06:44

2013-01-17 10:09:50

JavaSpring

2021-08-11 18:23:08

數(shù)據(jù)平臺(tái)IT

2011-03-17 15:01:11

Oracle

2023-12-13 13:49:00

模型訓(xùn)練

2025-03-31 09:32:00

視覺(jué)生產(chǎn)AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)