李飛飛谷歌破局之作!用Transformer生成逼真視頻,下一個(gè)Pika來(lái)了?
視頻大數(shù)據(jù)時(shí)代,真的來(lái)了!
剛剛,李飛飛的斯坦福團(tuán)隊(duì)同谷歌合作,推出了用于生成逼真視頻的擴(kuò)散模型W.A.L.T。
這是一個(gè)在共享潛在空間中訓(xùn)練圖像和視頻生成的,基于Transformer的擴(kuò)散模型。
論文:https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf
英偉達(dá)高級(jí)科學(xué)家Jim Fan轉(zhuǎn)發(fā)評(píng)論道:2022年是影像之年,2023是聲波之年,而2024,是視頻之年!
首先,研究人員使用因果編碼器在共享潛在空間中壓縮圖像和視頻。
其次,為了提高記憶和訓(xùn)練效率,研究人員使用基于窗口注意的變壓器架構(gòu)來(lái)進(jìn)行潛在空間中的聯(lián)合空間和時(shí)間生成建模。
研究人員的模型可以根據(jù)自然語(yǔ)言提示生成逼真的、時(shí)間一致的運(yùn)動(dòng):
A Teddy bear skating carefully in Times Square,Slow Motion/一只泰迪熊在時(shí)代廣場(chǎng)上優(yōu)雅的滑冰,慢動(dòng)作
Pouring chocolate sauce over vanilla ice cream in a cone, studio lighting/將巧克力醬倒在香草冰淇淋甜筒上,工作室燈光
An stronaust riding a horse/一名宇航員騎著馬
A squirrel eating a burger/一只松鼠在吃漢堡
A panda taking a selfie/一只正在自拍的熊貓
An elephant wearing a birthday hat walking on the beach/一頭戴著生日帽的大象在海灘上行走
Sea lion admiring nature, river, waterfull, sun, forest/海獅欣賞自然,河流,瀑布,陽(yáng)光,森林
Pouring latte art into a silver cup with a golden spoon next to it/在銀杯中進(jìn)行拿鐵拉花,旁邊放著金勺子
Two knights dueling with lightsabers,cinematic action shot,extremely slow motion/兩個(gè)騎士用光劍決斗,電影動(dòng)作鏡頭,極其慢動(dòng)作
A swarm of bees flying around their hive/一群蜜蜂在他們的蜂巢周圍飛翔
這個(gè)結(jié)構(gòu)還可以用圖片生成視頻:
A giant dragon sitting in a snow covered landscape, breathing fire/一條巨大的龍盤踞在冰雪覆蓋的大地上,噴吐著火焰
A cute panda skateboarding in the sky, over snow covered mountains, with a dreamy and whimsical atmosphere/一只可愛(ài)的熊貓?jiān)谔炜罩谢?,越過(guò)雪山,充滿夢(mèng)幻和異想天開的氣氛
An asteroid collides with Earth, massive explosive, slow motion/小行星撞上地球,大規(guī)模爆炸,慢動(dòng)作
以及,生成一致性很高的3D相機(jī)運(yùn)動(dòng)的視頻。
Cameraturns around a cute bunny, studio lighting, 360 rotation/相機(jī)圍繞一只可愛(ài)的兔子旋轉(zhuǎn),工作室燈光,360度旋轉(zhuǎn)
Camera turns around utah teapot,studio lighting,360 rotation/相機(jī)圍繞茶壺旋轉(zhuǎn),工作室燈光,360度旋轉(zhuǎn)
Camera turns around a burger on a plate,studio lighting,360 rotation/相機(jī)圍繞盤子中的漢堡旋轉(zhuǎn),工作室燈光,360度旋轉(zhuǎn)
網(wǎng)友們驚嘆道,這些天好像已經(jīng)人手一個(gè)LLM或者圖像生成器。
今年簡(jiǎn)直是AI發(fā)展的煽動(dòng)性的一年。
兩個(gè)關(guān)鍵決策,組成三模型級(jí)聯(lián)
W.A.L.T的方法有兩個(gè)關(guān)鍵決策。
首先,研究者使用因果編碼器在統(tǒng)一的潛在空間內(nèi)聯(lián)合壓縮圖像和視頻,從而實(shí)現(xiàn)跨模態(tài)的訓(xùn)練和生成。
其次,為了提高記憶和訓(xùn)練效率,研究者使用了為空間和時(shí)空聯(lián)合生成建模量身定制的窗口注意力架構(gòu)。
通過(guò)這兩個(gè)關(guān)鍵決策,團(tuán)隊(duì)在已建立的視頻(UCF-101 和 Kinetics-600)和圖像(ImageNet)生成基準(zhǔn)測(cè)試上實(shí)現(xiàn)了SOTA,而無(wú)需使用無(wú)分類器指導(dǎo)。
最后,團(tuán)隊(duì)還訓(xùn)練了三個(gè)模型的級(jí)聯(lián),用于文本到視頻的生成任務(wù),包括一個(gè)基本的潛在視頻擴(kuò)散模型和兩個(gè)視頻超分辨率擴(kuò)散模型,以每秒8幀的速度,生成512 x 896分辨率的視頻。
W.A.L.T的關(guān)鍵,是將圖像和視頻編碼到一個(gè)共享的潛在空間中。
Transformer主干通過(guò)具有兩層窗口限制注意力的塊來(lái)處理這些潛在空間——空間層捕捉圖像和視頻中的空間關(guān)系,而時(shí)空層模擬視頻中的時(shí)間動(dòng)態(tài),并通過(guò)身份注意力掩碼傳遞圖像。
而文本調(diào)節(jié),是通過(guò)空間交叉注意完成的。
W.A.L.T解決視頻生成建模難題
Transformer是高度可擴(kuò)展和可并行的神經(jīng)網(wǎng)絡(luò)架構(gòu),是目前最當(dāng)紅的構(gòu)架。
這種理想的特性也讓研究界越來(lái)越青睞Transformer,而不是語(yǔ)言 、音頻、語(yǔ)音、視覺(jué)、機(jī)器人技術(shù)等不同領(lǐng)域的特定領(lǐng)域架構(gòu)。
這種統(tǒng)一的趨勢(shì),使研究人員能夠共享不同傳統(tǒng)領(lǐng)域的進(jìn)步,這樣就造就了有利于Transformer的模型設(shè)計(jì)創(chuàng)新和改進(jìn)的良性循環(huán)。
然而,有一個(gè)例外,就是視頻的生成建模。
擴(kuò)散模型已成為圖像和視頻生成建模的領(lǐng)先范例。然而,由一系列卷積層和自注意力層組成的U-Net架構(gòu)一直是所有視頻擴(kuò)散方法的主流。
這種偏好源于這樣一個(gè)事實(shí):Transformer中完全注意力機(jī)制的記憶需求,與輸入序列的長(zhǎng)度呈二次方縮放。
在處理視頻等高維信號(hào)時(shí),這種縮放會(huì)導(dǎo)致成本過(guò)高。
潛在擴(kuò)散模型可以通過(guò)在從自動(dòng)編碼器派生的低維潛在空間中運(yùn)行,來(lái)降低計(jì)算要求。
在這種情況下,一個(gè)關(guān)鍵的設(shè)計(jì)選擇,就是所使用的潛在空間的類型:空間壓縮 (每幀潛在) 與時(shí)空壓縮。
空間壓縮通常是首選,因?yàn)樗梢岳妙A(yù)訓(xùn)練的圖像自動(dòng)編碼器和LDM,它們?cè)诖笮统蓪?duì)圖像文本數(shù)據(jù)集上進(jìn)行訓(xùn)練。
然而,這種選擇增加了網(wǎng)絡(luò)復(fù)雜性,并限制了Transformer作為骨干網(wǎng)的使用,尤其是由于內(nèi)存限制而生成高分辨率視頻時(shí)。
另一方面,雖然時(shí)空壓縮可以緩解這些問(wèn)題,但它排除了配對(duì)圖像文本數(shù)據(jù)集的使用,后者比視頻數(shù)據(jù)集更大、更多樣化。
因此,研究者提出了窗口注意力潛在Transformer (W.A.L.T) :一種基于Transformer的潛在視頻擴(kuò)散模型 (LVDM) 方法。
該方法由兩個(gè)階段組成。
首先,自動(dòng)編碼器將視頻和圖像映射到統(tǒng)一的低維潛在空間中。這種設(shè)計(jì)能夠在圖像和視頻數(shù)據(jù)集上聯(lián)合訓(xùn)練單個(gè)生成模型,并顯著減少生成高分辨率視頻的計(jì)算負(fù)擔(dān)。
隨后,研究者提出了一種用于潛在視頻擴(kuò)散建模的Transformer塊的新設(shè)計(jì),由在非重疊、窗口限制的空間和時(shí)空注意力之間交替的自注意力層組成。
這種設(shè)計(jì)有兩個(gè)主要好處——
首先,使用局部窗口注意力,可以顯著降低計(jì)算需求。
其次,它有利于聯(lián)合訓(xùn)練,其中空間層獨(dú)立處理圖像和視頻幀,而時(shí)空層致力于對(duì)視頻中的時(shí)間關(guān)系進(jìn)行建模。
雖然概念上很簡(jiǎn)單,但團(tuán)隊(duì)的方法讓Transformer在公共基準(zhǔn)上潛在視頻傳播中表現(xiàn)出了卓越的質(zhì)量和參數(shù)效率,這是第一個(gè)經(jīng)驗(yàn)證據(jù)。
具體來(lái)說(shuō),在類條件視頻生成 (UCF-101) 、幀預(yù)測(cè) (Kinetics-600) 和類條件圖像生成 (ImageNet)上, 不使用無(wú)分類指導(dǎo),就取得了SOTA。
最后,為了證明這種方法的可擴(kuò)展性和效率,研究者還生成了逼真的文本到視頻生成效果。
他們訓(xùn)練了由一個(gè)基本潛在視頻擴(kuò)散模型和兩個(gè)視頻超分辨率擴(kuò)散模型組成的級(jí)聯(lián)模型,以每秒8幀的速度生成512X896分辨率的視頻,并且在UCF-101基準(zhǔn)測(cè)試中,取得了SOTA的zero-shot FVC分?jǐn)?shù)。
學(xué)習(xí)視覺(jué)符號(hào)
視頻生成建模中的一個(gè)關(guān)鍵設(shè)計(jì)決策,就是潛在空間表征的選擇。
理想情況下,需要一個(gè)共享且統(tǒng)一的壓縮視覺(jué)表征,可用于圖像和視頻的生成建模。
統(tǒng)一的表征很重要,這是因?yàn)橛捎跇?biāo)記視頻數(shù)據(jù)(例如文本視頻對(duì))的稀缺,聯(lián)合的圖像-視頻學(xué)習(xí)更可取。
為了實(shí)現(xiàn)視頻和靜態(tài)圖像的統(tǒng)一表征,第一幀始終獨(dú)立于視頻的其余部分進(jìn)行編碼。
為了將這個(gè)設(shè)計(jì)實(shí)例化,研究者使用了MAGVIT-v2分詞器的因果3DCNN編碼器-解碼器。
通常,編碼器-解碼器由常規(guī)D卷積層組成,它們無(wú)法獨(dú)立處理第一幀。
而因果3D卷積層解決了這個(gè)問(wèn)題,因?yàn)榫矸e核僅對(duì)過(guò)去的幀進(jìn)行操作。
這就確保了每個(gè)幀的輸出僅受前面幀的影響,從而使模型能夠獨(dú)立標(biāo)記第一幀。
實(shí)驗(yàn)
視頻生成
研究人員考慮了兩個(gè)標(biāo)準(zhǔn)視頻基準(zhǔn),即類別條件生成的UCF-101和帶有5個(gè)條件幀的視頻預(yù)測(cè)Kinetics-600。
研究人員使用FVD 作為主要評(píng)估指標(biāo)。在這兩個(gè)數(shù)據(jù)集上,W.A.L.T 顯著優(yōu)于之前的所有工作(下表1)。
與之前的視頻擴(kuò)散模型相比,研究人員在模型參數(shù)更少的情況下實(shí)現(xiàn)了最先進(jìn)的性能,并且需要50個(gè)DDIM推理步驟。
圖像生成
為了驗(yàn)證W.A.L.T在圖像領(lǐng)域的建模能力,研究人員訓(xùn)練了一個(gè)W.A.L.T版本,用于標(biāo)準(zhǔn)的ImageNet類別條件設(shè)置。
在評(píng)估中,研究人員遵循ADM并報(bào)告在50K樣本上用50個(gè)DDIM步驟生成的FID和Inception分?jǐn)?shù)。
研究人員將W.A.L.T與256 × 256分辨率的最先進(jìn)圖像生成方法進(jìn)行比較(下表2)。研究人員的模型在不需要專門的調(diào)度、卷積歸納偏見(jiàn)、改進(jìn)的擴(kuò)散損失和無(wú)分類器指導(dǎo)的情況下優(yōu)于之前的工作。盡管VDM++的FID分?jǐn)?shù)略有提高,但該模型的參數(shù)明顯更多(2B)。
消融實(shí)驗(yàn)
在使用ViT -based模型的各種計(jì)算機(jī)視覺(jué)任務(wù)中,已經(jīng)證明較小的補(bǔ)丁大小p可以始終提高性能。同樣,研究人員的研究結(jié)果也表明,減小補(bǔ)丁大小可以提高性能(下表3a)。
窗口注意力
研究人員比較了三種不同的STW窗口配置與全自注意(表3b)。研究人員發(fā)現(xiàn),局部自注意力可以在速度上顯著更快(高達(dá)2倍)并且減少加速器內(nèi)存的需求,同時(shí)達(dá)到有競(jìng)爭(zhēng)力(或更好)的性能。
文生視頻
研究者在文本-圖像和文本-視頻對(duì)上,聯(lián)合訓(xùn)練了文本到視頻的W.A.L.T。
使用的是來(lái)自公共互聯(lián)網(wǎng)和內(nèi)部來(lái)源的約970M文本-圖像對(duì),和約89M文本-視頻對(duì)的數(shù)據(jù)集。
定性評(píng)估
W.A.L.T根據(jù)自然語(yǔ)言提示生成的示例視頻,分辨率為512*896,持續(xù)時(shí)間為3.6秒,每秒8幀。
W.A.L.T模型能夠生成與文本提示一致、時(shí)間一致的逼真視頻。
研究人員在以1或2個(gè)潛在幀為條件的幀預(yù)測(cè)任務(wù)上,聯(lián)合訓(xùn)練了模型。
因此,模型可用于圖像動(dòng)畫(圖像到視頻)和生成具有連貫鏡頭運(yùn)動(dòng)的較長(zhǎng)視頻。
定量評(píng)價(jià)
科學(xué)地評(píng)估文本條件視頻生成系統(tǒng)仍然是一個(gè)重大挑戰(zhàn),部分原因是缺乏標(biāo)準(zhǔn)化的訓(xùn)練數(shù)據(jù)集和基準(zhǔn)。
到目前為止,研究人員的實(shí)驗(yàn)和分析主要集中在標(biāo)準(zhǔn)學(xué)術(shù)基準(zhǔn)上,這些基準(zhǔn)使用相同的訓(xùn)練數(shù)據(jù)來(lái)確保受控和公平的比較。
盡管如此,為了與之前的文本到視頻工作進(jìn)行比較,研究人員還在表 5 中的零樣本評(píng)估協(xié)議中報(bào)告了 UCF-101 數(shù)據(jù)集的結(jié)果。
研究人員框架的主要優(yōu)勢(shì)是它能夠同時(shí)在圖像和視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練。
在上表5中,研究人員消除了這種聯(lián)合訓(xùn)練方法的影響。
具體來(lái)說(shuō),研究人員使用第5.2 節(jié)中指定的默認(rèn)設(shè)置訓(xùn)練了兩個(gè)版本的W.A.L.T-L (每個(gè)版本有 419M 參數(shù))模型。
研究人員發(fā)現(xiàn)聯(lián)合培訓(xùn)可以使這兩個(gè)指標(biāo)都有顯著改善。