自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="wdyau"></pre>

<sub id="wdyau"></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

李飛飛谷歌破局之作！用Transformer生成逼真視頻，下一個(gè)Pika來(lái)了？

作者：新智元 2023-12-12 13:45:00

人工智能新聞

今天，李飛飛攜斯坦福聯(lián)袂谷歌，用Transformer生成了逼真視頻，效果媲美Gen-2比肩Pika。2023年儼然已成AI視頻元年！

視頻大數(shù)據(jù)時(shí)代，真的來(lái)了！

剛剛，李飛飛的斯坦福團(tuán)隊(duì)同谷歌合作，推出了用于生成逼真視頻的擴(kuò)散模型W.A.L.T。

這是一個(gè)在共享潛在空間中訓(xùn)練圖像和視頻生成的，基于Transformer的擴(kuò)散模型。

論文：https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf

英偉達(dá)高級(jí)科學(xué)家Jim Fan轉(zhuǎn)發(fā)評(píng)論道：2022年是影像之年，2023是聲波之年，而2024，是視頻之年！

首先，研究人員使用因果編碼器在共享潛在空間中壓縮圖像和視頻。

其次，為了提高記憶和訓(xùn)練效率，研究人員使用基于窗口注意的變壓器架構(gòu)來(lái)進(jìn)行潛在空間中的聯(lián)合空間和時(shí)間生成建模。

研究人員的模型可以根據(jù)自然語(yǔ)言提示生成逼真的、時(shí)間一致的運(yùn)動(dòng)：

A Teddy bear skating carefully in Times Square，Slow Motion/一只泰迪熊在時(shí)代廣場(chǎng)上優(yōu)雅的滑冰，慢動(dòng)作

Pouring chocolate sauce over vanilla ice cream in a cone, studio lighting/將巧克力醬倒在香草冰淇淋甜筒上，工作室燈光

An stronaust riding a horse/一名宇航員騎著馬

A squirrel eating a burger/一只松鼠在吃漢堡

A panda taking a selfie/一只正在自拍的熊貓

An elephant wearing a birthday hat walking on the beach/一頭戴著生日帽的大象在海灘上行走

Sea lion admiring nature, river, waterfull, sun, forest/海獅欣賞自然，河流，瀑布，陽(yáng)光，森林

Pouring latte art into a silver cup with a golden spoon next to it/在銀杯中進(jìn)行拿鐵拉花，旁邊放著金勺子

Two knights dueling with lightsabers,cinematic action shot,extremely slow motion/兩個(gè)騎士用光劍決斗，電影動(dòng)作鏡頭，極其慢動(dòng)作

A swarm of bees flying around their hive/一群蜜蜂在他們的蜂巢周圍飛翔

這個(gè)結(jié)構(gòu)還可以用圖片生成視頻：

A giant dragon sitting in a snow covered landscape, breathing fire/一條巨大的龍盤踞在冰雪覆蓋的大地上，噴吐著火焰

A cute panda skateboarding in the sky, over snow covered mountains, with a dreamy and whimsical atmosphere/一只可愛(ài)的熊貓?jiān)谔炜罩谢?，越過(guò)雪山，充滿夢(mèng)幻和異想天開的氣氛

An asteroid collides with Earth, massive explosive, slow motion/小行星撞上地球，大規(guī)模爆炸，慢動(dòng)作

以及，生成一致性很高的3D相機(jī)運(yùn)動(dòng)的視頻。

Cameraturns around a cute bunny, studio lighting, 360 rotation/相機(jī)圍繞一只可愛(ài)的兔子旋轉(zhuǎn)，工作室燈光，360度旋轉(zhuǎn)

Camera turns around utah teapot，studio lighting，360 rotation/相機(jī)圍繞茶壺旋轉(zhuǎn)，工作室燈光，360度旋轉(zhuǎn)

Camera turns around a burger on a plate，studio lighting，360 rotation/相機(jī)圍繞盤子中的漢堡旋轉(zhuǎn)，工作室燈光，360度旋轉(zhuǎn)

網(wǎng)友們驚嘆道，這些天好像已經(jīng)人手一個(gè)LLM或者圖像生成器。

今年簡(jiǎn)直是AI發(fā)展的煽動(dòng)性的一年。

兩個(gè)關(guān)鍵決策，組成三模型級(jí)聯(lián)

W.A.L.T的方法有兩個(gè)關(guān)鍵決策。

首先，研究者使用因果編碼器在統(tǒng)一的潛在空間內(nèi)聯(lián)合壓縮圖像和視頻，從而實(shí)現(xiàn)跨模態(tài)的訓(xùn)練和生成。

其次，為了提高記憶和訓(xùn)練效率，研究者使用了為空間和時(shí)空聯(lián)合生成建模量身定制的窗口注意力架構(gòu)。

通過(guò)這兩個(gè)關(guān)鍵決策，團(tuán)隊(duì)在已建立的視頻（UCF-101 和 Kinetics-600）和圖像（ImageNet）生成基準(zhǔn)測(cè)試上實(shí)現(xiàn)了SOTA，而無(wú)需使用無(wú)分類器指導(dǎo)。

最后，團(tuán)隊(duì)還訓(xùn)練了三個(gè)模型的級(jí)聯(lián)，用于文本到視頻的生成任務(wù)，包括一個(gè)基本的潛在視頻擴(kuò)散模型和兩個(gè)視頻超分辨率擴(kuò)散模型，以每秒8幀的速度，生成512 x 896分辨率的視頻。

W.A.L.T的關(guān)鍵，是將圖像和視頻編碼到一個(gè)共享的潛在空間中。

Transformer主干通過(guò)具有兩層窗口限制注意力的塊來(lái)處理這些潛在空間——空間層捕捉圖像和視頻中的空間關(guān)系，而時(shí)空層模擬視頻中的時(shí)間動(dòng)態(tài)，并通過(guò)身份注意力掩碼傳遞圖像。

而文本調(diào)節(jié)，是通過(guò)空間交叉注意完成的。

W.A.L.T解決視頻生成建模難題

Transformer是高度可擴(kuò)展和可并行的神經(jīng)網(wǎng)絡(luò)架構(gòu)，是目前最當(dāng)紅的構(gòu)架。

這種理想的特性也讓研究界越來(lái)越青睞Transformer，而不是語(yǔ)言、音頻、語(yǔ)音、視覺(jué)、機(jī)器人技術(shù)等不同領(lǐng)域的特定領(lǐng)域架構(gòu)。

這種統(tǒng)一的趨勢(shì)，使研究人員能夠共享不同傳統(tǒng)領(lǐng)域的進(jìn)步，這樣就造就了有利于Transformer的模型設(shè)計(jì)創(chuàng)新和改進(jìn)的良性循環(huán)。

然而，有一個(gè)例外，就是視頻的生成建模。

擴(kuò)散模型已成為圖像和視頻生成建模的領(lǐng)先范例。然而，由一系列卷積層和自注意力層組成的U-Net架構(gòu)一直是所有視頻擴(kuò)散方法的主流。

這種偏好源于這樣一個(gè)事實(shí)：Transformer中完全注意力機(jī)制的記憶需求，與輸入序列的長(zhǎng)度呈二次方縮放。

在處理視頻等高維信號(hào)時(shí)，這種縮放會(huì)導(dǎo)致成本過(guò)高。

潛在擴(kuò)散模型可以通過(guò)在從自動(dòng)編碼器派生的低維潛在空間中運(yùn)行，來(lái)降低計(jì)算要求。

在這種情況下，一個(gè)關(guān)鍵的設(shè)計(jì)選擇，就是所使用的潛在空間的類型:空間壓縮 (每幀潛在) 與時(shí)空壓縮。

空間壓縮通常是首選，因?yàn)樗梢岳妙A(yù)訓(xùn)練的圖像自動(dòng)編碼器和LDM，它們?cè)诖笮统蓪?duì)圖像文本數(shù)據(jù)集上進(jìn)行訓(xùn)練。

然而，這種選擇增加了網(wǎng)絡(luò)復(fù)雜性，并限制了Transformer作為骨干網(wǎng)的使用，尤其是由于內(nèi)存限制而生成高分辨率視頻時(shí)。

另一方面，雖然時(shí)空壓縮可以緩解這些問(wèn)題，但它排除了配對(duì)圖像文本數(shù)據(jù)集的使用，后者比視頻數(shù)據(jù)集更大、更多樣化。

因此，研究者提出了窗口注意力潛在Transformer (W.A.L.T) :一種基于Transformer的潛在視頻擴(kuò)散模型 (LVDM) 方法。

該方法由兩個(gè)階段組成。

首先，自動(dòng)編碼器將視頻和圖像映射到統(tǒng)一的低維潛在空間中。這種設(shè)計(jì)能夠在圖像和視頻數(shù)據(jù)集上聯(lián)合訓(xùn)練單個(gè)生成模型，并顯著減少生成高分辨率視頻的計(jì)算負(fù)擔(dān)。

隨后，研究者提出了一種用于潛在視頻擴(kuò)散建模的Transformer塊的新設(shè)計(jì)，由在非重疊、窗口限制的空間和時(shí)空注意力之間交替的自注意力層組成。

這種設(shè)計(jì)有兩個(gè)主要好處——

首先，使用局部窗口注意力，可以顯著降低計(jì)算需求。

其次，它有利于聯(lián)合訓(xùn)練，其中空間層獨(dú)立處理圖像和視頻幀，而時(shí)空層致力于對(duì)視頻中的時(shí)間關(guān)系進(jìn)行建模。

雖然概念上很簡(jiǎn)單，但團(tuán)隊(duì)的方法讓Transformer在公共基準(zhǔn)上潛在視頻傳播中表現(xiàn)出了卓越的質(zhì)量和參數(shù)效率，這是第一個(gè)經(jīng)驗(yàn)證據(jù)。

具體來(lái)說(shuō)，在類條件視頻生成 (UCF-101) 、幀預(yù)測(cè) (Kinetics-600) 和類條件圖像生成 (ImageNet)上，不使用無(wú)分類指導(dǎo)，就取得了SOTA。

最后，為了證明這種方法的可擴(kuò)展性和效率，研究者還生成了逼真的文本到視頻生成效果。

他們訓(xùn)練了由一個(gè)基本潛在視頻擴(kuò)散模型和兩個(gè)視頻超分辨率擴(kuò)散模型組成的級(jí)聯(lián)模型，以每秒8幀的速度生成512X896分辨率的視頻，并且在UCF-101基準(zhǔn)測(cè)試中，取得了SOTA的zero-shot FVC分?jǐn)?shù)。

學(xué)習(xí)視覺(jué)符號(hào)

視頻生成建模中的一個(gè)關(guān)鍵設(shè)計(jì)決策，就是潛在空間表征的選擇。

理想情況下，需要一個(gè)共享且統(tǒng)一的壓縮視覺(jué)表征，可用于圖像和視頻的生成建模。

統(tǒng)一的表征很重要，這是因?yàn)橛捎跇?biāo)記視頻數(shù)據(jù)(例如文本視頻對(duì))的稀缺，聯(lián)合的圖像-視頻學(xué)習(xí)更可取。

為了實(shí)現(xiàn)視頻和靜態(tài)圖像的統(tǒng)一表征，第一幀始終獨(dú)立于視頻的其余部分進(jìn)行編碼。

為了將這個(gè)設(shè)計(jì)實(shí)例化，研究者使用了MAGVIT-v2分詞器的因果3DCNN編碼器-解碼器。

通常，編碼器-解碼器由常規(guī)D卷積層組成，它們無(wú)法獨(dú)立處理第一幀。

而因果3D卷積層解決了這個(gè)問(wèn)題，因?yàn)榫矸e核僅對(duì)過(guò)去的幀進(jìn)行操作。

這就確保了每個(gè)幀的輸出僅受前面幀的影響，從而使模型能夠獨(dú)立標(biāo)記第一幀。

實(shí)驗(yàn)

視頻生成

研究人員考慮了兩個(gè)標(biāo)準(zhǔn)視頻基準(zhǔn)，即類別條件生成的UCF-101和帶有5個(gè)條件幀的視頻預(yù)測(cè)Kinetics-600。

研究人員使用FVD 作為主要評(píng)估指標(biāo)。在這兩個(gè)數(shù)據(jù)集上，W.A.L.T 顯著優(yōu)于之前的所有工作（下表1）。

與之前的視頻擴(kuò)散模型相比，研究人員在模型參數(shù)更少的情況下實(shí)現(xiàn)了最先進(jìn)的性能，并且需要50個(gè)DDIM推理步驟。

圖像生成

為了驗(yàn)證W.A.L.T在圖像領(lǐng)域的建模能力，研究人員訓(xùn)練了一個(gè)W.A.L.T版本，用于標(biāo)準(zhǔn)的ImageNet類別條件設(shè)置。

在評(píng)估中，研究人員遵循ADM并報(bào)告在50K樣本上用50個(gè)DDIM步驟生成的FID和Inception分?jǐn)?shù)。

研究人員將W.A.L.T與256 × 256分辨率的最先進(jìn)圖像生成方法進(jìn)行比較（下表2）。研究人員的模型在不需要專門的調(diào)度、卷積歸納偏見(jiàn)、改進(jìn)的擴(kuò)散損失和無(wú)分類器指導(dǎo)的情況下優(yōu)于之前的工作。盡管VDM++的FID分?jǐn)?shù)略有提高，但該模型的參數(shù)明顯更多（2B）。

消融實(shí)驗(yàn)

在使用ViT -based模型的各種計(jì)算機(jī)視覺(jué)任務(wù)中，已經(jīng)證明較小的補(bǔ)丁大小p可以始終提高性能。同樣，研究人員的研究結(jié)果也表明，減小補(bǔ)丁大小可以提高性能（下表3a）。

窗口注意力

研究人員比較了三種不同的STW窗口配置與全自注意（表3b）。研究人員發(fā)現(xiàn)，局部自注意力可以在速度上顯著更快（高達(dá)2倍）并且減少加速器內(nèi)存的需求，同時(shí)達(dá)到有競(jìng)爭(zhēng)力（或更好）的性能。

文生視頻

研究者在文本-圖像和文本-視頻對(duì)上，聯(lián)合訓(xùn)練了文本到視頻的W.A.L.T。

使用的是來(lái)自公共互聯(lián)網(wǎng)和內(nèi)部來(lái)源的約970M文本-圖像對(duì)，和約89M文本-視頻對(duì)的數(shù)據(jù)集。

定性評(píng)估

W.A.L.T根據(jù)自然語(yǔ)言提示生成的示例視頻，分辨率為512*896，持續(xù)時(shí)間為3.6秒，每秒8幀。

W.A.L.T模型能夠生成與文本提示一致、時(shí)間一致的逼真視頻。

研究人員在以1或2個(gè)潛在幀為條件的幀預(yù)測(cè)任務(wù)上，聯(lián)合訓(xùn)練了模型。

因此，模型可用于圖像動(dòng)畫（圖像到視頻）和生成具有連貫鏡頭運(yùn)動(dòng)的較長(zhǎng)視頻。

定量評(píng)價(jià)

科學(xué)地評(píng)估文本條件視頻生成系統(tǒng)仍然是一個(gè)重大挑戰(zhàn)，部分原因是缺乏標(biāo)準(zhǔn)化的訓(xùn)練數(shù)據(jù)集和基準(zhǔn)。

到目前為止，研究人員的實(shí)驗(yàn)和分析主要集中在標(biāo)準(zhǔn)學(xué)術(shù)基準(zhǔn)上，這些基準(zhǔn)使用相同的訓(xùn)練數(shù)據(jù)來(lái)確保受控和公平的比較。

盡管如此，為了與之前的文本到視頻工作進(jìn)行比較，研究人員還在表 5 中的零樣本評(píng)估協(xié)議中報(bào)告了 UCF-101 數(shù)據(jù)集的結(jié)果。

研究人員框架的主要優(yōu)勢(shì)是它能夠同時(shí)在圖像和視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練。

在上表5中，研究人員消除了這種聯(lián)合訓(xùn)練方法的影響。

具體來(lái)說(shuō)，研究人員使用第5.2 節(jié)中指定的默認(rèn)設(shè)置訓(xùn)練了兩個(gè)版本的W.A.L.T-L (每個(gè)版本有 419M 參數(shù))模型。

研究人員發(fā)現(xiàn)聯(lián)合培訓(xùn)可以使這兩個(gè)指標(biāo)都有顯著改善。

責(zé)任編輯：張燕妮來(lái)源：新智元

模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<pre id="z4zyz"></pre>

<cite id="z4zyz"><rp id="z4zyz"><form id="z4zyz"></form></rp></cite>