首批類Sora模型出現(xiàn),色拉布上線Snap Video,效果優(yōu)于Pika、不輸Gen-2
最近,OpenAI 視頻生成模型 Sora 的爆火,給基于 Transformer 的擴散模型重新帶來了一波熱度,比如 Sora 研發(fā)負責人之一 William Peebles 與紐約大學助理教授謝賽寧去年提出的 DiT(Diffusion Transformer)。
當然,隨著視頻生成這波 AI 趨勢的繼續(xù)演進,類似架構(gòu)的模型會越來越多。就在昨天,開發(fā)出 SnapChat 圖片分享軟件的 Snap 公司、特倫托大學等機構(gòu)聯(lián)合發(fā)布了類似 Sora 的文本生成視頻模型 Snap Video,這次他們使用到了可擴展的時空 Transformer。
相關(guān)的論文《Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis》已經(jīng)放出。
論文地址:https://arxiv.org/pdf/2402.14797.pdf
項目地址:https://snap-research.github.io/snapvideo/#title-footer
如你我所見,統(tǒng)一圖像生成架構(gòu)(如帶有公開可用圖像預訓練模型的 U-Nets)的可用性,使得它們成為構(gòu)建大規(guī)模視頻生成器的邏輯基礎(chǔ),并且主要的架構(gòu)修改在于插入特定層來捕獲時序依賴性。同樣地,訓練是在基于圖像的擴散框架下進行的,其中可以將模型應用于視頻和一組單獨的圖像,從而提升結(jié)果的多樣性。
本文中,研究者認為這種方法不是最理想的,因而想要系統(tǒng)性地解決。首先圖像和視頻模態(tài)呈現(xiàn)出了由連續(xù)視頻幀中相似內(nèi)容決定的內(nèi)在差異。以此類推,圖像和視頻壓縮算法基于完全不同的方法。為此,研究者重寫了 EDM(出自 2022 年論文 Elucidating the Design Space of Diffusion-Based Generative Models)框架,并重點關(guān)注高分辨率視頻。
具體來講,與以往將視頻視為圖像序列的工作不同,研究者通過將圖像作為高幀率視頻來執(zhí)行聯(lián)合視頻 - 圖像訓練,從而避免純圖像訓練中缺乏時間維度而導致的模態(tài)不匹配。其次,以往需要利用 U-Net 架構(gòu)來充分處理每個視頻幀,與純文本到圖像模型相比,這種做法增加了計算開銷,對模型可擴展性造成了實際的限制。然而,可擴展性是獲得高質(zhì)量結(jié)果的關(guān)鍵因素。
此外,擴展基于 U-Net 的架構(gòu)以自然地支持空間和時間維度需要進行體積注意力運算,又會產(chǎn)生令人望而卻步的計算需求。如果無法做到,則會影響輸出,導致生成的是動態(tài)圖像或運動偽影,而不是具有連貫和多樣化動作的視頻。
按照研究者自己的壓縮類比,他們提出利用重復幀,并引入可擴展的 transformer 架構(gòu)來將空間和時間維度視為單個壓縮的 1D 潛在向量。研究者利用這種高壓縮的表示來聯(lián)合執(zhí)行時空計算,并對復雜運動進行建模。
本文的架構(gòu)受到 FIT(出自 2023 年論文 Far-reaching interleaved transformers)的啟發(fā),并首次將它擴展到了數(shù)十億參數(shù)。與 U-Net 相比,Snap Video 模型的訓練速度快了 3.31 倍,推理速度快了 4.49 倍,同時實現(xiàn)了更高的生成質(zhì)量。
我們先來看 Snap Video 的一些生成示例。
越野車和摩托車穿過廣闊的沙漠,空氣中彌漫著灰塵,追逐跳躍的沙丘、具有挑戰(zhàn)性的地形以及挑戰(zhàn)極限的參賽者的興奮感。(Dust fills the air as off-road vehicles and motorcycles tear through a vast desert landscape. Capture the excitement of jumps over sand dunes, challenging terrain, and competitors pushing the limits of their machines.)
一張柯基犬在時代廣場騎自行車的照片,它戴著太陽鏡和沙灘帽。(A photo of a Corgi dog riding a bike in Times Square. It is wearing sunglasses and a beach hat.)
在陡峭的懸崖頂上,兩名武士正在進行一場劍戰(zhàn),捕捉?jīng)Q斗的復雜編排,強調(diào)每一次沖突和招架,使用橫掃鏡頭來展示令人驚嘆的風景。(Atop dramatic cliffs, two warriors engage in a sword fight. Capture the intricate choreography of the duel, emphasizing every clash and parry. Use sweeping crane shots to showcase the breathtaking scenery.)
騎在獅子背上的牛仔熊貓,手持拍攝鏡頭。(a cowboy panda riding on the back of a lion, hand-held camera)
在浩瀚太空中,星際飛船展開了一場宇宙沖突,渲染航天器、爆炸和宇宙碎片的復雜細節(jié),利用橫掃鏡頭的移動來傳達戰(zhàn)斗的激烈程度和激烈時刻的特寫。(In the vastness of space, starships engage in a cosmic clash. Render intricate details of the spacecraft, explosions, and cosmic debris. Utilize sweeping camera movements to convey the enormity of the battle and close-ups for intense moments.)
前往電影拍攝地,水獺擔任電影導演,皺起眉頭、舉起爪子大喊「開機」,捕捉這一刻的緊張氣氛,聚焦導演椅、劇本和忙碌的攝制組的 4K 細節(jié),使用動態(tài)的攝像機角度來傳達電影布景的活力。(Transport to a movie set where an otter serves as a film director. Capture the intensity of the moment with furrowed brows and raised paws shouting "Action!" Focus on the 4K details of the director's chair, script, and the bustling film crew. Use dynamic camera angles to convey the energy of the film set.)
研究者在廣泛采用的 UCF101 和 MSR-VTT 數(shù)據(jù)集上對 Snap Video 進行評估,結(jié)果顯示,該模型在各種基準上均實現(xiàn)了 SOTA 性能,尤其能生成高質(zhì)量的運動。最有趣的是, 他們針對最近的開源和閉源方法展開大量用戶研究,參與者表示,Snap Video 具有與 Runway Gen-2 相當?shù)恼鎸嵏?,同時明顯優(yōu)于 Pika 和 Floor33。
此外,在評估文本對齊和運動質(zhì)量時,參與者大多偏向 Snap Video。與 Gen-2 在 prompt - 視頻對齊方面的對比時,Snap Video 在 81% 的情況下受到青睞(80% 不選擇 Pika、81% 不選擇 Floor33);在生成運動量最大的動態(tài)視頻方面,96% 不選擇 Gen2,89% 不選擇 Pika、88% 不選擇 Floor33;在生成最佳的運動質(zhì)量方面,79% 不選擇 Gen-2、 71% 不選擇 Pika、79% 不選擇 Floor33。
與 Runway Gen-2、Pika、Floor33 的比較結(jié)果一目了然。相同的 prompt:兩只大象在海灘上玩耍,享用著美味的沙拉醬牛肉大餐。(Two elephants are playing on the beach and enjoying a delicious beef stroganoff meal.)
一名男子騎著摩托車穿越城市,感受腎上腺素激增的感覺(A man cruises through the city on a motorcycle, feeling the adrenaline rush)
論文提出了生成高分辨率視頻的方法,即針對高維輸入重寫 EDM 擴散框架,并提出一種基于 FIT 的高效 transformer 架構(gòu),該架構(gòu)可擴展至數(shù)十億參數(shù)和數(shù)萬輸入 patch。
第 3.1 節(jié)介紹了 EDM 框架,第 3.2 節(jié)強調(diào)了將擴散框架應用于高維輸入所面臨的挑戰(zhàn),并提出了重新審視的基于 EDM 的擴散框架。第 3.3 節(jié)提出了一種縮小圖像和視頻聯(lián)合訓練模式之間差距的方法。最后,第 3.4 節(jié)介紹了本文的可擴展視頻生成架構(gòu),第 3.5 節(jié)和第 3.6 節(jié)分別介紹了訓練和推理過程。
我們重點看一下 3.3 節(jié)和 3.4 節(jié)的內(nèi)容。
用于生成高分辨率視頻的 EDM,如何實現(xiàn)圖像 - 視頻模態(tài)匹配
EDM 最初是作為圖像生成框架提出的,其參數(shù)針對 64 × 64px 圖像生成進行了優(yōu)化。改變空間分辨率或引入幀間共享內(nèi)容的視頻,可使去噪網(wǎng)絡以更高的信噪比(SNR)在原始分辨率下瑣碎地恢復有噪聲的幀,而原始框架的設計目的是在較低的噪聲水平下看到這種情況。
與圖像相比,有字幕的視頻數(shù)據(jù)量有限,因此研究上廣泛采用圖像 - 視頻聯(lián)合訓練的方法,通常對兩種模態(tài)采用相同的擴散過程,但視頻中 T 幀的存在需要采用與具有相同分辨率的圖像不同的處理過程。
其中一種可能性是對兩種模式采用不同的輸入縮放因子。本文研究者認為這種解決方案并不可取,因為它增加了框架的復雜性,而且圖像訓練無法促進去噪模型學習時間推理,而時間推理是視頻生成器的基本能力。
為了避免這些問題,同時使用統(tǒng)一的擴散過程,研究者將圖像視為具有無限幀率的 T 幀視頻,從而匹配圖像和視頻模態(tài),并引入可變幀率訓練程序,消除圖像和視頻模態(tài)之間的差距。
可擴展的視頻生成器
在視頻生成過程中,U-Net 通常使用時間注意力或卷積來建模時間維度。這種方法需要對 T 個視頻幀中的每個幀進行一次完整的 UNet 前向傳遞,其成本之高令人望而卻步(見圖 3a)。這些因素對模型的可擴展性造成了實際限制(可擴展性是實現(xiàn)高生成質(zhì)量的首要因素),同樣也限制了時空聯(lián)合建模的可能性。研究者認為,以可分離的方式處理空間和時間建模會導致運動偽影、時間不一致或生成動態(tài)圖像,而不是具有生動動態(tài)的視頻。視頻幀包含空間和時間上的冗余內(nèi)容,可以進行壓縮。學習和運算壓縮視頻表示法并對空間和時間維度進行聯(lián)合建模,是實現(xiàn)高質(zhì)量視頻生成所需的可擴展性和運動建模能力的必要步驟。
FIT 是一種基于 transformer 的高效架構(gòu),最近被提出用于高分辨率圖像合成和視頻生成。其主要思想如圖 3 所示,即通過一組可學習的潛在 token 來學習輸入的壓縮表示,并將計算集中在這個可學習的潛在空間上,從而允許輸入維度的增長而幾乎不影響性能。
雖然這些架構(gòu)前景廣闊,但尚未擴展到最先進的基于 U-Net 的視頻生成器的十億參數(shù)規(guī)模,也未應用于高分辨率視頻生成。要實現(xiàn)這些目標,需要考慮很多架構(gòu)因素。
時間建模是高質(zhì)量視頻生成器的一個基本方面。FIT 通過考慮跨越空間和時間維度的 Tp×Hp×Wp 大小的三維 patch 來生成 patch token。研究者發(fā)現(xiàn) Tp > 1 的值會限制時間建模的性能,因此只考慮跨空間維度的 patch。
與 patch 類似,F(xiàn)IT 也會將 patch token 分成跨越時間和空間維度的組,并逐組執(zhí)行交叉注意力運算。每組的時間尺寸應配置為每組覆蓋所有 T 個視頻幀,以獲得最佳的時間建模效果。此外,由于時間維度的存在,視頻比圖像包含更多的信息,因此增加了代表壓縮空間大小的潛在 token 的數(shù)量,在壓縮空間中進行聯(lián)合時空計算。最后,F(xiàn)IT 利用局部層對同一組對應的 patch token 進行自關(guān)注運算。
研究者發(fā)現(xiàn),對于大量的 patch token(最大分辨率為 147.456)來說,這種運算的計算成本很高,因此在每次交叉注意力「讀取」或「寫入」運算后,他們都會用一個前饋模塊來替代。
本文的模型利用由一系列調(diào)節(jié) token 表示的調(diào)節(jié)信息來控制生成過程。除了代表當前 σ 的標記外,為實現(xiàn)文本調(diào)節(jié),還引入了 T5-11B 文本編碼器,從輸入文本中提取文本嵌入。為了支持訓練數(shù)據(jù)中視頻幀率的變化以及分辨率和寬高比的巨大差異,本文連接了代表當前輸入幀率和原始分辨率的附加 token。
為了生成高分辨率的輸出,研究者部署了一個模型級聯(lián),包含生成 36×64px 視頻的第一階段模型和生成 288 × 512px 視頻的第二階段上采樣模型。
為了提高上采樣質(zhì)量,研究者在訓練期間使用可變級別的噪聲來破壞第二階段的低分辨率輸入,并在推理期間將一定級別的噪聲應用于超參數(shù)搜索獲得的第一階段輸出。
評估
消融實驗
在消融實驗中,研究者選擇了兩個不同容量的 U-Net 變體和一個較小的 FIT 變體,以評估這兩種架構(gòu)的可擴展性。
定量評估
表 4 和表 5 分別展示了 Snap Video 和 UCF101 、 MSR-VTT 的對比:
定性評估
定性評估如圖 4 所示,本文方法生成的樣本更能呈現(xiàn)出生動、高質(zhì)量的動態(tài)效果,避免了基線中出現(xiàn)的閃爍假象: