Stable Video Diffusion來(lái)了,代碼權(quán)重已上線
AI 畫(huà)圖的著名公司 Stability AI,終于入局 AI 生成視頻了。
本周二,基于 Stable Diffusion 的視頻生成模型 Stable Video Diffusion 來(lái)了,AI 社區(qū)馬上開(kāi)始了熱議。
很多人都表示「我們終于等到了」。
項(xiàng)目地址:https://github.com/Stability-AI/generative-models
現(xiàn)在,你可以基于原有的靜止圖像來(lái)生成一段幾秒鐘的視頻。
基于 Stability AI 原有的 Stable Diffusion 文生圖模型,Stable Video Diffusion 成為了開(kāi)源或已商業(yè)行列中為數(shù)不多的視頻生成模型之一。
但目前還不是所有人都可以使用,Stable Video Diffusion 已經(jīng)開(kāi)放了用戶候補(bǔ)名單注冊(cè)(https://stability.ai/contact)。
據(jù)介紹,Stable Video Diffusion 可以輕松適應(yīng)各種下游任務(wù),包括通過(guò)對(duì)多視圖數(shù)據(jù)集進(jìn)行微調(diào)從單個(gè)圖像進(jìn)行多視圖合成。Stability AI 表示,正在計(jì)劃建立和擴(kuò)展這個(gè)基礎(chǔ)的各種模型,類似于圍繞 stable diffusion 建立的生態(tài)系統(tǒng)。
Stable Video Diffusion 以兩種圖像到視頻模型的形式發(fā)布,能夠以每秒 3 到 30 幀之間的可定制幀速率生成 14 和 25 幀的視頻。
在外部評(píng)估中,Stability AI 證實(shí)這些模型超越了用戶偏好研究中領(lǐng)先的閉源模型:
Stability AI 強(qiáng)調(diào),Stable Video Diffusion 現(xiàn)階段不適用于現(xiàn)實(shí)世界或直接的商業(yè)應(yīng)用,后續(xù)將根據(jù)用戶對(duì)安全和質(zhì)量的見(jiàn)解和反饋完善該模型。
論文地址:https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets
Stable Video Diffusion 是 Stability AI 各式各樣的開(kāi)源模型大家族中的一員?,F(xiàn)在看來(lái),他們的產(chǎn)品已經(jīng)橫跨圖像、語(yǔ)言、音頻、三維和代碼等多種模態(tài),這是他們致力于提升 AI 最好的證明。
Stable Video Diffusion 的技術(shù)層面
Stable Video Diffusion 作為一種高分辨率的視頻潛在擴(kuò)散模型,達(dá)到了文本到視頻或圖像到視頻的 SOTA 水平。近期,通過(guò)插入時(shí)間層并在小型高質(zhì)量視頻數(shù)據(jù)集上進(jìn)行微調(diào),為 2D 圖像合成訓(xùn)練的潛在擴(kuò)散模型已轉(zhuǎn)變?yōu)樯梢曨l模型。然而,文獻(xiàn)中的訓(xùn)練方法千差萬(wàn)別,該領(lǐng)域尚未就視頻數(shù)據(jù)整理的統(tǒng)一策略達(dá)成一致。
在 Stable Video Diffusion 的論文中,Stability AI 確定并評(píng)估了成功訓(xùn)練視頻潛在擴(kuò)散模型的三個(gè)不同階段:文本到圖像預(yù)訓(xùn)練、視頻預(yù)訓(xùn)練和高質(zhì)量視頻微調(diào)。他們還證明了精心準(zhǔn)備的預(yù)訓(xùn)練數(shù)據(jù)集對(duì)于生成高質(zhì)量視頻的重要性,并介紹了訓(xùn)練出一個(gè)強(qiáng)大基礎(chǔ)模型的系統(tǒng)化策劃流程,其中包括了字幕和過(guò)濾策略。
Stability AI 在論文中還探討了在高質(zhì)量數(shù)據(jù)上對(duì)基礎(chǔ)模型進(jìn)行微調(diào)的影響,并訓(xùn)練出一個(gè)可與閉源視頻生成相媲美的文本到視頻模型。該模型為下游任務(wù)提供了強(qiáng)大的運(yùn)動(dòng)表征,例如圖像到視頻的生成以及對(duì)攝像機(jī)運(yùn)動(dòng)特定的 LoRA 模塊的適應(yīng)性。除此之外,該模型還能夠提供強(qiáng)大的多視圖 3D 先驗(yàn),這可以作為多視圖擴(kuò)散模型的基礎(chǔ),模型以前饋方式生成對(duì)象的多個(gè)視圖,只需要較小的算力需求,性能還優(yōu)于基于圖像的方法。
具體而言,成功訓(xùn)練該模型包括以下三個(gè)階段:
階段一:圖像預(yù)訓(xùn)練。本文將圖像預(yù)訓(xùn)練視為訓(xùn)練 pipeline 的第一階段,并將初始模型建立在 Stable Diffusion 2.1 的基礎(chǔ)上,這樣一來(lái)為視頻模型配備了強(qiáng)大的視覺(jué)表示。為了分析圖像預(yù)訓(xùn)練的效果,本文還訓(xùn)練并比較了兩個(gè)相同的視頻模型。圖 3a 結(jié)果表明,圖像預(yù)訓(xùn)練模型在質(zhì)量和提示跟蹤方面都更受青睞。
階段 2:視頻預(yù)訓(xùn)練數(shù)據(jù)集。本文依靠人類偏好作為信號(hào)來(lái)創(chuàng)建合適的預(yù)訓(xùn)練數(shù)據(jù)集。本文創(chuàng)建的數(shù)據(jù)集為 LVD(Large Video Dataset ),由 580M 對(duì)帶注釋的視頻片段組成。
進(jìn)一步的研究表明生成的數(shù)據(jù)集包含可能會(huì)降低最終視頻模型性能的示例。因此,本文還采用了密集光流來(lái)注釋數(shù)據(jù)集。
此外,本文還應(yīng)用光學(xué)字符識(shí)別來(lái)清除包含大量文本的剪輯。最后,本文使用 CLIP 嵌入來(lái)注釋每個(gè)剪輯的第一幀、中間幀和最后一幀。下表提供了 LVD 數(shù)據(jù)集的一些統(tǒng)計(jì)信息:
階段 3:高質(zhì)量微調(diào)。為了分析視頻預(yù)訓(xùn)練對(duì)最后階段的影響,本文對(duì)三個(gè)模型進(jìn)行了微調(diào),這些模型僅在初始化方面有所不同。圖 4e 為結(jié)果。
看起來(lái)這是個(gè)好的開(kāi)始。什么時(shí)候,我們能用 AI 直接生成一部電影呢?