自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Stable Video Diffusion來(lái)了,代碼權(quán)重已上線

人工智能 新聞
本周二,基于 Stable Diffusion 的視頻生成模型 Stable Video Diffusion 來(lái)了,AI 社區(qū)馬上開(kāi)始了熱議。

AI 畫(huà)圖的著名公司 Stability AI,終于入局 AI 生成視頻了。

本周二,基于 Stable Diffusion 的視頻生成模型 Stable Video Diffusion 來(lái)了,AI 社區(qū)馬上開(kāi)始了熱議。

很多人都表示「我們終于等到了」。

圖片

項(xiàng)目地址:https://github.com/Stability-AI/generative-models

現(xiàn)在,你可以基于原有的靜止圖像來(lái)生成一段幾秒鐘的視頻。

基于 Stability AI 原有的 Stable Diffusion 文生圖模型,Stable Video Diffusion 成為了開(kāi)源或已商業(yè)行列中為數(shù)不多的視頻生成模型之一。

圖片

圖片

但目前還不是所有人都可以使用,Stable Video Diffusion 已經(jīng)開(kāi)放了用戶候補(bǔ)名單注冊(cè)(https://stability.ai/contact)。

據(jù)介紹,Stable Video Diffusion 可以輕松適應(yīng)各種下游任務(wù),包括通過(guò)對(duì)多視圖數(shù)據(jù)集進(jìn)行微調(diào)從單個(gè)圖像進(jìn)行多視圖合成。Stability AI 表示,正在計(jì)劃建立和擴(kuò)展這個(gè)基礎(chǔ)的各種模型,類似于圍繞 stable diffusion 建立的生態(tài)系統(tǒng)。

圖片

圖片

Stable Video Diffusion 以兩種圖像到視頻模型的形式發(fā)布,能夠以每秒 3 到 30 幀之間的可定制幀速率生成 14 和 25 幀的視頻。

在外部評(píng)估中,Stability AI 證實(shí)這些模型超越了用戶偏好研究中領(lǐng)先的閉源模型:

圖片

Stability AI 強(qiáng)調(diào),Stable Video Diffusion 現(xiàn)階段不適用于現(xiàn)實(shí)世界或直接的商業(yè)應(yīng)用,后續(xù)將根據(jù)用戶對(duì)安全和質(zhì)量的見(jiàn)解和反饋完善該模型。

圖片

論文地址:https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

Stable Video Diffusion 是 Stability AI 各式各樣的開(kāi)源模型大家族中的一員?,F(xiàn)在看來(lái),他們的產(chǎn)品已經(jīng)橫跨圖像、語(yǔ)言、音頻、三維和代碼等多種模態(tài),這是他們致力于提升 AI 最好的證明。

Stable Video Diffusion 的技術(shù)層面

Stable Video Diffusion 作為一種高分辨率的視頻潛在擴(kuò)散模型,達(dá)到了文本到視頻或圖像到視頻的 SOTA 水平。近期,通過(guò)插入時(shí)間層并在小型高質(zhì)量視頻數(shù)據(jù)集上進(jìn)行微調(diào),為 2D 圖像合成訓(xùn)練的潛在擴(kuò)散模型已轉(zhuǎn)變?yōu)樯梢曨l模型。然而,文獻(xiàn)中的訓(xùn)練方法千差萬(wàn)別,該領(lǐng)域尚未就視頻數(shù)據(jù)整理的統(tǒng)一策略達(dá)成一致。

在 Stable Video Diffusion 的論文中,Stability AI 確定并評(píng)估了成功訓(xùn)練視頻潛在擴(kuò)散模型的三個(gè)不同階段:文本到圖像預(yù)訓(xùn)練、視頻預(yù)訓(xùn)練和高質(zhì)量視頻微調(diào)。他們還證明了精心準(zhǔn)備的預(yù)訓(xùn)練數(shù)據(jù)集對(duì)于生成高質(zhì)量視頻的重要性,并介紹了訓(xùn)練出一個(gè)強(qiáng)大基礎(chǔ)模型的系統(tǒng)化策劃流程,其中包括了字幕和過(guò)濾策略。

Stability AI 在論文中還探討了在高質(zhì)量數(shù)據(jù)上對(duì)基礎(chǔ)模型進(jìn)行微調(diào)的影響,并訓(xùn)練出一個(gè)可與閉源視頻生成相媲美的文本到視頻模型。該模型為下游任務(wù)提供了強(qiáng)大的運(yùn)動(dòng)表征,例如圖像到視頻的生成以及對(duì)攝像機(jī)運(yùn)動(dòng)特定的 LoRA 模塊的適應(yīng)性。除此之外,該模型還能夠提供強(qiáng)大的多視圖 3D 先驗(yàn),這可以作為多視圖擴(kuò)散模型的基礎(chǔ),模型以前饋方式生成對(duì)象的多個(gè)視圖,只需要較小的算力需求,性能還優(yōu)于基于圖像的方法。

圖片

具體而言,成功訓(xùn)練該模型包括以下三個(gè)階段:

階段一:圖像預(yù)訓(xùn)練。本文將圖像預(yù)訓(xùn)練視為訓(xùn)練 pipeline 的第一階段,并將初始模型建立在 Stable Diffusion 2.1 的基礎(chǔ)上,這樣一來(lái)為視頻模型配備了強(qiáng)大的視覺(jué)表示。為了分析圖像預(yù)訓(xùn)練的效果,本文還訓(xùn)練并比較了兩個(gè)相同的視頻模型。圖 3a 結(jié)果表明,圖像預(yù)訓(xùn)練模型在質(zhì)量和提示跟蹤方面都更受青睞。

階段 2:視頻預(yù)訓(xùn)練數(shù)據(jù)集。本文依靠人類偏好作為信號(hào)來(lái)創(chuàng)建合適的預(yù)訓(xùn)練數(shù)據(jù)集。本文創(chuàng)建的數(shù)據(jù)集為 LVD(Large Video Dataset ),由 580M 對(duì)帶注釋的視頻片段組成。

進(jìn)一步的研究表明生成的數(shù)據(jù)集包含可能會(huì)降低最終視頻模型性能的示例。因此,本文還采用了密集光流來(lái)注釋數(shù)據(jù)集。

此外,本文還應(yīng)用光學(xué)字符識(shí)別來(lái)清除包含大量文本的剪輯。最后,本文使用 CLIP 嵌入來(lái)注釋每個(gè)剪輯的第一幀、中間幀和最后一幀。下表提供了 LVD 數(shù)據(jù)集的一些統(tǒng)計(jì)信息:

階段 3:高質(zhì)量微調(diào)。為了分析視頻預(yù)訓(xùn)練對(duì)最后階段的影響,本文對(duì)三個(gè)模型進(jìn)行了微調(diào),這些模型僅在初始化方面有所不同。圖 4e 為結(jié)果。

圖片

看起來(lái)這是個(gè)好的開(kāi)始。什么時(shí)候,我們能用 AI 直接生成一部電影呢?

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-11-22 17:34:37

2023-05-26 15:53:48

MidjourneyAI圖像

2023-07-14 13:34:34

StableDiffusion模型

2023-01-10 16:08:04

人工智能擴(kuò)散模型

2024-09-14 14:09:40

2023-04-24 09:28:53

2023-06-12 10:25:45

模型訓(xùn)練

2022-12-23 15:46:14

AI開(kāi)源

2024-12-06 10:21:04

2021-07-19 22:31:39

微信微信客服移動(dòng)應(yīng)用

2019-05-14 09:53:31

代碼開(kāi)發(fā)工具

2024-03-25 00:25:00

2024-06-13 17:45:16

2023-02-10 21:12:41

GPUmacOSStable

2024-03-20 15:51:00

AI數(shù)據(jù)

2024-03-06 23:23:36

2023-04-20 17:47:57

模型開(kāi)源

2022-10-20 16:04:26

模型質(zhì)量

2023-03-06 12:35:45

AI大腦畫(huà)面圖像
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)