自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="oep68"></style>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Stable Video Diffusion來(lái)了，代碼權(quán)重已上線

作者：機(jī)器之心 2023-11-22 11:22:57

人工智能新聞

本周二，基于 Stable Diffusion 的視頻生成模型 Stable Video Diffusion 來(lái)了，AI 社區(qū)馬上開(kāi)始了熱議。

AI 畫(huà)圖的著名公司 Stability AI，終于入局 AI 生成視頻了。

本周二，基于 Stable Diffusion 的視頻生成模型 Stable Video Diffusion 來(lái)了，AI 社區(qū)馬上開(kāi)始了熱議。

很多人都表示「我們終于等到了」。

項(xiàng)目地址：https://github.com/Stability-AI/generative-models

現(xiàn)在，你可以基于原有的靜止圖像來(lái)生成一段幾秒鐘的視頻。

基于 Stability AI 原有的 Stable Diffusion 文生圖模型，Stable Video Diffusion 成為了開(kāi)源或已商業(yè)行列中為數(shù)不多的視頻生成模型之一。

但目前還不是所有人都可以使用，Stable Video Diffusion 已經(jīng)開(kāi)放了用戶候補(bǔ)名單注冊(cè)（https://stability.ai/contact）。

據(jù)介紹，Stable Video Diffusion 可以輕松適應(yīng)各種下游任務(wù)，包括通過(guò)對(duì)多視圖數(shù)據(jù)集進(jìn)行微調(diào)從單個(gè)圖像進(jìn)行多視圖合成。Stability AI 表示，正在計(jì)劃建立和擴(kuò)展這個(gè)基礎(chǔ)的各種模型，類似于圍繞 stable diffusion 建立的生態(tài)系統(tǒng)。

Stable Video Diffusion 以兩種圖像到視頻模型的形式發(fā)布，能夠以每秒 3 到 30 幀之間的可定制幀速率生成 14 和 25 幀的視頻。

在外部評(píng)估中，Stability AI 證實(shí)這些模型超越了用戶偏好研究中領(lǐng)先的閉源模型：

Stability AI 強(qiáng)調(diào)，Stable Video Diffusion 現(xiàn)階段不適用于現(xiàn)實(shí)世界或直接的商業(yè)應(yīng)用，后續(xù)將根據(jù)用戶對(duì)安全和質(zhì)量的見(jiàn)解和反饋完善該模型。

論文地址：https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets

Stable Video Diffusion 是 Stability AI 各式各樣的開(kāi)源模型大家族中的一員?，F(xiàn)在看來(lái)，他們的產(chǎn)品已經(jīng)橫跨圖像、語(yǔ)言、音頻、三維和代碼等多種模態(tài)，這是他們致力于提升 AI 最好的證明。

Stable Video Diffusion 的技術(shù)層面

Stable Video Diffusion 作為一種高分辨率的視頻潛在擴(kuò)散模型，達(dá)到了文本到視頻或圖像到視頻的 SOTA 水平。近期，通過(guò)插入時(shí)間層并在小型高質(zhì)量視頻數(shù)據(jù)集上進(jìn)行微調(diào)，為 2D 圖像合成訓(xùn)練的潛在擴(kuò)散模型已轉(zhuǎn)變?yōu)樯梢曨l模型。然而，文獻(xiàn)中的訓(xùn)練方法千差萬(wàn)別，該領(lǐng)域尚未就視頻數(shù)據(jù)整理的統(tǒng)一策略達(dá)成一致。

在 Stable Video Diffusion 的論文中，Stability AI 確定并評(píng)估了成功訓(xùn)練視頻潛在擴(kuò)散模型的三個(gè)不同階段：文本到圖像預(yù)訓(xùn)練、視頻預(yù)訓(xùn)練和高質(zhì)量視頻微調(diào)。他們還證明了精心準(zhǔn)備的預(yù)訓(xùn)練數(shù)據(jù)集對(duì)于生成高質(zhì)量視頻的重要性，并介紹了訓(xùn)練出一個(gè)強(qiáng)大基礎(chǔ)模型的系統(tǒng)化策劃流程，其中包括了字幕和過(guò)濾策略。

Stability AI 在論文中還探討了在高質(zhì)量數(shù)據(jù)上對(duì)基礎(chǔ)模型進(jìn)行微調(diào)的影響，并訓(xùn)練出一個(gè)可與閉源視頻生成相媲美的文本到視頻模型。該模型為下游任務(wù)提供了強(qiáng)大的運(yùn)動(dòng)表征，例如圖像到視頻的生成以及對(duì)攝像機(jī)運(yùn)動(dòng)特定的 LoRA 模塊的適應(yīng)性。除此之外，該模型還能夠提供強(qiáng)大的多視圖 3D 先驗(yàn)，這可以作為多視圖擴(kuò)散模型的基礎(chǔ)，模型以前饋方式生成對(duì)象的多個(gè)視圖，只需要較小的算力需求，性能還優(yōu)于基于圖像的方法。

具體而言，成功訓(xùn)練該模型包括以下三個(gè)階段：

階段一：圖像預(yù)訓(xùn)練。本文將圖像預(yù)訓(xùn)練視為訓(xùn)練 pipeline 的第一階段，并將初始模型建立在 Stable Diffusion 2.1 的基礎(chǔ)上，這樣一來(lái)為視頻模型配備了強(qiáng)大的視覺(jué)表示。為了分析圖像預(yù)訓(xùn)練的效果，本文還訓(xùn)練并比較了兩個(gè)相同的視頻模型。圖 3a 結(jié)果表明，圖像預(yù)訓(xùn)練模型在質(zhì)量和提示跟蹤方面都更受青睞。

階段 2：視頻預(yù)訓(xùn)練數(shù)據(jù)集。本文依靠人類偏好作為信號(hào)來(lái)創(chuàng)建合適的預(yù)訓(xùn)練數(shù)據(jù)集。本文創(chuàng)建的數(shù)據(jù)集為 LVD（Large Video Dataset ），由 580M 對(duì)帶注釋的視頻片段組成。

進(jìn)一步的研究表明生成的數(shù)據(jù)集包含可能會(huì)降低最終視頻模型性能的示例。因此，本文還采用了密集光流來(lái)注釋數(shù)據(jù)集。

此外，本文還應(yīng)用光學(xué)字符識(shí)別來(lái)清除包含大量文本的剪輯。最后，本文使用 CLIP 嵌入來(lái)注釋每個(gè)剪輯的第一幀、中間幀和最后一幀。下表提供了 LVD 數(shù)據(jù)集的一些統(tǒng)計(jì)信息：

階段 3：高質(zhì)量微調(diào)。為了分析視頻預(yù)訓(xùn)練對(duì)最后階段的影響，本文對(duì)三個(gè)模型進(jìn)行了微調(diào)，這些模型僅在初始化方面有所不同。圖 4e 為結(jié)果。

看起來(lái)這是個(gè)好的開(kāi)始。什么時(shí)候，我們能用 AI 直接生成一部電影呢？

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)