自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

完整復(fù)現(xiàn)Sora,Open-Sora最新技術(shù)報(bào)告發(fā)布,提供完整訓(xùn)練代碼、權(quán)重及數(shù)據(jù)處理工具 精華

發(fā)布于 2025-1-6 09:55
瀏覽
0收藏

完整復(fù)現(xiàn)Sora,Open-Sora最新技術(shù)報(bào)告發(fā)布,提供完整訓(xùn)練代碼、權(quán)重及數(shù)據(jù)處理工具-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2412.20404
項(xiàng)目鏈接:https://github.com/hpcaitech/Open-Sora

完整復(fù)現(xiàn)Sora,Open-Sora最新技術(shù)報(bào)告發(fā)布,提供完整訓(xùn)練代碼、權(quán)重及數(shù)據(jù)處理工具-AI.x社區(qū)

完整復(fù)現(xiàn)Sora,Open-Sora最新技術(shù)報(bào)告發(fā)布,提供完整訓(xùn)練代碼、權(quán)重及數(shù)據(jù)處理工具-AI.x社區(qū)

總結(jié)速覽

解決的問題
人工視覺智能,特別是生成和模擬我們所見世界的能力,相較于語言能力的突破仍然滯后?,F(xiàn)有視頻生成模型在高保真視頻內(nèi)容生成、靈活視頻合成及長時(shí)間視頻生成方面面臨諸多挑戰(zhàn)。

提出的方案
本文引入 Open-Sora,一個(gè)開源的視頻生成模型,支持文本生成圖像、文本生成視頻以及圖像生成視頻等多種視覺生成任務(wù)。通過空間-時(shí)間擴(kuò)散Transformer (Spatial-Temporal Diffusion Transformer, STDiT) 框架,將空間與時(shí)間的注意力機(jī)制解耦,同時(shí)采用高度壓縮的3D自編碼器以壓縮表示,加速訓(xùn)練過程。此外,提供完整的訓(xùn)練代碼、模型權(quán)重及數(shù)據(jù)處理工具,推動(dòng)社區(qū)發(fā)展。

應(yīng)用的技術(shù)

  • STDiT框架:高效的擴(kuò)散視頻生成框架,解耦空間和時(shí)間注意力。
  • 3D自編碼器:實(shí)現(xiàn)表示的高度壓縮,加速訓(xùn)練。
  • 定制化訓(xùn)練策略:優(yōu)化生成效率和效果。


達(dá)到的效果

  • 支持生成最長15秒、分辨率最高720p的視頻,并適配任意寬高比。
  • 在文本生成視頻、圖像生成視頻任務(wù)中實(shí)現(xiàn)可控的運(yùn)動(dòng)動(dòng)態(tài)生成。
  • 開源以來取得顯著成果,模型版本持續(xù)更新(v1.0到v1.2),當(dāng)前最新版本(v1.2)已實(shí)現(xiàn)完整復(fù)現(xiàn) OpenAI Sora 的技術(shù),并支持生成多分辨率視頻。

數(shù)據(jù)

數(shù)據(jù)來源

所使用的數(shù)據(jù)集全部開源,以確保模型訓(xùn)練的完全可復(fù)現(xiàn)性??傆?jì)生成了 30M 個(gè)視頻片段,時(shí)長從 2秒到16秒 不等,總時(shí)長達(dá) 80k小時(shí)。

  • Webvid-10M:包含10M個(gè)來自庫存視頻網(wǎng)站的視頻-文本對(duì)。視頻為低分辨率并帶有水印。
  • Panda-70M:一個(gè)大規(guī)模數(shù)據(jù)集,包含70M個(gè)視頻-字幕對(duì)。使用了其中20M高質(zhì)量子集進(jìn)行訓(xùn)練。
  • HD-VG-130M:由130M個(gè)文本-視頻對(duì)組成,字幕通過BLIP-2生成。發(fā)現(xiàn)其場景和文本質(zhì)量相對(duì)較差。
  • MiraData:一個(gè)高質(zhì)量數(shù)據(jù)集,包含77k個(gè)長視頻,主要來源于游戲和城市探索。
  • Vript:一個(gè)密集標(biāo)注的數(shù)據(jù)集,包含400k個(gè)視頻。
  • Inter4K:一個(gè)包含1k個(gè)4K分辨率視頻片段的數(shù)據(jù)集。

此外,還從 Pexels、Pixabay 和 Mixkit 獲取了免費(fèi)授權(quán)的視頻。這些網(wǎng)站上的大部分視頻質(zhì)量較高,對(duì)這些優(yōu)秀平臺(tái)及其貢獻(xiàn)者表示由衷的感謝。

圖像數(shù)據(jù)集與視頻一起訓(xùn)練,總計(jì)包含約 3M 張圖像:

  • LAION:一個(gè)大規(guī)模開放數(shù)據(jù)集,使用了美學(xué)評(píng)分大于6.5的子集。
  • Unsplash-lite:包含25k張自然主題的Unsplash照片,覆蓋了廣泛的使用場景和上下文。

數(shù)據(jù)預(yù)處理

高質(zhì)量數(shù)據(jù)對(duì)于訓(xùn)練優(yōu)秀的生成模型至關(guān)重要。為此建立了一條完整的數(shù)據(jù)處理pipeline,可將原始視頻無縫轉(zhuǎn)換為高質(zhì)量的視頻-文本對(duì)。pipeline如圖2所示。

完整復(fù)現(xiàn)Sora,Open-Sora最新技術(shù)報(bào)告發(fā)布,提供完整訓(xùn)練代碼、權(quán)重及數(shù)據(jù)處理工具-AI.x社區(qū)

數(shù)據(jù)處理步驟

  1. 場景檢測(cè)與視頻剪輯: 使用PySceneCut檢測(cè)場景并將視頻剪輯為多個(gè)片段。
  2. 高質(zhì)量視頻過濾: 主要遵循SVD 數(shù)據(jù)預(yù)處理pipeline
  • 美學(xué)評(píng)分 (Aesthetic Score):衡量視頻幀的美學(xué)偏好。使用來自LAION的評(píng)分器,并對(duì)每段視頻抽樣的三幀計(jì)算平均分。
  • 光流評(píng)分 (Optical Flow Score):衡量視頻的動(dòng)態(tài)變化程度,用于篩選低運(yùn)動(dòng)量的視頻。此任務(wù)使用UniMatch模型完成。
  • 文本場景過濾:部分視頻包含大量密集文字場景(如新聞廣播、廣告),不適合訓(xùn)練。使用OCR(光學(xué)字符識(shí)別)檢測(cè)視頻中的文本,含有過多文字的視頻將被移除。OCR 使用DBNet++模型,由MMOCR實(shí)現(xiàn)。
  1. 視頻字幕生成: 為視頻提供高質(zhì)量的字幕
  • 使用GPT-4V 和 PLLaVA 生成字幕。前者通過 API 提供服務(wù),后者為開源模型,可在本地部署。盡管生成結(jié)果存在一定程度的虛構(gòu)現(xiàn)象,但足以滿足訓(xùn)練文本生成視頻模型的需求。
  • 在實(shí)踐中,使用預(yù)訓(xùn)練的PLLaVA 13B 模型,并從每段視頻中選取 4幀 進(jìn)行字幕生成,采用 2×2 空間池化 形狀。
  • 字幕生成模型難以提供關(guān)于相機(jī)運(yùn)動(dòng)的信息,通過光流檢測(cè)相機(jī)運(yùn)動(dòng)并將其信息附加到字幕中。

完整復(fù)現(xiàn)Sora,Open-Sora最新技術(shù)報(bào)告發(fā)布,提供完整訓(xùn)練代碼、權(quán)重及數(shù)據(jù)處理工具-AI.x社區(qū)

最后階段所用視頻數(shù)據(jù)的統(tǒng)計(jì)信息如下圖4所示。展示了視頻時(shí)長和分辨率的基本統(tǒng)計(jì)數(shù)據(jù),以及美學(xué)評(píng)分和光流評(píng)分的分布。此外,還從視頻字幕中提取了與對(duì)象和動(dòng)作相關(guān)的標(biāo)簽,并統(tǒng)計(jì)了其頻率。

完整復(fù)現(xiàn)Sora,Open-Sora最新技術(shù)報(bào)告發(fā)布,提供完整訓(xùn)練代碼、權(quán)重及數(shù)據(jù)處理工具-AI.x社區(qū)

模型架構(gòu)

本文的視頻生成框架遵循 Sora 報(bào)告 的設(shè)計(jì)。視頻首先通過視頻壓縮網(wǎng)絡(luò)(即 3D 自編碼器)進(jìn)行壓縮,文本通過文本編碼器編碼。然后,一個(gè)類似 DiT 的 Transformer 處理視頻和文本的隱空間變量。

3D 自編碼器

在 Open-Sora 1.0 和 1.1 中,使用了 Stability-AI 的 2D VAE(84M 參數(shù)),該模型以 8×8 的比例對(duì)視頻進(jìn)行空間壓縮。為減少時(shí)間維度,通過每三幀提取一幀進(jìn)行下采樣。然而,這種方法由于生成的幀率(FPS)降低,導(dǎo)致時(shí)間流暢性較差。


為解決這一限制,Open-Sora 1.2 引入了一個(gè)受 OpenAI 的 Sora 啟發(fā)的視頻壓縮網(wǎng)絡(luò),在時(shí)間維度上實(shí)現(xiàn)了 4 倍壓縮。這消除了幀提取的需求,使視頻能夠以原始幀率生成。


由于訓(xùn)練 3D VAE 的計(jì)算需求較高,嘗試?yán)?nbsp;2D VAE 中嵌入的知識(shí)。通過 2D VAE 壓縮后,觀察到時(shí)間上相鄰的特征高度相關(guān)。基于這一觀察,開發(fā)了一個(gè)簡單但有效的視頻壓縮網(wǎng)絡(luò),先以 8×8 的比例進(jìn)行空間壓縮,然后在時(shí)間上以 4 倍壓縮。網(wǎng)絡(luò)架構(gòu)如下圖5所示。

完整復(fù)現(xiàn)Sora,Open-Sora最新技術(shù)報(bào)告發(fā)布,提供完整訓(xùn)練代碼、權(quán)重及數(shù)據(jù)處理工具-AI.x社區(qū)

  • 2D VAE 初始化:使用SDXL 的預(yù)訓(xùn)練 VAE。
  • 3D VAE 架構(gòu):采用Magvit-v2 的 VAE結(jié)構(gòu),總參數(shù)量為300M。結(jié)合2D VAE后,視頻壓縮網(wǎng)絡(luò)的總參數(shù)量為384M
  • 訓(xùn)練細(xì)節(jié):3D VAE 使用來自PexelsPixabay的視頻進(jìn)行訓(xùn)練,總共訓(xùn)練了1.2M 步,本地批量大小為1。訓(xùn)練數(shù)據(jù)主要為分辨率256×25617 幀短視頻片段。
  • 優(yōu)化:在 3D VAE 中使用了因果卷積以提高圖像重建精度。

完整復(fù)現(xiàn)Sora,Open-Sora最新技術(shù)報(bào)告發(fā)布,提供完整訓(xùn)練代碼、權(quán)重及數(shù)據(jù)處理工具-AI.x社區(qū)

訓(xùn)練過程
訓(xùn)練過程分為三個(gè)階段:

  • 階段 1(0–380k 步):使用8 張 GPU進(jìn)行訓(xùn)練,凍結(jié)2D VAE的權(quán)重。目標(biāo)包括重建2D VAE壓縮的特征,并應(yīng)用身份損失(identity loss)來對(duì)齊3D VAE2D VAE的特征。身份損失加速了收斂速度,并提高了初始圖像重建質(zhì)量。
  • 階段 2(380k–640k 步):移除了身份損失,3D VAE 通過訓(xùn)練進(jìn)一步優(yōu)化其時(shí)間維度的理解能力。
  • 階段 3(640k–1.2M 步):發(fā)現(xiàn)僅重建2D VAE特征不足以進(jìn)一步提升模型性能,因此損失函數(shù)被替換為直接重建原始視頻。在此階段,使用24 張 GPU,并通過隨機(jī)化視頻長度(最長34 幀)結(jié)合適當(dāng)?shù)牧闾畛鋵?shí)現(xiàn)混合視頻長度訓(xùn)練,從而提高了模型對(duì)不同視頻時(shí)長的魯棒性。

完整復(fù)現(xiàn)Sora,Open-Sora最新技術(shù)報(bào)告發(fā)布,提供完整訓(xùn)練代碼、權(quán)重及數(shù)據(jù)處理工具-AI.x社區(qū)

在前兩個(gè)階段,數(shù)據(jù)集由 80% 視頻數(shù)據(jù) 和 20% 圖像數(shù)據(jù) 組成。對(duì)于視頻訓(xùn)練,使用 17 幀視頻片段;圖像數(shù)據(jù)通過零填充與視頻輸入格式匹配。然而,這種方法導(dǎo)致了非標(biāo)準(zhǔn)長度視頻的模糊問題,而第三階段的混合長度訓(xùn)練有效解決了這一問題。

堆疊的 VAE 架構(gòu)在推理時(shí)占用的內(nèi)存極少,因?yàn)檩斎胍呀?jīng)經(jīng)過壓縮。為了提高效率,輸入視頻被分割為 17 幀的片段。與另一個(gè)開源 3D VAE 相比,本文的模型在顯著降低計(jì)算成本的同時(shí),性能與其相當(dāng)。

架構(gòu)

本文的模型架構(gòu)基于 PixArt,這是一種圖像擴(kuò)散 Transformer。文本通過 T5 文本編碼器 進(jìn)行編碼,視頻和文本隱空間變量之間采用 交叉注意力 機(jī)制。

完整復(fù)現(xiàn)Sora,Open-Sora最新技術(shù)報(bào)告發(fā)布,提供完整訓(xùn)練代碼、權(quán)重及數(shù)據(jù)處理工具-AI.x社區(qū)

為了實(shí)現(xiàn)高效的視頻生成,本文引入了一種空間-時(shí)間注意力機(jī)制,即 空間-時(shí)間擴(kuò)散 Transformer(STDiT),靈感來源于 Latte,替代了對(duì)所有tokens的完全注意力機(jī)制。具體來說:

  • 空間自注意力在每一幀內(nèi)應(yīng)用;
  • 時(shí)間注意力在相同空間位置的幀之間應(yīng)用。

為了專注于視頻生成,設(shè)計(jì)了基于強(qiáng)大的預(yù)訓(xùn)練圖像生成模型的架構(gòu)。模型以 PixArt-α 初始化,這是一種 T5 條件 DiT 結(jié)構(gòu),針對(duì)高質(zhì)量和高效圖像生成進(jìn)行了優(yōu)化。為新引入的時(shí)間注意力設(shè)計(jì)的投影層初始值設(shè)為 0,以保持模型在訓(xùn)練開始時(shí)的原始圖像生成能力。

時(shí)間注意力的加入使參數(shù)數(shù)量從 580M 增加到 1.1B。

條件控制

盡管文本到視頻生成具有高度的多樣性,但某些應(yīng)用場景需要更精確的控制。為了實(shí)現(xiàn)這一點(diǎn),通過引入圖像和視頻輸入的遮罩策略,擴(kuò)展了模型的功能,支持圖像到圖像視頻到視頻生成。如下圖 7 所示。

完整復(fù)現(xiàn)Sora,Open-Sora最新技術(shù)報(bào)告發(fā)布,提供完整訓(xùn)練代碼、權(quán)重及數(shù)據(jù)處理工具-AI.x社區(qū)

遮罩策略
在該方法中:

  • 被指定為條件控制的幀會(huì)被取消遮罩。
  • 在前向傳播過程中:
  • 取消遮罩的幀被賦予時(shí)間步為 0。
  • 其他幀保持其擴(kuò)散時(shí)間步。

然而,將該策略直接應(yīng)用于預(yù)訓(xùn)練模型通常會(huì)產(chǎn)生次優(yōu)結(jié)果,因?yàn)閿U(kuò)散模型未經(jīng)過處理單個(gè)樣本中混合時(shí)間步的訓(xùn)練。

受到 UL2 的啟發(fā),通過隨機(jī)遮罩策略解決了這一問題。具體來說,幀會(huì)以隨機(jī)模式取消遮罩,例如:

  • 第一幀
  • 前k幀
  • 最后一幀
  • 后k幀
  • 前后k幀的組合
  • 或完全隨機(jī)的幀。

在 Open-Sora 1.0 的基礎(chǔ)上,對(duì) 50% 的訓(xùn)練樣本應(yīng)用mask策略進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)模型在 10k 步之后能夠有效學(xué)習(xí)圖像和視頻的條件控制能力,同時(shí)對(duì)文本到視頻性能的影響最小。而較低的mask概率(例如 30%)會(huì)降低條件控制的效果。因此,從頭開始使用此mask策略預(yù)訓(xùn)練模型。


為了進(jìn)一步增強(qiáng)模型的控制能力,在字幕中附加分?jǐn)?shù),并將其作為附加條件輸入。這些分?jǐn)?shù)包括美學(xué)分?jǐn)?shù)、運(yùn)動(dòng)分?jǐn)?shù)和相機(jī)運(yùn)動(dòng)描述。例如,一個(gè)美學(xué)分?jǐn)?shù)為 5.5、運(yùn)動(dòng)分?jǐn)?shù)為 10,并檢測(cè)到相機(jī)運(yùn)動(dòng)為“向左平移”的視頻,其字幕格式為:
[原始字幕] 美學(xué)分?jǐn)?shù): 5.5,運(yùn)動(dòng)分?jǐn)?shù): 10,相機(jī)運(yùn)動(dòng): 向左平移。

在推理過程中,這些分?jǐn)?shù)也可以調(diào)整以影響視頻生成。對(duì)于相機(jī)運(yùn)動(dòng)條件控制,手動(dòng)標(biāo)注了 13,000 個(gè)高置信度的片段。

這種方法使模型能夠?qū)l件輸入有更細(xì)致的理解,從而提高了其在各種任務(wù)中生成高質(zhì)量、上下文相關(guān)視頻的能力。

訓(xùn)練策略

完整復(fù)現(xiàn)Sora,Open-Sora最新技術(shù)報(bào)告發(fā)布,提供完整訓(xùn)練代碼、權(quán)重及數(shù)據(jù)處理工具-AI.x社區(qū)

多分辨率和多長寬比

正如 Sora 的報(bào)告中所指出的,使用視頻的原始分辨率、長寬比和長度進(jìn)行訓(xùn)練能夠提高采樣的靈活性,并增強(qiáng)畫面構(gòu)圖能力。為實(shí)現(xiàn)這一目標(biāo),評(píng)估了三種方法:

  1. NaViT
  • 通過遮罩支持同一批次內(nèi)的動(dòng)態(tài)尺寸,效率損失最小。
  • 實(shí)現(xiàn)復(fù)雜,可能無法充分利用如 Flash Attention [8] 之類的優(yōu)化內(nèi)核。
  1. 填充(FiT)
  • 通過將較小分辨率填充到最大尺寸,支持同一批次內(nèi)的動(dòng)態(tài)尺寸。
  • 實(shí)現(xiàn)簡單,但對(duì)分辨率變化較大的情況下,內(nèi)存使用效率較低。
  1. 分桶(Bucket)(SDXL, PixArt)
  • 通過將樣本分組到預(yù)定義的“桶”中支持跨批次的動(dòng)態(tài)尺寸。
  • 每個(gè)批次內(nèi)分辨率、幀數(shù)和長寬比固定。分桶方法避免了遮罩或填充的復(fù)雜性,同時(shí)在統(tǒng)一尺寸的輸入上可以利用優(yōu)化操作。
  • 然而,這種方法的靈活性受到預(yù)定義尺寸集合的限制。

為簡單高效起見,采用了基于分桶的方法。預(yù)定義了一組固定的分辨率、長寬比和幀長度,并據(jù)此將樣本分配到相應(yīng)的桶中。每個(gè)桶由三元組 分辨率幀數(shù)長寬比 定義,以覆蓋大多數(shù)常見的視頻格式。在每個(gè)訓(xùn)練周期前,數(shù)據(jù)集會(huì)被重新打亂,樣本被分配到能夠容納其分辨率和幀長度的最大桶中。

為了進(jìn)一步優(yōu)化計(jì)算資源,為每個(gè)桶引入了兩個(gè)附加屬性:

  • 保留概率(Probability of Keeping in the Bucket)
    高分辨率視頻會(huì)根據(jù)概率被下采樣為較低分辨率,從而有效降低計(jì)算成本。
  • 批次大?。˙atch Size)
    根據(jù)每個(gè)桶的情況調(diào)整批次大小,以平衡 GPU 負(fù)載,確保資源利用效率。

通過對(duì)這些參數(shù)進(jìn)行微調(diào),我們?cè)谕爸g實(shí)現(xiàn)了樣本的均衡分布,在保持高質(zhì)量視頻生成的同時(shí)提升了總體訓(xùn)練效率。

這種基于分桶的策略在實(shí)現(xiàn)簡單性與計(jì)算效率之間提供了一個(gè)實(shí)用的折中,支持具有多樣化分辨率和長寬比的視頻訓(xùn)練。

模型適配

從 PixArt-Σ 2K checkpoint 開始,該模型使用 DDPM 和 SDXL VAE,在更高分辨率下進(jìn)行訓(xùn)練。通過在較小數(shù)據(jù)集上微調(diào),該模型被高效地適配到視頻生成任務(wù)中。適配過程包括多個(gè)連續(xù)階段,全部在 8 個(gè) H100 GPU 上完成:

  1. 多分辨率圖像生成
  • 訓(xùn)練模型以支持從 144p 到 2K 的分辨率,共 20k 步。
  1. 引入 QK 正則化
  • 為提高穩(wěn)定性,添加 QK-norm,訓(xùn)練 18k 步。
  1. 轉(zhuǎn)向修正流
  • 從離散時(shí)間的 DDPM 過渡到連續(xù)時(shí)間的修正流,共 10k 步。
  1. 強(qiáng)化修正流訓(xùn)練
  • 加入 logit-norm 采樣和分辨率感知時(shí)間步采樣,訓(xùn)練 33k 步。
  1. 更小的 AdamW epsilon

完整復(fù)現(xiàn)Sora,Open-Sora最新技術(shù)報(bào)告發(fā)布,提供完整訓(xùn)練代碼、權(quán)重及數(shù)據(jù)處理工具-AI.x社區(qū)

  1. 新 VAE 和 FPS 條件控制
  • 用 Open-Sora 的 VAE 替換原有 VAE,添加 FPS 條件控制到時(shí)間步條件控制中,訓(xùn)練 25k 步。
  • 在修正流訓(xùn)練中,對(duì)每個(gè)通道進(jìn)行歸一化被證明是關(guān)鍵步驟。
  1. 時(shí)間注意力模塊
  • 添加零初始化的時(shí)間注意力模塊,初始僅在圖像上訓(xùn)練 3k 步。
  1. 時(shí)間模塊的mask策略
  • 使用mask策略專注于視頻的時(shí)間注意力模塊,訓(xùn)練 38k 步。

適配后模型的優(yōu)勢(shì)

完成適配后,模型不僅保留了生成高質(zhì)量圖像的能力,還在視頻生成方面獲得了多重優(yōu)勢(shì):

  1. 加速訓(xùn)練和推理
  • 修正流將視頻采樣步驟從 100 減少到 30,顯著降低推理時(shí)間。
  1. 增強(qiáng)穩(wěn)定性
  • QK-norm 支持更激進(jìn)的優(yōu)化,提升訓(xùn)練效率。
  1. 高效的時(shí)間維度壓縮
  • 新 VAE 將時(shí)間維度壓縮至原來的四分之一,減少計(jì)算成本。
  1. 分辨率靈活性
  • 模型能夠生成多種分辨率的視頻,從 144p 到 2K,支持多樣化應(yīng)用場景。

這種全面的適配不僅提升了模型的視頻生成能力,還確保了訓(xùn)練的高效性和可擴(kuò)展性,為開源基于擴(kuò)散的視頻生成樹立了新的標(biāo)準(zhǔn)。

多階段訓(xùn)練

為了在有限的計(jì)算預(yù)算內(nèi)優(yōu)化性能,我們根據(jù)數(shù)據(jù)質(zhì)量精心組織訓(xùn)練數(shù)據(jù),并將訓(xùn)練過程分為三個(gè)階段。模型在一個(gè) 12×8 GPU 的設(shè)置上進(jìn)行了大約兩周的訓(xùn)練,完成了約 70k 步。


在第一階段,模型在 Webvid-10M 數(shù)據(jù)集(包含 40,000 小時(shí)的視頻)上進(jìn)行了 30k 步訓(xùn)練(2 個(gè) epoch)。該數(shù)據(jù)集主要包含分辨率低于 360p 且?guī)в兴〉囊曨l,非常適合初步訓(xùn)練。我們專注于 240p 和 360p 分辨率的視頻,長度為 2 到 16 秒。訓(xùn)練使用了原始數(shù)據(jù)集的字幕。


在第二階段,使用 Panda-70M 數(shù)據(jù)集 進(jìn)行了訓(xùn)練。由于該數(shù)據(jù)集的質(zhì)量不均,使用了官方的 30M 子集,并篩選出只有美學(xué)分?jǐn)?shù)高于 4.5 的視頻,最終得到 20M 的子集(41,000 小時(shí))。訓(xùn)練主要集中在 360p 和 480p 分辨率的視頻上,共進(jìn)行了 23k 步訓(xùn)練,約為 0.5 個(gè) epoch。雖然這一階段的訓(xùn)練沒有完全完成,但它為模型的廣泛應(yīng)用提供了足夠的改進(jìn)。


最后階段包括從各種來源精選的約 2M 高質(zhì)量視頻片段,總計(jì) 5,000 小時(shí)。這些視頻來自 MiraData 和 Vript,并由 GPT 生成了字幕,其他來源則使用 PLLaVA 標(biāo)注。該階段主要集中在更高分辨率(720p 和 1080p)的訓(xùn)練,以提升模型處理更大分辨率的能力。在訓(xùn)練過程中,采用了 25% 的mask比率,訓(xùn)練共進(jìn)行了 15k 步(約 2 個(gè) epoch)。


為了進(jìn)行驗(yàn)證,從 Pixabay 中隨機(jī)抽取了 1k 個(gè)視頻來評(píng)估模型的性能。評(píng)估損失值針對(duì)不同長度(2s、4s、8s、16s)和不同分辨率(144p、240p、360p、480p、720p)的圖像和視頻進(jìn)行了計(jì)算。每個(gè)配置的損失值在 10 個(gè)等距的時(shí)間步上進(jìn)行了平均。


還在訓(xùn)練過程中跟蹤了 VBench 分?jǐn)?shù)。VBench 是一個(gè)用于評(píng)估短視頻生成的自動(dòng)化基準(zhǔn)工具。使用 240p 2 秒的視頻計(jì)算分?jǐn)?shù),為模型的進(jìn)展提供了額外的驗(yàn)證。評(píng)估損失和 VBench 分?jǐn)?shù)都確認(rèn)了模型在整個(gè)訓(xùn)練過程中不斷取得進(jìn)展。訓(xùn)練過程中的 VBench 分?jǐn)?shù)和驗(yàn)證損失見下圖 9。

完整復(fù)現(xiàn)Sora,Open-Sora最新技術(shù)報(bào)告發(fā)布,提供完整訓(xùn)練代碼、權(quán)重及數(shù)據(jù)處理工具-AI.x社區(qū)

下表 2 顯示了各個(gè)模型的 VBench 分?jǐn)?shù),證明了 Open-Sora 在開源視頻生成模型中達(dá)到了行業(yè)領(lǐng)先水平。

完整復(fù)現(xiàn)Sora,Open-Sora最新技術(shù)報(bào)告發(fā)布,提供完整訓(xùn)練代碼、權(quán)重及數(shù)據(jù)處理工具-AI.x社區(qū)

結(jié)論

Open-Sora 代表了開源視頻生成領(lǐng)域的一次重大進(jìn)步,提供了一個(gè)全面的框架,包括數(shù)據(jù)處理、訓(xùn)練代碼和模型權(quán)重。通過成功地重現(xiàn)了 Sora 報(bào)告中的關(guān)鍵技術(shù),并實(shí)現(xiàn)了最長 16 秒的視頻生成,分辨率可達(dá) 720p,且支持可控的運(yùn)動(dòng)動(dòng)態(tài),Open-Sora 使得先進(jìn)的視頻生成技術(shù)得以普及。該項(xiàng)目不僅促進(jìn)了社區(qū)的合作,還為該領(lǐng)域未來的發(fā)展奠定了基礎(chǔ)。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/2JnePAI3YzBWrJj1ExlKWg??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦