Open-Sora:讓所有人都能輕松制作高效視頻,可生成16秒720P視頻,模型代碼全開源!
Open-Sora是一項致力于高效制作高質量視頻的計劃。目的是讓所有人都能使用模型、工具和所有細節(jié)。通過采用開源原則,Open-Sora 不僅使高級視頻生成技術的使用變得民主化,而且還提供了一個簡化且用戶友好的平臺,簡化了視頻生成的復雜性。
Open-Sora的目標是在內容創(chuàng)作領域促進創(chuàng)新、創(chuàng)造力和包容性。目前已經(jīng)支持2s~15s、144p 到 720p、任意比例的文本轉圖片、文本轉視頻、圖片轉視頻、視頻轉視頻、無限時間生成。
Open-Sora的構建方法總結為以下幾個方面:
- 數(shù)據(jù)來源與處理
- 利用多個開放數(shù)據(jù)集(如Webvid-10M、Panda-70M等)生成30M個視頻剪輯,確保模型訓練的可重復性。
- 數(shù)據(jù)預處理采用完整的管道,包括場景切割、視頻過濾和文本生成,以確保高質量的視頻文本對。
- 模型架構
- 使用3D自編碼器對視頻進行壓縮,減少計算負擔,并通過文本編碼器處理文本輸入。
- 采用空間-時間注意力機制,使得模型在生成視頻時能夠同時考慮空間和時間信息。
- 訓練策略
- 采用多階段訓練策略,分為三個階段以優(yōu)化訓練效率。
- 通過動態(tài)分辨率和寬高比的支持,模型能夠適應不同的視頻生成任務,提升生成質量。
相關鏈接
- 論文:http://arxiv.org/abs/2412.20404v1
- 代碼:https://github.com/hpcaitech/Open-Sora
論文介紹
視覺和語言是人類的兩種基本感覺,它們構成了我們的認知能力和智力。雖然人工智能語言能力取得了重大突破,但人工智能視覺智能,尤其是生成和模擬我們所見世界的能力,卻遠遠落后。
為了促進人工智能視覺智能的發(fā)展和普及,作者創(chuàng)建了 OpenSora,這是一個旨在生成高保真視頻內容的開源視頻生成模型。Open-Sora 支持廣泛的視覺生成任務,包括文本到圖像生成、文本到視頻生成和圖像到視頻生成。該模型利用先進的深度學習架構和訓練/推理技術實現(xiàn)靈活的視頻合成,可以生成長達 15 秒、高達 720p 分辨率和任意寬高比的視頻內容。
具體來說,OpenSora引入了時空擴散變換器 (STDiT),這是一種高效的視頻擴散框架,可將空間和時間注意力分離。我們還引入了高度壓縮的 3D 自動編碼器,使表示緊湊,并通過臨時訓練策略進一步加速訓練。
Open-Sora 可以生成高保真視頻。帶有箭頭的圖像表示運動。
數(shù)據(jù)處理
高質量的數(shù)據(jù)對于訓練良好的生成模型至關重要。為此,OpenSora建立了完整的數(shù)據(jù)處理流程,可以將原始視頻無縫轉換為高質量的視頻-文本對。流程如下所示:
視頻描述
數(shù)據(jù)預處理
利用預訓練的 2D 自動編碼器的 3D 自動編碼器。
模型結構
模型架構基于 PixArt,這是一種圖像擴散變換器,其中使用 T5 文本編碼器對文本進行編碼,并在視頻和文本潛在特征之間應用交叉注意力。 為了實現(xiàn)高效的視頻生成,采用了一種時空注意力機制,即受Latte啟發(fā)的時空注意力機制,即空間時間擴散變換器 (STDiT),取代了對所有標記的完全注意力。具體而言,空間自注意力應用于每一幀內,而時間注意力應用于同一空間位置的跨幀。
為了專注于視頻生成,該模型以構建一個強大的預訓練圖像生成模型。該模型使用 PixArtα 進行初始化,PixArtα 是一種經(jīng)過 T5 條件處理的 DiT 結構,針對高質量和高效的圖像生成進行了優(yōu)化。新引入的時間注意力的投影層初始化為零,在訓練開始時保留了模型的原始圖像生成能力。時間注意力的加入使參數(shù)數(shù)量從 5.8 億增加到 1.1 億。
圖像和視頻到視頻生成的通用框架。
結論
Open-Sora 代表了開源視頻生成領域的重大進步,它提供了一個包括數(shù)據(jù)處理、訓練代碼和模型權重的綜合框架。通過成功復制 Sora 報告中的關鍵技術,并能夠生成長達 16 秒的高質量視頻,分辨率高達 720p,運動動態(tài)可控,Open-Sora 使高級視頻生成技術的使用變得民主化。這一舉措不僅促進了社區(qū)合作,還為該領域的未來發(fā)展奠定了基礎。