自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Open-Sora:讓所有人都能輕松制作高效視頻,可生成16秒720P視頻,模型代碼全開源!

人工智能 新聞
Open-Sora的目標是在內容創(chuàng)作領域促進創(chuàng)新、創(chuàng)造力和包容性。目前已經(jīng)支持2s~15s、144p 到 720p、任意比例的文本轉圖片、文本轉視頻、圖片轉視頻、視頻轉視頻、無限時間生成

Open-Sora是一項致力于高效制作高質量視頻的計劃。目的是讓所有人都能使用模型、工具和所有細節(jié)。通過采用開源原則,Open-Sora 不僅使高級視頻生成技術的使用變得民主化,而且還提供了一個簡化且用戶友好的平臺,簡化了視頻生成的復雜性。

Open-Sora的目標是在內容創(chuàng)作領域促進創(chuàng)新、創(chuàng)造力和包容性。目前已經(jīng)支持2s~15s、144p 到 720p、任意比例的文本轉圖片、文本轉視頻、圖片轉視頻、視頻轉視頻、無限時間生成。

圖片

Open-Sora的構建方法總結為以下幾個方面:

  1. 數(shù)據(jù)來源與處理
  • 利用多個開放數(shù)據(jù)集(如Webvid-10M、Panda-70M等)生成30M個視頻剪輯,確保模型訓練的可重復性。
  • 數(shù)據(jù)預處理采用完整的管道,包括場景切割、視頻過濾和文本生成,以確保高質量的視頻文本對。
  1. 模型架構
  • 使用3D自編碼器對視頻進行壓縮,減少計算負擔,并通過文本編碼器處理文本輸入。
  • 采用空間-時間注意力機制,使得模型在生成視頻時能夠同時考慮空間和時間信息。
  1. 訓練策略
  • 采用多階段訓練策略,分為三個階段以優(yōu)化訓練效率。
  • 通過動態(tài)分辨率和寬高比的支持,模型能夠適應不同的視頻生成任務,提升生成質量。

相關鏈接

  • 論文:http://arxiv.org/abs/2412.20404v1
  • 代碼:https://github.com/hpcaitech/Open-Sora

論文介紹

圖片

視覺和語言是人類的兩種基本感覺,它們構成了我們的認知能力和智力。雖然人工智能語言能力取得了重大突破,但人工智能視覺智能,尤其是生成和模擬我們所見世界的能力,卻遠遠落后。

為了促進人工智能視覺智能的發(fā)展和普及,作者創(chuàng)建了 OpenSora,這是一個旨在生成高保真視頻內容的開源視頻生成模型。Open-Sora 支持廣泛的視覺生成任務,包括文本到圖像生成、文本到視頻生成和圖像到視頻生成。該模型利用先進的深度學習架構和訓練/推理技術實現(xiàn)靈活的視頻合成,可以生成長達 15 秒、高達 720p 分辨率和任意寬高比的視頻內容。

具體來說,OpenSora引入了時空擴散變換器 (STDiT),這是一種高效的視頻擴散框架,可將空間和時間注意力分離。我們還引入了高度壓縮的 3D 自動編碼器,使表示緊湊,并通過臨時訓練策略進一步加速訓練。

圖片

Open-Sora 可以生成高保真視頻。帶有箭頭的圖像表示運動。

數(shù)據(jù)處理

高質量的數(shù)據(jù)對于訓練良好的生成模型至關重要。為此,OpenSora建立了完整的數(shù)據(jù)處理流程,可以將原始視頻無縫轉換為高質量的視頻-文本對。流程如下所示:

圖片

視頻描述

圖片

數(shù)據(jù)預處理

圖片

利用預訓練的 2D 自動編碼器的 3D 自動編碼器。

模型結構

圖片

模型架構基于 PixArt,這是一種圖像擴散變換器,其中使用 T5 文本編碼器對文本進行編碼,并在視頻和文本潛在特征之間應用交叉注意力。 為了實現(xiàn)高效的視頻生成,采用了一種時空注意力機制,即受Latte啟發(fā)的時空注意力機制,即空間時間擴散變換器 (STDiT),取代了對所有標記的完全注意力。具體而言,空間自注意力應用于每一幀內,而時間注意力應用于同一空間位置的跨幀。

為了專注于視頻生成,該模型以構建一個強大的預訓練圖像生成模型。該模型使用 PixArtα 進行初始化,PixArtα 是一種經(jīng)過 T5 條件處理的 DiT 結構,針對高質量和高效的圖像生成進行了優(yōu)化。新引入的時間注意力的投影層初始化為零,在訓練開始時保留了模型的原始圖像生成能力。時間注意力的加入使參數(shù)數(shù)量從 5.8 億增加到 1.1 億。

圖片

圖像和視頻到視頻生成的通用框架。

結論

Open-Sora 代表了開源視頻生成領域的重大進步,它提供了一個包括數(shù)據(jù)處理、訓練代碼和模型權重的綜合框架。通過成功復制 Sora 報告中的關鍵技術,并能夠生成長達 16 秒的高質量視頻,分辨率高達 720p,運動動態(tài)可控,Open-Sora 使高級視頻生成技術的使用變得民主化。這一舉措不僅促進了社區(qū)合作,還為該領域的未來發(fā)展奠定了基礎。

責任編輯:張燕妮 來源: AIGC Studio
相關推薦

2024-04-25 13:14:19

模型數(shù)據(jù)

2024-06-18 12:31:34

模型生成

2024-12-26 11:48:27

2011-05-03 11:01:32

GE數(shù)碼相機投影

2024-03-22 13:05:23

數(shù)據(jù)訓練

2024-03-18 08:02:26

2024-10-05 10:57:21

2025-02-27 12:44:41

2021-11-07 14:31:52

PythonWeb頁面

2024-03-25 09:03:07

Redis開源開發(fā)

2012-06-01 11:29:03

明基投影機

2011-10-13 09:28:58

明基投影儀

2024-11-25 10:30:00

AI視頻開源

2020-01-07 14:37:59

代碼開發(fā)AI

2024-05-30 13:13:43

2024-12-03 15:51:45

2019-04-15 13:39:10

容器開發(fā)Docker

2012-06-08 13:11:29

明基投影機

2024-11-08 17:34:38

點贊
收藏

51CTO技術棧公眾號