自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<sub id="sxstg"></sub>}

<style id="sxstg"></style>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

Open-Sora：讓所有人都能輕松制作高效視頻，可生成16秒720P視頻，模型代碼全開源！

作者：AIGC Studio 2025-01-10 09:40:00

人工智能新聞

Open-Sora的目標是在內容創(chuàng)作領域促進創(chuàng)新、創(chuàng)造力和包容性。目前已經(jīng)支持2s~15s、144p 到 720p、任意比例的文本轉圖片、文本轉視頻、圖片轉視頻、視頻轉視頻、無限時間生成

Open-Sora是一項致力于高效制作高質量視頻的計劃。目的是讓所有人都能使用模型、工具和所有細節(jié)。通過采用開源原則，Open-Sora 不僅使高級視頻生成技術的使用變得民主化，而且還提供了一個簡化且用戶友好的平臺，簡化了視頻生成的復雜性。

Open-Sora的目標是在內容創(chuàng)作領域促進創(chuàng)新、創(chuàng)造力和包容性。目前已經(jīng)支持2s~15s、144p 到 720p、任意比例的文本轉圖片、文本轉視頻、圖片轉視頻、視頻轉視頻、無限時間生成。

Open-Sora的構建方法總結為以下幾個方面：

數(shù)據(jù)來源與處理

利用多個開放數(shù)據(jù)集（如Webvid-10M、Panda-70M等）生成30M個視頻剪輯，確保模型訓練的可重復性。
數(shù)據(jù)預處理采用完整的管道，包括場景切割、視頻過濾和文本生成，以確保高質量的視頻文本對。

模型架構

使用3D自編碼器對視頻進行壓縮，減少計算負擔，并通過文本編碼器處理文本輸入。
采用空間-時間注意力機制，使得模型在生成視頻時能夠同時考慮空間和時間信息。

訓練策略

采用多階段訓練策略，分為三個階段以優(yōu)化訓練效率。
通過動態(tài)分辨率和寬高比的支持，模型能夠適應不同的視頻生成任務，提升生成質量。

相關鏈接

論文：http://arxiv.org/abs/2412.20404v1
代碼：https://github.com/hpcaitech/Open-Sora

論文介紹

視覺和語言是人類的兩種基本感覺，它們構成了我們的認知能力和智力。雖然人工智能語言能力取得了重大突破，但人工智能視覺智能，尤其是生成和模擬我們所見世界的能力，卻遠遠落后。

為了促進人工智能視覺智能的發(fā)展和普及，作者創(chuàng)建了 OpenSora，這是一個旨在生成高保真視頻內容的開源視頻生成模型。Open-Sora 支持廣泛的視覺生成任務，包括文本到圖像生成、文本到視頻生成和圖像到視頻生成。該模型利用先進的深度學習架構和訓練/推理技術實現(xiàn)靈活的視頻合成，可以生成長達 15 秒、高達 720p 分辨率和任意寬高比的視頻內容。

具體來說，OpenSora引入了時空擴散變換器 (STDiT)，這是一種高效的視頻擴散框架，可將空間和時間注意力分離。我們還引入了高度壓縮的 3D 自動編碼器，使表示緊湊，并通過臨時訓練策略進一步加速訓練。

Open-Sora 可以生成高保真視頻。帶有箭頭的圖像表示運動。

數(shù)據(jù)處理

高質量的數(shù)據(jù)對于訓練良好的生成模型至關重要。為此，OpenSora建立了完整的數(shù)據(jù)處理流程，可以將原始視頻無縫轉換為高質量的視頻-文本對。流程如下所示:

視頻描述

數(shù)據(jù)預處理

利用預訓練的 2D 自動編碼器的 3D 自動編碼器。

模型結構

模型架構基于 PixArt，這是一種圖像擴散變換器，其中使用 T5 文本編碼器對文本進行編碼，并在視頻和文本潛在特征之間應用交叉注意力。為了實現(xiàn)高效的視頻生成，采用了一種時空注意力機制，即受Latte啟發(fā)的時空注意力機制，即空間時間擴散變換器 (STDiT)，取代了對所有標記的完全注意力。具體而言，空間自注意力應用于每一幀內，而時間注意力應用于同一空間位置的跨幀。

為了專注于視頻生成，該模型以構建一個強大的預訓練圖像生成模型。該模型使用 PixArtα 進行初始化，PixArtα 是一種經(jīng)過 T5 條件處理的 DiT 結構，針對高質量和高效的圖像生成進行了優(yōu)化。新引入的時間注意力的投影層初始化為零，在訓練開始時保留了模型的原始圖像生成能力。時間注意力的加入使參數(shù)數(shù)量從 5.8 億增加到 1.1 億。

圖像和視頻到視頻生成的通用框架。

結論

Open-Sora 代表了開源視頻生成領域的重大進步，它提供了一個包括數(shù)據(jù)處理、訓練代碼和模型權重的綜合框架。通過成功復制 Sora 報告中的關鍵技術，并能夠生成長達 16 秒的高質量視頻，分辨率高達 720p，運動動態(tài)可控，Open-Sora 使高級視頻生成技術的使用變得民主化。這一舉措不僅促進了社區(qū)合作，還為該領域的未來發(fā)展奠定了基礎。

責任編輯：張燕妮來源： AIGC Studio

視頻生成 AI 開源

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<style id="9lgdn"></style>

<style id="9lgdn"></style>