視頻生成要有自己的系統(tǒng)!尤洋團隊歷時半年開源VideoSys 精華
自今年起,OpenAI 的 Sora 和其他基于 DiT 的視頻生成模型在 AI 領域掀起了又一波浪潮。但由于起步較晚,視頻生成領域的很多基礎設施都還有待完善。
今年 2 月份,新加坡國立大學尤洋團隊開源的一個名為 ???OpenDiT?? 的項目為訓練和部署 DiT 模型打開了新思路。這是一個易于使用、快速且內存高效的系統(tǒng),專門用于提高 DiT 應用程序的訓練和推理效率,包括文本到視頻生成和文本到圖像生成。
項目上線后非常受歡迎,尤洋團隊也一直在繼續(xù)這方面的工作,包括增加對 Open-Sora 等模型的支持,開發(fā) DSP、PAB 加速技術等。
最近,他們更是把這些進展都融合到了一起,開發(fā)出了一個名為 VideoSys 的視頻生成系統(tǒng)。
團隊表示,與 LLM 不同,視頻模型要處理長序列和復雜的執(zhí)行流程。并且模型的每個組件都具有獨特的特征,對內存和計算提出了不同的挑戰(zhàn)。
VideoSys 是一個簡單高效的視頻生成系統(tǒng),旨在讓視頻生成對于每個人而言都簡便、迅速且成本低廉。
此外,它還是一個開源項目,為視頻生成提供了一個用戶友好的高性能基礎設施。這個全面的工具包將支持從訓練、推理到服務和壓縮的整個 pipeline。它標志著視頻生成的新篇章。
從 OpenDiT 到 VideoSys,尤洋團隊的相關工作已經(jīng)收獲了 1.4k 的 star 量。
- 項目鏈接:https://github.com/NUS-HPC-AI-Lab/VideoSys?
VideoSys 的安裝、使用方法和相關技術如下。
安裝方法
安裝準備:
Python >= 3.10
PyTorch >= 1.13(建議使用 2.0 以上版本)
CUDA >= 11.6
強烈建議使用 Anaconda 創(chuàng)建一個新環(huán)境(Python>=3.10)來運行示例:
conda create -n videosys pythnotallow=3.10 -y
conda activate videosys
安裝 VideoSys:
git clone https://github.com/NUS-HPC-AI-Lab/VideoSyscd VideoSys
pip install -e .
使用方法
VideoSys 通過各種加速技術支持許多擴散模型,使這些模型能夠運行得更快并消耗更少的內存。
你可以在下表中找到所有可用模型及其支持的加速技術。
加速技術
Pyramid Attention Broadcast (PAB)
PAB 是業(yè)內第一種可以實時輸出的、基于 DiT 的視頻生成方法,無需任何訓練即可提供無損質量。通過減少冗余注意力計算,PAB 實現(xiàn)了高達 21.6 FPS 的幀率和 10.6 倍的加速,同時不會犧牲包括 Open-Sora、Open-Sora-Plan 和 Latte 在內的基于 DiT 的視頻生成模型的質量。值得注意的是,作為一種不需要訓練的方法,PAB 可以為任何未來基于 DiT 的視頻生成模型提供加速,讓其具備實時生成的能力。詳情請參見機器之心報道:《???史上首個實時 AI 視頻生成技術:DiT 通用,速度提升 10.6 倍??》
- 論文:https://arxiv.org/abs/2408.12588
- 博客:https://arxiv.org/abs/2403.10266
- 文檔:https://github.com/NUS-HPC-AI-Lab/VideoSys/blob/master/docs/pab.md
Dyanmic Sequence Parallelism(DSP)
DSP 是一種新穎、優(yōu)雅、超高效的序列并行算法,適用于 Open-Sora、Latte 等多維 transformer 架構。
與 sota 序列并行方法 DeepSpeed Ulysses 相比,它在 Open-Sora 中實現(xiàn)了 3 倍的訓練加速和 2 倍的推理加速。對于 10 秒(80 幀)的 512x512 視頻,Open-Sora 的推理延遲如下:
- 論文:https://arxiv.org/abs/2403.10266
- 文檔:https://github.com/NUS-HPC-AI-Lab/VideoSys/blob/master/docs/dsp.md?
更多詳細信息請參考該項目 Github 界面。
本文轉自 機器之心 ,作者:機器之心
