超越Sora！阿里正式完全開源最新、最強(qiáng)大的視頻生成模型 Wan2.1

作者：AI寒武紀(jì) 2025-02-27 12:44:41

人工智能開源

AI圈現(xiàn)在太卷了，阿里這次開源很有誠(chéng)意，但是感覺阿里現(xiàn)在需要一個(gè)拳頭產(chǎn)品來破圈了，DeepSeek的光環(huán)太耀眼了

阿里巴巴通義實(shí)驗(yàn)室正式開源了他們最新、最強(qiáng)大的視頻生成模型 Wan2.1 系列！

Wan2.1 亮點(diǎn)速覽

? 復(fù)雜運(yùn)動(dòng): 視頻動(dòng)作更流暢自然，復(fù)雜場(chǎng)景也能輕松駕馭

?? 物理模擬: 物體交互更真實(shí)，視頻更具沉浸感

?? 電影質(zhì)感: 視覺效果更上一層樓，細(xì)節(jié)更豐富，更具藝術(shù)性

?? 可控編輯: 編輯能力更強(qiáng)大，創(chuàng)作空間更廣闊

?? 視覺文字: 中英文動(dòng)態(tài)文字生成，應(yīng)用場(chǎng)景更豐富

?? 音效音樂: 視聽體驗(yàn)一體化，視頻極具感染力

Wan2.1 系列模型家族，為不同需求的用戶提供了多樣化的選擇：

Wan2.1-I2V-14B: 圖像到視頻 (I2V) 領(lǐng)域的天花板！ 140億參數(shù)，720P高清畫質(zhì)，I2V 性能 SOTA！Wan2.1-T2V-14B: 文本到視頻 (T2V) 領(lǐng)域的性能王者！ 140億參數(shù)，720P高清畫質(zhì)，T2V 性能 SOTA！獨(dú)家支持中英文文字生成！Wan2.1-T2V-1.3B: 消費(fèi)級(jí)顯卡的最佳拍檔！ 13億參數(shù)，480P流暢運(yùn)行，8GB顯存即可暢玩！性能媲美部分閉源大模型！

阿里還附上了Wan2.1 的技術(shù)報(bào)告

從技術(shù)報(bào)告來看 Wan2.1 的突破性進(jìn)展，主要得益于以下幾大創(chuàng)新：

核心創(chuàng)新一： 3D 變分自編碼器 (VAE) —— 視頻壓縮與質(zhì)量的完美平衡！

Wan2.1 團(tuán)隊(duì)創(chuàng)新性地提出了3D 因果 VAE 架構(gòu)，專為視頻生成量身打造！它巧妙地融合了多種策略，在時(shí)空壓縮、內(nèi)存控制和時(shí)間因果性之間找到了最佳平衡點(diǎn)，讓 VAE更高效、更易擴(kuò)展，并與擴(kuò)散模型 DiT 完美結(jié)合！

長(zhǎng)視頻處理秘訣：特征緩存機(jī)制 (Feature Cache Mechanism)：為了高效處理任意長(zhǎng)度的視頻，Wan2.1 的 VAE 在因果卷積模塊中引入了特征緩存機(jī)制。它將視頻幀序列 (1+T 格式) 分割成 1 + T/4 個(gè) chunks，每個(gè) chunk 對(duì)應(yīng)一個(gè)潛在特征。模型以 chunk-wise 策略 處理視頻，每次編解碼操作只處理對(duì)應(yīng)一個(gè)潛在表示的視頻 chunk。每個(gè) chunk 的幀數(shù)被限制在 最多 4 幀，有效防止了 GPU 內(nèi)存溢出！

性能飛躍：速度提升 2.5 倍！ 實(shí)驗(yàn)證明，Wan2.1 的視頻 VAE 性能卓越，在視頻質(zhì)量和處理效率上都表現(xiàn)出色。在相同的硬件環(huán)境 (單 A800 GPU) 下，Wan2.1 VAE 的重建速度比 SOTA 方法 HunYuanVideo 快了 2.5 倍！在高分辨率下，速度優(yōu)勢(shì)將更加明顯！

核心創(chuàng)新二：視頻擴(kuò)散 DiT (Diffusion Transformer) —— 強(qiáng)大生成力的源泉！

Wan2.1 基于主流擴(kuò)散 Transformer 范式和 Flow Matching 框架構(gòu)建了視頻擴(kuò)散模型 DiT。它巧妙地利用了T5 Encoder來編碼多語言文本，并通過在每個(gè) Transformer Block 中加入 交叉注意力，將文本信息深度融入模型結(jié)構(gòu)。

參數(shù)高效優(yōu)化：線性層 + SiLU 層 + 共享 MLP： Wan2.1 采用線性層和 SiLU 層處理時(shí)間 Embedding，并預(yù)測(cè)六個(gè)調(diào)制參數(shù)。關(guān)鍵在于，一個(gè)共享的 MLP被所有 Transformer Block 共用，每個(gè) Block 只學(xué)習(xí)不同的偏差 (biases)。實(shí)驗(yàn)表明，這種方法在 參數(shù)規(guī)模不變的情況下，顯著提升了模型性能！因此，1.3B 和 14B 模型都采用了這種架構(gòu)。

核心創(chuàng)新三：模型擴(kuò)展與訓(xùn)練效率優(yōu)化 —— 更大模型，更快速度

為了訓(xùn)練更大規(guī)模的 Wan2.1 模型，并提升訓(xùn)練和推理效率，團(tuán)隊(duì)采用了多種并行策略：

訓(xùn)練加速： FSDP + 上下文并行 (CP)：訓(xùn)練時(shí)，Wan2.1 使用FSDP (Fully Sharded Data Parallel) 進(jìn)行模型分片，并結(jié)合上下文并行 (CP)。 FSDP group 和 CP group 相交而非嵌套。在 FSDP 中，數(shù)據(jù)并行 (DP) size 等于 FSDP size 除以 CP size。在滿足內(nèi)存和單 batch 延遲要求后，使用 DP 進(jìn)行擴(kuò)展。

推理加速：上下文并行 (CP)：推理時(shí)，為了減少單視頻生成延遲，Wan2.1 選擇上下文并行 (CP) 進(jìn)行分布式加速。對(duì)于 14B 等大型模型，模型分片 (FSDP)也是必需的。考慮到視頻序列通常較長(zhǎng)，F(xiàn)SDP 比張量并行 (TP) 通信開銷更小，并允許計(jì)算與通信重疊。

并行策略細(xì)節(jié)： 2D 上下文并行：訓(xùn)練和推理都采用相同的 2D 上下文并行策略：機(jī)器間 (external layer) 使用 RingAttention，機(jī)器內(nèi) (intra-machine) 使用 Ulysses。實(shí)驗(yàn)表明，在 Wan 14B 大模型上，使用 2D CP 和 FSDP 并行策略，DiT 實(shí)現(xiàn)了近乎線性的加速！

核心創(chuàng)新四： Image-to-Video (I2V) —— 圖像驅(qū)動(dòng)，精準(zhǔn)可控！

Wan2.1 在 Image-to-Video (I2V) 任務(wù)上也表現(xiàn)出色，實(shí)現(xiàn)了更強(qiáng)的 可控性。其 I2V 的關(guān)鍵技術(shù)包括：

條件圖像引導(dǎo): 將條件圖像作為視頻的第一幀，并與零填充幀沿時(shí)間軸拼接，形成引導(dǎo)幀 (guidance frames)。

VAE 壓縮條件信息: 使用 3D VAE 將引導(dǎo)幀壓縮為條件潛在表示 (condition latent representation)。

二元掩碼 (Binary Mask) 控制生成區(qū)域: 引入二元掩碼，1 表示保留幀，0 表示需要生成的幀。掩碼的空間尺寸與條件潛在表示匹配，時(shí)間長(zhǎng)度與目標(biāo)視頻相同。掩碼會(huì)被重塑為與 VAE 的時(shí)間步幅相對(duì)應(yīng)的特定形狀。

融合機(jī)制: 將噪聲潛在表示、條件潛在表示和重塑后的掩碼沿通道軸拼接，輸入到 DiT 模型中。

I2V 專屬投影層: 由于 I2V DiT 模型的輸入通道數(shù)比 T2V 模型更多，因此增加了一個(gè) 額外的投影層，并用零值初始化。

CLIP 圖像編碼器 + MLP 全局上下文: 使用 CLIP 圖像編碼器** 提取條件圖像的特征表示。通過三層 MLP** 將特征投影為全局上下文 (global context)，并通過解耦交叉注意力 (decoupled cross-attention)** 注入到 DiT 模型中。

海量高質(zhì)量數(shù)據(jù)集 —— 模型性能的基石！

為了訓(xùn)練出強(qiáng)大的 Wan2.1 模型，通義實(shí)驗(yàn)室構(gòu)建了一個(gè) 規(guī)模龐大、質(zhì)量極高的數(shù)據(jù)集，包含 15 億個(gè)視頻和 100 億張圖像！數(shù)據(jù)來源包括 內(nèi)部版權(quán)數(shù)據(jù)和公開數(shù)據(jù)。

四步數(shù)據(jù)清洗流程: 為了從海量數(shù)據(jù)中篩選出 高質(zhì)量、多樣化 的數(shù)據(jù)，團(tuán)隊(duì)設(shè)計(jì)了 四步數(shù)據(jù)清洗流程，從 基本維度、視覺質(zhì)量和運(yùn)動(dòng)質(zhì)量 等方面對(duì)數(shù)據(jù)進(jìn)行嚴(yán)格篩選，確保訓(xùn)練數(shù)據(jù)的純凈度和有效性。 (具體四步流程細(xì)節(jié)，期待官方技術(shù)報(bào)告的詳細(xì)解讀！)