超越Sora!阿里正式完全開源最新、最強(qiáng)大的視頻生成模型 Wan2.1
阿里巴巴通義實(shí)驗(yàn)室正式開源了他們最新、最強(qiáng)大的視頻生成模型 Wan2.1 系列!
Wan2.1 亮點(diǎn)速覽
? 復(fù)雜運(yùn)動(dòng): 視頻動(dòng)作更流暢自然,復(fù)雜場(chǎng)景也能輕松駕馭
?? 物理模擬: 物體交互更真實(shí),視頻更具沉浸感
?? 電影質(zhì)感: 視覺效果更上一層樓,細(xì)節(jié)更豐富,更具藝術(shù)性
?? 可控編輯: 編輯能力更強(qiáng)大,創(chuàng)作空間更廣闊
?? 視覺文字: 中英文動(dòng)態(tài)文字生成,應(yīng)用場(chǎng)景更豐富
?? 音效音樂: 視聽體驗(yàn)一體化,視頻極具感染力
Wan2.1 系列模型家族,為不同需求的用戶提供了多樣化的選擇:
Wan2.1-I2V-14B: 圖像到視頻 (I2V) 領(lǐng)域的天花板! 140億參數(shù),720P高清畫質(zhì),I2V 性能 SOTA!Wan2.1-T2V-14B: 文本到視頻 (T2V) 領(lǐng)域的性能王者! 140億參數(shù),720P高清畫質(zhì),T2V 性能 SOTA! 獨(dú)家支持中英文文字生成!Wan2.1-T2V-1.3B: 消費(fèi)級(jí)顯卡的最佳拍檔! 13億參數(shù),480P流暢運(yùn)行,8GB顯存即可暢玩! 性能媲美部分閉源大模型!
阿里還附上了Wan2.1 的技術(shù)報(bào)告
從技術(shù)報(bào)告來看 Wan2.1 的突破性進(jìn)展,主要得益于以下幾大創(chuàng)新:
核心創(chuàng)新一: 3D 變分自編碼器 (VAE) —— 視頻壓縮與質(zhì)量的完美平衡!
Wan2.1 團(tuán)隊(duì)創(chuàng)新性地提出了3D 因果 VAE 架構(gòu),專為視頻生成量身打造! 它巧妙地融合了多種策略,在時(shí)空壓縮、內(nèi)存控制和時(shí)間因果性 之間找到了最佳平衡點(diǎn),讓 VAE更高效、更易擴(kuò)展,并與擴(kuò)散模型 DiT 完美結(jié)合!
長(zhǎng)視頻處理秘訣: 特征緩存機(jī)制 (Feature Cache Mechanism): 為了高效處理任意長(zhǎng)度的視頻,Wan2.1 的 VAE 在因果卷積模塊中引入了特征緩存機(jī)制。 它將視頻幀序列 (1+T 格式) 分割成 1 + T/4 個(gè) chunks,每個(gè) chunk 對(duì)應(yīng)一個(gè)潛在特征。 模型以 chunk-wise 策略 處理視頻,每次編解碼操作只處理對(duì)應(yīng)一個(gè)潛在表示的視頻 chunk。 每個(gè) chunk 的幀數(shù)被限制在 最多 4 幀,有效防止了 GPU 內(nèi)存溢出!
性能飛躍: 速度提升 2.5 倍! 實(shí)驗(yàn)證明,Wan2.1 的視頻 VAE 性能卓越,在視頻質(zhì)量和處理效率上都表現(xiàn)出色。 在相同的硬件環(huán)境 (單 A800 GPU) 下,Wan2.1 VAE 的 重建速度比 SOTA 方法 HunYuanVideo 快了 2.5 倍! 在高分辨率下,速度優(yōu)勢(shì)將更加明顯!
核心創(chuàng)新二: 視頻擴(kuò)散 DiT (Diffusion Transformer) —— 強(qiáng)大生成力的源泉!
Wan2.1 基于主流擴(kuò)散 Transformer 范式和 Flow Matching 框架構(gòu)建了視頻擴(kuò)散模型 DiT。 它巧妙地利用了T5 Encoder來編碼多語言文本,并通過在每個(gè) Transformer Block 中加入 交叉注意力,將文本信息深度融入模型結(jié)構(gòu)。
參數(shù)高效優(yōu)化: 線性層 + SiLU 層 + 共享 MLP: Wan2.1 采用線性層和 SiLU 層處理時(shí)間 Embedding,并預(yù)測(cè)六個(gè)調(diào)制參數(shù)。 關(guān)鍵在于,一個(gè)共享的 MLP被所有 Transformer Block 共用,每個(gè) Block 只學(xué)習(xí)不同的偏差 (biases)。 實(shí)驗(yàn)表明,這種方法在 參數(shù)規(guī)模不變的情況下,顯著提升了模型性能! 因此,1.3B 和 14B 模型都采用了這種架構(gòu)。
核心創(chuàng)新三: 模型擴(kuò)展與訓(xùn)練效率優(yōu)化 —— 更大模型,更快速度
為了訓(xùn)練更大規(guī)模的 Wan2.1 模型,并提升訓(xùn)練和推理效率,團(tuán)隊(duì)采用了多種并行策略:
訓(xùn)練加速: FSDP + 上下文并行 (CP): 訓(xùn)練時(shí),Wan2.1 使用FSDP (Fully Sharded Data Parallel) 進(jìn)行模型分片,并結(jié)合上下文并行 (CP)。 FSDP group 和 CP group 相交而非嵌套。 在 FSDP 中,數(shù)據(jù)并行 (DP) size 等于 FSDP size 除以 CP size。 在滿足內(nèi)存和單 batch 延遲要求后,使用 DP 進(jìn)行擴(kuò)展。
推理加速: 上下文并行 (CP): 推理時(shí),為了減少單視頻生成延遲,Wan2.1 選擇上下文并行 (CP) 進(jìn)行分布式加速。 對(duì)于 14B 等大型模型,模型分片 (FSDP)也是必需的。 考慮到視頻序列通常較長(zhǎng),F(xiàn)SDP 比張量并行 (TP) 通信開銷更小,并允許計(jì)算與通信重疊。
并行策略細(xì)節(jié): 2D 上下文并行: 訓(xùn)練和推理都采用相同的 2D 上下文并行策略: 機(jī)器間 (external layer) 使用 RingAttention,機(jī)器內(nèi) (intra-machine) 使用 Ulysses。 實(shí)驗(yàn)表明,在 Wan 14B 大模型上,使用 2D CP 和 FSDP 并行策略,DiT 實(shí)現(xiàn)了 近乎線性的加速!
核心創(chuàng)新四: Image-to-Video (I2V) —— 圖像驅(qū)動(dòng),精準(zhǔn)可控!
Wan2.1 在 Image-to-Video (I2V) 任務(wù)上也表現(xiàn)出色,實(shí)現(xiàn)了更強(qiáng)的 可控性。 其 I2V 的關(guān)鍵技術(shù)包括:
條件圖像引導(dǎo): 將 條件圖像作為視頻的第一幀,并與零填充幀沿時(shí)間軸拼接,形成引導(dǎo)幀 (guidance frames)。
VAE 壓縮條件信息: 使用 3D VAE 將引導(dǎo)幀壓縮為 條件潛在表示 (condition latent representation)。
二元掩碼 (Binary Mask) 控制生成區(qū)域: 引入二元掩碼,1 表示保留幀,0 表示需要生成的幀。 掩碼的空間尺寸與條件潛在表示匹配,時(shí)間長(zhǎng)度與目標(biāo)視頻相同。 掩碼會(huì)被重塑為與 VAE 的時(shí)間步幅相對(duì)應(yīng)的特定形狀。
融合機(jī)制: 將噪聲潛在表示、條件潛在表示和重塑后的掩碼沿通道軸拼接,輸入到 DiT 模型中。
I2V 專屬投影層: 由于 I2V DiT 模型的輸入通道數(shù)比 T2V 模型更多,因此增加了一個(gè) 額外的投影層,并用零值初始化。
CLIP 圖像編碼器 + MLP 全局上下文: 使用 CLIP 圖像編碼器** 提取條件圖像的特征表示。 通過三層 MLP** 將特征投影為全局上下文 (global context),并通過解耦交叉注意力 (decoupled cross-attention)** 注入到 DiT 模型中。
海量高質(zhì)量數(shù)據(jù)集 —— 模型性能的基石!
為了訓(xùn)練出強(qiáng)大的 Wan2.1 模型,通義實(shí)驗(yàn)室構(gòu)建了一個(gè) 規(guī)模龐大、質(zhì)量極高的數(shù)據(jù)集,包含 15 億個(gè)視頻和 100 億張圖像! 數(shù)據(jù)來源包括 內(nèi)部版權(quán)數(shù)據(jù)和公開數(shù)據(jù)。
四步數(shù)據(jù)清洗流程: 為了從海量數(shù)據(jù)中篩選出 高質(zhì)量、多樣化 的數(shù)據(jù),團(tuán)隊(duì)設(shè)計(jì)了 四步數(shù)據(jù)清洗流程,從 基本維度、視覺質(zhì)量和運(yùn)動(dòng)質(zhì)量 等方面對(duì)數(shù)據(jù)進(jìn)行嚴(yán)格篩選,確保訓(xùn)練數(shù)據(jù)的純凈度和有效性。 (具體四步流程細(xì)節(jié),期待官方技術(shù)報(bào)告的詳細(xì)解讀!)
寫在最后:
AI圈現(xiàn)在太卷了,阿里這次開源很有誠(chéng)意,但是感覺阿里現(xiàn)在需要一個(gè)拳頭產(chǎn)品來破圈了,DeepSeek的光環(huán)太耀眼了。