自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超越Sora!阿里正式完全開源最新、最強(qiáng)大的視頻生成模型 Wan2.1

人工智能 開源
AI圈現(xiàn)在太卷了,阿里這次開源很有誠(chéng)意,但是感覺阿里現(xiàn)在需要一個(gè)拳頭產(chǎn)品來破圈了,DeepSeek的光環(huán)太耀眼了

阿里巴巴通義實(shí)驗(yàn)室正式開源了他們最新、最強(qiáng)大的視頻生成模型 Wan2.1 系列!

Wan2.1 亮點(diǎn)速覽

? 復(fù)雜運(yùn)動(dòng): 視頻動(dòng)作更流暢自然,復(fù)雜場(chǎng)景也能輕松駕馭

?? 物理模擬: 物體交互更真實(shí),視頻更具沉浸感

?? 電影質(zhì)感: 視覺效果更上一層樓,細(xì)節(jié)更豐富,更具藝術(shù)性

?? 可控編輯: 編輯能力更強(qiáng)大,創(chuàng)作空間更廣闊

?? 視覺文字: 中英文動(dòng)態(tài)文字生成,應(yīng)用場(chǎng)景更豐富

?? 音效音樂: 視聽體驗(yàn)一體化,視頻極具感染力

Wan2.1 系列模型家族,為不同需求的用戶提供了多樣化的選擇:

Wan2.1-I2V-14B圖像到視頻 (I2V) 領(lǐng)域的天花板! 140億參數(shù),720P高清畫質(zhì),I2V 性能 SOTA!Wan2.1-T2V-14B文本到視頻 (T2V) 領(lǐng)域的性能王者! 140億參數(shù),720P高清畫質(zhì),T2V 性能 SOTA! 獨(dú)家支持中英文文字生成!Wan2.1-T2V-1.3B消費(fèi)級(jí)顯卡的最佳拍檔! 13億參數(shù),480P流暢運(yùn)行,8GB顯存即可暢玩! 性能媲美部分閉源大模型!

阿里還附上了Wan2.1 的技術(shù)報(bào)告

從技術(shù)報(bào)告來看 Wan2.1 的突破性進(jìn)展,主要得益于以下幾大創(chuàng)新:

核心創(chuàng)新一: 3D 變分自編碼器 (VAE) —— 視頻壓縮與質(zhì)量的完美平衡!

Wan2.1 團(tuán)隊(duì)創(chuàng)新性地提出了3D 因果 VAE 架構(gòu),專為視頻生成量身打造! 它巧妙地融合了多種策略,在時(shí)空壓縮、內(nèi)存控制和時(shí)間因果性 之間找到了最佳平衡點(diǎn),讓 VAE更高效、更易擴(kuò)展,并與擴(kuò)散模型 DiT 完美結(jié)合!

圖片

長(zhǎng)視頻處理秘訣: 特征緩存機(jī)制 (Feature Cache Mechanism): 為了高效處理任意長(zhǎng)度的視頻,Wan2.1 的 VAE 在因果卷積模塊中引入了特征緩存機(jī)制。 它將視頻幀序列 (1+T 格式) 分割成 1 + T/4 個(gè) chunks,每個(gè) chunk 對(duì)應(yīng)一個(gè)潛在特征。 模型以 chunk-wise 策略 處理視頻,每次編解碼操作只處理對(duì)應(yīng)一個(gè)潛在表示的視頻 chunk。 每個(gè) chunk 的幀數(shù)被限制在 最多 4 幀,有效防止了 GPU 內(nèi)存溢出!

性能飛躍: 速度提升 2.5 倍! 實(shí)驗(yàn)證明,Wan2.1 的視頻 VAE 性能卓越,在視頻質(zhì)量和處理效率上都表現(xiàn)出色。 在相同的硬件環(huán)境 (單 A800 GPU) 下,Wan2.1 VAE 的 重建速度比 SOTA 方法 HunYuanVideo 快了 2.5 倍! 在高分辨率下,速度優(yōu)勢(shì)將更加明顯!

圖片

核心創(chuàng)新二: 視頻擴(kuò)散 DiT (Diffusion Transformer) —— 強(qiáng)大生成力的源泉!

Wan2.1 基于主流擴(kuò)散 Transformer 范式和 Flow Matching 框架構(gòu)建了視頻擴(kuò)散模型 DiT。 它巧妙地利用了T5 Encoder來編碼多語言文本,并通過在每個(gè) Transformer Block 中加入 交叉注意力,將文本信息深度融入模型結(jié)構(gòu)。

參數(shù)高效優(yōu)化: 線性層 + SiLU 層 + 共享 MLP: Wan2.1 采用線性層和 SiLU 層處理時(shí)間 Embedding,并預(yù)測(cè)六個(gè)調(diào)制參數(shù)。 關(guān)鍵在于,一個(gè)共享的 MLP被所有 Transformer Block 共用,每個(gè) Block 只學(xué)習(xí)不同的偏差 (biases)。 實(shí)驗(yàn)表明,這種方法在 參數(shù)規(guī)模不變的情況下,顯著提升了模型性能! 因此,1.3B 和 14B 模型都采用了這種架構(gòu)。

圖片

核心創(chuàng)新三: 模型擴(kuò)展與訓(xùn)練效率優(yōu)化 —— 更大模型,更快速度

為了訓(xùn)練更大規(guī)模的 Wan2.1 模型,并提升訓(xùn)練和推理效率,團(tuán)隊(duì)采用了多種并行策略:

訓(xùn)練加速: FSDP + 上下文并行 (CP): 訓(xùn)練時(shí),Wan2.1 使用FSDP (Fully Sharded Data Parallel) 進(jìn)行模型分片,并結(jié)合上下文并行 (CP)。 FSDP group 和 CP group 相交而非嵌套。 在 FSDP 中,數(shù)據(jù)并行 (DP) size 等于 FSDP size 除以 CP size。 在滿足內(nèi)存和單 batch 延遲要求后,使用 DP 進(jìn)行擴(kuò)展。

推理加速: 上下文并行 (CP): 推理時(shí),為了減少單視頻生成延遲,Wan2.1 選擇上下文并行 (CP) 進(jìn)行分布式加速。 對(duì)于 14B 等大型模型,模型分片 (FSDP)也是必需的。 考慮到視頻序列通常較長(zhǎng),F(xiàn)SDP 比張量并行 (TP) 通信開銷更小,并允許計(jì)算與通信重疊。

并行策略細(xì)節(jié): 2D 上下文并行: 訓(xùn)練和推理都采用相同的 2D 上下文并行策略: 機(jī)器間 (external layer) 使用 RingAttention,機(jī)器內(nèi) (intra-machine) 使用 Ulysses。 實(shí)驗(yàn)表明,在 Wan 14B 大模型上,使用 2D CP 和 FSDP 并行策略,DiT 實(shí)現(xiàn)了 近乎線性的加速!

圖片

核心創(chuàng)新四: Image-to-Video (I2V) —— 圖像驅(qū)動(dòng),精準(zhǔn)可控!

Wan2.1 在 Image-to-Video (I2V) 任務(wù)上也表現(xiàn)出色,實(shí)現(xiàn)了更強(qiáng)的 可控性。 其 I2V 的關(guān)鍵技術(shù)包括:

條件圖像引導(dǎo): 將 條件圖像作為視頻的第一幀,并與零填充幀沿時(shí)間軸拼接,形成引導(dǎo)幀 (guidance frames)。

VAE 壓縮條件信息: 使用 3D VAE 將引導(dǎo)幀壓縮為 條件潛在表示 (condition latent representation)。

二元掩碼 (Binary Mask) 控制生成區(qū)域: 引入二元掩碼,1 表示保留幀,0 表示需要生成的幀。 掩碼的空間尺寸與條件潛在表示匹配,時(shí)間長(zhǎng)度與目標(biāo)視頻相同。 掩碼會(huì)被重塑為與 VAE 的時(shí)間步幅相對(duì)應(yīng)的特定形狀。

融合機(jī)制: 將噪聲潛在表示、條件潛在表示和重塑后的掩碼沿通道軸拼接,輸入到 DiT 模型中。

I2V 專屬投影層: 由于 I2V DiT 模型的輸入通道數(shù)比 T2V 模型更多,因此增加了一個(gè) 額外的投影層,并用零值初始化。

CLIP 圖像編碼器 + MLP 全局上下文: 使用 CLIP 圖像編碼器** 提取條件圖像的特征表示。 通過三層 MLP** 將特征投影為全局上下文 (global context),并通過解耦交叉注意力 (decoupled cross-attention)** 注入到 DiT 模型中。

圖片

海量高質(zhì)量數(shù)據(jù)集 —— 模型性能的基石!

為了訓(xùn)練出強(qiáng)大的 Wan2.1 模型,通義實(shí)驗(yàn)室構(gòu)建了一個(gè) 規(guī)模龐大、質(zhì)量極高的數(shù)據(jù)集,包含 15 億個(gè)視頻和 100 億張圖像! 數(shù)據(jù)來源包括 內(nèi)部版權(quán)數(shù)據(jù)和公開數(shù)據(jù)。

四步數(shù)據(jù)清洗流程: 為了從海量數(shù)據(jù)中篩選出 高質(zhì)量、多樣化 的數(shù)據(jù),團(tuán)隊(duì)設(shè)計(jì)了 四步數(shù)據(jù)清洗流程,從 基本維度、視覺質(zhì)量和運(yùn)動(dòng)質(zhì)量 等方面對(duì)數(shù)據(jù)進(jìn)行嚴(yán)格篩選,確保訓(xùn)練數(shù)據(jù)的純凈度和有效性。 (具體四步流程細(xì)節(jié),期待官方技術(shù)報(bào)告的詳細(xì)解讀!)

圖片

寫在最后:

AI圈現(xiàn)在太卷了,阿里這次開源很有誠(chéng)意,但是感覺阿里現(xiàn)在需要一個(gè)拳頭產(chǎn)品來破圈了,DeepSeek的光環(huán)太耀眼了。

責(zé)任編輯:張燕妮 來源: AI寒武紀(jì)
相關(guān)推薦

2025-02-26 14:00:00

開源模型數(shù)據(jù)

2024-11-25 10:30:00

AI視頻開源

2024-02-19 07:58:01

OpenAI模型GPT

2024-12-12 10:00:00

2024-03-25 00:30:00

AI框架

2025-02-14 09:30:00

視頻生成模型開源機(jī)器人

2024-02-19 08:31:10

SoraAIOpenAI

2024-04-07 14:56:22

技術(shù)應(yīng)用

2023-04-03 10:04:44

開源模型

2025-02-11 09:00:00

2024-02-26 16:55:51

Sora人工智能

2025-02-26 09:44:14

2025-04-21 08:27:00

馬斯克模型AI

2023-06-13 09:33:37

視頻阿里巴巴

2024-09-24 15:51:02

2024-10-16 14:10:00

AI視頻生成

2025-01-10 09:40:00

視頻生成AI開源

2024-12-30 13:40:00

2024-03-22 13:05:23

數(shù)據(jù)訓(xùn)練

2025-01-06 07:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)