自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

阿里開(kāi)源版Sora上線即屠榜，4070就能跑，免費(fèi)商用

作者：量子位 2025-02-26 14:00:00

人工智能新聞

阿里在深夜開(kāi)源了視頻生成模型Wan 2.1，14B參數(shù)直接屠榜VBench，什么Sora、Gen-3通通不是它的對(duì)手。

開(kāi)源模型，還是得看杭州。

前腳發(fā)完QwQ-Max，阿里就在深夜開(kāi)源了視頻生成模型Wan 2.1，14B參數(shù)直接屠榜VBench，什么Sora、Gen-3通通不是它的對(duì)手。

從官方Demo中看，復(fù)雜運(yùn)動(dòng)細(xì)節(jié)非常到位，5個(gè)人一起跳hip-hop也能做到動(dòng)作同步。

而且在靜態(tài)圖像生成中都還是老大難問(wèn)題的文字，現(xiàn)在也被萬(wàn)相給攻克了。

當(dāng)然了，14B的參數(shù)量說(shuō)大不大，但在個(gè)人消費(fèi)級(jí)顯卡上本地部署還是比較吃力的。

不過(guò)14B（支持分辨率720P）之外，還有一個(gè)1.3B的小號(hào)版本（支持分辨率480P），在一塊4090上占用顯存是8個(gè)多GB，消耗時(shí)間4分21秒。

如此觀之，用12GB的4070，也是能帶動(dòng)的。

同時(shí)阿里還上線了兩個(gè)圖生視頻模型，都是14B但分為480P和720P兩個(gè)版本。

四個(gè)模型全都是Apache 2.0，也就是免費(fèi)商用。

而且官方也放出計(jì)劃表，AI創(chuàng)作者們非常喜歡的ComfyUI，之后也會(huì)集成。

視頻生成模型會(huì)寫(xiě)字了

目前可以玩到Wan 2.1的途徑有很多，最簡(jiǎn)單的方法是通過(guò)通義萬(wàn)相自己的平臺(tái)。

在平臺(tái)里，1.3B和14B版本分別叫做極速版和專業(yè)版，每次消耗5個(gè)或3個(gè)“靈感值”（新用戶默認(rèn)有50個(gè)，還可通過(guò)簽到等多種方式免費(fèi)獲得）。

不過(guò)由于熱度實(shí)在太高，等待的時(shí)間也會(huì)比較長(zhǎng)，甚至有時(shí)會(huì)出現(xiàn)“過(guò)于火爆”的情況。

動(dòng)手能力稍強(qiáng)的話，可以根據(jù)官方的教程通過(guò)HuggingFace、魔搭社區(qū)或者本地等方式自行折騰，當(dāng)然還有一些第三方平臺(tái)也進(jìn)行了跟進(jìn)。

網(wǎng)友們也是玩出了各種花活，有人用它生成了《我的世界》風(fēng)格的故事場(chǎng)景。

△作者：X/@TheXeophon

再看看官方案例，從效果維度上看，Wan 2.1最大的亮點(diǎn)，可能就是支持在視頻中生成文字了。

而且不是生硬地加入，會(huì)根據(jù)文字所處位置的材質(zhì)進(jìn)行合理變化，以及隨載體一同運(yùn)動(dòng)。

當(dāng)然相對(duì)文字來(lái)說(shuō)更基礎(chǔ)的動(dòng)作細(xì)節(jié)，技術(shù)也同樣過(guò)關(guān)。

讓兩個(gè)人跳一段華爾茲，多次轉(zhuǎn)身前后人物形象依然保持一致，背景的轉(zhuǎn)動(dòng)也很自然。

并且也更懂物理規(guī)律，一支箭射出后，弓弦的抖動(dòng)刻畫(huà)得非常到位。

小狗切菜的過(guò)程當(dāng)中，被切的西紅柿也沒(méi)有出現(xiàn)畸變。

還有像人從水面中探出頭這種場(chǎng)景，不僅界面處處理得很好，帶起的水也是從水流逐漸變化成水滴。

唯一的瑕疵之處是，頭出來(lái)的時(shí)候人物的嘴是張著的。

另外關(guān)于圖像生視頻，也有網(wǎng)友進(jìn)行了體驗(yàn)，沒(méi)用任何提示詞就得到了這樣的日漫風(fēng)動(dòng)畫(huà)：

△作者：X/@seiiiiiiiiiiru

除了效果本身，1.3B版本8個(gè)多GB的低顯存占用，對(duì)個(gè)人創(chuàng)作者來(lái)說(shuō)也是一個(gè)極好的消息。

那么，Wan 2.1是如何實(shí)現(xiàn)又好又省的呢？

創(chuàng)新3D變異自動(dòng)編碼器

和主流的視頻生成技術(shù)路線一樣，Wan 2.1的主體采用了DiT（Diffusion Transformer）架構(gòu)。

Wan利用T5編碼器對(duì)輸入的多語(yǔ)言文本進(jìn)行編碼，并在每個(gè)Transformer塊內(nèi)加入交叉注意力機(jī)制，將文本嵌入到模型架構(gòu)中。

此外，Wan采用線性層和SiLU層來(lái)處理輸入時(shí)間嵌入并分別預(yù)測(cè)六個(gè)調(diào)制參數(shù)。這樣的MLP在所有Transformer塊之間共享，每個(gè)塊都學(xué)習(xí)一組不同的偏差。

編碼上，Wan采用了3D變異自動(dòng)編碼器，這是一種專門(mén)為視頻生成設(shè)計(jì)的3D因果關(guān)系體系結(jié)構(gòu)。

它在卷積模塊中實(shí)現(xiàn)了特征緩存機(jī)制，并結(jié)合了多種策略來(lái)改善時(shí)空壓縮，減少記憶使用情況并確保時(shí)間因果關(guān)系。

具體來(lái)說(shuō)，由于視頻序列幀數(shù)遵循1+T輸入格式，因此Wan將視頻分成1+T/4個(gè)塊，與潛在特征的數(shù)量一致。

在處理輸入視頻序列時(shí)，該模型采用逐塊策略，其中每個(gè)編碼和解碼操作僅處理與單個(gè)潛在表示相對(duì)應(yīng)的視頻塊。

基于時(shí)間壓縮比，每個(gè)處理塊中的幀數(shù)最多限制為4，從而有效防止GPU內(nèi)存溢出。

實(shí)驗(yàn)結(jié)果表明，在單塊A800上，Wan的VAE的重建速度比現(xiàn)有的SOTA方法快2.5倍。

為了使模型擴(kuò)展并提高訓(xùn)練效率，Wan對(duì)編碼器采用FSDP模型切分與上下文并行性（CP）相結(jié)合的分布式策略；對(duì)于DiT模塊則采用DP、FSDP、RingAttention、Ulysses混合的并行策略。

在推理階段，為了使用多卡減少生成單個(gè)視頻的延遲，還需要通過(guò)CP來(lái)進(jìn)行分布式加速。

在14B版本的Wan上，2D上下文并行和FSDP并行策略，讓DiT達(dá)到了幾乎線性的加速。

I2V部分，Wan引入了額外的條件圖像作為第一幀來(lái)控制視頻合成，用CLIP圖像編碼器從條件圖像中提取特征表示。

具體而言，條件圖像沿時(shí)間軸與零填充幀連接，形成指導(dǎo)幀。然后，這些指導(dǎo)幀由3D VAE壓縮為條件潛在表示。

另外由于I2V DiT模型的輸入通道比T2V模型多，因此I2V版本中還使用了額外的投影層，并用零值初始化。

之后阿里還會(huì)放出更詳細(xì)的報(bào)告，對(duì)技術(shù)細(xì)節(jié)感興趣的讀者可以持續(xù)關(guān)注~

責(zé)任編輯：張燕妮來(lái)源：量子位

開(kāi)源模型數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<table id="69o35"></table>