自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

阿里開(kāi)源版Sora上線即屠榜,4070就能跑,免費(fèi)商用

人工智能 新聞
阿里在深夜開(kāi)源了視頻生成模型Wan 2.1,14B參數(shù)直接屠榜VBench,什么Sora、Gen-3通通不是它的對(duì)手。

開(kāi)源模型,還是得看杭州。

前腳發(fā)完QwQ-Max,阿里就在深夜開(kāi)源了視頻生成模型Wan 2.1,14B參數(shù)直接屠榜VBench,什么Sora、Gen-3通通不是它的對(duì)手。

圖片

從官方Demo中看,復(fù)雜運(yùn)動(dòng)細(xì)節(jié)非常到位,5個(gè)人一起跳hip-hop也能做到動(dòng)作同步

圖片

而且在靜態(tài)圖像生成中都還是老大難問(wèn)題的文字,現(xiàn)在也被萬(wàn)相給攻克了。

圖片

當(dāng)然了,14B的參數(shù)量說(shuō)大不大,但在個(gè)人消費(fèi)級(jí)顯卡上本地部署還是比較吃力的。

不過(guò)14B(支持分辨率720P)之外,還有一個(gè)1.3B的小號(hào)版本(支持分辨率480P),在一塊4090上占用顯存是8個(gè)多GB,消耗時(shí)間4分21秒。

如此觀之,用12GB的4070,也是能帶動(dòng)的。

圖片

同時(shí)阿里還上線了兩個(gè)圖生視頻模型,都是14B但分為480P和720P兩個(gè)版本。

四個(gè)模型全都是Apache 2.0,也就是免費(fèi)商用。

圖片

而且官方也放出計(jì)劃表,AI創(chuàng)作者們非常喜歡的ComfyUI,之后也會(huì)集成。

圖片

視頻生成模型會(huì)寫(xiě)字了

目前可以玩到Wan 2.1的途徑有很多,最簡(jiǎn)單的方法是通過(guò)通義萬(wàn)相自己的平臺(tái)。

在平臺(tái)里,1.3B和14B版本分別叫做極速版和專業(yè)版,每次消耗5個(gè)或3個(gè)“靈感值”(新用戶默認(rèn)有50個(gè),還可通過(guò)簽到等多種方式免費(fèi)獲得)。

不過(guò)由于熱度實(shí)在太高,等待的時(shí)間也會(huì)比較長(zhǎng),甚至有時(shí)會(huì)出現(xiàn)“過(guò)于火爆”的情況。

圖片

動(dòng)手能力稍強(qiáng)的話,可以根據(jù)官方的教程通過(guò)HuggingFace、魔搭社區(qū)或者本地等方式自行折騰,當(dāng)然還有一些第三方平臺(tái)也進(jìn)行了跟進(jìn)。

網(wǎng)友們也是玩出了各種花活,有人用它生成了《我的世界》風(fēng)格的故事場(chǎng)景。

圖片

△作者:X/@TheXeophon

再看看官方案例,從效果維度上看,Wan 2.1最大的亮點(diǎn),可能就是支持在視頻中生成文字了。

而且不是生硬地加入,會(huì)根據(jù)文字所處位置的材質(zhì)進(jìn)行合理變化,以及隨載體一同運(yùn)動(dòng)。

當(dāng)然相對(duì)文字來(lái)說(shuō)更基礎(chǔ)的動(dòng)作細(xì)節(jié),技術(shù)也同樣過(guò)關(guān)。

讓兩個(gè)人跳一段華爾茲,多次轉(zhuǎn)身前后人物形象依然保持一致,背景的轉(zhuǎn)動(dòng)也很自然。

并且也更懂物理規(guī)律,一支箭射出后,弓弦的抖動(dòng)刻畫(huà)得非常到位。

小狗切菜的過(guò)程當(dāng)中,被切的西紅柿也沒(méi)有出現(xiàn)畸變。

還有像人從水面中探出頭這種場(chǎng)景,不僅界面處處理得很好,帶起的水也是從水流逐漸變化成水滴。

唯一的瑕疵之處是,頭出來(lái)的時(shí)候人物的嘴是張著的。

另外關(guān)于圖像生視頻,也有網(wǎng)友進(jìn)行了體驗(yàn),沒(méi)用任何提示詞就得到了這樣的日漫風(fēng)動(dòng)畫(huà):

△作者:X/@seiiiiiiiiiiru

除了效果本身,1.3B版本8個(gè)多GB的低顯存占用,對(duì)個(gè)人創(chuàng)作者來(lái)說(shuō)也是一個(gè)極好的消息。

那么,Wan 2.1是如何實(shí)現(xiàn)又好又省的呢?

創(chuàng)新3D變異自動(dòng)編碼器

和主流的視頻生成技術(shù)路線一樣,Wan 2.1的主體采用了DiT(Diffusion Transformer)架構(gòu)。

Wan利用T5編碼器對(duì)輸入的多語(yǔ)言文本進(jìn)行編碼,并在每個(gè)Transformer塊內(nèi)加入交叉注意力機(jī)制,將文本嵌入到模型架構(gòu)中。

此外,Wan采用線性層和SiLU層來(lái)處理輸入時(shí)間嵌入并分別預(yù)測(cè)六個(gè)調(diào)制參數(shù)。這樣的MLP在所有Transformer塊之間共享,每個(gè)塊都學(xué)習(xí)一組不同的偏差。

圖片

編碼上,Wan采用了3D變異自動(dòng)編碼器,這是一種專門(mén)為視頻生成設(shè)計(jì)的3D因果關(guān)系體系結(jié)構(gòu)。

在卷積模塊中實(shí)現(xiàn)了特征緩存機(jī)制,并結(jié)合了多種策略來(lái)改善時(shí)空壓縮,減少記憶使用情況并確保時(shí)間因果關(guān)系。

具體來(lái)說(shuō),由于視頻序列幀數(shù)遵循1+T輸入格式,因此Wan將視頻分成1+T/4個(gè)塊,與潛在特征的數(shù)量一致。

在處理輸入視頻序列時(shí),該模型采用逐塊策略,其中每個(gè)編碼和解碼操作僅處理與單個(gè)潛在表示相對(duì)應(yīng)的視頻塊。

基于時(shí)間壓縮比,每個(gè)處理塊中的幀數(shù)最多限制為4,從而有效防止GPU內(nèi)存溢出。

圖片

實(shí)驗(yàn)結(jié)果表明,在單塊A800上,Wan的VAE的重建速度比現(xiàn)有的SOTA方法快2.5倍。

圖片

為了使模型擴(kuò)展并提高訓(xùn)練效率,Wan對(duì)編碼器采用FSDP模型切分與上下文并行性(CP)相結(jié)合的分布式策略;對(duì)于DiT模塊則采用DP、FSDP、RingAttention、Ulysses混合的并行策略。

在推理階段,為了使用多卡減少生成單個(gè)視頻的延遲,還需要通過(guò)CP來(lái)進(jìn)行分布式加速。

圖片

在14B版本的Wan上,2D上下文并行和FSDP并行策略,讓DiT達(dá)到了幾乎線性的加速。

圖片

I2V部分,Wan引入了額外的條件圖像作為第一幀來(lái)控制視頻合成,用CLIP圖像編碼器從條件圖像中提取特征表示。

具體而言,條件圖像沿時(shí)間軸與零填充幀連接,形成指導(dǎo)幀。然后,這些指導(dǎo)幀由3D VAE壓縮為條件潛在表示。

另外由于I2V DiT模型的輸入通道比T2V模型多,因此I2V版本中還使用了額外的投影層,并用零值初始化。

圖片

之后阿里還會(huì)放出更詳細(xì)的報(bào)告,對(duì)技術(shù)細(xì)節(jié)感興趣的讀者可以持續(xù)關(guān)注~

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-12-03 15:51:45

2023-08-03 19:11:45

2025-03-26 06:56:56

2024-12-20 08:00:00

2015-04-03 10:39:40

AndroidChrome

2023-02-25 21:45:55

模型AI

2024-05-14 16:58:05

騰訊混元大模型文生圖

2025-03-27 12:30:36

2024-11-18 10:50:39

2024-09-24 13:00:00

大語(yǔ)言模型AI

2023-07-25 13:52:54

開(kāi)源模型

2025-03-07 08:30:00

2012-04-28 14:54:33

2021-01-18 15:24:05

AI 數(shù)據(jù)人工智能

2021-04-16 09:50:32

開(kāi)源技術(shù) 模型

2020-03-23 13:45:44

人臉識(shí)別人工智能數(shù)據(jù)

2024-11-20 14:10:00

搜索AI

2023-07-28 15:39:20

TransGPT人工智能開(kāi)源
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)