馬斯克炫酷變身毒液!實(shí)測通義Wan2.1首尾幀視頻模型,還能“拼接”經(jīng)典梗圖
在GitHub狂攬1w+星標(biāo)的通義萬相Wan2.1,又雙叒上新了!
最新打開方式是醬嬸兒的:
給出開始(首幀)和結(jié)束(尾幀)兩張圖片,Wan2.1便能分分鐘生成一段絲滑的5s、720p視頻。
根據(jù)前后視角的不同,還能自動(dòng)調(diào)整鏡頭角度,緩慢變成高空俯拍,并同時(shí)保證人物光影正確:
原來這是阿里通義萬相Wan2.1最新開源的首尾幀視頻模型,基于Wan2.1文生視頻14B大模型,為創(chuàng)作者們提供更高效、更靈活的視頻制作方式。
官方表示,這是業(yè)界首個(gè)百億參數(shù)規(guī)模的開源首尾幀視頻模型。
目前普通用戶可以直接在通義萬相官網(wǎng)體驗(yàn),開發(fā)者可以通過GitHub、Hugging Face、魔搭社區(qū)等開源平臺(tái)使用。
為了評(píng)估其真實(shí)能力,我們也在第一時(shí)間上手實(shí)測了一波。
初步感受是,從整體上來說,Wan2.1首尾幀視頻模型這次在主體一致性、前后連貫性等方面確實(shí)表現(xiàn)不錯(cuò)。
我們嘗試了用它來改造經(jīng)典梗圖或挑戰(zhàn)一些火爆一時(shí)的玩法,具體過程如下。
實(shí)測Wan2.1首尾幀視頻模型
打開通義萬相官網(wǎng),進(jìn)入視頻生成,然后選擇圖生視頻并開啟首尾幀功能:
先上經(jīng)典玩法——“文藝復(fù)興”表情包。
我們提供的首尾幀分別如下:
對(duì)于這樣兩張頗具戲劇張力的圖片,Wan2.1最終生成的視頻be like:
雖然不能深究故事合理性,但整個(gè)轉(zhuǎn)場確實(shí)非常絲滑,而且運(yùn)動(dòng)過程中人物的一致性保持較好,類似頭發(fā)、長相、服裝這樣易出錯(cuò)的細(xì)節(jié)也hold住了。
接下來難度升級(jí),我們又嘗試讓兩張完全不同的表情包來個(gè)“時(shí)空跨越”。
結(jié)果生成的視頻自帶“PPT轉(zhuǎn)場”效果,有種家里長輩看熊孩子的感覺了(doge)~
Okk,除了整活兒,接下來我們也從時(shí)序連貫性、創(chuàng)意合理性、內(nèi)容一致性以及技術(shù)實(shí)現(xiàn)難度等維度來進(jìn)行一個(gè)全方位考察。
最常見的用法,當(dāng)屬各類寫實(shí)。
讓我們淺淺模仿一下自然頻道,讓一朵花花慢慢生長出來。
Prompt:特寫鏡頭,讓牡丹花慢慢綻放。
可以看到,整個(gè)生長過程相當(dāng)自然,已經(jīng)是肉眼無法一眼識(shí)別為AI的情況了。
而且連首幀圖片中隱藏的蛛網(wǎng)也捕捉到了,在花朵綻放時(shí)也被牽動(dòng)起來。
還有人物寫實(shí),通過提供兩張?zhí)貙懻掌?,我們考察一下Wan2.1對(duì)光影這類細(xì)節(jié)的把控力。
Prompt:寫實(shí)風(fēng)格,臉部特寫,一個(gè)金發(fā)碧眼的小男孩,鏡頭微微左移,記錄他被陰影遮住的側(cè)臉。
顯然,由于兩張圖片前后差距不大,因此稍微不注意可能還以為是靜態(tài)圖像。
而通過細(xì)致觀察,我們在視頻靠近結(jié)尾的部分捕捉到了小男孩的脖子和臉上發(fā)生了光照變化。
除此之外,我們也挑戰(zhàn)了曾經(jīng)火爆一時(shí)的創(chuàng)意玩法——毒液變身特效。
Prompt:特效大片既視感,穿西裝的男人突然變身成怪獸毒液。
馬斯克版·毒液這就來了:
能夠看出,對(duì)于這種內(nèi)容跨度比較大的例子,Wan2.1使用了“遮掩大法”,直接一個(gè)閃光特效實(shí)現(xiàn)變身。
對(duì)此,你說它變了還是沒變,還真難界定~
另外我們也嘗試了其他風(fēng)格,比如二次元。
Prompt:動(dòng)漫風(fēng)格,一個(gè)打著雨傘的動(dòng)漫角色站在雨中,不知道看見什么突然傻笑起來。
可以看到,開頭和結(jié)尾的表情100%還原了,而且中間還上演了“超絕變臉”,一秒鐘八百個(gè)小表情(bushi~
同時(shí)下雨這個(gè)場景也真實(shí)還原了,沒有雨滴直接穿過雨傘的“超現(xiàn)實(shí)場景”。
,時(shí)長00:05
最后,我們也簡單對(duì)比了一下Wan2.1和可靈(可靈1.6)的首尾幀生成效果。
同樣兩張圖片和提示詞下,可靈生成的馬斯克版·毒液如下:
雖然老馬的面目略顯猙獰,但好歹是真變身了。
所以,你更pick哪一個(gè)呢?
揭秘技術(shù)原理和配置
從以上簡單實(shí)測來看,相比早期的一些鬼畜視頻,這次開源的Wan2.1首尾幀視頻模型在主體一致性、前后連貫性等方面已經(jīng)有了相當(dāng)大的進(jìn)步。
那么接下來的問題是:怎么做到的?
通過阿里官方發(fā)布的技術(shù)報(bào)告,僅從首尾幀控制來看,其得益于在基礎(chǔ)架構(gòu)模型上,引入了額外的條件控制分支。
具體而言,首幀與尾幀同若干零填充的中間幀拼接,構(gòu)成控制視頻序列。該序列進(jìn)一步與噪聲及掩碼(mask)進(jìn)行拼接,最終作為擴(kuò)散變換模型(DiT)的輸入。
此外,為實(shí)現(xiàn)畫面穩(wěn)定性控制,通義萬相首尾幀生視頻模型提取了首幀和尾幀的CLIP語義特征,并通過交叉注意力機(jī)制(Cross-Attention Mechanism)將其注入到DiT的生成過程中。
憑借這一獨(dú)特的模型架構(gòu),最終實(shí)現(xiàn)了流暢且準(zhǔn)確的首尾幀變換。
當(dāng)然,最后大家最關(guān)注的還是配置問題。
以國內(nèi)的魔搭社區(qū)為例,他們目前已在DiffSynth-Studio項(xiàng)目中支持了Wan2.1首尾幀模型。
也就是說,開發(fā)者可以基于DiffSynth-Studio(一個(gè)提供全鏈路推理和訓(xùn)練優(yōu)化的開源工具)實(shí)現(xiàn)便捷推理。
值得注意的是,他們還通過某一參數(shù)來控制推理過程中常駐顯存的參數(shù)量。而實(shí)際推理過程使用的顯存需求,會(huì)與這一參數(shù)、分辨率、幀數(shù)有關(guān)。
他們以81幀960*960分辨率的視頻為例:
- 設(shè)置參數(shù)=None時(shí)(意味著無常駐參數(shù)限制),需要46G顯存;
- 設(shè)置參數(shù)=4*10**9時(shí),需要24G顯存,但推理速度會(huì)有所下降;
另外,部分網(wǎng)友也在第一時(shí)間分享了自己的配置情況:
我們自己測下來也發(fā)現(xiàn),僅從官網(wǎng)直接體驗(yàn),目前生成一個(gè)視頻實(shí)際需要幾分鐘甚至十幾分鐘時(shí)間。
所以,大家卷質(zhì)量的同時(shí),能不能把時(shí)長打下來?。╠oge)~
直接體驗(yàn)入口:
https://tongyi.aliyun.com/wanxiang/videoCreation
GitHub:
https://github.com/Wan-Video/Wan2.1
模型(魔搭社區(qū)):
https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P