自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

馬斯克炫酷變身毒液!實(shí)測通義Wan2.1首尾幀視頻模型,還能“拼接”經(jīng)典梗圖

人工智能 新聞
從整體上來說,Wan2.1首尾幀視頻模型這次在主體一致性、前后連貫性等方面確實(shí)表現(xiàn)不錯(cuò)。

在GitHub狂攬1w+星標(biāo)的通義萬相Wan2.1,又雙叒上新了!

最新打開方式是醬嬸兒的:

給出開始(首幀)和結(jié)束(尾幀)兩張圖片,Wan2.1便能分分鐘生成一段絲滑的5s、720p視頻。

圖片圖片

根據(jù)前后視角的不同,還能自動(dòng)調(diào)整鏡頭角度,緩慢變成高空俯拍,并同時(shí)保證人物光影正確:

圖片圖片

原來這是阿里通義萬相Wan2.1最新開源的首尾幀視頻模型,基于Wan2.1文生視頻14B大模型,為創(chuàng)作者們提供更高效、更靈活的視頻制作方式。

官方表示,這是業(yè)界首個(gè)百億參數(shù)規(guī)模的開源首尾幀視頻模型。

圖片

目前普通用戶可以直接在通義萬相官網(wǎng)體驗(yàn),開發(fā)者可以通過GitHub、Hugging Face、魔搭社區(qū)等開源平臺(tái)使用。

為了評(píng)估其真實(shí)能力,我們也在第一時(shí)間上手實(shí)測了一波。

初步感受是,從整體上來說,Wan2.1首尾幀視頻模型這次在主體一致性、前后連貫性等方面確實(shí)表現(xiàn)不錯(cuò)。

我們嘗試了用它來改造經(jīng)典梗圖或挑戰(zhàn)一些火爆一時(shí)的玩法,具體過程如下。

實(shí)測Wan2.1首尾幀視頻模型

打開通義萬相官網(wǎng),進(jìn)入視頻生成,然后選擇圖生視頻并開啟首尾幀功能:

圖片

先上經(jīng)典玩法——“文藝復(fù)興”表情包。

我們提供的首尾幀分別如下:

圖片

對(duì)于這樣兩張頗具戲劇張力的圖片,Wan2.1最終生成的視頻be like:

雖然不能深究故事合理性,但整個(gè)轉(zhuǎn)場確實(shí)非常絲滑,而且運(yùn)動(dòng)過程中人物的一致性保持較好,類似頭發(fā)、長相、服裝這樣易出錯(cuò)的細(xì)節(jié)也hold住了。

接下來難度升級(jí),我們又嘗試讓兩張完全不同的表情包來個(gè)“時(shí)空跨越”。

圖片

結(jié)果生成的視頻自帶“PPT轉(zhuǎn)場”效果,有種家里長輩看熊孩子的感覺了(doge)~

Okk,除了整活兒,接下來我們也從時(shí)序連貫性、創(chuàng)意合理性、內(nèi)容一致性以及技術(shù)實(shí)現(xiàn)難度等維度來進(jìn)行一個(gè)全方位考察。

最常見的用法,當(dāng)屬各類寫實(shí)

讓我們淺淺模仿一下自然頻道,讓一朵花花慢慢生長出來。

Prompt:特寫鏡頭,讓牡丹花慢慢綻放。

圖片

可以看到,整個(gè)生長過程相當(dāng)自然,已經(jīng)是肉眼無法一眼識(shí)別為AI的情況了。

而且連首幀圖片中隱藏的蛛網(wǎng)也捕捉到了,在花朵綻放時(shí)也被牽動(dòng)起來。

還有人物寫實(shí),通過提供兩張?zhí)貙懻掌?,我們考察一下Wan2.1對(duì)光影這類細(xì)節(jié)的把控力。

Prompt:寫實(shí)風(fēng)格,臉部特寫,一個(gè)金發(fā)碧眼的小男孩,鏡頭微微左移,記錄他被陰影遮住的側(cè)臉。

圖片

顯然,由于兩張圖片前后差距不大,因此稍微不注意可能還以為是靜態(tài)圖像。

而通過細(xì)致觀察,我們在視頻靠近結(jié)尾的部分捕捉到了小男孩的脖子和臉上發(fā)生了光照變化。

除此之外,我們也挑戰(zhàn)了曾經(jīng)火爆一時(shí)的創(chuàng)意玩法——毒液變身特效。

Prompt:特效大片既視感,穿西裝的男人突然變身成怪獸毒液。

圖片

馬斯克版·毒液這就來了:

能夠看出,對(duì)于這種內(nèi)容跨度比較大的例子,Wan2.1使用了“遮掩大法”,直接一個(gè)閃光特效實(shí)現(xiàn)變身。

對(duì)此,你說它變了還是沒變,還真難界定~

另外我們也嘗試了其他風(fēng)格,比如二次元。

Prompt:動(dòng)漫風(fēng)格,一個(gè)打著雨傘的動(dòng)漫角色站在雨中,不知道看見什么突然傻笑起來。

圖片

可以看到,開頭和結(jié)尾的表情100%還原了,而且中間還上演了“超絕變臉”,一秒鐘八百個(gè)小表情(bushi~

同時(shí)下雨這個(gè)場景也真實(shí)還原了,沒有雨滴直接穿過雨傘的“超現(xiàn)實(shí)場景”。

,時(shí)長00:05

最后,我們也簡單對(duì)比了一下Wan2.1和可靈(可靈1.6)的首尾幀生成效果。

圖片

同樣兩張圖片和提示詞下,可靈生成的馬斯克版·毒液如下:

雖然老馬的面目略顯猙獰,但好歹是真變身了。

所以,你更pick哪一個(gè)呢?

揭秘技術(shù)原理和配置

從以上簡單實(shí)測來看,相比早期的一些鬼畜視頻,這次開源的Wan2.1首尾幀視頻模型在主體一致性、前后連貫性等方面已經(jīng)有了相當(dāng)大的進(jìn)步。

那么接下來的問題是:怎么做到的?

通過阿里官方發(fā)布的技術(shù)報(bào)告,僅從首尾幀控制來看,其得益于在基礎(chǔ)架構(gòu)模型上,引入了額外的條件控制分支。

具體而言,首幀與尾幀同若干零填充的中間幀拼接,構(gòu)成控制視頻序列。該序列進(jìn)一步與噪聲及掩碼(mask)進(jìn)行拼接,最終作為擴(kuò)散變換模型(DiT)的輸入。

此外,為實(shí)現(xiàn)畫面穩(wěn)定性控制,通義萬相首尾幀生視頻模型提取了首幀和尾幀的CLIP語義特征,并通過交叉注意力機(jī)制(Cross-Attention Mechanism)將其注入到DiT的生成過程中。

憑借這一獨(dú)特的模型架構(gòu),最終實(shí)現(xiàn)了流暢且準(zhǔn)確的首尾幀變換。

圖片

當(dāng)然,最后大家最關(guān)注的還是配置問題。

以國內(nèi)的魔搭社區(qū)為例,他們目前已在DiffSynth-Studio項(xiàng)目中支持了Wan2.1首尾幀模型。

也就是說,開發(fā)者可以基于DiffSynth-Studio(一個(gè)提供全鏈路推理和訓(xùn)練優(yōu)化的開源工具)實(shí)現(xiàn)便捷推理。

值得注意的是,他們還通過某一參數(shù)來控制推理過程中常駐顯存的參數(shù)量。而實(shí)際推理過程使用的顯存需求,會(huì)與這一參數(shù)、分辨率、幀數(shù)有關(guān)。

他們以81幀960*960分辨率的視頻為例:

  • 設(shè)置參數(shù)=None時(shí)(意味著無常駐參數(shù)限制),需要46G顯存;
  • 設(shè)置參數(shù)=4*10**9時(shí),需要24G顯存,但推理速度會(huì)有所下降;

另外,部分網(wǎng)友也在第一時(shí)間分享了自己的配置情況:

圖片

圖片

我們自己測下來也發(fā)現(xiàn),僅從官網(wǎng)直接體驗(yàn),目前生成一個(gè)視頻實(shí)際需要幾分鐘甚至十幾分鐘時(shí)間。

所以,大家卷質(zhì)量的同時(shí),能不能把時(shí)長打下來?。╠oge)~

直接體驗(yàn)入口:
https://tongyi.aliyun.com/wanxiang/videoCreation

GitHub:
https://github.com/Wan-Video/Wan2.1
模型(魔搭社區(qū)):
https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-01-16 12:43:00

機(jī)器人AI

2025-02-27 12:44:41

2023-07-03 09:36:52

模型AI

2021-01-12 15:20:39

AI 數(shù)據(jù)人工智能

2022-01-23 10:53:47

星鏈互聯(lián)網(wǎng)衛(wèi)星

2024-10-29 14:30:00

AI模型

2021-06-11 17:14:26

黑客馬斯克加密貨幣

2025-02-11 11:46:48

OpenAI奧特曼馬斯克

2024-04-07 11:25:54

2022-04-15 10:55:59

Web3反壟斷元宇宙

2021-05-17 22:35:17

比特幣加密貨幣貨幣

2022-12-15 17:26:16

2023-03-15 16:09:44

2023-03-03 21:25:28

馬斯克特斯拉

2023-05-26 17:11:25

馬斯克Neuralink接口

2024-08-22 12:29:10

2025-02-18 15:09:07

2024-12-09 12:08:55

2023-04-18 15:03:24

模型數(shù)據(jù)

2024-03-18 14:17:06

大模型開源人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)