自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tr id="q663v"><strike id="q663v"></strike></tr>

<cite id="q663v"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

馬斯克炫酷變身毒液！實(shí)測通義Wan2.1首尾幀視頻模型，還能“拼接”經(jīng)典梗圖

作者：量子位 2025-04-21 08:27:00

人工智能新聞

從整體上來說，Wan2.1首尾幀視頻模型這次在主體一致性、前后連貫性等方面確實(shí)表現(xiàn)不錯(cuò)。

在GitHub狂攬1w+星標(biāo)的通義萬相Wan2.1，又雙叒上新了！

最新打開方式是醬嬸兒的：

給出開始（首幀）和結(jié)束（尾幀）兩張圖片，Wan2.1便能分分鐘生成一段絲滑的5s、720p視頻。

根據(jù)前后視角的不同，還能自動(dòng)調(diào)整鏡頭角度，緩慢變成高空俯拍，并同時(shí)保證人物光影正確：

原來這是阿里通義萬相Wan2.1最新開源的首尾幀視頻模型，基于Wan2.1文生視頻14B大模型，為創(chuàng)作者們提供更高效、更靈活的視頻制作方式。

官方表示，這是業(yè)界首個(gè)百億參數(shù)規(guī)模的開源首尾幀視頻模型。

目前普通用戶可以直接在通義萬相官網(wǎng)體驗(yàn)，開發(fā)者可以通過GitHub、Hugging Face、魔搭社區(qū)等開源平臺(tái)使用。

為了評(píng)估其真實(shí)能力，我們也在第一時(shí)間上手實(shí)測了一波。

初步感受是，從整體上來說，Wan2.1首尾幀視頻模型這次在主體一致性、前后連貫性等方面確實(shí)表現(xiàn)不錯(cuò)。

我們嘗試了用它來改造經(jīng)典梗圖或挑戰(zhàn)一些火爆一時(shí)的玩法，具體過程如下。

實(shí)測Wan2.1首尾幀視頻模型

打開通義萬相官網(wǎng)，進(jìn)入視頻生成，然后選擇圖生視頻并開啟首尾幀功能：

先上經(jīng)典玩法——“文藝復(fù)興”表情包。

我們提供的首尾幀分別如下：

對(duì)于這樣兩張頗具戲劇張力的圖片，Wan2.1最終生成的視頻be like：

雖然不能深究故事合理性，但整個(gè)轉(zhuǎn)場確實(shí)非常絲滑，而且運(yùn)動(dòng)過程中人物的一致性保持較好，類似頭發(fā)、長相、服裝這樣易出錯(cuò)的細(xì)節(jié)也hold住了。

接下來難度升級(jí)，我們又嘗試讓兩張完全不同的表情包來個(gè)“時(shí)空跨越”。

結(jié)果生成的視頻自帶“PPT轉(zhuǎn)場”效果，有種家里長輩看熊孩子的感覺了（doge）~

Okk，除了整活兒，接下來我們也從時(shí)序連貫性、創(chuàng)意合理性、內(nèi)容一致性以及技術(shù)實(shí)現(xiàn)難度等維度來進(jìn)行一個(gè)全方位考察。

最常見的用法，當(dāng)屬各類寫實(shí)。

讓我們淺淺模仿一下自然頻道，讓一朵花花慢慢生長出來。

Prompt：特寫鏡頭，讓牡丹花慢慢綻放。

可以看到，整個(gè)生長過程相當(dāng)自然，已經(jīng)是肉眼無法一眼識(shí)別為AI的情況了。

而且連首幀圖片中隱藏的蛛網(wǎng)也捕捉到了，在花朵綻放時(shí)也被牽動(dòng)起來。

還有人物寫實(shí)，通過提供兩張?zhí)貙懻掌?，我們考察一下Wan2.1對(duì)光影這類細(xì)節(jié)的把控力。

Prompt：寫實(shí)風(fēng)格，臉部特寫，一個(gè)金發(fā)碧眼的小男孩，鏡頭微微左移，記錄他被陰影遮住的側(cè)臉。

顯然，由于兩張圖片前后差距不大，因此稍微不注意可能還以為是靜態(tài)圖像。

而通過細(xì)致觀察，我們在視頻靠近結(jié)尾的部分捕捉到了小男孩的脖子和臉上發(fā)生了光照變化。

除此之外，我們也挑戰(zhàn)了曾經(jīng)火爆一時(shí)的創(chuàng)意玩法——毒液變身特效。

Prompt：特效大片既視感，穿西裝的男人突然變身成怪獸毒液。

馬斯克版·毒液這就來了：

能夠看出，對(duì)于這種內(nèi)容跨度比較大的例子，Wan2.1使用了“遮掩大法”，直接一個(gè)閃光特效實(shí)現(xiàn)變身。

對(duì)此，你說它變了還是沒變，還真難界定~

另外我們也嘗試了其他風(fēng)格，比如二次元。

Prompt：動(dòng)漫風(fēng)格，一個(gè)打著雨傘的動(dòng)漫角色站在雨中，不知道看見什么突然傻笑起來。

可以看到，開頭和結(jié)尾的表情100%還原了，而且中間還上演了“超絕變臉”，一秒鐘八百個(gè)小表情（bushi~

同時(shí)下雨這個(gè)場景也真實(shí)還原了，沒有雨滴直接穿過雨傘的“超現(xiàn)實(shí)場景”。

，時(shí)長00:05

最后，我們也簡單對(duì)比了一下Wan2.1和可靈（可靈1.6）的首尾幀生成效果。

同樣兩張圖片和提示詞下，可靈生成的馬斯克版·毒液如下：

雖然老馬的面目略顯猙獰，但好歹是真變身了。

所以，你更pick哪一個(gè)呢？

揭秘技術(shù)原理和配置

從以上簡單實(shí)測來看，相比早期的一些鬼畜視頻，這次開源的Wan2.1首尾幀視頻模型在主體一致性、前后連貫性等方面已經(jīng)有了相當(dāng)大的進(jìn)步。

那么接下來的問題是：怎么做到的？

通過阿里官方發(fā)布的技術(shù)報(bào)告，僅從首尾幀控制來看，其得益于在基礎(chǔ)架構(gòu)模型上，引入了額外的條件控制分支。

具體而言，首幀與尾幀同若干零填充的中間幀拼接，構(gòu)成控制視頻序列。該序列進(jìn)一步與噪聲及掩碼（mask）進(jìn)行拼接，最終作為擴(kuò)散變換模型（DiT）的輸入。

此外，為實(shí)現(xiàn)畫面穩(wěn)定性控制，通義萬相首尾幀生視頻模型提取了首幀和尾幀的CLIP語義特征，并通過交叉注意力機(jī)制（Cross-Attention Mechanism）將其注入到DiT的生成過程中。

憑借這一獨(dú)特的模型架構(gòu)，最終實(shí)現(xiàn)了流暢且準(zhǔn)確的首尾幀變換。

當(dāng)然，最后大家最關(guān)注的還是配置問題。

以國內(nèi)的魔搭社區(qū)為例，他們目前已在DiffSynth-Studio項(xiàng)目中支持了Wan2.1首尾幀模型。

也就是說，開發(fā)者可以基于DiffSynth-Studio（一個(gè)提供全鏈路推理和訓(xùn)練優(yōu)化的開源工具）實(shí)現(xiàn)便捷推理。

值得注意的是，他們還通過某一參數(shù)來控制推理過程中常駐顯存的參數(shù)量。而實(shí)際推理過程使用的顯存需求，會(huì)與這一參數(shù)、分辨率、幀數(shù)有關(guān)。

他們以81幀960*960分辨率的視頻為例：

設(shè)置參數(shù)=None時(shí)（意味著無常駐參數(shù)限制），需要46G顯存；
設(shè)置參數(shù)=4*10**9時(shí)，需要24G顯存，但推理速度會(huì)有所下降；

另外，部分網(wǎng)友也在第一時(shí)間分享了自己的配置情況：

我們自己測下來也發(fā)現(xiàn)，僅從官網(wǎng)直接體驗(yàn)，目前生成一個(gè)視頻實(shí)際需要幾分鐘甚至十幾分鐘時(shí)間。

所以，大家卷質(zhì)量的同時(shí)，能不能把時(shí)長打下來?。╠oge）~

直接體驗(yàn)入口：
https://tongyi.aliyun.com/wanxiang/videoCreation

GitHub：
https://github.com/Wan-Video/Wan2.1
模型（魔搭社區(qū)）：
https://www.modelscope.cn/models/Wan-AI/Wan2.1-FLF2V-14B-720P

責(zé)任編輯：張燕妮來源：量子位

馬斯克模型 AI

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營