開源的風(fēng)吹到視頻生成:阿里開源登頂VBench的萬相大模型,一手實測來了!
當(dāng)很多 AI 公司還就是否該走開源路線而感到左右為難時,阿里的技術(shù)團隊又開源了一個新的模型 —— 萬相(Wan)視頻生成大模型(包括全部推理代碼和權(quán)重,最寬松的開源協(xié)議)。
經(jīng)常玩視頻生成模型的同學(xué)應(yīng)該知道,當(dāng)前的很多模型仍然面臨多方面挑戰(zhàn),比如難以還原復(fù)雜的人物動作,處理不好物體交互時的物理變化,遇到長文本指令就「選擇性遵循」等。如果三個方面都做得比較好,那模型廠商多半是不舍得開源的。
業(yè)界翻車 case,體操等復(fù)雜運動對于視頻生成模型來說充滿挑戰(zhàn)。
阿里的做法與之不同。新開源的萬相視頻生成大模型不僅能展現(xiàn)旋轉(zhuǎn)、跳躍、轉(zhuǎn)身、翻滾等復(fù)雜動作,精準還原碰撞、反彈、切割等真實物理場景,還能準確理解中英文長文本指令,還原各種場景切換、角色互動。
我們先來看看官方的 demo:
Prompt:一名男子在跳臺上做專業(yè)跳水動作。全景平拍鏡頭中,他穿著紅色泳褲,身體呈倒立狀態(tài),雙臂伸展,雙腿并攏。鏡頭下移,他跳入水中,濺起水花。背景中是藍色的泳池。
Prompt:體育攝影風(fēng)格,騎手在場地障礙賽中引導(dǎo)馬匹快速通過障礙物。騎手身著專業(yè)比賽服,頭戴安全帽,表情專注而堅定,雙手緊握韁繩,雙腿夾緊馬腹,與馬匹完美配合。馬匹騰空躍起,動作連貫且準確,四蹄有力地踏過每一個障礙物,保持速度和平衡。背景是自然的草地和藍天,畫面充滿動感和緊張感。4K, 高清畫質(zhì),動作完整。
Prompt:紅色橡膠球從高處自由下落到水泥地面,彈跳后靜止,攝像機固定視角側(cè)拍,寫實風(fēng)格,慢動作細節(jié)。
Prompt:兩只擬人化的貓咪身穿緊身拳擊服,戴著鮮艷的手套,在聚光燈下的拳擊臺上激烈對決。它們眼神堅定,肌肉緊繃,展現(xiàn)出專業(yè)拳擊手的力量與敏捷。一只花斑狗裁判站在一旁,吹著哨子,公正地掌控比賽節(jié)奏。四周觀眾席上的動物們歡呼雀躍,為比賽增添熱烈氛圍。貓咪的拳擊動作迅速而有力,爪子在空中劃出一道道模糊的軌跡。畫面采用動感模糊效果,捕捉瞬間的激烈交鋒,展現(xiàn)出比賽的緊張與刺激。近景特寫,聚焦于拳臺上的激烈對抗。
Prompt:美妝短視頻,特寫鏡頭下,一位年輕女性正在細致涂抹睫毛膏。畫面聚焦于她的眼部,只見她從睫毛根部開始,緩緩而均勻地向上刷動,睫毛膏的質(zhì)地輕薄,輕易附著于每一根睫毛。每一次刷動都能明顯看到睫毛變得更加纖長卷翹,根根分明的效果如同小扇子般逐漸展現(xiàn),整個過程流暢自如。視頻精準捕捉了睫毛膏帶來的驚艷效果。近景特寫,細膩清晰的畫面質(zhì)感。
有同學(xué)可能說,這種視頻生成模型開源了有什么用,根本跑不動?這點不需要擔(dān)心,因為本次開源的模型分為 14B 和 1.3B 兩個參數(shù)規(guī)格。大尺寸 14B 版本主打高性能,但 1.3B 小版本適合消費級顯卡,其生成視頻質(zhì)量超過其他更大尺寸的開源模型,但同時僅需 8.2GB 顯存就可以生成 480P 高質(zhì)量視頻,特別適用于二次模型開發(fā)和學(xué)術(shù)研究。
萬相不同參數(shù)量模型在不同 GPU 卡型上的推理耗時 (s)/ 顯存消耗,可以看到 1.3B 版本僅需 8.19GB 顯存,就可以在 4090 等消費級顯卡上運行。
而對于有條件跑 14B 版本的同學(xué),新模型可以提供更強的性能。權(quán)威評測集 VBench 的信息顯示,萬相大模型大幅領(lǐng)先 Sora、HunyuanVideo、Minimax、Luma、Gen3、Pika 等國內(nèi)外視頻生成模型,以總分 86.22% 的成績登上榜首位置,成為視頻生成領(lǐng)域的全新標桿。
為了了解新模型的性能,機器之心在第一時間進行了測試,并深挖了其背后的技術(shù)細節(jié)。
一手實測阿里萬相
新開源的萬相不僅在文字視頻生成、復(fù)雜運動、指令遵循以及物理建模等方面表現(xiàn)突出,還提供了豐富的功能支持,包括文生視頻、圖生視頻、首尾幀、視頻配樂等。
文字視頻生成
俗話說,一招鮮,吃遍天。
對于萬相大模型來說,「會寫字」就是它的「拿手絕活」。
它不僅是首個具備支持中文文字生成能力,還是同時支持中英文文字特效生成的視頻生成模型。
我們只需輸入簡短的文字描述,它就能生成具有電影級效果的文字和動畫。
什么特效字體、海報字體或者是其他真實場景下的字體,它通通能搞定。
比如,隨著淺綠色煙霧緩緩消散,「機器之心」四個大字逐漸顯露,沒有出現(xiàn)「鬼畫符」,也沒有錯別字。
Prompt:動態(tài)電影鏡頭,淺綠色煙霧從畫面頂部緩緩向下彌漫,逐漸覆蓋整個屏幕。隨著煙霧的擴散,畫面慢慢淡出,切換到中央位置出現(xiàn) “機器之心” 四個大字。煙霧與 logo 之間的過渡自然流暢,營造出神秘而專業(yè)的氛圍。背景為深色,突出 logo 的清晰度和視覺沖擊力。近景特寫鏡頭,緩慢推進效果。
再比如讓極具賽博朋克風(fēng)的霓虹招牌上寫著英文單詞「Welcome」,拼寫也沒什么 bug。
Prompt:賽博朋克的城市里,夜晚霓虹燈閃爍,大樓上的招牌寫著 “Welcome”,街道上車輛快速行駛。
復(fù)雜運動生成
復(fù)雜運動一向是衡量視頻生成模型性能的「試金石」。
歷經(jīng)一年多的進化,盡管大部分視頻生成模型已經(jīng)有了長足的進步,但面對旋轉(zhuǎn)、跳躍、奔跑等復(fù)雜動作時仍會時不時「翻車」。
萬相在這方面下了狠功夫,如今它能夠在多種場景下實現(xiàn)穩(wěn)定的復(fù)雜運動生成,甚至還通過了部分視頻生成中的圖靈測試。
我們讓它生成一段男生在籃球場上投籃的畫面,看似簡單的場景,實則蘊含著復(fù)雜的運動規(guī)律和動態(tài)細節(jié)。
一方面,投籃動作包含復(fù)雜的肢體協(xié)調(diào)和精細的手部動作,模型需要捕捉到運動員的跳躍、手臂的伸展、手腕的翻轉(zhuǎn)以及手指對籃球的控制等。
另一方面,籃球的運動軌跡也要符合物理規(guī)律,籃球形狀不能出現(xiàn)扭曲或不自然的變化等。
萬相生成的視頻中,球員彈跳、投籃的動作行云流水,籃球的運動軌跡也符合現(xiàn)實場景。
Prompt:球場上,一個健壯的男生彈跳起來投籃,籃球從籃筐中掉落下來。
再比如下面這則視頻中,臉上涂滿厚厚油彩的小丑,叼著一根雪茄,還邁著六親不認的步伐。無論是手部的擺動,還是眼神的變化都相當(dāng)逼真,很有電影的質(zhì)感。
Prompt:夜晚,一個小丑抽著雪茄,從一輛著火的面包車旁走過,黑色電影風(fēng)格。
還有這則小狗在雪地里奔跑的視頻。
它的小短腿快速交替著,耳朵也隨之上下顛動,整個運動過程絲滑自然。在細節(jié)方面,萬相生成的小狗毛發(fā)也根根分明,清晰可見,幾乎可以「以假亂真」。
Prompt:一只小狗在白雪覆蓋的街道上歡快奔跑的生動場景。鏡頭捕捉到狗在中途奔跑的身影,它的皮毛上閃爍著雪花,展現(xiàn)出一種動感和活力。背景是輕輕飄落的雪花,營造出寧靜的冬日氛圍。街道兩旁是被雪覆蓋的樹木和古色古香的房屋,房屋的屋頂被白色覆蓋。光線柔和而漫射,仿佛是陰天,增強了舒適的寒冬感。構(gòu)圖采用低角度拍攝,突出小狗的頑皮精神,景深較淺,背景略顯模糊,將焦點吸引到小狗身上。場景無縫循環(huán),讓狗狗在冬日仙境中的歡快情緒得以持續(xù)展現(xiàn)。
長文本遵循
復(fù)雜的指令遵循也是視頻生成模型的一項關(guān)鍵能力。
而萬相在這方面,既聽得懂「人話」,還能確保細節(jié)上不丟三落四。
Prompt:歡樂派對現(xiàn)場,一群多元種族的年輕人在寬敞明亮的客廳中央盡情舞動,活力四射。彩色氣球與彩帶裝點空間,閃爍的燈光投射出迷幻光影,營造出節(jié)日般的氛圍。他們穿著休閑時尚,隨著節(jié)奏擺動身體,臉上洋溢著燦爛笑容,彼此眼神交流,流露出親密與喜悅。背景中,有人倚靠沙發(fā)聊天,舉杯暢飲,空氣中彌漫著歡聲笑語。紀實攝影風(fēng)格,快門捕捉動態(tài)瞬間,中景廣角視角。
在這段視頻中,萬相嚴格遵循了文本描述。為了呈現(xiàn)多元種族,畫面里有白人小哥、黑人小姐姐,他們跳舞、暢飲。即使生成多主體的運動鏡頭,畫面也并未崩壞。
Prompt:夜幕下的都市脈動,第一人視角 FPV 無人機穿梭于摩天大樓之間,高速飛行軌跡捕捉霓虹燈海。城市夜景如同流動的彩色畫卷,燈火闌珊,光影交織。無人機鏡頭緊貼建筑表面,快速掠過玻璃幕墻與霓虹廣告牌,展現(xiàn)現(xiàn)代都市的繁華與神秘。動態(tài)模糊效果強化速度感,營造出未來科技氛圍。近景至全景的連續(xù)變化,呈現(xiàn)壯觀的城市夜景。
面對這一長串文本描述,萬相不僅模擬出無人機的運行軌跡,給人一種身臨其境的感覺,還逼真地呈現(xiàn)出復(fù)雜的燈光效果和建筑風(fēng)格。
Prompt:一個孤獨的探險者小心翼翼地穿過一個狹窄的洪水泛濫的洞穴,在狹小的空間里蹲伏著前進。她手中閃爍的火把散發(fā)出陰森的金色光芒,在她的臉上形成戲劇性的底光,同時也照亮了上方嶙峋的巖層。每走一步,水面都會泛起漣漪,火把的光芒在天花板上反射出閃閃發(fā)光的圖案。陰影在洞壁上舞動,隨著火焰的搖曳而變幻??諝庵袕浡鴿鉂獾臐駳?,霧氣在火炬的光芒中翻騰。鏡頭在探險者前方移動,位置較低,以突出幽閉的緊張氣氛和前方的神秘深淵。超現(xiàn)實的紋理、電影般的燈光,以及神秘和探索的氛圍。
這段提示詞則考察了萬相在復(fù)雜場景構(gòu)建、氛圍營造和細節(jié)呈現(xiàn)上的綜合能力。
它需要生成逼真的探險者形象和其小心翼翼的動作,同時渲染出狹窄且洪水泛濫的洞穴環(huán)境,包括嶙峋的巖層、水面的漣漪以及火把的動態(tài)光影效果。
此外還需融入低角度鏡頭、超現(xiàn)實紋理、電影級燈光以及濕氣和霧氣的環(huán)境效果,顯然萬相的表現(xiàn)還不錯。
此外,萬相不僅能看懂中文,還能 get 到英文。
Prompt:A young man, ginger hair, sings a song in front of various urban backgrounds, 80s hairstyle and outfit, wild dancing gyrations, background dancers, 80s video resolution, photorealistic, pop video.
物理建模
讓模型從大量的視頻數(shù)據(jù)中學(xué)到物理規(guī)律是所有視頻生成模型的共同目標,因為違背物理規(guī)律的視頻(比如椅子憑空飛起)會被鑒定為「一眼 AI」。萬相大模型在這方面的表現(xiàn)讓我們看到了視頻生成大模型在學(xué)習(xí)物理規(guī)律方面的進展。
如下所示,我們給出的 prompt:透明玻璃杯在桌面傾倒,牛奶緩慢流出,液體在桌面形成蜿蜒流動軌跡,微距鏡頭展現(xiàn)液體表面張力,寫實風(fēng)格。
可以看到,模型展示出了牛奶流到桌上之后的動態(tài)痕跡,而且考慮了牛奶的粘稠度。杯子的反光特性以及牛奶與杯子接觸留下的液膜也在視頻中得到了還原。
而在下面這個草莓入水的視頻中,模型則很好地展示了草莓和水之間復(fù)雜的相互作用力以及水珠的透明感,結(jié)合對特寫和微距攝影的技巧運用,完整還原了草莓墜入水中那一刻的物理之美。
Prompt: 一顆草莓墜入清澈透明的水中,草莓輕輕旋轉(zhuǎn)下沉,特寫鏡頭捕捉這一刻的動態(tài)美,微距攝影風(fēng)格,強調(diào)水珠的透明感和草莓的鮮艷色澤。
當(dāng)然,除了下載開源模型,我們還可以通過通義萬相的網(wǎng)頁端直接體驗新模型。
該網(wǎng)頁端功能十分強大,支持文生視頻、圖生視頻、首尾幀生成以及視頻配樂等多種功能。在實際測試中,這些功能都展現(xiàn)出了良好的效果,凸顯了其在廣告、短視頻等領(lǐng)域的應(yīng)用潛力。
譬如我們上傳一張圖片,然后輸入 Prompt:女生隨著音樂跳舞。
通義萬相立馬就能讓靜態(tài)的畫面動起來,主角的動作表情也更加豐富。
再來一個,效果也非常不錯:
Prompt:復(fù)古膠片質(zhì)感的視頻片段,一位穿著鮮艷彩色條紋毛衣的女性成為焦點,她的黑色秀發(fā)自然垂落,銀色項鏈與耳環(huán)在柔和燈光下閃爍。背景是朦朧的城市夜景,霓虹燈與街燈交織出夢幻般的氛圍。女性臉上掛著溫暖的笑容,她拿起復(fù)古相機,對著鏡頭捕捉這一刻的美好,眼神中透露出對生活的熱愛與滿足。中景,平視視角,女性的動作流暢自然,仿佛在講述一段屬于自己的故事。
萬相大模型核心技術(shù)創(chuàng)新
那么,問題來了,萬相大模型是如何實現(xiàn)生成能力突破的呢?主要是兩大核心創(chuàng)新。一個是高效的因果 3D VAE,另一個則是視頻 Diffusion Transformer 。
高效的因果 3D VAE
萬相團隊自研了一種專為視頻生成設(shè)計的新型因果 3D VAE 架構(gòu),并結(jié)合多種策略來改進時空壓縮、降低內(nèi)存使用以及確保時間因果性。
萬相大模型視頻 VAE。
實驗結(jié)果表明,萬相的視頻 VAE 在各項指標上均表現(xiàn)出極具競爭力的性能。在相同的硬件環(huán)境(單個 A800 GPU)下,萬相的 VAE 重建速度比現(xiàn)有的最先進方法(如 HunYuanVideo)快 2.5 倍。
視頻 Diffusion Transformer
萬相模型架構(gòu)基于主流的視頻 DiT 結(jié)構(gòu),通過 Full Attention 機制確保長時程時空依賴的有效建模,實現(xiàn)時空一致的視頻生成。模型的整體訓(xùn)練則采用了線性噪聲軌跡的流匹配(Flow Matching)方法。
如以下模型架構(gòu)圖所示,模型首先使用多語言 umT5 編碼器對輸入文本進行語義編碼,并通過逐層的交叉注意力層,將文本特征向量注入到每個 Transformer Block 的特征空間,實現(xiàn)細粒度的語義對齊。此外,研究者通過一組在所有 Transformer Block 中共享參數(shù)的 MLP,將輸入的時間步特征 T 映射為模型中 AdaLN 層的可學(xué)習(xí)縮放與偏置參數(shù)。實驗發(fā)現(xiàn),在相同參數(shù)規(guī)模下,這種共享時間步特征映射層參數(shù)的方法在保持模型能力同時可以顯著降低參數(shù)和計算量。
此外,萬相大模型還通過可擴展的預(yù)訓(xùn)練策略、大規(guī)模數(shù)據(jù)鏈路構(gòu)建以及自動化評估指標,共同提升了模型的最終性能表現(xiàn)。
Qwen + 萬相,阿里已實現(xiàn)全模態(tài)開源
時間回到 2023 年。當(dāng)時,如果有人說開源模型有望追上閉源模型,很多人可能都不相信。然而正是在這樣的背景下,一些頂級的 AI 公司走上了開源的路線,Meta、阿里都是其中的典型代表。
兩年后的今天,阿里 Qwen 衍生模型已突破 10 萬個,超越 Meta 的 Llama 系列,躋身全球最大 AI 模型家族之列。更引人注目的是,在 Huggingface 最新發(fā)布的開源大模型榜單(OpenLLMLeaderboard)中,前十名全部被基于 Qwen 開發(fā)的衍生模型包攬,充分展現(xiàn)了中國開源模型的蓬勃生命力。
Huggingface2 月 10 日官網(wǎng)榜單截圖。
而且,阿里的開源大模型不止在語言方面表現(xiàn)出色,在多模態(tài)方面也處于領(lǐng)先地位:今年 1 月開源的視覺理解模型 Qwen2.5-VL 斬獲了 OCRBenchV2、MMStar、MathVista 等 13 項評測冠軍,全面超越了 GPT-4o 與 Claude3.5,在多模態(tài)這個賽道打破了「開源不如閉源」的固有認知。
如今,在萬相開源之后,阿里的兩大基礎(chǔ)模型已經(jīng)全部開源,實現(xiàn)了真正意義上的全模態(tài)開源。這在當(dāng)前 AI 巨頭中獨樹一幟。
目前,萬相已登陸 GitHub、HuggingFace 和魔搭社區(qū)平臺,全面對接主流框架。從 Gradio 快速體驗到 xDiT 并行加速推理,再到即將接入的 Diffusers 和 ComfyUI,該模型為開發(fā)者提供了全方位的支持。這不僅降低了技術(shù)門檻,也為不同場景需求提供了靈活的解決方案。
我們也期待阿里的開源大模型家族進一步壯大。
開源地址:
Github: https://github.com/Wan-Video
HuggingFace:https://huggingface.co/Wan-AI