通義萬相視頻生成重磅升級(jí),成功登頂VBench,運(yùn)鏡、質(zhì)感直達(dá)專業(yè)級(jí)
2025 才剛開始,AI 視頻生成就要迎來技術(shù)突破了?
今天上午,阿里旗下通義萬相視頻生成模型宣布了 2.1 版重磅升級(jí)。
新發(fā)布的模型有兩個(gè)版本,分別是通義萬相 2.1 極速版和專業(yè)版,前者注重高效性能,后者瞄準(zhǔn)卓越表現(xiàn)力。
據(jù)介紹,通義萬相此次全面升級(jí)了模型整體性能,尤其是在處理復(fù)雜運(yùn)動(dòng)、還原真實(shí)物理規(guī)律、提升電影質(zhì)感及優(yōu)化指令遵循方面取得了顯著進(jìn)展,為 AI 的藝術(shù)創(chuàng)作打開了新的大門。
我們先來一睹視頻生成效果,看看能不能驚艷到你。
先以經(jīng)典的「切牛排」為例,可以看到,牛排的紋理清晰可見,表面覆蓋著一層薄薄的油脂,閃爍著光澤,刀鋒沿著肌肉纖維緩緩切入,肉質(zhì) Q 彈,細(xì)節(jié)拉滿。
Prompt: 在餐廳里,一個(gè)人正在切一塊熱氣騰騰的牛排。在特寫俯拍下,這個(gè)人右手拿著一把鋒利的刀,將刀放在牛排上,然后沿著牛排中心切開。這個(gè)人穿著黑色衣服,手上涂著白色指甲油,背景是虛化的,有一個(gè)白色的盤子,里面放著黃色的食物,還有一張棕色的桌子。
再來看一個(gè)人物特寫生成效果,小女孩的面部表情、手部和肢體動(dòng)作都很自然協(xié)調(diào),風(fēng)掠過頭發(fā)也符合運(yùn)動(dòng)規(guī)律。
Prompt:可愛少女站在花叢中,雙手比心,周圍跳動(dòng)著各種小愛心。她穿著粉色連衣裙,長(zhǎng)發(fā)隨風(fēng)輕揚(yáng),笑容甜美。背景是春日花園,鮮花盛開,陽光明媚。高清寫實(shí)攝影,近景特寫,自然光線柔和。
模型強(qiáng)不強(qiáng),再來跑個(gè)分。目前,在權(quán)威視頻生成評(píng)測(cè)榜單 VBench Leaderboard 上,升級(jí)后的通義萬相以總分 84.7% 的成績(jī)登上榜首位置,超越了 Gen3、Pika、CausVid 等國(guó)內(nèi)外視頻生成模型。看起來,視頻生成的競(jìng)爭(zhēng)格局又迎來了一波新變化。
榜單鏈接:https://huggingface.co/spaces/Vchitect/VBench_Leaderboard
即日起,用戶就可以在通義萬相官網(wǎng)用上最新一代模型了。同樣地,開發(fā)者也可以在阿里云百煉調(diào)用大模型 API。
官網(wǎng)地址:https://tongyi.aliyun.com/wanxiang/
一手實(shí)測(cè),表現(xiàn)力提升,還能玩轉(zhuǎn)特效字體
最近一段時(shí)間,視頻生成大模型的迭代速度很快,新版本的通義萬相有沒有實(shí)現(xiàn)代差級(jí)別的提升?我們進(jìn)行了一番實(shí)際測(cè)試。
AI 視頻會(huì)寫字了
首先,AI 生成的視頻終于能告別「鬼畫符」了。
此前,市面上主流 AI 視頻生成模型一直無法準(zhǔn)確地生成中英文,只要是該有文字的地方,就是一堆難以辨認(rèn)的亂碼。如今這一行業(yè)難題被通義萬相 2.1 破解了。
它成為了首個(gè)具備支持中文文字生成能力、且同時(shí)支持中英文文字特效生成的視頻生成模型。
現(xiàn)在,用戶只需輸入簡(jiǎn)短的文字描述,即可生成具有電影級(jí)效果的文字和動(dòng)畫。
比如一只小貓正在電腦前打字,畫面依次跳出「不工作就沒飯吃」7 個(gè)大字。
通義萬相生成的視頻中,貓咪坐在工位上一本正經(jīng)地敲鍵盤、按鼠標(biāo),模樣像極了當(dāng)代打工人,彈出的字幕再加上自動(dòng)生成的配樂,讓整個(gè)畫面都更具詼諧感。
再比如從一個(gè)橘色的正方體小盒子里跳出英文單詞「Synced」。
無論是生成中文還是英文,通義萬相都能搞定,沒有錯(cuò)別字,也沒出現(xiàn)「鬼畫符」。
不僅如此,它還支持多種場(chǎng)景下的字體應(yīng)用,包括特效字體、海報(bào)字體以及真實(shí)場(chǎng)景中的字體展示等。
比如在塞納河畔的埃菲爾鐵塔附近,絢爛的煙花在空中綻放,隨著鏡頭拉近,粉色數(shù)字「2025」逐漸變大,直到充斥整個(gè)畫面。
大幅度運(yùn)動(dòng)不再「鬼畜」
復(fù)雜的人物運(yùn)動(dòng)一度是 AI 視頻生成模型的「噩夢(mèng)」,以往 AI 生成的視頻要么手腳亂飛、大變活人,要么出現(xiàn)「只轉(zhuǎn)身不轉(zhuǎn)頭」的詭異動(dòng)作。
而通義萬相通過先進(jìn)的算法優(yōu)化和數(shù)據(jù)訓(xùn)練,能夠在多種場(chǎng)景下實(shí)現(xiàn)穩(wěn)定的復(fù)雜運(yùn)動(dòng)生成,特別是在大幅度肢體運(yùn)動(dòng)和精確的肢體旋轉(zhuǎn)方面,上圖生成的霹靂舞就很絲滑。
再比如下面這則生成視頻中,男子奔跑時(shí)動(dòng)作流暢自然,沒有出現(xiàn)左右腿不分或者扭曲變形的問題。而且它還很注重細(xì)節(jié),男子每一次腳尖觸地都會(huì)留下印跡,并微微揚(yáng)起細(xì)沙。
Prompt:日落時(shí)分,金色的陽光灑在波光粼粼的海面上,一名年輕帥氣的男子沿著沙灘奔跑,穩(wěn)定跟蹤鏡頭。
難度較大的滑雪視頻它也能生成。
女孩身著滑雪裝備,在阿爾卑斯山的雪坡上滑行。她靈活地控制著滑雪板,時(shí)而加速,時(shí)而轉(zhuǎn)彎,高速運(yùn)動(dòng)下甩起的馬尾辮、卷起的積雪讓鏡頭更加逼真。
Prompt:一個(gè)年輕女孩在阿爾卑斯山滑雪
由此可見,它在物理規(guī)律理解方面也有著顯著提升,能夠模擬出真實(shí)感十足的視頻,避免出現(xiàn)「一眼假」的情況。
運(yùn)鏡媲美電影大師
大導(dǎo)演斯皮爾伯格曾說過:一場(chǎng)好電影的秘訣就在于鏡頭語言。為了拍出震撼的電影鏡頭,攝影師們恨不得上天入地、飛檐走壁。
不過在這個(gè) AI 時(shí)代,「拍」電影就容易了許多。
我們只需輸入一句簡(jiǎn)單的文本指令,比如鏡頭左移、鏡頭拉遠(yuǎn)、鏡頭推進(jìn)等,通義萬相就能自動(dòng)根據(jù)視頻的主體內(nèi)容和運(yùn)鏡需求輸出合理的視頻。
我們輸入 Prompt:搖滾樂隊(duì)在前院草坪上演出,隨著鏡頭的推進(jìn),畫面聚焦到吉他手身上,他身穿皮夾克,一頭凌亂的長(zhǎng)發(fā)隨節(jié)奏擺動(dòng)。吉他手的手指在琴弦上快速跳躍,背景中其他樂隊(duì)成員也在全情投入。
通義萬相 2.1 嚴(yán)格遵循了指令。視頻一開始,吉他手、鼓手激情演奏,隨著攝影機(jī)緩慢拉近,背景逐漸模糊,畫面放大,突出了吉他手的神態(tài)和手部動(dòng)作。
再來一個(gè)拉遠(yuǎn)鏡頭的視頻。
一個(gè)年輕偵探的眼睛特寫,鏡頭拉遠(yuǎn),男子正站在一條繁華的街上,身后是摩天大樓和靜止的汽車,仿佛時(shí)間被定格一般。
長(zhǎng)文本指令不會(huì)丟三落四
要想 AI 生成的視頻效果達(dá)到驚艷水準(zhǔn),必然離不開精準(zhǔn)的文本提示。
然而,有時(shí)大模型「記性」有限,面對(duì)包含各種場(chǎng)景切換、角色互動(dòng)和復(fù)雜動(dòng)作的文本指令,它就容易丟三落四,不是遺漏細(xì)節(jié),就是搞不清邏輯順序。
上新后的通義萬相在長(zhǎng)文本指令遵循方面就有了較大的進(jìn)步。
Prompt: 一位摩托車騎手在狹窄的城市街道上以極快的速度疾馳,避開了附近建筑物發(fā)生的大爆炸,火焰猛烈地咆哮著,投射出明亮的橙色光芒,碎片和金屬碎片在空中飛舞,加劇了現(xiàn)場(chǎng)的混亂。身著深色裝備的車手,彎腰緊握車把,神情專注,他以極快的速度向前沖去,絲毫不畏懼身后的火光沖天。爆炸留下的濃濃黑煙彌漫在空中,將背景籠罩在世界末日般的混亂之中。然而,騎手依然不屈不撓,準(zhǔn)確無誤地在混亂中穿梭,極富電影感,超精細(xì)細(xì)節(jié),身臨其境,3D,動(dòng)作連貫。
在以上這段長(zhǎng)篇大論般的文本描述中,狹窄的街道、明亮的火焰、彌漫的黑煙、亂飛的碎片以及身著深色裝備的騎手…… 這些細(xì)節(jié)都被通義萬相捕捉到。
通義萬相還具備更強(qiáng)大的概念組合能力,能夠準(zhǔn)確理解各種不同的想法、元素或者風(fēng)格,并將其組合在一起,創(chuàng)造出全新的視頻內(nèi)容。
一位穿著西裝的老人從雞蛋中破殼而出,瞪大雙眼緊盯鏡頭的白發(fā)老頭,再配上公雞咯咯叫的聲音,畫面相當(dāng)搞笑。
擅長(zhǎng)卡通油畫等多種風(fēng)格
新版通義萬相還能生成電影質(zhì)感的視頻畫面,同時(shí)對(duì)各類藝術(shù)風(fēng)格也有很好的支持,比如卡通、電影色、3D 風(fēng)格、油畫、古典等風(fēng)格。
造型奇特的外星船銹跡斑駁,背著氧氣瓶的宇航員擺動(dòng)雙腿在水下沉潛,整個(gè)鏡頭都很有科幻電影的 feel。
Prompt:電影質(zhì)感,一名宇航員正在探索一艘水下外星船殘骸。
再來看這個(gè) 3D 動(dòng)畫風(fēng)格的小怪獸,站在葡萄藤上手舞足蹈,甚是可愛。
Prompt:一只毛茸茸的快樂的青提小怪獸站在葡萄樹樹枝上快樂的歌唱,逆時(shí)針旋轉(zhuǎn)鏡頭。
此外,它還支持不同長(zhǎng)寬比,涵蓋 1:1、3:4、4:3、16:9 和 9:16 五個(gè)比例,能夠更好適配電視、電腦、手機(jī)等不同終端設(shè)備。
從以上表現(xiàn)來看,我們已經(jīng)可以使用通義萬相進(jìn)行一些創(chuàng)作,把靈感轉(zhuǎn)化為「現(xiàn)實(shí)」了。
當(dāng)然這一系列進(jìn)步,還得歸功于阿里云在視頻生成基礎(chǔ)模型上的升級(jí)。
基礎(chǔ)模型大幅優(yōu)化,架構(gòu)、訓(xùn)練、評(píng)估全方位「變身」
去年 9 月 19 日,阿里云在云棲大會(huì)上發(fā)布了通義萬相視頻生成大模型,帶來了影視級(jí)高清視頻的生成能力。作為阿里云全自研的視覺生成大模型,它采用了 Diffusion + Transformer 的架構(gòu),支持圖像和視頻生成類任務(wù),在模型框架、訓(xùn)練數(shù)據(jù)、標(biāo)注方式和產(chǎn)品設(shè)計(jì)上均有諸多創(chuàng)新,提供了業(yè)界領(lǐng)先的視覺生成能力。
此次升級(jí)后的模型中,通義萬相團(tuán)隊(duì)(以下簡(jiǎn)稱團(tuán)隊(duì))進(jìn)一步自研了高效的 VAE 和 DiT 架構(gòu),針對(duì)時(shí)空上下文關(guān)系的建模進(jìn)行了增強(qiáng),顯著優(yōu)化了生成效果。
Flow Matching(流匹配)是近年來新興的一種生成模型訓(xùn)練框架,其訓(xùn)練過程更簡(jiǎn)單,通過連續(xù)正則化流(Continuous Normalizing Flow)可以取得與擴(kuò)散模型相當(dāng)甚至更優(yōu)的生成質(zhì)量,并且推理速度更快,也因而逐漸開始應(yīng)用于視頻生成領(lǐng)域,比如 Meta 此前推出的視頻模型 Movie Gen 便使用了 Flow Matching。
在訓(xùn)練方法選擇上,通義萬相 2.1 采用了基于線性噪聲軌跡的 Flow Matching 方案,并針對(duì)該框架進(jìn)行了深度設(shè)計(jì),使得模型收斂性、生成質(zhì)量和效率均得到提升。
通義萬相 2.1 視頻生成架構(gòu)圖
針對(duì)視頻 VAE,團(tuán)隊(duì)結(jié)合緩存機(jī)制與因果卷積,設(shè)計(jì)了一種創(chuàng)新的視頻編解碼方案。其中緩存機(jī)制可以在視頻處理中保持必要的信息,從而減少重復(fù)計(jì)算,并提升計(jì)算效率;因果卷積能夠捕獲視頻的時(shí)序特征,適應(yīng)視頻內(nèi)容的遞進(jìn)變化。
在具體實(shí)現(xiàn)中,通過將視頻拆分為若干塊(Chunk)并緩存中間特征,代替了直接對(duì)長(zhǎng)視頻的 E2E 解碼過程,使顯卡的使用僅與 Chunk 大小相關(guān),而無需考慮原始視頻長(zhǎng)度,讓模型可以對(duì)無限長(zhǎng)的 1080P 視頻進(jìn)行高效編解碼。團(tuán)隊(duì)表示,這一關(guān)鍵技術(shù)為任意時(shí)長(zhǎng)視頻的訓(xùn)練提供了一種可行路徑。
下圖顯示了不同 VAE 模型的結(jié)果對(duì)比。從模型計(jì)算效率(幀 / 延遲)和視頻壓縮重構(gòu)(峰值信噪比,PSNR)指標(biāo)來看,通義萬相采用的 VAE 在參數(shù)不占優(yōu)的情況下,依然實(shí)現(xiàn)了業(yè)內(nèi)領(lǐng)先的視頻壓縮重構(gòu)質(zhì)量。
注:圓圈面積代表了模型參數(shù)大小。
團(tuán)隊(duì)在 DiT(Diffusion Transformer)上的核心設(shè)計(jì)目標(biāo)是實(shí)現(xiàn)強(qiáng)大的時(shí)空建模能力,同時(shí)保持高效的訓(xùn)練過程。做到這些需要進(jìn)行一些創(chuàng)新性改變。
首先,為了提高時(shí)空關(guān)系的建模能力,團(tuán)隊(duì)采用了時(shí)空全注意力機(jī)制,使模型能夠更準(zhǔn)確地模擬現(xiàn)實(shí)世界的復(fù)雜動(dòng)態(tài)。其次,參數(shù)共享機(jī)制的引入,在提升性能的同時(shí)有效降低了訓(xùn)練成本。此外,團(tuán)隊(duì)針對(duì)文本嵌入做了性能優(yōu)化,使用交叉注意力機(jī)制來嵌入文本特征,既達(dá)成了更優(yōu)的文本可控性,也降低了計(jì)算需求。
得益于這些改進(jìn)和嘗試,在相同計(jì)算成本的情況下,通義萬相的 DiT 結(jié)構(gòu)實(shí)現(xiàn)了更明顯的收斂?jī)?yōu)越性。
除了模型架構(gòu)上的創(chuàng)新,團(tuán)隊(duì)在超長(zhǎng)序列訓(xùn)練與推理、數(shù)據(jù)構(gòu)建管線與模型評(píng)估方面同樣進(jìn)行了一些優(yōu)化,使模型可以高效處理復(fù)雜生成任務(wù),并具備更強(qiáng)的效率優(yōu)勢(shì)。
百萬超長(zhǎng)序列的高效訓(xùn)練如何煉成
在處理超長(zhǎng)視覺序列時(shí),大模型往往面臨著計(jì)算、內(nèi)存、訓(xùn)練穩(wěn)定性、推理延遲等多個(gè)層面的挑戰(zhàn),因而要有高效的應(yīng)對(duì)方案。
為此,團(tuán)隊(duì)結(jié)合了全新模型工作負(fù)載的特點(diǎn)和訓(xùn)練集群的硬件性能,制定出了分布式、顯存優(yōu)化的訓(xùn)練策略,在保證模型迭代時(shí)間的前提下優(yōu)化訓(xùn)練性能,最終達(dá)到了業(yè)界領(lǐng)先的 MFU,并實(shí)現(xiàn)了 100 萬超長(zhǎng)序列的高效訓(xùn)練。
一方面,團(tuán)隊(duì)創(chuàng)新分布式策略,采用了 DP、FSDP、RingAttention、Ulysses 混合的 4D 并行訓(xùn)練,訓(xùn)練性能和分布式擴(kuò)展性雙雙得以增強(qiáng)。另一方面,為了實(shí)現(xiàn)顯存優(yōu)化,團(tuán)隊(duì)基于序列長(zhǎng)度帶來的計(jì)算量和通信量,采用分層的顯存優(yōu)化策略來優(yōu)化 Activation 顯存并解決了顯存碎片問題。
另外,計(jì)算優(yōu)化可以提高模型訓(xùn)練效率并節(jié)省資源,為此團(tuán)隊(duì)采用 FlashAttention3 進(jìn)行時(shí)空全注意力計(jì)算,并結(jié)合訓(xùn)練集群在不同尺寸上的計(jì)算性能,選擇合適的 CP 策略進(jìn)行切分。同時(shí)針對(duì)一些關(guān)鍵的模塊去除計(jì)算冗余,并通過高效的 Kernel 實(shí)現(xiàn)來降低訪存開銷、提升計(jì)算效率。在文件系統(tǒng)方面,團(tuán)隊(duì)充分利用阿里云訓(xùn)練集群中高性能文件系統(tǒng)的讀寫特性,通過分片 Save/Load 方式提升讀寫性能。
4D 并行分布式訓(xùn)練策略
與此同時(shí),針對(duì)訓(xùn)練中因 Dataloader Prefetch 、CPU Offloading 和 Save Checkpoint 導(dǎo)致的內(nèi)存溢出(OOM)問題,團(tuán)隊(duì)選擇錯(cuò)峰內(nèi)存使用方案。并且,為了保證訓(xùn)練穩(wěn)定性,團(tuán)隊(duì)借助了阿里云訓(xùn)練集群的智能化調(diào)度、慢機(jī)檢測(cè)以及自愈能力,實(shí)現(xiàn)了自動(dòng)識(shí)別故障節(jié)點(diǎn)并快速重啟任務(wù)。
數(shù)據(jù)構(gòu)建與模型評(píng)估引入自動(dòng)化
視頻生成大模型的訓(xùn)練離不開規(guī)?;母哔|(zhì)量數(shù)據(jù)和有效的模型評(píng)估,前者可以確保模型學(xué)習(xí)到多樣化的場(chǎng)景、復(fù)雜的時(shí)空依賴關(guān)系并提高泛化能力,構(gòu)成模型訓(xùn)練的基石;后者有助于監(jiān)督模型表現(xiàn),使其更好地達(dá)到預(yù)期效果,成為模型訓(xùn)練的風(fēng)向標(biāo)。
在數(shù)據(jù)構(gòu)建上,團(tuán)隊(duì)以高質(zhì)量為準(zhǔn)繩,打造出了一套自動(dòng)化的數(shù)據(jù)構(gòu)建管線,在視覺質(zhì)量、運(yùn)動(dòng)質(zhì)量等方面與人類偏好分布保持高度一致,從而可以自動(dòng)構(gòu)建高質(zhì)量的視頻數(shù)據(jù),并呈現(xiàn)出高多樣性、均衡分布等特征。
在模型評(píng)估上,團(tuán)隊(duì)同樣設(shè)計(jì)了一套全面的自動(dòng)化度量機(jī)制,將美學(xué)評(píng)分、運(yùn)動(dòng)分析和指令遵循等二十幾個(gè)維度納入其中,并針對(duì)性地訓(xùn)練出了能夠?qū)R人類偏好的專業(yè)打分器。在這些度量指標(biāo)的有效反饋下,模型迭代和優(yōu)化過程顯著加快。
可以說,架構(gòu)、訓(xùn)練和評(píng)估等多個(gè)方面的協(xié)同創(chuàng)新,讓升級(jí)后的通義萬相視頻生成模型在實(shí)際體驗(yàn)中收獲了顯著的代際提升。
視頻生成的 GPT-3 時(shí)刻,還有多久?
自去年 2 月,OpenAI 的 Sora 問世以來,視頻生成模型成為了科技界競(jìng)爭(zhēng)最為激烈的領(lǐng)域。國(guó)內(nèi)到海外,創(chuàng)業(yè)公司到科技大廠都在紛紛推出自家的視頻生成工具。然而相對(duì)于文字的生成,AI 視頻想要做到人們可以接受的程度,難度高了不止一個(gè)等級(jí)。
如果像 OpenAI CEO 山姆?奧特曼說的那樣,Sora 代表了視頻生成大模型的 GPT-1 時(shí)刻。那么我們?cè)诖嘶A(chǔ)上實(shí)現(xiàn)文本指令對(duì) AI 的精準(zhǔn)化控制、角度和機(jī)位的可調(diào)整、保證角色的一致性等視頻生成該有的能力,再加上快速變換風(fēng)格場(chǎng)景這樣 AI 獨(dú)有的功能,或許就可以很快迎來新的「GPT-3 時(shí)刻」。
從技術(shù)發(fā)展的路徑來看,視頻生成模型是一個(gè)驗(yàn)證 Scaling Laws 的過程。隨著基礎(chǔ)模型能力的提升,AI 將會(huì)越來越懂人類的指令,并能創(chuàng)造出越來越真實(shí)合理的環(huán)境。
從實(shí)踐的角度看,我們其實(shí)早就已經(jīng)迫不及待了:自去年起,不論短視頻、動(dòng)畫領(lǐng)域,甚至影視行業(yè)的人們都已經(jīng)開始利用視頻生成 AI 進(jìn)行創(chuàng)作探索。如果我們可以突破現(xiàn)實(shí)的限制,用視頻生成 AI 做以前無法想象的事,新一輪行業(yè)變革就在眼前。
現(xiàn)在看來,通義萬相已經(jīng)率先邁出了一步。