今天起,漢字也能AI視頻生成了!《滕王閣序》直接拿捏到位了
“漢字”這個難關,今天終于被AI視頻生成給拿下了!
話不多說,我們直接先來看效果:
這個“?!?/strong>字,就這樣被AI水靈靈地一筆一劃滴了出來。
再如下面這個例子,我們的Prompt是:
有漢字“量子位”,古風。
但這樣還是略顯單調(diào),我們上一下難度:
賽博朋克風格城市夜景,鏡頭視角是車輛在馬路上行駛,對面大樓樓體有巨大的LED廣告牌,上面寫著“量子位”三個字。
好的,我們也算是打了一波賽博廣告了。
那么讓字數(shù)再多一點,AI是否能hold住呢?
我們直接來挑戰(zhàn)一下:
水彩透疊插畫風格,三只不同顏色的可愛小貓咪手舉著一條超大的魚,從右邊走到左邊。它們分別穿著粉色、藍色和黃色的小背心,眼睛圓圓的,表情呆萌。充滿童趣,筆觸淡雅溫馨,簡筆畫風格。純白背景上逐漸顯示出來幾個字體,寫著:“摸魚一天 快樂無邊”。
可以看到,這段視頻中雖然有一個小瑕疵(“摸”字多了一筆),但整體是把Prompt中的內(nèi)容給還原了出來。
當然,復雜的漢字都能搞定,這個AI自然也可以生成英文單詞,并且還是帶“花活兒”的那種(下面還有中文版):
那么,這到底是何許AI是也?
不賣關子,它就是阿里通義萬相剛剛升級的2個新版本視頻生成模型:
- 通義萬相2.1極速版:能夠讓AI高效、快速地生成視頻;
- 通義萬相2.1專業(yè)版:更注重AI視頻生成的質(zhì)量。
在整體體驗過后,我們能夠明顯感受到模型整體性能有了大幅的提升。
尤其是在處理復雜運動、還原真實物理規(guī)律、提升影視質(zhì)感以及優(yōu)化指令遵循方面。
據(jù)了解,新版通義萬相已經(jīng)以84.70%的成績登上權威評測集VBench榜首的位置,一路超越Gen3、Pika、CausVid等國內(nèi)外視頻生成模型。
不過有一說一,能生成漢字,也還只是通義萬相能力升級的一隅。
接下來,我們就繼續(xù)來看下它在視頻生成中的更多能力。
《滕王閣序》都能理解
值得一提的是,這個新升級的模型并不是PPT哦,是已經(jīng)上線了的那種~
現(xiàn)在人人都可以在線免費體驗了,入口和模型選擇如下圖所示:
如果你是開發(fā)者或者企業(yè),還可以在阿里云百煉上調(diào)用API,打造自己的專屬應用。
鑒于此前大部分AI視頻生成,在處理復雜人物動作時,往往會出現(xiàn)轉個身就鬼畜的現(xiàn)象。
我們就直接來上個難度,超復雜動作——Breaking。
請聽Prompt:
在室內(nèi),鏡頭平拍一個外國男子跳霹靂舞的全景,男子身穿灰色的上衣和綠色的褲子,鏡頭隨著男子的動作而移動,男子在舞臺上進行一系列的翻滾和旋轉動作,背景中可以看到觀眾席上的觀眾和一些模糊的舞臺燈光,但焦點始終保持在舞者的動作上。
可以看到,這段AI視頻生成一改以往的鬼畜,在如此多且復雜的動作情況下,人物效果依舊是穩(wěn)穩(wěn)的。
再來看下跳水運動:
圖片
細節(jié)如腳背,也是拿捏的很到位了。
除了在連續(xù)復雜動作發(fā)揮穩(wěn)定效果之外,還原真實物理規(guī)律,也是評判AI視頻生成效果的關鍵指標之一。
我們不妨讓《滕王閣序》來考驗一番:
落霞與孤鶩齊飛,秋水共長天一色。
圖片
不難看出,通義萬相新版本是非常好地理解了這句詩的意境。
而在面對像切肉這樣的動作時,還原物理規(guī)律的體現(xiàn)會更加明顯:
圖片
切肉時肉塊的自然分離、刀面上的鏡像、肉底部的油……細節(jié)如斯,細節(jié)如斯。
在真實性的基礎之上,若想用AI來打造質(zhì)量更高的視頻效果,那么運鏡就是不可或缺的技巧之一。
這一點,通義萬相也是可以完全hold住。
例如狐大仙蹦迪,我們可以來個給氛圍狠狠加分的運鏡:
圖片
像電影場景里跑車在山谷里疾馳的畫面,跟著汽車的軌跡加復雜運鏡也是可以有的:
圖片
除此之外,通義萬相還有個特點就是可以拿捏各種風格的類型,頗有種影視級的感覺。
例如中世紀真人寫實風:
圖片
再如卡通動畫:
圖片
而且生成的視頻尺寸也是選擇的哦:
那么接下來的一個問題就是:
怎么做到的?
整體來看,這次通義萬相在技術方面采取了三步走的創(chuàng)新路線。
首先,是VAE與DiT架構協(xié)同發(fā)力。
視頻VAE可以看做一位“壓縮大師”,擅長將視頻中的海量信息進行高效壓縮,提取出最為關鍵的特征。
它通過將視頻拆分為若干塊(Chunk),并緩存中間特征,取代了傳統(tǒng)長視頻的端到端編解碼方式。
這一設計的關鍵在于,使顯存的使用僅與Chunk大小相關,而與原始視頻長度無關,從而實現(xiàn)了對無限長1080P視頻的高效編解碼。
這種機制為任意時長視頻的訓練提供了可行性。實驗表明,在較小模型參數(shù)下,通義萬相VAE實現(xiàn)了業(yè)內(nèi)領先的視頻壓縮與重構質(zhì)量。
而DiT則像是一位“時空捕手”,能夠敏銳地捕捉視頻中的時空動態(tài),精準地建模視頻中不同元素在時間和空間上的變化關系。
通義萬相團隊采取了以下優(yōu)化措施:
- 時空全注意力機制:增強模型對復雜動態(tài)場景的建模能力。
- 參數(shù)共享機制:提升模型性能的同時,降低訓練成本。
- 文本嵌入優(yōu)化:提升文本控制能力,并顯著降低計算需求。
△通義萬相2.1視頻生成架構圖
其次,是超長序列訓練上的突破。
在面對超長序列訓練這一極具挑戰(zhàn)性的任務時,通義萬相團隊巧妙地運用了4D并行策略,猶如為模型訓練打造了一臺超強動力的“引擎”。
這一策略將DP(數(shù)據(jù)并行)、FSDP( Fully Sharded Data Parallel,全量分片數(shù)據(jù)并行)、RingAttention(環(huán)形注意力機制)、Ulysses(一種優(yōu)化技術)等多種先進技術有機融合。
例如在顯存優(yōu)化方面,團隊根據(jù)序列長度帶來的計算和通信需求,采用分層顯存優(yōu)化策略,解決顯存碎片問題,同時使用FlashAttention3提升時空注意力的計算效率。
此外,通過去冗余計算和高效Kernel實現(xiàn),進一步降低訪存開銷。
在文件系統(tǒng)優(yōu)化方面,針對阿里云高性能文件系統(tǒng)的特性,團隊采用分片Save/Load方式優(yōu)化數(shù)據(jù)讀寫性能,并通過錯峰內(nèi)存使用方案,解決Dataloader Prefetch、CPU Offloading與Checkpoint存儲引起的內(nèi)存OOM問題。
在穩(wěn)定性提升方面,依托阿里云的智能調(diào)度、慢機檢測與自愈能力,模型訓練能夠實現(xiàn)自動故障檢測與任務重啟,大幅提升訓練過程的穩(wěn)定性。
△通義萬相4D并行分布式訓練策略
最后,是數(shù)據(jù)與評估雙輪驅動。
通義萬相團隊打造了一套自動化數(shù)據(jù)構建管線,通過優(yōu)化視覺質(zhì)量和運動質(zhì)量,篩選整合與人類偏好分布高度一致的數(shù)據(jù)集。這些數(shù)據(jù)具有多樣性高、分布均衡等特點,極大提升了訓練效率。
團隊還為此設計了一套覆蓋美學評分、運動分析、指令遵循等多個維度的評估體系,并訓練了專業(yè)的打分器。通過這些自動化指標的反饋,顯著加速了模型的迭代與優(yōu)化。
以上便是煉成新版通義萬相的核心技術要義了。
至此,不僅是從技術創(chuàng)新方面,更是從真真切切的體驗角度來看,國產(chǎn)Sora再次走到了AI視頻領域的前沿。
單就能夠生成漢字這一點,便是全球獨一份的那種。
而從視頻生成范圍之廣,也是應了“通義萬相”的名字——AI已經(jīng)到了可以生成“萬相”的時刻。
那么你是否也有腦洞大開的想法,并想讓它們以視頻的形式呈現(xiàn)出來呢?
快來體驗一下最新、最Fashion的模型吧~
直接體驗入口:https://tongyi.aliyun.com/wanxiang/videoCreation
API調(diào)用:https://bailian.console.aliyun.com/?spm=5176.29619931.J__Z58Z6CX7MY__Ll8p1ZOR.1.74cd59fckLhf3c#/model-market