快手版Sora「可靈」開放測試:生成超120s視頻,更懂物理,復雜運動也能精準建模
什么?瘋狂動物城被國產(chǎn)AI搬進現(xiàn)實了?
與視頻一同曝光的,是一款名為「可靈」全新國產(chǎn)視頻生成大模型。
它采用了Sora相似的技術(shù)路線,結(jié)合多項自研技術(shù)創(chuàng)新,生成的視頻不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力和想象力。
數(shù)據(jù)上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支持多種寬高比。
另外再劃個重點,可靈不是實驗室放出的Demo或者視頻結(jié)果演示,而是短視頻領域頭部玩家快手推出的產(chǎn)品級應用。
而且主打一個務實,不開空頭支票、發(fā)布即上線,可靈大模型已在快影APP中正式開啟邀測。
話不多說,接下來就帶大家欣賞一下可靈的大作~
更懂世界規(guī)律,復雜運動也能準確刻畫
相信通過開頭的視頻,大家已經(jīng)感受到了可靈豐富的想象力。
可靈不但在想象上天馬行空,在描繪運動時又能做到符合真實的運動規(guī)律,復雜、大幅度的時空運動也能準確刻畫。
比如這個在公路上高速奔跑的老虎,不僅畫面連貫,隨鏡頭角度的變化合理,老虎四肢的動作協(xié)調(diào),而且還把奔跑過程中軀干部分的抖動也展現(xiàn)得淋漓盡致。
還有宇航員在月球上奔跑的畫面,動作流暢,步態(tài)和影子的運動合理恰當,太絕了。
除了運動,可靈大模型還能模擬真實物理世界特性,生成的視頻更符合物理規(guī)律。
在這段倒牛奶的視頻中,力學方面的重力規(guī)律、液面的上升都符合現(xiàn)實,連倒液體時泡沫一直在最上層的特性也考慮到了:
還有光學上的反射規(guī)律也考慮到了,注意看這只彈鋼琴的貓貓,光滑表面上影子里的貓爪和琴鍵,都在隨著本體同步變化。
另外,與真實物理世界的交互,也能被真實反映——下面視頻中小男孩吃漢堡的生成視頻中,一口咬下去,齒印一直都在,小男孩享受吃漢堡的享受過程宛如就在眼前。
要知道,符合物理規(guī)律對于大模型來說還是相當困難的事,連Sora也不能完全做好。
比如同樣是吃漢堡這個場景,Sora生成的視頻不僅有人手只有三根手指這樣的槽點,咬合位置與漢堡上的咬痕也并不匹配……
不僅僅是真實世界中的物理規(guī)律和運動,對于想象力的場景,可靈也是信手拈來。
比如這只戴著眼鏡的兔子邊喝咖啡,邊看報紙,悠閑自得。
同時,可靈對細節(jié)的刻畫也很到位,比如兩朵緩慢綻放的花,可以看到花瓣和花蕊的細節(jié)。
而且,可靈不僅生成的視頻更加真實,生成的視頻分辨率高達1080p,時長高達2分鐘(幀率30fps),且支持自由的寬高比。
其中也包括豎版視頻,可以說是和快手的短視頻生態(tài)相當匹配了。
畫面中,一列火車向前方行駛,窗外的風景走過了春夏秋冬四季,整個兩分多鐘的畫面都十分連貫。
到這里,相信效果展示得已經(jīng)夠多了,如果還意猶未盡的話,可以前往可靈官網(wǎng)平臺(傳送門見文末),看更多神奇的AI視頻吧!
(注:本文中的視頻有壓縮,高清及最新效果以官方網(wǎng)頁為準)
那么在可靈的這些視頻背后,都運用了哪些獨特的技術(shù)呢?
原生的視頻生成技術(shù)路線
整體上,可靈大模型的采用了原生的文生視頻技術(shù)路線,替代了圖像生成+時序模塊的組合,這也是可靈生成時間長、幀率高,能準確處理復雜運動的核心奧義。
具體來看,快手大模型團隊認為,一個優(yōu)秀的視頻生成模型,需要考慮四大核心要素——模型設計、數(shù)據(jù)保障、計算效率,以及模型能力的擴展。
類Sora模型架構(gòu),scaling law得到驗證
先從模型的設計說起,這當中主要應當考慮兩方面的因素,一是足夠強的擬合能力,二是足夠多的參數(shù)容量。
架構(gòu)的選擇方面,可靈整體框架采用了類Sora的DiT結(jié)構(gòu),用Transformer代替了傳統(tǒng)擴散模型中基于卷積網(wǎng)絡的U-Net。
Transformer的處理能力和生成能力更強大,擴展能力更強、收斂效率更好,解決了U-Net在處理復雜任務時冗余過大、感受野和定位精度不可兼得的局限。
在此基礎之上,快手大模型團隊還對模型中的隱空間編/解碼、時序建模等模塊進行了升維。
目前,在隱空間編/解碼上,主流的視頻生成模型通常沿用Stable Diffusion的2D VAE進行空間壓縮,但這對于視頻而言存在明顯的信息冗余。
因此,快手大模型團隊自研了3D VAE網(wǎng)絡,實現(xiàn)時空同步壓縮,獲得了較高的重建質(zhì)量,在訓練性能和效果取得了最佳平衡。
另外在時序信息建模上,快手大模型團隊設計了一款計算高效的全注意力機制(3D Attention)作為時空建模模塊。
該方法可以更準確地建模復雜時空運動,同時還能兼顧具運算成本,有效提升了模型的建模能力。
當然,除了模型自身的能力,用戶輸入的文本提示詞也對最終生成的效果有著重要影響。
為此,團隊專門設計了專用的語言模型,可以對用戶輸入的提示詞進行高質(zhì)量擴充及優(yōu)化。
數(shù)據(jù)如何構(gòu)建?自建高質(zhì)量數(shù)據(jù)篩選方案
說完了模型的設計,數(shù)據(jù)對于模型的表現(xiàn)同樣至關(guān)重要。
事實上,訓練數(shù)據(jù)的規(guī)模和質(zhì)量不足,也正是許多視頻生成模型研發(fā)者所面臨的棘手問題。
網(wǎng)上視頻普遍質(zhì)量低、難以滿足訓練需求??焓执竽P蛨F隊構(gòu)建了較為完備的標簽體系,可以精細化的篩選訓練數(shù)據(jù),或?qū)τ柧殧?shù)據(jù)的分布進行調(diào)整。
該體系從視頻基礎質(zhì)量、美學、自然度等多個維度對視頻數(shù)據(jù)質(zhì)量進行刻畫,并針對每一個維度設計多種定制化的標簽特征。
在訓練視頻生成模型時,需要同時把視頻及對應文本描述喂給模型。視頻本身質(zhì)量也有了保證,其對應文本描述,應該如何獲得?
開發(fā)團隊專門研發(fā)了視頻描述模型,可以生成精確、詳盡、結(jié)構(gòu)化的視頻描述。顯著提升視頻生成模型的文本指令響應能力。
縱使模型天賦異稟,亦離不開勤學苦練
模型和數(shù)據(jù)都有了,運算效率也要跟得上,如此才能在有限的時間內(nèi)完成海量規(guī)模數(shù)據(jù)訓練,看到顯著的效果。
為了獲得更高的運算效率,可靈大模型并沒有采用當前行業(yè)主流的DDPM方案,而是使用了傳輸路徑更短的flow模型作為擴散模型基座。
從另一層面上看,算力的不足也是不少AI從業(yè)者面臨的難題,即使像OpenAI這樣的大模型巨頭,所擁有的算力資源同樣緊缺。
這一問題在短時間內(nèi)可能無法徹底解決,但可以做的是,在總體硬件資源有限的條件下,盡可能地提高算力的運用效率。
快手大模型團隊便使用了分布式訓練集群,并通過算子優(yōu)化、重算策略優(yōu)化等手段,大幅提升了可靈大模型的硬件利用率。
在訓練過程當中,可靈也沒有選擇一步到位,而是采取分階段訓練策略來逐步提升分辨率:
在初期的低分辨率階段,主要是以數(shù)量取勝,通過大量數(shù)據(jù)增強模型對概念多樣性的理解和建模能力;
在隨后的高分辨率階段,數(shù)據(jù)的質(zhì)量開始變成更重要的考量因素,目的是進一步提高模型性能,并加強在細節(jié)上的表現(xiàn)。
采取這樣的策略,有效結(jié)合了量與質(zhì)的優(yōu)勢,確保了模型在訓練的各個階段均能得到優(yōu)化提升。
需求千變?nèi)f化,模型游刃有余
在基礎模型的研發(fā)工作之上,快手大模型團隊也從長寬比等多個維度上對其能力進行了擴展。
在長寬比上,可靈同樣沒有采用主流模型在固定分辨率上進行訓練的方式。
因為傳統(tǒng)方法在面對長寬比多變的真實數(shù)據(jù)時,通常會引入前處理邏輯,破壞了原始數(shù)據(jù)的構(gòu)圖,導致生成結(jié)果構(gòu)圖較差。
相比之下,快手大模型團隊的方案可以使模型直接處理不同長寬比的數(shù)據(jù),保留原始數(shù)據(jù)的構(gòu)圖。
為了應對未來數(shù)分鐘甚至更長的視頻生成需求,團隊也研發(fā)了基于自回歸的視頻時序拓展方案,且不會出現(xiàn)明顯的效果退化。
除了文本輸入外,可靈還支持多種控制信息輸入,如相機運鏡、幀率、邊緣/關(guān)鍵點/深度等,為用戶提供了豐富的內(nèi)容控制能力。
不做“畫餅”大模型,應用才是硬道理
大模型行業(yè)“卷”到今天,我們見證了太多技術(shù)的高光時刻,但技術(shù)突破的初心仍然還是應用。
快手可靈視頻生成模型,誕生于短視頻頭部廠商,也持續(xù)面向應用在探索。非常值得一提的是,可靈大模型是發(fā)布即上線,不畫餅!不畫餅!不畫餅!
可靈的文生視頻模型,已在快影APP中正式開啟邀測,目前開放的版本支持720P視頻生成,豎版視頻生成能力也即將開放。
除了文生視頻,快手還基于可靈大模型推出了其他應用,如“AI舞王”已在快手和快影APP中上線。
無論是科目三還是二人轉(zhuǎn),只要上傳一張全身照,都能分分鐘讓人物跟著音樂優(yōu)雅地跳動,甚至兵馬俑也能跳起最炫民族風。
除了視頻生成模塊,快手大模型團隊還向其中加入了自研3D人臉重建技術(shù),以及背景穩(wěn)定性和重定向模塊,更生動地展現(xiàn)表情和運動效果。
而且,更新一些的“AI唱跳”技術(shù)也迎來了首發(fā),在跳舞的同時,也能讓人物張嘴唱歌了。
順便再做個劇透,基于可靈大模型的圖生視頻功能,也將于近期與用戶見面。
實際上,作為頭部視頻廠商,快手在大模型熱潮之中也動作迅速,此前就曾相繼推出語言模型和文生圖模型。
基于這些模型,AI文案、AI生圖,AI生視頻,以及更多AI創(chuàng)作功能,都已相繼在快手和快影APP中上線。
在視頻生成上,快手也曾與多個高校或科研機構(gòu)聯(lián)手,陸續(xù)發(fā)布可控運動的視頻生成算法Direct-a-Video、多模態(tài)生成算法Video-LaVIT、圖生視頻算法I2V-Adapter、多模態(tài)美學評價模型UNIAA等關(guān)鍵技術(shù),為可靈大模型積累了深厚的技術(shù)沉淀。
現(xiàn)在,快手完整的文生視頻功能終于華麗登場,我們期待快手作為一家擁有獨特場景優(yōu)勢和廣泛應用場景的短視頻賽道巨頭,能夠率先把視頻生成能力在短視頻場景中落地生花。
如果你對AI視頻創(chuàng)作感興趣,不妨到快影APP中一探究竟。