撰稿 | 清竹
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
2023年底,AI圈似乎已經(jīng)被“文生視頻”模型攻占了!
11月底 AI 文生視頻工具 Pika 1.0 橫空出世、風(fēng)頭一時(shí)無兩,日前斯坦福大學(xué) AI 科學(xué)家李飛飛團(tuán)隊(duì)聯(lián)合谷歌推出AI 視頻生成模型 W.A.L.T(Window Attention )繼續(xù)炸圈,近日,騰訊團(tuán)隊(duì)帶著新作品來炸場了!
1、吊打黑馬AnimateDiff,實(shí)力碾壓
AnimateZero 是騰訊AI團(tuán)隊(duì)發(fā)布的一款視頻生成模型,它通過改進(jìn)預(yù)訓(xùn)練的視頻擴(kuò)散模型(Video Diffusion Models),將視頻生成當(dāng)作一種零樣本的圖像動(dòng)畫問題,能夠更精確地控制視頻的外觀和運(yùn)動(dòng)。
據(jù)介紹,該模型的效果秒殺 Animatediff,并且能夠更好地兼容現(xiàn)有的SD生態(tài)??谡f無憑,先來看看 AnimateZero 生成的視頻效果如何?
AnimateZero 展示了在多個(gè) T2I 模型上生成的個(gè)性化視頻。
比如由動(dòng)漫人物的圖片生成的視頻,人物動(dòng)作流暢,還融入了眼睛變色、頭發(fā)蓬蓬的小細(xì)節(jié):
再看看自然景觀的生成,沙灘上浪花的涌動(dòng)、煙花的絢爛綻放、閃電襲來的氛圍感,都有種身臨其境的感覺。
AnimateZero 還演示了一種通過插入文本嵌入來控制視頻的動(dòng)態(tài)效果:由圖像生成視頻后,再增加如“快樂+微笑”、“憤怒而嚴(yán)肅”、“張開嘴”、“非常悲傷”等文本,視頻人物就能呈現(xiàn)對應(yīng)的情緒和動(dòng)作。
除了在現(xiàn)有模型上生成個(gè)性化視頻,AnimateZero 是如何“秒殺”AnimateDiff 的?
AnimateZero 方面表示, AnimateDiff (AD)的一種常見用途是協(xié)助 ControlNet (CN) 進(jìn)行視頻編輯,但它仍然存在域間隙問題。AnimateZero (AZ)在這方面具有明顯的優(yōu)勢,即生成主觀質(zhì)量更高、與給定文本提示匹配度更高的視頻。
AnimateZero 官方也給出了視頻效果對比:根據(jù)原視頻生成在熔巖中游泳的女孩,AnimateDiff 的視頻畫面比較模糊,熔巖的效果幾乎看不出來,對比之下,AnimateZero 的視頻無論是與文本的契合度還是畫面的美感,明顯優(yōu)于AnimateDiff。
如果要將原視頻中的黑色汽車變成紅色呢?效果也顯而易見:
再來看看要求將原視頻變成在森林的草地上奔跑的小女孩,AnimateDiff生成的視頻既沒有呈現(xiàn)森林也沒有看到草地,只是在背景墻和小女孩的頭發(fā)上呈現(xiàn)一些綠色,這顯然不符合要求;而AnimateZero的效果就好多了,和主題詞完美契合。
2、AnimateZero 到底強(qiáng)在哪?
AnimateZero是一種基于視頻擴(kuò)散模型的零樣本圖像動(dòng)畫生成器。傳統(tǒng)的視頻擴(kuò)散模型(VDM)存在以下幾個(gè)問題:
- 黑匣子:生成過程不透明
- 低效且不可控:要獲得滿意的結(jié)果,需要大量的試錯(cuò)
- 域差距:受訓(xùn)練期間使用的視頻數(shù)據(jù)集的域限制
AnimateZero 利用一種分步生成視頻的方法,將外觀和運(yùn)動(dòng)過程解耦,解決了傳統(tǒng)文本到視頻(T2V)擴(kuò)散模型缺乏精確控制的問題。通過零樣本修改,還能將T2V模型轉(zhuǎn)換為I2V模型,使其成為零樣本圖像動(dòng)畫生成器。
- 解耦:視頻生成過程解耦為外觀(T2I)和運(yùn)動(dòng)過程(I2V)
- 高效可控:T2I 生成相比 T2V 更加可控、高效,在 I2V 生成視頻之前可以獲得滿意的圖像
- 緩解域差距問題:可以微調(diào) T2I 模型的域以與實(shí)際域保持一致,這比調(diào)整整個(gè)視頻模型更有效
傳統(tǒng)視頻擴(kuò)散模型(a) 和 AnimateZero 視頻生成模型 (b) 的對比
除了本身的創(chuàng)新之外,相比AnimateDiff,AnimateZero 有哪些優(yōu)勢呢?
- 更高的一致性:在文本描述與生成視頻之間,以及T2I(文本到圖像)域與生成視頻之間,AnimateZero展示了更高的一致性。
- 多樣化應(yīng)用:相比于AnimateDiff,AnimateZero支持更廣泛的個(gè)性化圖像域,并且能夠在不同風(fēng)格(如真實(shí)風(fēng)格、動(dòng)漫風(fēng)格)中表現(xiàn)更好。
- 更強(qiáng)的動(dòng)畫效果:在動(dòng)畫質(zhì)量和風(fēng)格一致性方面,AnimateZero優(yōu)于AnimateDiff,尤其在處理復(fù)雜運(yùn)動(dòng)和不常見對象時(shí)表現(xiàn)出更好的性能。
再完美的模型也會(huì)有它的局限性,AnimateZero的性能受限于其基礎(chǔ)模型AnimateDiff的運(yùn)動(dòng)先驗(yàn)。對于一些復(fù)雜運(yùn)動(dòng)(如體育運(yùn)動(dòng))或不常見對象的動(dòng)畫,AnimateZero的表現(xiàn)可能不盡如人意。另外由于AnimateZero是基于AnimateDiff的改進(jìn),因此其性能和應(yīng)用范圍受到基礎(chǔ)模型的限制。
3、AI視頻生成模型大爆發(fā)
1年以前,ChatGPT 以迅雷不及掩耳之勢席卷全球,為文本創(chuàng)作領(lǐng)域帶來重大的變革;一年后,文生視頻賽道已成爆發(fā)態(tài)勢,國內(nèi)外的玩家都紛紛“開卷”。
先看國外的科技巨頭:
11 月 3 日,Runway 宣布其 AI 視頻生成工具 Gen-2 更新,一周后,Runway 又發(fā)布運(yùn)動(dòng)畫筆功能,強(qiáng)化視頻局部編輯能力;
11 月 16 日,科技巨頭 Meta 推出了文生視頻模型 Emu Video,首先生成以文本為條件的圖像,然后生成以文本和生成的圖像為條件的視頻。
Stability AI 當(dāng)然也毫不示弱。11 月 29 日,Stability AI 推出了名為 Stable Video Diffusion 的視頻生成模型,提供 SVD 和 SVD-XT 兩個(gè)模型。
更有最近火爆出圈的 AI 創(chuàng)企 Pika Labs 推出網(wǎng)頁版 Pika 1.0,直接甩出體驗(yàn)鏈接引爆市場。
國內(nèi)方面,11月12日,中國科學(xué)院等機(jī)構(gòu)的研究者11 月 21 日提出了一個(gè)無需訓(xùn)練的文本生成視頻框架 GPT4Motion;11 月 18 日,字節(jié)跳動(dòng)推出了文生視頻模型 PixelDance,提出了基于文本指導(dǎo) + 首尾幀圖片指導(dǎo)的視頻生成方法,使得視頻生成的動(dòng)態(tài)性更強(qiáng);12月1日,阿里的研究團(tuán)隊(duì)提出新框架 Animate Anyone,支持從靜態(tài)圖像 AI 生成動(dòng)態(tài)視頻;12月5日,美圖公司發(fā)布的 AI 視覺大模型 MiracleVision 的 4.0 版本,主打設(shè)計(jì)和視頻能力。
4、紛紛加碼,“開卷”背后有何玄機(jī)?
那么,AI視頻生成的技術(shù)和產(chǎn)品加速爆發(fā),背后說明了什么?
從技術(shù)層面來看,文生圖和文生視頻的人工智能模型有較高相似性,文生圖的技術(shù)和經(jīng)驗(yàn)可供文生視頻加以運(yùn)用和參考是一個(gè)重要原因。
從市場情緒來看,近日95后女生以4人團(tuán)隊(duì)打造Pika Labs,快速出圈刷屏,成立半年就獲得5500萬美元融資,估值2億美元。緊接著,也在A股上演了“父憑女貴”的戲碼,其父親所在的上市公司在這款工具爆火后連續(xù)收獲3個(gè)漲停。可見文生視頻領(lǐng)域的吸金能力空前巨大。
此外,國內(nèi)頭部企業(yè)的技術(shù)積累已經(jīng)具備條件。湖南大學(xué)信息科學(xué)與工程學(xué)院博士生導(dǎo)師、教授張大方分析稱,文生視頻的人工智能模型參數(shù)為10億級(jí)別至100億級(jí)別,國內(nèi)頭部企業(yè)已能熟練掌握上述技術(shù)。在加快改進(jìn)模型、清洗學(xué)習(xí)數(shù)據(jù)、調(diào)整操作界面、優(yōu)化內(nèi)部參數(shù)的共同推動(dòng)下,文生視頻技術(shù)已逐步克服諸多不足,并快速進(jìn)入商業(yè)化應(yīng)用。
同時(shí),從應(yīng)用角度方面來看,AI生成視頻的前景毋庸置疑,影視、游戲以及廣告等領(lǐng)域都是其落地的重要場景。艾媒咨詢CEO兼首席分析師張毅表示:“個(gè)性化的視頻制作更麻煩、成本更高,甚至超出了雇用程序員編程。不少行業(yè)都渴望有一款簡單的視頻生成工具?!?/p>
根據(jù)月狐iAPP統(tǒng)計(jì)的數(shù)據(jù),從2022年Q2到今年6月,在移動(dòng)互聯(lián)網(wǎng)的所有類別的APP中,短視頻的使用時(shí)長占比均高達(dá)30%以上,為所有類別中最高。這樣的需求,也一定程度表明在視頻制作領(lǐng)域蘊(yùn)含著一個(gè)巨大增量的“蓄水池”。
客觀來看,雖然各大廠商企業(yè)競相加碼,但相關(guān)應(yīng)用的優(yōu)化迭代速度和商業(yè)化進(jìn)程都較慢,大公司與初創(chuàng)團(tuán)隊(duì)勢均力敵,文生視頻應(yīng)用的潛力還沒有徹底被開發(fā)。如何找到視頻生成時(shí)長、效果、成本之間的平衡點(diǎn),這依舊需要在各自不斷的實(shí)踐中尋求最優(yōu)解。
參考鏈接:
https://vvictoryuki.github.io/animatezero.github.io/
https://www.chinaz.com/2023/1212/1582268.shtml
https://baijiahao.baidu.com/s?id=1785065486791669561&wfr=spider&for=pc