一句話就能魔改視頻主角,谷歌新「AI導(dǎo)演」驚呆網(wǎng)友:這畫質(zhì)也太贊了
本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
谷歌整出了個(gè)新“AI導(dǎo)演”,一句話甚至能把視頻主角給換了。
你看,青青草地上,一只小熊正在跳舞。
難道現(xiàn)在的熊都這么有藝術(shù)細(xì)胞了嘛??
No,No,No!草地上原有的其實(shí)是只猴子。
要從猴變熊,只用跟這個(gè)AI說(shuō)一句:
一只小熊隨著音樂(lè)節(jié)拍跳著舞,扭動(dòng)他的整個(gè)身子。(A bear dancing and jumping to upbeat music, moving his whole body)
除了會(huì)“魔改”視頻,這個(gè)名為Dreamix的AI還能把靜態(tài)圖片變成動(dòng)畫——也是一句話就搞定。
比如給此AI看一張“海龜游泳照”,再告訴它:
水下拍到一只海龜在游泳,后面有只鯊魚正在靠近。(Underwater shot of a sea turle with a shark apporching from behind)
好家伙,一句話不僅讓海龜游起來(lái)了,還憑空加了條鯊魚。
這效果,讓不少圍觀網(wǎng)友都紛紛點(diǎn)贊。
有人甚至斷言,AIGC將在接下的兩年時(shí)間繼續(xù)掀起熱潮,甚至比千禧年間的發(fā)展更加瘋狂。
導(dǎo)演視頻,只用一句話
一經(jīng)公開就能受到盛贊,這個(gè)AI究竟如何?不妨再看看其更多的“導(dǎo)演”作品來(lái)感受一下。
首先,在更換視頻角色方面,這是原本的田野:
這是AI放火燒掉的田野:
這是人的手在寫字:
這是AI生成的機(jī)器人手在寫字:
同樣以人寫字的視頻為原型,如果把提示句子換成“人的手在畫圓”,還會(huì)有不同的生成效果:
而在靜態(tài)圖變動(dòng)畫方面,原圖是霧蒙蒙的叢林:
而AI給這片林子加了一只奔跑的獨(dú)角獸,而且鏡頭還按句子提示給拉遠(yuǎn)了。
還有這樣一張河谷風(fēng)景圖:
AI不僅讓溪水流動(dòng)起來(lái),還給岸邊加上了來(lái)洗澡水牛,給天空加上了飛翔的小鳥。
看到這里,有人可能會(huì)覺(jué)得欠點(diǎn)火候:動(dòng)畫倒是做出來(lái)了,但畫質(zhì)也犧牲了挺多啊。
那不妨多給AI看幾張圖。
比如一口氣給AI看7張玩具火警的照片:
然后再讓它根據(jù)一句話生成視頻,這下畫質(zhì)就會(huì)清楚很多。
至于這個(gè)”AI導(dǎo)演”是怎么做的,谷歌表示,關(guān)鍵在于“老朋友”擴(kuò)散模型 (Diffusion Model) 。
擴(kuò)散模型,也是火出圈的AIGC作畫神器DALL·E 2的核心。
谷歌研究人員指出,其實(shí)之前已有類似的“文字生成視頻”AI了,但若僅僅在輸入視頻上對(duì)視頻擴(kuò)散模型進(jìn)行微調(diào),會(huì)限制運(yùn)動(dòng)變化的程度。
而此AI與眾不同之處在于:
團(tuán)隊(duì)使用了一個(gè)“混合目標(biāo)”,除了對(duì)原始目標(biāo)進(jìn)行微調(diào)外,還會(huì)對(duì)無(wú)序幀集進(jìn)行微調(diào)。
他們采用了一種深度學(xué)習(xí)中專門的注意力機(jī)制:Masked Temporal Attention,幫助模型專注于輸入信息的特定部分,忽略其他無(wú)關(guān)的部分。
——這提高了模型處理序列數(shù)據(jù)的能力,生成視頻中的動(dòng)態(tài)更多樣化,且效果也比較自然。
在擴(kuò)散模型和Masked Temporal Attention的加持下,對(duì)于更換視頻主角來(lái)說(shuō),輸入其實(shí)已經(jīng)被省略了——只需進(jìn)行微調(diào),結(jié)果的保真度也相當(dāng)不錯(cuò)。