谷歌發(fā)布“Vlogger”模型:?jiǎn)螐垐D片生成10秒視頻
谷歌發(fā)布了一個(gè)新的視頻框架:
只需要一張你的頭像、一段講話錄音,就能得到一個(gè)本人栩栩如生的演講視頻。
視頻時(shí)長(zhǎng)可變,目前看到的示例最高為10s。
可以看到,無論是口型還是面部表情,它都非常自然。
如果輸入圖像囊括整個(gè)上半身,它也能配合豐富的手勢(shì):
網(wǎng)友看完就表示:
有了它,以后咱開線上視頻會(huì)議再也不需要整理好發(fā)型、穿好衣服再去了。
嗯,拍一張肖像,錄好演講音頻就可以(手動(dòng)狗頭)
用聲音控制肖像生成視頻
這個(gè)框架名叫VLOGGER。
它主要基于擴(kuò)散模型,并包含兩部分:
一個(gè)是隨機(jī)的人體到3D運(yùn)動(dòng)(human-to-3d-motion)擴(kuò)散模型。
另一個(gè)是用于增強(qiáng)文本到圖像模型的新擴(kuò)散架構(gòu)。
其中,前者負(fù)責(zé)將音頻波形作為輸入,生成人物的身體控制動(dòng)作,包括眼神、表情和手勢(shì)、身體整體姿勢(shì)等等。
后者則是一個(gè)時(shí)間維度的圖像到圖像模型,用于擴(kuò)展大型圖像擴(kuò)散模型,使用剛剛預(yù)測(cè)的動(dòng)作來生成相應(yīng)的幀。
為了使結(jié)果符合特定的人物形象,VLOGGER還將參數(shù)圖像的pose圖作為輸入。
VLOGGER的訓(xùn)練是在一個(gè)超大的數(shù)據(jù)集(名叫MENTOR)上完成的。
有多大?全長(zhǎng)2200小時(shí),共包含80萬(wàn)個(gè)人物視頻。
其中,測(cè)試集的視頻時(shí)長(zhǎng)也有120小時(shí)長(zhǎng),共計(jì)4000個(gè)人物。
谷歌介紹,VLOGGER最突出的表現(xiàn)是具備多樣性:
如下圖所示,最后的像素圖顏色越深(紅)的部分,代表動(dòng)作越豐富。
而和業(yè)內(nèi)此前的同類方法相比,VLOGGER最大的優(yōu)勢(shì)則體現(xiàn)在不需要對(duì)每個(gè)人進(jìn)行訓(xùn)練、也不依賴于面部檢測(cè)和裁剪,并且生成的視頻很完整(既包括面部和唇部,也包括肢體動(dòng)作)等等。
具體來看,如下表所示:
Face Reenactment方法無法用音頻和文本來控制此類視頻生成。
Audio-to-motion倒是可以音頻生成,方式也是將音頻編碼為3D人臉動(dòng)作,不過它生成的效果不夠逼真。
Lip sync可以處理不同主題的視頻,但只能模擬嘴部動(dòng)作。
對(duì)比起來,后面的兩種方法SadTaker和Styletalk表現(xiàn)最接近谷歌VLOGGER,但也敗在了不能進(jìn)行身體控制上,并且也不能進(jìn)一步編輯視頻。
說到視頻編輯,如下圖所示,VLOGGER模型的應(yīng)用之一就是這個(gè),它可以一鍵讓人物閉嘴、閉眼、只閉左眼或者全程睜眼:
另一個(gè)應(yīng)用則是視頻翻譯:
例如將原視頻的英語(yǔ)講話改成口型一致的西班牙語(yǔ)。
網(wǎng)友吐槽
最后,“老規(guī)矩”,谷歌沒有發(fā)布模型,現(xiàn)在能看的只有更多效果還有論文。
嗯,吐槽也是不少的:
畫質(zhì)模型、口型抽風(fēng)對(duì)不上、看起來還是很機(jī)器人等等。
因此,有人毫不猶豫打上差評(píng):
這就是谷歌的水準(zhǔn)嗎?
有點(diǎn)對(duì)不起“VLOGGER”這個(gè)名字了。
——和OpenAI的Sora對(duì)比,網(wǎng)友的說法確實(shí)也不是沒有道理。。
大家覺得呢?
更多效果:https://enriccorona.github.io/vlogger/
完整論文:https://enriccorona.github.io/vlogger/paper.pdf