編譯丨伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
視頻生成模型的腳步永不停歇!
圖片
4月2日,谷歌剛剛發(fā)布了強(qiáng)到可怕的AI視頻編輯工具VLOGGER。VLOGGER就像收集了很多視頻生成領(lǐng)域的前沿AI技能,而打造出的一款百寶箱。其中也有一些亮點(diǎn)細(xì)節(jié),例如通過(guò)AI編輯,將讓畫面中講話者的閉眼、閉嘴、甚至“wink”。
這意味著視頻編輯在細(xì)節(jié)的深入上又精進(jìn)了一個(gè)level!
VLOGGER的工作原理即輸入音頻和圖像, 由“讀唇器”根據(jù)音頻預(yù)測(cè)說(shuō)話者的動(dòng)作,而“動(dòng)畫器”根據(jù)說(shuō)話者的照片和動(dòng)作細(xì)節(jié)創(chuàng)建視頻幀。
圖片
要知道VLOGGER這個(gè)百寶箱里都裝了什么,可以跟隨以下示例來(lái)看!
1.VLOGGER的多面能力
基礎(chǔ)的圖生視頻功能
將圖片驅(qū)動(dòng)為一段視頻。
圖片
多語(yǔ)種唇形切換
輸入一種語(yǔ)言的視頻和另一種語(yǔ)言的音頻,它能根據(jù)新輸入的語(yǔ)言調(diào)整說(shuō)話者的嘴部動(dòng)作!
順便一提,OpenAI的VOICE ENGINE也在關(guān)注多語(yǔ)種的能力??梢愿鶕?jù)一段音頻生成一段保留原聲音色及口音的外語(yǔ)視頻,如果這些能力都能打通,那么音視頻內(nèi)容的出海將會(huì)暢通無(wú)阻。
圖片
表情細(xì)節(jié)編輯
VLOGGER使得表情編輯更進(jìn)一步,例如單獨(dú)控制一只眼睛等。通過(guò)使用工具,將生成新的面部表情和動(dòng)作,用以提升視頻的創(chuàng)意。
圖片
2.最終效果,進(jìn)步了但未完全消除“恐怖谷”
圖片
毫無(wú)疑問(wèn)VLOGGER的視頻留下了令人印象深刻的亮點(diǎn)。如講話時(shí)自然的身體姿勢(shì),增加手部運(yùn)動(dòng)以在一定程度上提升了視頻的真實(shí)感。然而,生成的表情和動(dòng)作比起真實(shí)視頻還存在機(jī)械感重、不流暢的問(wèn)題,因此會(huì)存在一定的“恐怖谷”效應(yīng)。
參考鏈接:https://twitter.com/hey_madni/status/1774832882902864327