谷歌發(fā)布超強AI視頻編輯工具!施展魔法的VLOGGER,音頻加圖片就搞定唇形和手勢,還把表情編輯玩出花了!
出品 | 51CTO技術棧(微信號:blog51cto)
編譯丨伊風
視頻生成模型的腳步永不停歇!
圖片
4月2日,谷歌剛剛發(fā)布了強到可怕的AI視頻編輯工具VLOGGER。VLOGGER就像收集了很多視頻生成領域的前沿AI技能,而打造出的一款百寶箱。其中也有一些亮點細節(jié),例如通過AI編輯,將讓畫面中講話者的閉眼、閉嘴、甚至“wink”。
這意味著視頻編輯在細節(jié)的深入上又精進了一個level!
VLOGGER的工作原理即輸入音頻和圖像, 由“讀唇器”根據(jù)音頻預測說話者的動作,而“動畫器”根據(jù)說話者的照片和動作細節(jié)創(chuàng)建視頻幀。
圖片
要知道VLOGGER這個百寶箱里都裝了什么,可以跟隨以下示例來看!
1.VLOGGER的多面能力
基礎的圖生視頻功能
將圖片驅(qū)動為一段視頻。
圖片
多語種唇形切換
輸入一種語言的視頻和另一種語言的音頻,它能根據(jù)新輸入的語言調(diào)整說話者的嘴部動作!
順便一提,OpenAI的VOICE ENGINE也在關注多語種的能力。可以根據(jù)一段音頻生成一段保留原聲音色及口音的外語視頻,如果這些能力都能打通,那么音視頻內(nèi)容的出海將會暢通無阻。
圖片
表情細節(jié)編輯
VLOGGER使得表情編輯更進一步,例如單獨控制一只眼睛等。通過使用工具,將生成新的面部表情和動作,用以提升視頻的創(chuàng)意。
圖片
2.最終效果,進步了但未完全消除“恐怖谷”
圖片
毫無疑問VLOGGER的視頻留下了令人印象深刻的亮點。如講話時自然的身體姿勢,增加手部運動以在一定程度上提升了視頻的真實感。然而,生成的表情和動作比起真實視頻還存在機械感重、不流暢的問題,因此會存在一定的“恐怖谷”效應。
參考鏈接:??https://twitter.com/hey_madni/status/1774832882902864327??
