自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌發(fā)布超強AI視頻編輯工具!施展魔法的VLOGGER,音頻加圖片就搞定唇形和手勢,還把表情編輯玩出花了!

發(fā)布于 2024-4-7 13:47
瀏覽
0收藏

出品 | 51CTO技術棧(微信號:blog51cto)

編譯丨伊風

視頻生成模型的腳步永不停歇!

谷歌發(fā)布超強AI視頻編輯工具!施展魔法的VLOGGER,音頻加圖片就搞定唇形和手勢,還把表情編輯玩出花了!-AI.x社區(qū)圖片

4月2日,谷歌剛剛發(fā)布了強到可怕的AI視頻編輯工具VLOGGER。VLOGGER就像收集了很多視頻生成領域的前沿AI技能,而打造出的一款百寶箱。其中也有一些亮點細節(jié),例如通過AI編輯,將讓畫面中講話者的閉眼、閉嘴、甚至“wink”。

這意味著視頻編輯在細節(jié)的深入上又精進了一個level!

VLOGGER的工作原理即輸入音頻和圖像, 由“讀唇器”根據(jù)音頻預測說話者的動作,而“動畫器”根據(jù)說話者的照片和動作細節(jié)創(chuàng)建視頻幀。

谷歌發(fā)布超強AI視頻編輯工具!施展魔法的VLOGGER,音頻加圖片就搞定唇形和手勢,還把表情編輯玩出花了!-AI.x社區(qū)圖片

 

要知道VLOGGER這個百寶箱里都裝了什么,可以跟隨以下示例來看!

1.VLOGGER的多面能力

基礎的圖生視頻功能

將圖片驅(qū)動為一段視頻。

谷歌發(fā)布超強AI視頻編輯工具!施展魔法的VLOGGER,音頻加圖片就搞定唇形和手勢,還把表情編輯玩出花了!-AI.x社區(qū)圖片

多語種唇形切換

輸入一種語言的視頻和另一種語言的音頻,它能根據(jù)新輸入的語言調(diào)整說話者的嘴部動作!

順便一提,OpenAI的VOICE ENGINE也在關注多語種的能力。可以根據(jù)一段音頻生成一段保留原聲音色及口音的外語視頻,如果這些能力都能打通,那么音視頻內(nèi)容的出海將會暢通無阻。 

 

谷歌發(fā)布超強AI視頻編輯工具!施展魔法的VLOGGER,音頻加圖片就搞定唇形和手勢,還把表情編輯玩出花了!-AI.x社區(qū)圖片

表情細節(jié)編輯

VLOGGER使得表情編輯更進一步,例如單獨控制一只眼睛等。通過使用工具,將生成新的面部表情和動作,用以提升視頻的創(chuàng)意。 

谷歌發(fā)布超強AI視頻編輯工具!施展魔法的VLOGGER,音頻加圖片就搞定唇形和手勢,還把表情編輯玩出花了!-AI.x社區(qū)圖片

2.最終效果,進步了但未完全消除“恐怖谷”

谷歌發(fā)布超強AI視頻編輯工具!施展魔法的VLOGGER,音頻加圖片就搞定唇形和手勢,還把表情編輯玩出花了!-AI.x社區(qū)圖片

毫無疑問VLOGGER的視頻留下了令人印象深刻的亮點。如講話時自然的身體姿勢,增加手部運動以在一定程度上提升了視頻的真實感。然而,生成的表情和動作比起真實視頻還存在機械感重、不流暢的問題,因此會存在一定的“恐怖谷”效應。

參考鏈接:??https://twitter.com/hey_madni/status/1774832882902864327??

已于2024-4-7 14:45:12修改
收藏
回復
舉報
回復
相關推薦