谷歌發(fā)布AI視頻生成器Lumiere,在生成可愛動物視頻方面表現(xiàn)出色
1月26日消息,據(jù)外媒報道,谷歌公布了一款名為Lumiere的人工智能視頻生成器,并在相關(guān)的預印本論文中稱其為“逼真視頻生成的時空擴散模型”。Lumiere在制作可愛動物在荒謬場景中的視頻方面做得很好,比如穿旱冰鞋、開車或彈鋼琴。
根據(jù)谷歌的說法,Lumiere利用獨特的架構(gòu)一次生成視頻的整個時間持續(xù)時間?;蛘?,正如該公司所說,“我們引入了一種時空U-Net架構(gòu),通過模型中的一次傳遞,可以立即生成視頻的整個時間持續(xù)時間?!边@與現(xiàn)有的視頻模型形成對比,現(xiàn)有的視頻模型合成遠距離關(guān)鍵幀,然后是時間超分辨率,這種方法本質(zhì)上使全局時間一致性難以實現(xiàn)?!?/p>
通俗地說,谷歌的技術(shù)旨在同時處理空間(視頻中物體的位置)和時間(整個視頻中物體的移動和變化)兩個方面。因此,它不是通過將許多小部件或幀放在一起制作視頻,而是可以在一個平滑的過程中從頭到尾創(chuàng)建整個視頻。
Lumiere也可以做很多派對技巧,在谷歌的演示頁面上有很好的例子。例如,它可以執(zhí)行文本到視頻的生成(將書面提示轉(zhuǎn)換為視頻),將靜止圖像轉(zhuǎn)換為視頻,使用參考圖像生成特定風格的視頻,使用基于文本的提示應用一致的視頻編輯,通過動畫圖像的特定區(qū)域創(chuàng)建電影圖形,并提供視頻繪畫功能(例如,它可以改變一個人穿著的衣服的類型)。
在Lumiere的研究論文中,谷歌研究人員表示,AI模型輸出5秒長的1024×1024像素視頻,他們稱之為“低分辨率”。盡管存在這些限制,但研究人員進行了一項用戶研究,并聲稱Lumiere的輸出比現(xiàn)有的AI視頻合成模型更受歡迎。