視頻生成可以無限長?谷歌VideoPoet大模型上線,網(wǎng)友:革命性技術(shù)
2023 年底,科技公司都在沖擊生成式 AI 的最后一個關(guān)卡 —— 視頻生成。
本周二,谷歌提出的視頻生成大模型上線,立刻獲得了人們的關(guān)注。這款名為 VideoPoet 的大語言模型,被人們認(rèn)為是革命性的 zero-shot 視頻生成工具。
VideoPoet 既可以文生視頻、圖像生視頻,又能風(fēng)格遷移,視頻轉(zhuǎn)語音。從效果上看,它可以構(gòu)建多樣化且流暢的運動。
消息一出,有很多人表示歡迎:看看目前的幾個成品效果不錯,大模型技術(shù)發(fā)展的速度也太快了。
有人對于這個大模型生成視頻的長度表示驚訝:
來源:https://twitter.com/cybersphere_ai/status/1737257729167966353
還有人表示這是一個革命性的大語言模型。
也有人呼吁,谷歌需要趕緊把 VideoPoet 開源了,大趨勢不等人。
隨著生成式 AI 的發(fā)展,最近出現(xiàn)了一波新的視頻生成模型,這些模型展示了令人驚嘆的畫面質(zhì)量。當(dāng)前視頻生成的瓶頸之一是產(chǎn)生連貫的大動作。但在許多情況下,即使是領(lǐng)先的模型也只能產(chǎn)生較小的運動,或者當(dāng)產(chǎn)生較大的運動時,會表現(xiàn)出明顯的偽影。
為了探索語言模型在視頻生成中的應(yīng)用,來自谷歌的研究者引入了一種大語言模型(LLM)VideoPoet,能夠執(zhí)行各種視頻生成任務(wù),包括文本到視頻、圖像到視頻、視頻風(fēng)格化、 視頻修復(fù)和擴(kuò)展,以及視頻轉(zhuǎn)音頻。
VideoPoet 效果展示
文本生成視頻
提示:一只狗戴著耳機(jī)聽音樂,細(xì)節(jié)豐富,8k。
提示(從左到右):一條從嘴里射出激光束的鯊魚;泰迪熊手牽著手走在雨天的第五大道上;舉鐵的小雞。
提示(從左到右):黃色蒲公英花瓣制成的獅子在咆哮;地球表面發(fā)生大規(guī)模爆炸;一匹馬在梵高的星夜中馳騁;穿著盔甲的松鼠騎著鵝;熊貓在自拍。
圖像生成視頻
對于圖像到視頻,VideoPoet 可以獲取輸入圖像并通過提示將其動畫化。
蒙娜麗莎開始打哈欠,只要輸入一張圖片,外加一句提示:一個女人打哈欠。就會得到下面的效果。
提示(從左到右):一艘船在波濤洶涌的大海上航行,有雷暴和閃電,油畫風(fēng)格;飛過有許多閃爍星星的星云;大風(fēng)天,一個拄著拐杖站在懸崖上的流浪者,俯視著下面浮動的云海。
將視頻風(fēng)格化
VideoPoet 還能夠根據(jù)文本提示對輸入視頻進(jìn)行風(fēng)格化。
提示(從左到右):泰迪熊在干凈的冰湖上滑冰;一只金屬色的獅子在熔爐的光芒下咆哮。
生成音頻
VideoPoet 還能夠生成音頻。首先讓模型生成 2 秒的剪輯,然后嘗試在沒有任何文本指導(dǎo)的情況下預(yù)測畫面的音頻。這樣一來,VideoPoet 能夠從單個模型生成視頻和音頻。
長視頻
VideoPoet 還能生成長視頻,默認(rèn)是 2 秒。通過調(diào)節(jié)視頻的最后 1 秒并預(yù)測接下來的 1 秒,這個過程可以無限地重復(fù),以生成任意時長的視頻。下面是 VideoPoet 從文本輸入生成長視頻的示例展示。提示:FPV 鏡頭展示了叢林中一座非常鋒利的精靈石城,有明亮的藍(lán)色河流、瀑布和大而陡峭的垂直懸崖面。
擴(kuò)展視頻
用戶可以改變提示,從而擴(kuò)展視頻。原始視頻是兩只浣熊騎著摩托車在松樹環(huán)繞的山路上行駛,8k。擴(kuò)展后的視頻是兩只浣熊騎著摩托車,浣熊身后落下流星,流星撞擊地球并爆炸。
交互式視頻編輯
對于提供的輸入視頻(最左邊),用戶可以改變物體的運動來執(zhí)行不同的動作。如下所示,中間三個沒有文本提示,最后一個文本提示為:煙霧背景下啟動。
視頻修復(fù)
VideoPoet 可以在視頻被遮住的部分添加細(xì)節(jié),也可以選擇通過文本引導(dǎo)進(jìn)行修復(fù)。
為了展示 VideoPoet 的功能,谷歌還制作了一部由 VideoPoet 生成的多個短片組成的小短片。劇本是 Bard 編寫的,是關(guān)于一只旅行浣熊的短篇故事,并附有逐個場景的分解和附帶的提示列表。然后,谷歌為每個提示生成視頻剪輯,并將所有生成的剪輯拼接在一起以生成下面的最終視頻。
方法簡介
如下圖所示,VideoPoet 可以將輸入圖像動畫化以生成一段視頻,并且可以編輯視頻或擴(kuò)展視頻。
在風(fēng)格化方面,該模型接收表征深度和光流的視頻,以文本指導(dǎo)的風(fēng)格繪制內(nèi)容。
視頻生成器
使用 LLM 進(jìn)行訓(xùn)練的一個關(guān)鍵優(yōu)勢是,可以重復(fù)使用現(xiàn)有 LLM 訓(xùn)練基礎(chǔ)設(shè)施中引入的許多可擴(kuò)展的效率改進(jìn)。然而,LLM 是在離散 token 上運行的,這使得視頻生成具有挑戰(zhàn)性。而視頻和音頻 tokenizer 可以用來將視頻和音頻剪輯編碼為離散 token 序列,并且也可以轉(zhuǎn)換回原始表征形式。
通過使用多個 tokenizer(用于視頻和圖像的 MAGVIT V2 和用于音頻的 SoundStream),VideoPoet 訓(xùn)練自回歸語言模型來學(xué)習(xí)跨視頻、圖像、音頻和文本的多個模態(tài)。一旦模型生成以某些上下文為條件的 token,就可以使用 tokenizer 解碼器將它們轉(zhuǎn)換回可視化的表征形式。
評估結(jié)果
研究團(tuán)隊使用各種基準(zhǔn)來評估 VideoPoet 在文本到視頻生成方面的表現(xiàn),以將結(jié)果與其他方法進(jìn)行比較。為了確保中立的評估,該研究在各種不同的 prompt 下運行了所有模型,沒有挑選示例,并要求人類評估者進(jìn)行偏好評分。
平均而言,在遵循 prompt 方面,人們認(rèn)為 VideoPoet 中 24-35% 的示例比競爭模型更好,而競爭模型的這一比例為 8-11%。評分者還更喜歡 VideoPoet 中 41-54% 的示例,因為生成視頻的動作更有趣,而其他模型的這一比例為 11-21%。