自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

谷歌10秒視頻生成模型破世界記錄!LLM終結(jié)擴(kuò)散模型,效果碾壓頂流Gen-2

人工智能
谷歌全新視頻生成模型VideoPoet再次引領(lǐng)世界!十秒超長視頻生成效果碾壓Gen-2,還可進(jìn)行音頻生成,風(fēng)格轉(zhuǎn)化。

AI視頻生成,或許就是2024年下一個(gè)最前沿(juan)的領(lǐng)域。

回看過去幾個(gè)月,RunWay的Gen-2、Pika Lab的Pika 1.0,國內(nèi)大廠等大波視頻生成模型紛紛涌現(xiàn),不斷迭代升級(jí)。

這不,RunWay一大早就宣布Gen-2支持文本轉(zhuǎn)語音的功能了,可以為視頻創(chuàng)建畫外音。

圖片圖片

當(dāng)然,谷歌在視頻生成上也不甘落后,先是與斯坦福李飛飛團(tuán)隊(duì)共同發(fā)布了W.A.L.T,用Transformer生成的逼真視頻引來大波關(guān)注。

圖片圖片

今天,谷歌團(tuán)隊(duì)又發(fā)布了一個(gè)全新的視頻生成模型VideoPoet,而且無需特定數(shù)據(jù)便可生成視頻。

圖片圖片

論文地址:https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

最令人驚嘆的是,VideoPoet一次能夠生成10秒超長,且連貫大動(dòng)作視頻,完全碾壓Gen-2僅有小幅動(dòng)作的視頻生成。

另外,與領(lǐng)先模型不同的是,VideoPoet并非基于擴(kuò)散模型,而是多模態(tài)大模型,便可擁有T2V、V2A等能力,或?qū)⒊蔀槲磥硪曨l生成的主流。

圖片圖片

網(wǎng)友看后紛紛「震驚」刷屏。

圖片圖片

圖片圖片

不如,接下來可以先看一波體驗(yàn)。

文字轉(zhuǎn)視頻

在文本到視頻的轉(zhuǎn)換中,生成的視頻長度是可變的,并且能夠根據(jù)文本內(nèi)容展現(xiàn)出多種動(dòng)作和風(fēng)格。

比如,熊貓打牌:

圖片圖片

Two pandas playing cards

南瓜爆炸:

圖片圖片

A pumpkin exploding, slow motion

宇航員策馬奔馳:

圖片圖片

An astronaut riding a galloping horse

圖像轉(zhuǎn)視頻

VideoPoet還可以根據(jù)給定的提示,將輸入的圖像轉(zhuǎn)換成動(dòng)畫。

圖片圖片

左:一艘船在波濤洶涌的海面上航行,周圍是雷電交加的景象,以動(dòng)態(tài)油畫風(fēng)格呈現(xiàn)

中:飛過充滿閃爍星星的星云

右:一位拄著手杖的旅行者站在懸崖邊,凝視著風(fēng)中翻騰的海霧

視頻風(fēng)格化

對(duì)于視頻風(fēng)格化,VideoPoet先預(yù)測光流和深度信息,然后再將額外的文本輸入到模型。

圖片圖片

左:袋熊戴著墨鏡,在陽光明媚的海灘上拿著沙灘球 

中:泰迪熊在清澈的冰面上滑冰

右:一只金屬獅子在熔爐的光芒下咆哮

圖片圖片

從左到右:逼真,數(shù)字藝術(shù),鉛筆藝術(shù),水墨,雙重曝光,360度全景

視頻轉(zhuǎn)音頻

VideoPoet還能生成音頻。

如下,首先從模型中生成2秒鐘的動(dòng)畫片段,然后在沒有任何文本引導(dǎo)的情況下嘗試預(yù)測音頻。這樣就能從一個(gè)模型中生成視頻和音頻。

通常情況下,VideoPoet以縱向的方式生成視頻,以便與短片視頻的輸出相一致。

谷歌還專門做了一部由VideoPoet生成的許多短片組成的簡短電影。

具體文本比編排上,研究人員要求Bard先寫一個(gè)關(guān)于一只旅行浣熊的短篇故事,并附帶場景分解和提示列表。然后,為每個(gè)提示生成視頻片段,并將所有生成的片段拼接在一起,制作出下面的最終視頻。

,時(shí)長01:00

視頻講故事

通過隨時(shí)間變化的提示,可以創(chuàng)造視覺上的故事敘述。

圖片圖片

輸入:一個(gè)由水構(gòu)成的行走的人

擴(kuò)展:一個(gè)由水構(gòu)成的行走的人。背景中有閃電,同時(shí)從這個(gè)人身上散發(fā)出紫色的煙霧

圖片圖片

輸入:兩只浣熊騎著摩托車在松樹環(huán)繞的山路上行駛,8k

擴(kuò)展:兩只浣熊騎著摩托車。流星雨從浣熊身后墜落,撞擊地面并引發(fā)爆炸

LLM秒變視頻生成器

當(dāng)前,Gen-2、Pika 1.0視屏生成的表現(xiàn)足以驚人,但是遺憾的是,無法在連貫大幅動(dòng)作的視頻生成上表現(xiàn)驚艷。

通常,它們?cè)诋a(chǎn)生較大動(dòng)作時(shí),視頻會(huì)出現(xiàn)明顯的偽影。

對(duì)此,谷歌研究人員提出了VideoPoet,能夠執(zhí)行包括文本到視頻、圖像到視頻、視頻風(fēng)格化、視頻修復(fù)/擴(kuò)展和視頻到音頻等多樣的視頻生成任務(wù)。

相比起其他模型,谷歌的方法是將多種視頻生成功能無縫集成到單一的大語言模型中,而不依賴針對(duì)各個(gè)任務(wù)分別訓(xùn)練的專用組件。

圖片圖片

具體來說,VideoPoet主要包含以下幾個(gè)組件:

- 預(yù)訓(xùn)練的MAGVIT V2視頻tokenizer和SoundStream音頻tokenizer,能將不同長度的圖像、視頻和音頻剪輯轉(zhuǎn)換成統(tǒng)一詞匯表中的離散代碼序列。這些代碼與文本型語言模型兼容,便于與文本等其他模態(tài)進(jìn)行結(jié)合。

- 自回歸語言模型可在視頻、圖像、音頻和文本之間進(jìn)行跨模態(tài)學(xué)習(xí),并以自回歸方式預(yù)測序列中下一個(gè)視頻或音頻token。

- 在大語言模型訓(xùn)練框架中引入了多種多模態(tài)生成學(xué)習(xí)目標(biāo),包括文本到視頻、文本到圖像、圖像到視頻、視頻幀延續(xù)、視頻修復(fù)/擴(kuò)展、視頻風(fēng)格化和視頻到音頻等。此外,這些任務(wù)可以相互結(jié)合,實(shí)現(xiàn)額外的零樣本功能(例如,文本到音頻)。

圖片圖片

VideoPoet能夠在各種以視頻為中心的輸入和輸出上進(jìn)行多任務(wù)處理。其中,LLM可選擇將文本作為輸入,來指導(dǎo)文本到視頻、圖像到視頻、視頻到音頻、風(fēng)格化和擴(kuò)圖任務(wù)的生成

使用LLM進(jìn)行訓(xùn)練的一個(gè)關(guān)鍵優(yōu)勢是,可以重用現(xiàn)有LLM訓(xùn)練基礎(chǔ)設(shè)施中引入的許多可擴(kuò)展的效率改進(jìn)。

不過,LLM是在離散token上運(yùn)行的,這可能會(huì)給視頻生成帶來挑戰(zhàn)。

幸運(yùn)的是,視頻和音頻tokenizer,可以將視頻和音頻剪輯編碼為離散token序列(即整數(shù)索引),并可以將其轉(zhuǎn)換回原始表示。

VideoPoet訓(xùn)練一個(gè)自回歸語言模型,通過使用多個(gè)tokenizer(用于視頻和圖像的MAGVIT V2,用于音頻的SoundStream)來跨視頻、圖像、音頻和文本模態(tài)進(jìn)行學(xué)習(xí)。

一旦模型根據(jù)上下文生成了token,就可以使用tokenizer解碼器將這些token轉(zhuǎn)換回可查看的表示形式。

圖片圖片

VideoPoet任務(wù)設(shè)計(jì):不同模態(tài)通過tokenizer編碼器和解碼器與token相互轉(zhuǎn)換。每個(gè)模態(tài)周圍都有邊界token,任務(wù)token表示要執(zhí)行的任務(wù)類型

三大優(yōu)勢

概括來說,VideoPoet比起Gen-2等視頻生成模型,具備以下三大優(yōu)勢。

更長的視頻

VideoPoet通過對(duì)視頻的最后1秒進(jìn)行調(diào)節(jié),并預(yù)測接下來的1秒,就可以生成更長的視頻。

通過反復(fù)循環(huán),VideoPoet通不僅可以很好地?cái)U(kuò)展視頻,而且即使在多次迭代中,也能忠實(shí)地保留所有對(duì)象的外觀。

如下是VideoPoet從文本輸入生成長視頻的兩個(gè)示例:

圖片圖片

左:宇航員在火星上跳舞,背景是五彩繽紛的煙花

右:無人機(jī)拍攝的叢林中一座非常尖銳的精靈石城,城中有一條湛藍(lán)的河流、瀑布和陡峭的垂直懸崖

相比于其他只能生成3-4秒視頻的模型,VideoPoet一次就可以生成長達(dá)10秒的視頻。

圖片圖片

無人機(jī)拍攝的古堡秋景

精準(zhǔn)的控制

視頻生成應(yīng)用一個(gè)非常重要的能力在于,對(duì)于生成的動(dòng)態(tài)效果,用戶有多大的控制能力。

這將很大程度上決定了模型能否被用來制作復(fù)雜連貫的長視頻。

VideoPoet不但可以為輸入的圖像通過文字描述來添加動(dòng)態(tài)效果,并通過文本提示來調(diào)整內(nèi)容,來達(dá)到預(yù)期的效果。

圖片圖片

左:轉(zhuǎn)身看鏡頭;右:打哈欠

除了支持輸入圖像的視頻編輯,視頻輸入也可以通過文字進(jìn)行精確控制。

針對(duì)最左邊的小浣熊跳舞視頻,用戶可以通過文字描述不同的舞姿來讓它跳不同的舞蹈。

圖片圖片

生成「左」:跳機(jī)器人舞

生成「中」:跳Griddy舞

生成「右」:來一段Freestyle

同樣,還可以對(duì)VideoPoet生成的現(xiàn)有視頻片段,進(jìn)行交互式編輯。

如果我們提供一個(gè)輸入視頻,就可以改變對(duì)象的運(yùn)動(dòng)來執(zhí)行不同的動(dòng)作。對(duì)物體的操作可以以第一幀或中間幀為中心,從而實(shí)現(xiàn)高度的編輯控制。

比如,可以從輸入視頻中隨機(jī)生成一些片段,然后選擇所需的下一個(gè)片段。

如圖中最左邊的視頻被用作條件反射,在初始提示下生成四個(gè)視頻:

「一個(gè)可愛的銹跡斑斑的破舊蒸汽朋克機(jī)器人的特寫,機(jī)器人身上長滿了青苔和新芽,周圍是高高的草叢」。

對(duì)于前3個(gè)輸出,沒有提示動(dòng)作的自主預(yù)測生成。最后一個(gè)視頻,是在提示中添加了「啟動(dòng),背景為煙霧」以引導(dǎo)動(dòng)作生成。

圖片圖片

運(yùn)鏡的手法

VideoPoet還可以通過在文本提示中,附加所需的運(yùn)鏡方式,來精確控制畫面的變化。

例如,研究人員通過模型生成了一幅圖像,提示為「冒險(xiǎn)游戲概念圖,雪山日出,清澈河流」。下面的示例將給定的文本后綴添加到所需的動(dòng)作中。

圖片圖片

從左到右:拉遠(yuǎn)、滑動(dòng)變焦、向左平移、弧型運(yùn)動(dòng)鏡頭、搖臂拍攝、無人機(jī)航拍

評(píng)估結(jié)果

最后,VideoPoet在具體的實(shí)驗(yàn)評(píng)測中的表現(xiàn)又如何呢?

為了確保評(píng)估的客觀性,谷歌研究人員在在各種提示上運(yùn)行所有模型,并讓人們對(duì)其偏好進(jìn)行評(píng)分。

下圖顯示了在以下問題中,VideoPoet被選為綠色首選項(xiàng)的百分比。

文本保真度:

圖片圖片

文本保真度的用戶偏好評(píng)級(jí),即在準(zhǔn)確遵循提示方面首選視頻的百分比

動(dòng)作趣味性:

圖片圖片

用戶對(duì)動(dòng)作趣味性的偏好評(píng)級(jí),即在產(chǎn)生有趣的動(dòng)作方面,首選視頻的百分比

綜上可見,平均有24-35%的人認(rèn)為VideoPoet生成的示例比其他模型更加遵循提示,而其他模型的這一比例僅為8-11%。

此外,41%-54%的評(píng)估者認(rèn)為VideoPoet中的示例動(dòng)作更有趣,而其他模型只有11%-21%。

對(duì)于未來的研究方向,谷歌研究人員表示,VideoPoet框架將會(huì)實(shí)現(xiàn)「any-to-any」的生成,比如擴(kuò)展文本到音頻、音頻到視頻,以及視頻字幕等等。

網(wǎng)友不禁發(fā)問,Runway和Pika能否抵擋住谷歌和OpenAI即將推出的文本到視頻創(chuàng)新技術(shù)?

圖片圖片

參考資料:

https://sites.research.google/videopoet/

https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2024-01-11 12:45:12

AI訓(xùn)練

2024-03-20 12:27:48

模型訓(xùn)練

2023-10-11 12:32:26

模型訓(xùn)練

2024-01-22 07:10:00

AI視頻

2023-11-17 22:50:08

模型AI

2023-04-10 21:20:38

2024-01-23 13:15:27

2025-02-24 10:03:21

2023-11-14 07:47:42

IGN擴(kuò)散模型

2024-03-01 12:18:00

AI訓(xùn)練

2024-11-08 17:34:38

2024-12-18 08:01:12

2024-05-10 07:58:03

2025-02-14 09:30:00

視頻生成模型開源機(jī)器人

2025-02-27 13:45:00

2022-10-19 14:17:32

圖像模型

2024-09-10 11:21:30

2024-10-22 09:40:00

模型生成

2023-12-20 15:26:13

AI谷歌

2023-10-16 12:31:17

人工智能數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)