自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

視頻生成可以無限長?谷歌VideoPoet大模型上線,網(wǎng)友:革命性技術(shù)

人工智能 新聞
蒙娜麗莎打哈欠,小雞學(xué)會舉鐵……谷歌VideoPoet大模型表現(xiàn)很亮眼。

2023 年底,科技公司都在沖擊生成式 AI 的最后一個關(guān)卡 —— 視頻生成。

本周二,谷歌提出的視頻生成大模型上線,立刻獲得了人們的關(guān)注。這款名為 VideoPoet 的大語言模型,被人們認(rèn)為是革命性的 zero-shot 視頻生成工具。

VideoPoet 既可以文生視頻、圖像生視頻,又能風(fēng)格遷移,視頻轉(zhuǎn)語音。從效果上看,它可以構(gòu)建多樣化且流暢的運動。

圖片

消息一出,有很多人表示歡迎:看看目前的幾個成品效果不錯,大模型技術(shù)發(fā)展的速度也太快了。

圖片

有人對于這個大模型生成視頻的長度表示驚訝:

圖片

圖片

來源:https://twitter.com/cybersphere_ai/status/1737257729167966353

還有人表示這是一個革命性的大語言模型。

圖片

也有人呼吁,谷歌需要趕緊把 VideoPoet 開源了,大趨勢不等人。

隨著生成式 AI 的發(fā)展,最近出現(xiàn)了一波新的視頻生成模型,這些模型展示了令人驚嘆的畫面質(zhì)量。當(dāng)前視頻生成的瓶頸之一是產(chǎn)生連貫的大動作。但在許多情況下,即使是領(lǐng)先的模型也只能產(chǎn)生較小的運動,或者當(dāng)產(chǎn)生較大的運動時,會表現(xiàn)出明顯的偽影。

為了探索語言模型在視頻生成中的應(yīng)用,來自谷歌的研究者引入了一種大語言模型(LLM)VideoPoet,能夠執(zhí)行各種視頻生成任務(wù),包括文本到視頻、圖像到視頻、視頻風(fēng)格化、 視頻修復(fù)和擴(kuò)展,以及視頻轉(zhuǎn)音頻。

VideoPoet 效果展示

文本生成視頻

提示:一只狗戴著耳機(jī)聽音樂,細(xì)節(jié)豐富,8k。

圖片

提示(從左到右):一條從嘴里射出激光束的鯊魚;泰迪熊手牽著手走在雨天的第五大道上;舉鐵的小雞。

圖片

提示(從左到右):黃色蒲公英花瓣制成的獅子在咆哮;地球表面發(fā)生大規(guī)模爆炸;一匹馬在梵高的星夜中馳騁;穿著盔甲的松鼠騎著鵝;熊貓在自拍。

圖片

圖像生成視頻

對于圖像到視頻,VideoPoet 可以獲取輸入圖像并通過提示將其動畫化。

蒙娜麗莎開始打哈欠,只要輸入一張圖片,外加一句提示:一個女人打哈欠。就會得到下面的效果。

圖片

提示(從左到右):一艘船在波濤洶涌的大海上航行,有雷暴和閃電,油畫風(fēng)格;飛過有許多閃爍星星的星云;大風(fēng)天,一個拄著拐杖站在懸崖上的流浪者,俯視著下面浮動的云海。

圖片

將視頻風(fēng)格化

VideoPoet 還能夠根據(jù)文本提示對輸入視頻進(jìn)行風(fēng)格化。

提示(從左到右):泰迪熊在干凈的冰湖上滑冰;一只金屬色的獅子在熔爐的光芒下咆哮。

圖片

生成音頻

VideoPoet 還能夠生成音頻。首先讓模型生成 2 秒的剪輯,然后嘗試在沒有任何文本指導(dǎo)的情況下預(yù)測畫面的音頻。這樣一來,VideoPoet 能夠從單個模型生成視頻和音頻。

長視頻

VideoPoet 還能生成長視頻,默認(rèn)是 2 秒。通過調(diào)節(jié)視頻的最后 1 秒并預(yù)測接下來的 1 秒,這個過程可以無限地重復(fù),以生成任意時長的視頻。下面是 VideoPoet 從文本輸入生成長視頻的示例展示。提示:FPV 鏡頭展示了叢林中一座非常鋒利的精靈石城,有明亮的藍(lán)色河流、瀑布和大而陡峭的垂直懸崖面。

圖片

擴(kuò)展視頻

用戶可以改變提示,從而擴(kuò)展視頻。原始視頻是兩只浣熊騎著摩托車在松樹環(huán)繞的山路上行駛,8k。擴(kuò)展后的視頻是兩只浣熊騎著摩托車,浣熊身后落下流星,流星撞擊地球并爆炸。

圖片

交互式視頻編輯

對于提供的輸入視頻(最左邊),用戶可以改變物體的運動來執(zhí)行不同的動作。如下所示,中間三個沒有文本提示,最后一個文本提示為:煙霧背景下啟動。

圖片

視頻修復(fù)

VideoPoet 可以在視頻被遮住的部分添加細(xì)節(jié),也可以選擇通過文本引導(dǎo)進(jìn)行修復(fù)。

圖片

圖片

為了展示 VideoPoet 的功能,谷歌還制作了一部由 VideoPoet 生成的多個短片組成的小短片。劇本是 Bard 編寫的,是關(guān)于一只旅行浣熊的短篇故事,并附有逐個場景的分解和附帶的提示列表。然后,谷歌為每個提示生成視頻剪輯,并將所有生成的剪輯拼接在一起以生成下面的最終視頻。

方法簡介

如下圖所示,VideoPoet 可以將輸入圖像動畫化以生成一段視頻,并且可以編輯視頻或擴(kuò)展視頻。

圖片

在風(fēng)格化方面,該模型接收表征深度和光流的視頻,以文本指導(dǎo)的風(fēng)格繪制內(nèi)容。

視頻生成器

使用 LLM 進(jìn)行訓(xùn)練的一個關(guān)鍵優(yōu)勢是,可以重復(fù)使用現(xiàn)有 LLM 訓(xùn)練基礎(chǔ)設(shè)施中引入的許多可擴(kuò)展的效率改進(jìn)。然而,LLM 是在離散 token 上運行的,這使得視頻生成具有挑戰(zhàn)性。而視頻和音頻 tokenizer 可以用來將視頻和音頻剪輯編碼為離散 token 序列,并且也可以轉(zhuǎn)換回原始表征形式。

通過使用多個 tokenizer(用于視頻和圖像的 MAGVIT V2 和用于音頻的 SoundStream),VideoPoet 訓(xùn)練自回歸語言模型來學(xué)習(xí)跨視頻、圖像、音頻和文本的多個模態(tài)。一旦模型生成以某些上下文為條件的 token,就可以使用 tokenizer 解碼器將它們轉(zhuǎn)換回可視化的表征形式。

圖片

評估結(jié)果

研究團(tuán)隊使用各種基準(zhǔn)來評估 VideoPoet 在文本到視頻生成方面的表現(xiàn),以將結(jié)果與其他方法進(jìn)行比較。為了確保中立的評估,該研究在各種不同的 prompt 下運行了所有模型,沒有挑選示例,并要求人類評估者進(jìn)行偏好評分。

圖片


圖片

平均而言,在遵循 prompt 方面,人們認(rèn)為 VideoPoet 中 24-35% 的示例比競爭模型更好,而競爭模型的這一比例為 8-11%。評分者還更喜歡 VideoPoet 中 41-54% 的示例,因為生成視頻的動作更有趣,而其他模型的這一比例為 11-21%。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2023-12-20 14:54:29

谷歌Gen-2視頻

2023-02-06 09:31:07

視頻圖像

2010-06-28 11:20:10

思科無線技術(shù)

2020-04-01 23:19:56

聯(lián)網(wǎng)汽車物聯(lián)網(wǎng)IOT

2024-11-18 10:50:39

2010-08-16 10:39:59

虛擬化

2012-08-22 09:40:41

2009-07-07 22:47:55

2013-12-09 15:57:52

存儲

2023-11-29 13:57:00

AI模型

2024-11-08 17:34:38

2023-06-13 09:36:34

AI代碼

2025-02-24 10:03:21

2024-08-07 12:46:37

2020-12-08 17:15:27

數(shù)據(jù)中心云計算IT

2012-03-07 09:10:49

Windows 8微軟

2012-03-07 14:36:09

點贊
收藏

51CTO技術(shù)棧公眾號