自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

視頻生成可以無限長？谷歌VideoPoet大模型上線，網(wǎng)友：革命性技術(shù)

作者：機(jī)器之心 2023-12-20 15:26:13

人工智能新聞

蒙娜麗莎打哈欠，小雞學(xué)會舉鐵……谷歌VideoPoet大模型表現(xiàn)很亮眼。

2023 年底，科技公司都在沖擊生成式 AI 的最后一個關(guān)卡 —— 視頻生成。

本周二，谷歌提出的視頻生成大模型上線，立刻獲得了人們的關(guān)注。這款名為 VideoPoet 的大語言模型，被人們認(rèn)為是革命性的 zero-shot 視頻生成工具。

VideoPoet 既可以文生視頻、圖像生視頻，又能風(fēng)格遷移，視頻轉(zhuǎn)語音。從效果上看，它可以構(gòu)建多樣化且流暢的運動。

消息一出，有很多人表示歡迎：看看目前的幾個成品效果不錯，大模型技術(shù)發(fā)展的速度也太快了。

有人對于這個大模型生成視頻的長度表示驚訝：

來源：https://twitter.com/cybersphere_ai/status/1737257729167966353

還有人表示這是一個革命性的大語言模型。

也有人呼吁，谷歌需要趕緊把 VideoPoet 開源了，大趨勢不等人。

隨著生成式 AI 的發(fā)展，最近出現(xiàn)了一波新的視頻生成模型，這些模型展示了令人驚嘆的畫面質(zhì)量。當(dāng)前視頻生成的瓶頸之一是產(chǎn)生連貫的大動作。但在許多情況下，即使是領(lǐng)先的模型也只能產(chǎn)生較小的運動，或者當(dāng)產(chǎn)生較大的運動時，會表現(xiàn)出明顯的偽影。

為了探索語言模型在視頻生成中的應(yīng)用，來自谷歌的研究者引入了一種大語言模型（LLM）VideoPoet，能夠執(zhí)行各種視頻生成任務(wù)，包括文本到視頻、圖像到視頻、視頻風(fēng)格化、視頻修復(fù)和擴(kuò)展，以及視頻轉(zhuǎn)音頻。

VideoPoet 效果展示

文本生成視頻

提示：一只狗戴著耳機(jī)聽音樂，細(xì)節(jié)豐富，8k。

提示（從左到右）：一條從嘴里射出激光束的鯊魚；泰迪熊手牽著手走在雨天的第五大道上；舉鐵的小雞。

提示（從左到右）：黃色蒲公英花瓣制成的獅子在咆哮；地球表面發(fā)生大規(guī)模爆炸；一匹馬在梵高的星夜中馳騁；穿著盔甲的松鼠騎著鵝；熊貓在自拍。

圖像生成視頻

對于圖像到視頻，VideoPoet 可以獲取輸入圖像并通過提示將其動畫化。

蒙娜麗莎開始打哈欠，只要輸入一張圖片，外加一句提示：一個女人打哈欠。就會得到下面的效果。

提示（從左到右）：一艘船在波濤洶涌的大海上航行，有雷暴和閃電，油畫風(fēng)格；飛過有許多閃爍星星的星云；大風(fēng)天，一個拄著拐杖站在懸崖上的流浪者，俯視著下面浮動的云海。

將視頻風(fēng)格化

VideoPoet 還能夠根據(jù)文本提示對輸入視頻進(jìn)行風(fēng)格化。

提示（從左到右）：泰迪熊在干凈的冰湖上滑冰；一只金屬色的獅子在熔爐的光芒下咆哮。

生成音頻

VideoPoet 還能夠生成音頻。首先讓模型生成 2 秒的剪輯，然后嘗試在沒有任何文本指導(dǎo)的情況下預(yù)測畫面的音頻。這樣一來，VideoPoet 能夠從單個模型生成視頻和音頻。

長視頻

VideoPoet 還能生成長視頻，默認(rèn)是 2 秒。通過調(diào)節(jié)視頻的最后 1 秒并預(yù)測接下來的 1 秒，這個過程可以無限地重復(fù)，以生成任意時長的視頻。下面是 VideoPoet 從文本輸入生成長視頻的示例展示。提示：FPV 鏡頭展示了叢林中一座非常鋒利的精靈石城，有明亮的藍(lán)色河流、瀑布和大而陡峭的垂直懸崖面。

擴(kuò)展視頻

用戶可以改變提示，從而擴(kuò)展視頻。原始視頻是兩只浣熊騎著摩托車在松樹環(huán)繞的山路上行駛，8k。擴(kuò)展后的視頻是兩只浣熊騎著摩托車，浣熊身后落下流星，流星撞擊地球并爆炸。

交互式視頻編輯

對于提供的輸入視頻（最左邊），用戶可以改變物體的運動來執(zhí)行不同的動作。如下所示，中間三個沒有文本提示，最后一個文本提示為：煙霧背景下啟動。

視頻修復(fù)

VideoPoet 可以在視頻被遮住的部分添加細(xì)節(jié)，也可以選擇通過文本引導(dǎo)進(jìn)行修復(fù)。

為了展示 VideoPoet 的功能，谷歌還制作了一部由 VideoPoet 生成的多個短片組成的小短片。劇本是 Bard 編寫的，是關(guān)于一只旅行浣熊的短篇故事，并附有逐個場景的分解和附帶的提示列表。然后，谷歌為每個提示生成視頻剪輯，并將所有生成的剪輯拼接在一起以生成下面的最終視頻。

方法簡介

如下圖所示，VideoPoet 可以將輸入圖像動畫化以生成一段視頻，并且可以編輯視頻或擴(kuò)展視頻。

在風(fēng)格化方面，該模型接收表征深度和光流的視頻，以文本指導(dǎo)的風(fēng)格繪制內(nèi)容。

視頻生成器

使用 LLM 進(jìn)行訓(xùn)練的一個關(guān)鍵優(yōu)勢是，可以重復(fù)使用現(xiàn)有 LLM 訓(xùn)練基礎(chǔ)設(shè)施中引入的許多可擴(kuò)展的效率改進(jìn)。然而，LLM 是在離散 token 上運行的，這使得視頻生成具有挑戰(zhàn)性。而視頻和音頻 tokenizer 可以用來將視頻和音頻剪輯編碼為離散 token 序列，并且也可以轉(zhuǎn)換回原始表征形式。

通過使用多個 tokenizer（用于視頻和圖像的 MAGVIT V2 和用于音頻的 SoundStream），VideoPoet 訓(xùn)練自回歸語言模型來學(xué)習(xí)跨視頻、圖像、音頻和文本的多個模態(tài)。一旦模型生成以某些上下文為條件的 token，就可以使用 tokenizer 解碼器將它們轉(zhuǎn)換回可視化的表征形式。

評估結(jié)果

研究團(tuán)隊使用各種基準(zhǔn)來評估 VideoPoet 在文本到視頻生成方面的表現(xiàn)，以將結(jié)果與其他方法進(jìn)行比較。為了確保中立的評估，該研究在各種不同的 prompt 下運行了所有模型，沒有挑選示例，并要求人類評估者進(jìn)行偏好評分。

平均而言，在遵循 prompt 方面，人們認(rèn)為 VideoPoet 中 24-35% 的示例比競爭模型更好，而競爭模型的這一比例為 8-11%。評分者還更喜歡 VideoPoet 中 41-54% 的示例，因為生成視頻的動作更有趣，而其他模型的這一比例為 11-21%。

責(zé)任編輯：張燕妮來源：機(jī)器之心

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<p id="cucao"></p>

^{<sub id="cucao"></sub>}<sub id="cucao"></sub><s id="cucao"><li id="cucao"></li></s>