自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

圖像生成卷膩了,谷歌全面轉(zhuǎn)向文字→視頻生成,兩大利器同時(shí)挑戰(zhàn)分辨率和長(zhǎng)度

人工智能 新聞
谷歌、Meta 等科技巨頭又挖了一個(gè)新坑。

在文本轉(zhuǎn)圖像上卷了大半年之后,Meta、谷歌等科技巨頭又將目光投向了一個(gè)新的戰(zhàn)場(chǎng):文本轉(zhuǎn)視頻。

上周,Meta 公布了一個(gè)能夠生成高質(zhì)量短視頻的工具——Make-A-Video,利用這款工具生成的視頻非常具有想象力。

圖片

當(dāng)然,谷歌也不甘示弱。剛剛,該公司 CEO Sundar Pichai 親自安利了他們?cè)谶@一領(lǐng)域的最新成果:兩款文本轉(zhuǎn)視頻工具——Imagen Video 與 Phenaki。前者主打視頻品質(zhì),后者主要挑戰(zhàn)視頻長(zhǎng)度,可以說(shuō)各有千秋。

圖片

下面這個(gè)洗盤(pán)子的泰迪熊就是用 Imagen Video 生成的,可以看到,畫(huà)面的分辨率和連貫性都有一定的保障。

圖片

Imagen Video:給出文本提示,生成高清視頻

生成式建模在最近的文本到圖像 AI 系統(tǒng)中取得了重大進(jìn)展,比如 DALL-E 2、Imagen、Parti、CogView 和 Latent Diffusion。特別地,擴(kuò)散模型在密度估計(jì)、文本到語(yǔ)音、圖像到圖像、文本到圖像和 3D 合成等多種生成式建模任務(wù)中取得了巨大成功。

谷歌想要做的是從文本生成視頻。以往的視頻生成工作集中于具有自回歸模型的受限數(shù)據(jù)集、具有自回歸先驗(yàn)的潛變量模型以及近來(lái)的非自回歸潛變量方法。擴(kuò)散模型也已經(jīng)展示出了出色的中等分辨率視頻生成能力。

在此基礎(chǔ)上,谷歌推出了 Imagen Video,它是一個(gè)基于級(jí)聯(lián)視頻擴(kuò)散模型的文本條件視頻生成系統(tǒng)。給出文本提示,Imagen Video 就可以通過(guò)一個(gè)由 frozen T5 文本編碼器、基礎(chǔ)視頻生成模型、級(jí)聯(lián)時(shí)空視頻超分辨率模型組成的系統(tǒng)來(lái)生成高清視頻。

圖片

論文地址:https://imagen.research.google/video/paper.pdf

在論文中,谷歌詳細(xì)描述了如何將該系統(tǒng)擴(kuò)展為一個(gè)高清文本轉(zhuǎn)視頻模型,包括某些分辨率下選擇全卷積時(shí)空超分辨率模型以及選擇擴(kuò)散模型的 v 參數(shù)化等設(shè)計(jì)決策。谷歌還將以往基于擴(kuò)散的圖像生成研究成果成功遷移到了視頻生成設(shè)置中。

谷歌發(fā)現(xiàn),Imagen Video 能夠?qū)⒁酝ぷ魃傻?24fps 64 幀 128×128 視頻提升至 128 幀 1280×768 高清視頻。此外,Imagen Video 還具有高度的可控性和世界知識(shí),能夠生成多樣化藝術(shù)風(fēng)格的視頻和文本動(dòng)畫(huà),還具備了 3D 對(duì)象理解能力。

讓我們?cè)賮?lái)欣賞一些 Imagen Video 生成的視頻,比如開(kāi)車的熊貓:

圖片

遨游太空的木船:

圖片

更多生成視頻請(qǐng)參閱:https://imagen.research.google/video/

方法與實(shí)驗(yàn)

整體而言,谷歌的視頻生成框架是七個(gè)子視頻擴(kuò)散模型的級(jí)聯(lián),它們相應(yīng)執(zhí)行文本條件視頻生成、空間超分辨率和時(shí)間超分辨率。借助整個(gè)級(jí)聯(lián),Imagen Video 能夠以每秒 24 幀的速度生成 128 幀 1280×768 的高清視頻(約 1.26 億像素)。

與此同時(shí),在漸進(jìn)式蒸餾的幫助下,Imagen Video 的每個(gè)子模型中僅使用八個(gè)擴(kuò)散步驟就能生成高質(zhì)量視頻。這將視頻生成時(shí)間加快了大約 18 倍。

下圖 6 展示了 Imagen Video 的整個(gè)級(jí)聯(lián) pipeline,包括 1 個(gè) frozen 文本編碼器、1 個(gè)基礎(chǔ)視頻擴(kuò)散模型以及 3 個(gè)空間超分辨率(SSR)和 3 個(gè)時(shí)間超分辨率(TSR)模型。這七個(gè)視頻擴(kuò)散模型共有 116 億參數(shù)。

在生成過(guò)程中,SSR 模型提高了所有輸入幀的空間分辨率,同時(shí) TSR 模型通過(guò)在輸入幀之間填充中間幀來(lái)提高時(shí)間分辨率。所有模型同時(shí)生成一個(gè)完整的幀塊,這樣 SSR 模型不會(huì)遭受明顯的偽影。

圖片

Imagen Video 構(gòu)建在視頻 U-Net 架構(gòu)之上,具體如下圖 7 所示。

圖片

在實(shí)驗(yàn)中,Imagen Video 在公開(kāi)可用的 LAION-400M 圖像文本數(shù)據(jù)集、1400 萬(wàn)個(gè)視頻文本對(duì)和 6000 萬(wàn)個(gè)圖像文本對(duì)上進(jìn)行訓(xùn)練。結(jié)果正如上文所述,Imagen Video 不僅能夠生成高清視頻,還具備一些純從數(shù)據(jù)中學(xué)習(xí)的非結(jié)構(gòu)化生成模型所沒(méi)有的獨(dú)特功能。

下圖 8 展示了 Imagen Video 能夠生成具有從圖像信息中學(xué)得的藝術(shù)風(fēng)格的視頻,例如梵高繪畫(huà)風(fēng)格或水彩畫(huà)風(fēng)格的視頻。

圖片

下圖 9 展示了 Imagen Video 對(duì) 3D 結(jié)構(gòu)的理解能力,它能夠生成旋轉(zhuǎn)對(duì)象的視頻,同時(shí)物體的大致結(jié)構(gòu)也能保留。

圖片

下圖 10 展示了 Imagen Video 能夠可靠地生成各種動(dòng)畫(huà)樣式的文本,其中一些使用傳統(tǒng)工具很難來(lái)制作。

圖片

更多實(shí)驗(yàn)細(xì)節(jié)請(qǐng)參閱原論文。

Phenaki:你講故事我來(lái)畫(huà)

我們知道,雖然從本質(zhì)上講,視頻就是一系列圖像,但生成一個(gè)連貫的長(zhǎng)視頻并沒(méi)有那么容易,因?yàn)樵谶@項(xiàng)任務(wù)中,可用的高質(zhì)量數(shù)據(jù)非常少,而且任務(wù)本身的計(jì)算需求又很大。

更麻煩的是,像之前那種用于圖像生成的簡(jiǎn)短文本 prompt 通常不足以提供對(duì)視頻的完整描述,視頻需要的是一系列 prompt 或故事。理想情況下,一個(gè)視頻生成模型必須能夠生成任意長(zhǎng)度的視頻,并且要能根據(jù)某個(gè)時(shí)刻 t 的 prompt 變化調(diào)節(jié)生成的視頻幀。只有具備這樣的能力,模型生成的作品才能稱之為「視頻」,而不是「移動(dòng)的圖像」,并開(kāi)啟在藝術(shù)、設(shè)計(jì)和內(nèi)容創(chuàng)作方面的現(xiàn)實(shí)創(chuàng)意應(yīng)用之路。

谷歌等機(jī)構(gòu)的研究人員表示,「據(jù)我們所知,基于故事的條件視頻生成之前從未被探索過(guò),這是第一篇朝著該目標(biāo)邁進(jìn)的早期論文。」

圖片

  • 論文鏈接:https://pub-bede3007802c4858abc6f742f405d4ef.r2.dev/paper.pdf
  • 項(xiàng)目鏈接:https://phenaki.github.io/#interactive

由于沒(méi)有基于故事的數(shù)據(jù)集可以拿來(lái)學(xué)習(xí),研究人員沒(méi)有辦法簡(jiǎn)單地依靠傳統(tǒng)深度學(xué)習(xí)方法(簡(jiǎn)單地從數(shù)據(jù)中學(xué)習(xí))完成這些任務(wù)。因此,他們專門(mén)設(shè)計(jì)了一個(gè)模型來(lái)完成這項(xiàng)任務(wù)。

這個(gè)新的文本轉(zhuǎn)視頻模型名叫 Phenaki,它使用了「文本轉(zhuǎn)視頻」和「文本轉(zhuǎn)圖像」數(shù)據(jù)聯(lián)合訓(xùn)練。該模型具有以下能力:

1、在開(kāi)放域 prompt 的條件下生成時(shí)間上連貫的多樣化視頻,即使該 prompt 是一個(gè)新的概念組合(見(jiàn)下圖 3)。生成的視頻可以長(zhǎng)達(dá)幾分鐘,即使該模型訓(xùn)練所用的視頻只有 1.4 秒(8 幀 / 秒)

圖片

2、根據(jù)一個(gè)故事(即一系列 prompt)生成視頻,如下圖 1 和圖 5 所示:

圖片

圖片

從以下動(dòng)圖中我們可以看到 Phenaki 生成視頻的連貫性和多樣性:

圖片

圖片

要實(shí)現(xiàn)這些功能,研究人員無(wú)法依賴現(xiàn)有的視頻編碼器,因?yàn)檫@些編碼器要么只能解碼固定大小的視頻,要么獨(dú)立編碼幀。為了解決這個(gè)問(wèn)題,他們引入了一種新的編碼器 - 解碼器架構(gòu)——C-ViViT。

C-ViViT 可以:

  • 利用視頻中的時(shí)間冗余來(lái)提高每幀模型的重構(gòu)質(zhì)量,同時(shí)將視頻 token 的數(shù)量壓縮 40% 或更多;
  • 在給定因果結(jié)構(gòu)的情況下,允許編碼和解碼可變長(zhǎng)度視頻。

PHENAKI 模型架構(gòu)

受之前自回歸文本轉(zhuǎn)圖像、文本轉(zhuǎn)視頻研究的啟發(fā),Phenaki 的設(shè)計(jì)主要包含兩大部分(見(jiàn)下圖 2):一個(gè)將視頻壓縮為離散嵌入(即 token)的編碼器 - 解碼器模型和一個(gè)將文本嵌入轉(zhuǎn)換為視頻 token 的 transformer 模型。

圖片

獲取視頻的壓縮表示是從文本生成視頻的主要挑戰(zhàn)之一。之前的工作要么使用 per-frame 圖像編碼器,如 VQ-GAN,要么使用固定長(zhǎng)度視頻編碼器,如 V ideoVQVAE。前者允許生成任意長(zhǎng)度的視頻,但在實(shí)際使用中,視頻必須要短,因?yàn)榫幋a器不能及時(shí)壓縮視頻,并且 token 在連續(xù)幀中是高度冗余的。后者在 token 數(shù)量上更加高效,但它不允許生成任意長(zhǎng)度的視頻。

在 Phenaki 中,研究者的目標(biāo)是生成可變長(zhǎng)度的視頻,同時(shí)盡可能壓縮視頻 token 的數(shù)量,這樣就可以在當(dāng)前的計(jì)算資源限制下使用 Transformer 模型。為此,他們引入了 C-ViViT,這是 ViViT 的一種因果變體,為視頻生成進(jìn)行了額外的架構(gòu)更改,它可以在時(shí)間和空間維度上壓縮視頻,同時(shí)保持時(shí)間上的自回歸。該功能允許生成任意長(zhǎng)度的自回歸視頻。

為了得到文本嵌入,Phenaki 還用到了一個(gè)預(yù)訓(xùn)練的語(yǔ)言模型——T5X。

具體細(xì)節(jié)請(qǐng)參見(jiàn)原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-04-25 13:14:19

模型數(shù)據(jù)

2022-07-12 14:50:03

模型研究

2017-04-10 09:17:08

神經(jīng)網(wǎng)絡(luò)分辨率像素遞歸

2024-04-08 12:18:57

訓(xùn)練AI

2025-02-05 12:41:21

線性新范式分辨率

2024-10-28 07:30:00

2024-03-20 00:00:00

StabilityAI開(kāi)源人工智能

2023-12-20 15:26:13

AI谷歌

2024-07-05 10:41:30

目標(biāo)檢測(cè)算法

2024-08-26 15:58:35

2024-12-04 11:07:09

2024-09-02 11:31:10

2020-10-15 14:11:18

安全和隱私

2025-03-27 09:24:16

2024-04-25 13:50:21

SOTA模型GAN

2024-02-04 19:58:27

谷歌AI視頻生成器

2024-01-11 12:45:12

AI訓(xùn)練

2022-02-24 08:00:00

API混合云數(shù)據(jù)

2023-04-03 10:04:44

開(kāi)源模型

2025-01-26 10:50:00

模型視頻生成
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)