自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

港科大開(kāi)源VideoVAE+,視頻重建質(zhì)量全面超越最新模型

人工智能 新聞
VideoVAE 模型(Video Variational Autoencoder)是一種基于深度學(xué)習(xí)的生成模型,用于對(duì)視頻數(shù)據(jù)進(jìn)行壓縮、重建和生成,講視頻從 RGB 像素空間投影到低維度的 latent 空間。

港科大團(tuán)隊(duì)重磅開(kāi)源 VideoVAE+,提出了一種強(qiáng)大的跨模態(tài)的視頻變分自編碼器(Video VAE),通過(guò)提出新的時(shí)空分離的壓縮機(jī)制和創(chuàng)新性引入文本指導(dǎo),實(shí)現(xiàn)了對(duì)大幅運(yùn)動(dòng)視頻的高效壓縮與精準(zhǔn)重建,同時(shí)保持很好的時(shí)間一致性和運(yùn)動(dòng)恢復(fù)。

圖片

  • 論文地址:https://arxiv.org/abs/2412.17805
  • 代碼已開(kāi)源:https://github.com/VideoVerses/VideoVAEPlus

VideoVAE + 模型大幅超過(guò)最新模型包括英偉達(dá)在 2024.11 發(fā)布的 Cosmos Tokenizer,同時(shí)也超越一眾方法包括騰訊在 2024.12 發(fā)布的 Hunyuan Video,CogvideoX VAE,WF-VAE,CV-VAE,Open Sora,Open Sora Plan, Easy Animate-VAE。

什么是 VideoVAE 模型

VideoVAE 模型(Video Variational Autoencoder)是一種基于深度學(xué)習(xí)的生成模型,用于對(duì)視頻數(shù)據(jù)進(jìn)行壓縮、重建和生成,講視頻從 RGB 像素空間投影到低維度的 latent 空間。常用于結(jié)合 Diffusion 生成模型組成兩階段的模型結(jié)構(gòu):即先通過(guò) VideoVAE 的編碼器(Encoder)實(shí)現(xiàn)壓縮數(shù)據(jù)維度,去除冗余信息,再在低維 latent 空間用 diffusion 模型進(jìn)行 latent 生成,最后通過(guò) VideoVAE 的解碼器(Decoder)將 latent 解碼到 RGB 視頻,從而實(shí)現(xiàn)降低計(jì)算資源,更加高效的生成。

目前方法

一些方法直接采用圖像 VAE 進(jìn)行逐幀壓縮,忽略了幀與幀之間的時(shí)間關(guān)聯(lián)性,導(dǎo)致視頻生成過(guò)程中出現(xiàn)嚴(yán)重的時(shí)序閃爍問(wèn)題。此外,時(shí)間維度上的冗余信息未被充分壓縮,使得后續(xù)的擴(kuò)散模型訓(xùn)練效率低下,成本高昂。

另外,最近很多方法開(kāi)始使用 VideoVAE,考慮時(shí)間維度,但仍存在諸多問(wèn)題。包括細(xì)節(jié)模糊和失真(比如面部、手部、邊緣和文本),以及重建大幅運(yùn)動(dòng)的視頻時(shí),出現(xiàn)運(yùn)動(dòng)卡頓(缺乏連貫及合理的時(shí)序過(guò)渡)和偽影等問(wèn)題。

圖片

圖 1:該研究將該研究的方法和一眾優(yōu)秀工作包括 Open Sora Plan, Open Sora, CV-VAE, CogVideoX-VAE, Easy Animate-VAE 進(jìn)行了視覺(jué)對(duì)比,VideoVAE + 能夠準(zhǔn)確重建大幅運(yùn)動(dòng)的視頻,并且有效解決了運(yùn)動(dòng)卡頓,重建模糊,細(xì)節(jié)缺失等問(wèn)題。

方法

為了解決上述問(wèn)題,VideoVAE + 提出了一種新的 cross-modal Video VAE 架構(gòu),其設(shè)計(jì)的關(guān)鍵點(diǎn)包括:

1. 時(shí)空分離的壓縮機(jī)制:提出一種時(shí)序感知的空間壓縮方法,有效分離空間和時(shí)間信息處理,避免因時(shí)空耦合而導(dǎo)致的運(yùn)動(dòng)偽影。

2. 輕量級(jí)運(yùn)動(dòng)壓縮模型:專(zhuān)門(mén)設(shè)計(jì)了一個(gè)模型用于時(shí)序壓縮,高效捕獲視頻中的運(yùn)動(dòng)動(dòng)態(tài)。

3. 文本信息融合:利用文本到視頻數(shù)據(jù)集中的文本信息作為指導(dǎo),提高視頻細(xì)節(jié)的保留能力和時(shí)間穩(wěn)定性。

4. 圖像和視頻的聯(lián)合訓(xùn)練:通過(guò)在圖像和視頻數(shù)據(jù)上的聯(lián)合訓(xùn)練,增強(qiáng)了模型在多任務(wù)上的重建性能和適應(yīng)性。

圖片

文章對(duì)比了三種時(shí)空建模方法:同步建模、順序建模以及該研究提出的最優(yōu)時(shí)空建模方案。

  • 方式 1 同時(shí)建模:通過(guò)將預(yù)訓(xùn)練的 2D 空間 VAE 擴(kuò)展為 3D VAE 實(shí)現(xiàn),進(jìn)行時(shí)間和空間的同步壓縮。然而,這種方法在捕捉時(shí)間動(dòng)態(tài)時(shí)容易導(dǎo)致信息混淆,影響生成質(zhì)量。
  • 方式 2 順序建模:先通過(guò)空間編碼器壓縮空間維度,再用時(shí)間編碼器壓縮時(shí)間信息。但這種方式對(duì)時(shí)序細(xì)節(jié)的處理較為有限,容易出現(xiàn)時(shí)序一致性問(wèn)題。
  • 該研究的方法:該研究結(jié)合兩種方法的優(yōu)勢(shì),提出最優(yōu)的時(shí)空建模策略。

該研究的方案具體包括時(shí)序感知的空間自編碼器(Temporal-aware Spatial AutoEncoder)和時(shí)序自編碼器(Temporal Autoencoder):

在第一階段,該研究將 2D 卷積擴(kuò)展為核大小為 (1,3,3) 的 3D 卷積,并與同時(shí)建模類(lèi)似,同時(shí)添加了額外的 3D 卷積層來(lái)建模時(shí)序維度,該研究將第一階段的模型稱(chēng)為時(shí)序感知的空間自編碼器。但與方式 1 同時(shí)建模不同的是,在第一階段中,該研究?jī)H壓縮空間信息,而不壓縮時(shí)序信息。

在第二階段中,該研究引入了另一個(gè)時(shí)序自編碼器(Temporal Autoencoder)來(lái)進(jìn)一步編碼和壓縮時(shí)間維度信息,這作為第二階段的壓縮部分。該研究遵循方式 2 的時(shí)間編碼器和解碼器設(shè)計(jì)。通過(guò)這種方式該研究同時(shí)實(shí)現(xiàn)了更好的細(xì)節(jié)恢復(fù)能力和運(yùn)動(dòng)恢復(fù)能力。

同時(shí),該研究提出引入跨模態(tài)信息,通過(guò)文本指導(dǎo)進(jìn)一步增強(qiáng)視頻生成的細(xì)節(jié)保留和時(shí)間一致性。

該技術(shù)的主要特點(diǎn)有:

1. 智能特征分塊

將視頻的視覺(jué)特征圖分割成小塊(patch),并將它們作為 token 進(jìn)行處理,不同層采用多種尺寸(8×8、4×4、2×2、1×1),確保每層特征的細(xì)節(jié)追蹤到位。

2. 跨模態(tài)注意力機(jī)制

首次在 Video VAE 任務(wù)上引入文本信息作為語(yǔ)義指導(dǎo),讓視覺(jué) token(作為 Query)與文本嵌入(作為 Key 和 Value)計(jì)算跨模態(tài)注意力,提升細(xì)節(jié)重建質(zhì)量。

3. 強(qiáng)大的文本嵌入器

采用先進(jìn)的 Flan-T5 模型,將文字轉(zhuǎn)化為語(yǔ)義向量,為視頻生成提供堅(jiān)實(shí)的語(yǔ)義基礎(chǔ)。

其次,該研究采用了圖像與視頻的聯(lián)合訓(xùn)練。模型能夠同時(shí)接受圖像和視頻作為訓(xùn)練數(shù)據(jù),既學(xué)習(xí)圖像壓縮能力,又提升視頻壓縮性能。在訓(xùn)練中該研究觀察到,加入更多高質(zhì)量的圖像數(shù)據(jù),能進(jìn)一步增強(qiáng)視頻自編碼性能。

結(jié)果

該研究提供了 latent 在 16 channel 和 4 channel 兩個(gè)版本的模型,以及在三個(gè)不同的數(shù)據(jù)集上對(duì)效果進(jìn)行了全面評(píng)測(cè)。

該研究的 VideoVAE + 模型大幅超過(guò)最新模型包括英偉達(dá)在 2024.11 發(fā)布的 Cosmos Tokenizer,同時(shí)也超越一眾方法包括騰訊在 2024.12 發(fā)布的 Hunyuan Video,CogvideoX VAE, WF-VAE,CV-VAE,Open Sora,Open Sora Plan, Easy Animate-VAE。

圖片

同時(shí)該研究提供了 Demo video 可以更直觀地查看模型的視覺(jué)效果。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-04-18 17:20:00

算法訓(xùn)練

2025-03-18 09:56:42

2024-10-14 14:45:00

數(shù)據(jù)模型

2025-02-18 13:30:00

2024-03-18 09:54:32

開(kāi)源AI模型

2024-12-20 09:30:00

模型訓(xùn)練數(shù)據(jù)

2024-06-03 08:30:00

2025-02-27 12:44:41

2024-05-09 08:35:40

OpenGraph人工智能基礎(chǔ)模型

2023-11-17 23:02:38

模型學(xué)習(xí)

2024-06-04 09:52:25

2024-08-28 14:20:00

數(shù)據(jù)模型

2025-02-03 14:17:27

2023-08-27 14:08:17

開(kāi)源代碼Meta大模型

2024-03-04 13:36:00

模型訓(xùn)練

2024-06-11 14:30:18

2024-12-26 09:17:27

2023-10-17 12:33:27

AI模型

2021-12-01 10:05:12

模型人工智能計(jì)算

2024-03-18 14:17:06

大模型開(kāi)源人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)