港科大開(kāi)源VideoVAE+,視頻重建質(zhì)量全面超越最新模型
港科大團(tuán)隊(duì)重磅開(kāi)源 VideoVAE+,提出了一種強(qiáng)大的跨模態(tài)的視頻變分自編碼器(Video VAE),通過(guò)提出新的時(shí)空分離的壓縮機(jī)制和創(chuàng)新性引入文本指導(dǎo),實(shí)現(xiàn)了對(duì)大幅運(yùn)動(dòng)視頻的高效壓縮與精準(zhǔn)重建,同時(shí)保持很好的時(shí)間一致性和運(yùn)動(dòng)恢復(fù)。
- 論文地址:https://arxiv.org/abs/2412.17805
- 代碼已開(kāi)源:https://github.com/VideoVerses/VideoVAEPlus
VideoVAE + 模型大幅超過(guò)最新模型包括英偉達(dá)在 2024.11 發(fā)布的 Cosmos Tokenizer,同時(shí)也超越一眾方法包括騰訊在 2024.12 發(fā)布的 Hunyuan Video,CogvideoX VAE,WF-VAE,CV-VAE,Open Sora,Open Sora Plan, Easy Animate-VAE。
什么是 VideoVAE 模型
VideoVAE 模型(Video Variational Autoencoder)是一種基于深度學(xué)習(xí)的生成模型,用于對(duì)視頻數(shù)據(jù)進(jìn)行壓縮、重建和生成,講視頻從 RGB 像素空間投影到低維度的 latent 空間。常用于結(jié)合 Diffusion 生成模型組成兩階段的模型結(jié)構(gòu):即先通過(guò) VideoVAE 的編碼器(Encoder)實(shí)現(xiàn)壓縮數(shù)據(jù)維度,去除冗余信息,再在低維 latent 空間用 diffusion 模型進(jìn)行 latent 生成,最后通過(guò) VideoVAE 的解碼器(Decoder)將 latent 解碼到 RGB 視頻,從而實(shí)現(xiàn)降低計(jì)算資源,更加高效的生成。
目前方法
一些方法直接采用圖像 VAE 進(jìn)行逐幀壓縮,忽略了幀與幀之間的時(shí)間關(guān)聯(lián)性,導(dǎo)致視頻生成過(guò)程中出現(xiàn)嚴(yán)重的時(shí)序閃爍問(wèn)題。此外,時(shí)間維度上的冗余信息未被充分壓縮,使得后續(xù)的擴(kuò)散模型訓(xùn)練效率低下,成本高昂。
另外,最近很多方法開(kāi)始使用 VideoVAE,考慮時(shí)間維度,但仍存在諸多問(wèn)題。包括細(xì)節(jié)模糊和失真(比如面部、手部、邊緣和文本),以及重建大幅運(yùn)動(dòng)的視頻時(shí),出現(xiàn)運(yùn)動(dòng)卡頓(缺乏連貫及合理的時(shí)序過(guò)渡)和偽影等問(wèn)題。
圖 1:該研究將該研究的方法和一眾優(yōu)秀工作包括 Open Sora Plan, Open Sora, CV-VAE, CogVideoX-VAE, Easy Animate-VAE 進(jìn)行了視覺(jué)對(duì)比,VideoVAE + 能夠準(zhǔn)確重建大幅運(yùn)動(dòng)的視頻,并且有效解決了運(yùn)動(dòng)卡頓,重建模糊,細(xì)節(jié)缺失等問(wèn)題。
方法
為了解決上述問(wèn)題,VideoVAE + 提出了一種新的 cross-modal Video VAE 架構(gòu),其設(shè)計(jì)的關(guān)鍵點(diǎn)包括:
1. 時(shí)空分離的壓縮機(jī)制:提出一種時(shí)序感知的空間壓縮方法,有效分離空間和時(shí)間信息處理,避免因時(shí)空耦合而導(dǎo)致的運(yùn)動(dòng)偽影。
2. 輕量級(jí)運(yùn)動(dòng)壓縮模型:專(zhuān)門(mén)設(shè)計(jì)了一個(gè)模型用于時(shí)序壓縮,高效捕獲視頻中的運(yùn)動(dòng)動(dòng)態(tài)。
3. 文本信息融合:利用文本到視頻數(shù)據(jù)集中的文本信息作為指導(dǎo),提高視頻細(xì)節(jié)的保留能力和時(shí)間穩(wěn)定性。
4. 圖像和視頻的聯(lián)合訓(xùn)練:通過(guò)在圖像和視頻數(shù)據(jù)上的聯(lián)合訓(xùn)練,增強(qiáng)了模型在多任務(wù)上的重建性能和適應(yīng)性。
文章對(duì)比了三種時(shí)空建模方法:同步建模、順序建模以及該研究提出的最優(yōu)時(shí)空建模方案。
- 方式 1 同時(shí)建模:通過(guò)將預(yù)訓(xùn)練的 2D 空間 VAE 擴(kuò)展為 3D VAE 實(shí)現(xiàn),進(jìn)行時(shí)間和空間的同步壓縮。然而,這種方法在捕捉時(shí)間動(dòng)態(tài)時(shí)容易導(dǎo)致信息混淆,影響生成質(zhì)量。
- 方式 2 順序建模:先通過(guò)空間編碼器壓縮空間維度,再用時(shí)間編碼器壓縮時(shí)間信息。但這種方式對(duì)時(shí)序細(xì)節(jié)的處理較為有限,容易出現(xiàn)時(shí)序一致性問(wèn)題。
- 該研究的方法:該研究結(jié)合兩種方法的優(yōu)勢(shì),提出最優(yōu)的時(shí)空建模策略。
該研究的方案具體包括時(shí)序感知的空間自編碼器(Temporal-aware Spatial AutoEncoder)和時(shí)序自編碼器(Temporal Autoencoder):
在第一階段,該研究將 2D 卷積擴(kuò)展為核大小為 (1,3,3) 的 3D 卷積,并與同時(shí)建模類(lèi)似,同時(shí)添加了額外的 3D 卷積層來(lái)建模時(shí)序維度,該研究將第一階段的模型稱(chēng)為時(shí)序感知的空間自編碼器。但與方式 1 同時(shí)建模不同的是,在第一階段中,該研究?jī)H壓縮空間信息,而不壓縮時(shí)序信息。
在第二階段中,該研究引入了另一個(gè)時(shí)序自編碼器(Temporal Autoencoder)來(lái)進(jìn)一步編碼和壓縮時(shí)間維度信息,這作為第二階段的壓縮部分。該研究遵循方式 2 的時(shí)間編碼器和解碼器設(shè)計(jì)。通過(guò)這種方式該研究同時(shí)實(shí)現(xiàn)了更好的細(xì)節(jié)恢復(fù)能力和運(yùn)動(dòng)恢復(fù)能力。
同時(shí),該研究提出引入跨模態(tài)信息,通過(guò)文本指導(dǎo)進(jìn)一步增強(qiáng)視頻生成的細(xì)節(jié)保留和時(shí)間一致性。
該技術(shù)的主要特點(diǎn)有:
1. 智能特征分塊
將視頻的視覺(jué)特征圖分割成小塊(patch),并將它們作為 token 進(jìn)行處理,不同層采用多種尺寸(8×8、4×4、2×2、1×1),確保每層特征的細(xì)節(jié)追蹤到位。
2. 跨模態(tài)注意力機(jī)制
首次在 Video VAE 任務(wù)上引入文本信息作為語(yǔ)義指導(dǎo),讓視覺(jué) token(作為 Query)與文本嵌入(作為 Key 和 Value)計(jì)算跨模態(tài)注意力,提升細(xì)節(jié)重建質(zhì)量。
3. 強(qiáng)大的文本嵌入器
采用先進(jìn)的 Flan-T5 模型,將文字轉(zhuǎn)化為語(yǔ)義向量,為視頻生成提供堅(jiān)實(shí)的語(yǔ)義基礎(chǔ)。
其次,該研究采用了圖像與視頻的聯(lián)合訓(xùn)練。模型能夠同時(shí)接受圖像和視頻作為訓(xùn)練數(shù)據(jù),既學(xué)習(xí)圖像壓縮能力,又提升視頻壓縮性能。在訓(xùn)練中該研究觀察到,加入更多高質(zhì)量的圖像數(shù)據(jù),能進(jìn)一步增強(qiáng)視頻自編碼性能。
結(jié)果
該研究提供了 latent 在 16 channel 和 4 channel 兩個(gè)版本的模型,以及在三個(gè)不同的數(shù)據(jù)集上對(duì)效果進(jìn)行了全面評(píng)測(cè)。
該研究的 VideoVAE + 模型大幅超過(guò)最新模型包括英偉達(dá)在 2024.11 發(fā)布的 Cosmos Tokenizer,同時(shí)也超越一眾方法包括騰訊在 2024.12 發(fā)布的 Hunyuan Video,CogvideoX VAE, WF-VAE,CV-VAE,Open Sora,Open Sora Plan, Easy Animate-VAE。
同時(shí)該研究提供了 Demo video 可以更直觀地查看模型的視覺(jué)效果。