自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

^{<thead id="uahqa"></thead>}

<style id="uahqa"></style>

<blockquote id="uahqa"><rt id="uahqa"></rt></blockquote>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

港科大開(kāi)源VideoVAE+，視頻重建質(zhì)量全面超越最新模型

作者：機(jī)器之心 2024-12-30 13:40:00

人工智能新聞

VideoVAE 模型（Video Variational Autoencoder）是一種基于深度學(xué)習(xí)的生成模型，用于對(duì)視頻數(shù)據(jù)進(jìn)行壓縮、重建和生成，講視頻從 RGB 像素空間投影到低維度的 latent 空間。

港科大團(tuán)隊(duì)重磅開(kāi)源 VideoVAE+，提出了一種強(qiáng)大的跨模態(tài)的視頻變分自編碼器（Video VAE），通過(guò)提出新的時(shí)空分離的壓縮機(jī)制和創(chuàng)新性引入文本指導(dǎo)，實(shí)現(xiàn)了對(duì)大幅運(yùn)動(dòng)視頻的高效壓縮與精準(zhǔn)重建，同時(shí)保持很好的時(shí)間一致性和運(yùn)動(dòng)恢復(fù)。

論文地址：https://arxiv.org/abs/2412.17805
代碼已開(kāi)源：https://github.com/VideoVerses/VideoVAEPlus

VideoVAE + 模型大幅超過(guò)最新模型包括英偉達(dá)在 2024.11 發(fā)布的 Cosmos Tokenizer，同時(shí)也超越一眾方法包括騰訊在 2024.12 發(fā)布的 Hunyuan Video，CogvideoX VAE，WF-VAE，CV-VAE，Open Sora，Open Sora Plan, Easy Animate-VAE。

什么是 VideoVAE 模型

VideoVAE 模型（Video Variational Autoencoder）是一種基于深度學(xué)習(xí)的生成模型，用于對(duì)視頻數(shù)據(jù)進(jìn)行壓縮、重建和生成，講視頻從 RGB 像素空間投影到低維度的 latent 空間。常用于結(jié)合 Diffusion 生成模型組成兩階段的模型結(jié)構(gòu)：即先通過(guò) VideoVAE 的編碼器（Encoder）實(shí)現(xiàn)壓縮數(shù)據(jù)維度，去除冗余信息，再在低維 latent 空間用 diffusion 模型進(jìn)行 latent 生成，最后通過(guò) VideoVAE 的解碼器（Decoder）將 latent 解碼到 RGB 視頻，從而實(shí)現(xiàn)降低計(jì)算資源，更加高效的生成。

目前方法

一些方法直接采用圖像 VAE 進(jìn)行逐幀壓縮，忽略了幀與幀之間的時(shí)間關(guān)聯(lián)性，導(dǎo)致視頻生成過(guò)程中出現(xiàn)嚴(yán)重的時(shí)序閃爍問(wèn)題。此外，時(shí)間維度上的冗余信息未被充分壓縮，使得后續(xù)的擴(kuò)散模型訓(xùn)練效率低下，成本高昂。

另外，最近很多方法開(kāi)始使用 VideoVAE，考慮時(shí)間維度，但仍存在諸多問(wèn)題。包括細(xì)節(jié)模糊和失真（比如面部、手部、邊緣和文本），以及重建大幅運(yùn)動(dòng)的視頻時(shí)，出現(xiàn)運(yùn)動(dòng)卡頓（缺乏連貫及合理的時(shí)序過(guò)渡）和偽影等問(wèn)題。

圖 1：該研究將該研究的方法和一眾優(yōu)秀工作包括 Open Sora Plan, Open Sora, CV-VAE, CogVideoX-VAE, Easy Animate-VAE 進(jìn)行了視覺(jué)對(duì)比，VideoVAE + 能夠準(zhǔn)確重建大幅運(yùn)動(dòng)的視頻，并且有效解決了運(yùn)動(dòng)卡頓，重建模糊，細(xì)節(jié)缺失等問(wèn)題。

方法

為了解決上述問(wèn)題，VideoVAE + 提出了一種新的 cross-modal Video VAE 架構(gòu)，其設(shè)計(jì)的關(guān)鍵點(diǎn)包括：

1. 時(shí)空分離的壓縮機(jī)制：提出一種時(shí)序感知的空間壓縮方法，有效分離空間和時(shí)間信息處理，避免因時(shí)空耦合而導(dǎo)致的運(yùn)動(dòng)偽影。

2. 輕量級(jí)運(yùn)動(dòng)壓縮模型：專(zhuān)門(mén)設(shè)計(jì)了一個(gè)模型用于時(shí)序壓縮，高效捕獲視頻中的運(yùn)動(dòng)動(dòng)態(tài)。

3. 文本信息融合：利用文本到視頻數(shù)據(jù)集中的文本信息作為指導(dǎo)，提高視頻細(xì)節(jié)的保留能力和時(shí)間穩(wěn)定性。

4. 圖像和視頻的聯(lián)合訓(xùn)練：通過(guò)在圖像和視頻數(shù)據(jù)上的聯(lián)合訓(xùn)練，增強(qiáng)了模型在多任務(wù)上的重建性能和適應(yīng)性。

文章對(duì)比了三種時(shí)空建模方法：同步建模、順序建模以及該研究提出的最優(yōu)時(shí)空建模方案。

方式 1 同時(shí)建模：通過(guò)將預(yù)訓(xùn)練的 2D 空間 VAE 擴(kuò)展為 3D VAE 實(shí)現(xiàn)，進(jìn)行時(shí)間和空間的同步壓縮。然而，這種方法在捕捉時(shí)間動(dòng)態(tài)時(shí)容易導(dǎo)致信息混淆，影響生成質(zhì)量。
方式 2 順序建模：先通過(guò)空間編碼器壓縮空間維度，再用時(shí)間編碼器壓縮時(shí)間信息。但這種方式對(duì)時(shí)序細(xì)節(jié)的處理較為有限，容易出現(xiàn)時(shí)序一致性問(wèn)題。
該研究的方法：該研究結(jié)合兩種方法的優(yōu)勢(shì)，提出最優(yōu)的時(shí)空建模策略。

該研究的方案具體包括時(shí)序感知的空間自編碼器（Temporal-aware Spatial AutoEncoder）和時(shí)序自編碼器（Temporal Autoencoder）：

在第一階段，該研究將 2D 卷積擴(kuò)展為核大小為 (1,3,3) 的 3D 卷積，并與同時(shí)建模類(lèi)似，同時(shí)添加了額外的 3D 卷積層來(lái)建模時(shí)序維度，該研究將第一階段的模型稱(chēng)為時(shí)序感知的空間自編碼器。但與方式 1 同時(shí)建模不同的是，在第一階段中，該研究?jī)H壓縮空間信息，而不壓縮時(shí)序信息。

在第二階段中，該研究引入了另一個(gè)時(shí)序自編碼器（Temporal Autoencoder）來(lái)進(jìn)一步編碼和壓縮時(shí)間維度信息，這作為第二階段的壓縮部分。該研究遵循方式 2 的時(shí)間編碼器和解碼器設(shè)計(jì)。通過(guò)這種方式該研究同時(shí)實(shí)現(xiàn)了更好的細(xì)節(jié)恢復(fù)能力和運(yùn)動(dòng)恢復(fù)能力。

同時(shí)，該研究提出引入跨模態(tài)信息，通過(guò)文本指導(dǎo)進(jìn)一步增強(qiáng)視頻生成的細(xì)節(jié)保留和時(shí)間一致性。

該技術(shù)的主要特點(diǎn)有：

1. 智能特征分塊

將視頻的視覺(jué)特征圖分割成小塊（patch），并將它們作為 token 進(jìn)行處理，不同層采用多種尺寸（8×8、4×4、2×2、1×1），確保每層特征的細(xì)節(jié)追蹤到位。

2. 跨模態(tài)注意力機(jī)制

首次在 Video VAE 任務(wù)上引入文本信息作為語(yǔ)義指導(dǎo)，讓視覺(jué) token（作為 Query）與文本嵌入（作為 Key 和 Value）計(jì)算跨模態(tài)注意力，提升細(xì)節(jié)重建質(zhì)量。

3. 強(qiáng)大的文本嵌入器

采用先進(jìn)的 Flan-T5 模型，將文字轉(zhuǎn)化為語(yǔ)義向量，為視頻生成提供堅(jiān)實(shí)的語(yǔ)義基礎(chǔ)。

其次，該研究采用了圖像與視頻的聯(lián)合訓(xùn)練。模型能夠同時(shí)接受圖像和視頻作為訓(xùn)練數(shù)據(jù)，既學(xué)習(xí)圖像壓縮能力，又提升視頻壓縮性能。在訓(xùn)練中該研究觀察到，加入更多高質(zhì)量的圖像數(shù)據(jù)，能進(jìn)一步增強(qiáng)視頻自編碼性能。

結(jié)果

該研究提供了 latent 在 16 channel 和 4 channel 兩個(gè)版本的模型，以及在三個(gè)不同的數(shù)據(jù)集上對(duì)效果進(jìn)行了全面評(píng)測(cè)。

該研究的 VideoVAE + 模型大幅超過(guò)最新模型包括英偉達(dá)在 2024.11 發(fā)布的 Cosmos Tokenizer，同時(shí)也超越一眾方法包括騰訊在 2024.12 發(fā)布的 Hunyuan Video，CogvideoX VAE， WF-VAE，CV-VAE，Open Sora，Open Sora Plan, Easy Animate-VAE。

同時(shí)該研究提供了 Demo video 可以更直觀地查看模型的視覺(jué)效果。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

數(shù)據(jù)模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<legend id="7qcb1"><abbr id="7qcb1"></abbr></legend><sub id="7qcb1"><i id="7qcb1"></i></sub>

<sup id="7qcb1"></sup>