自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

微軟開源視頻Tokenizer新SOTA!顯著優(yōu)于Cosmos Tokenizer和Open-Sora

人工智能
Sora等視頻生成模型工作中,都會利用Tokenizer將原始的高維視頻數(shù)據(jù)(如圖像和視頻幀)轉(zhuǎn)換為更為緊湊的視覺Token,再以視覺Token為目標訓(xùn)練生成模型。

Sora、Genie等模型會都用到的Tokenizer,微軟下手了——

開源了一套全能的Video Tokenizer,名為VidTok。

Sora等視頻生成模型工作中,都會利用Tokenizer將原始的高維視頻數(shù)據(jù)(如圖像和視頻幀)轉(zhuǎn)換為更為緊湊的視覺Token,再以視覺Token為目標訓(xùn)練生成模型。

而最新的VidTok,在連續(xù)和離散、不同壓縮率等多種設(shè)定下,各項指標均顯著優(yōu)于SOTA模型。

以下是涵蓋PSNR、SSIM、FVD、LPIPS指標的性能比較雷達圖,面積越大表示性能越好。

從圖中可以看出對于離散Tokenizer,VidTok顯著優(yōu)于英偉達Cosmos Tokenizer;對于連續(xù)Tokenizer,VidTok也比Open-Sora、CogVideoX有更高的性能。

圖片

這項研究由來自微軟亞研院、上海交通大學(xué)、北京大學(xué)的研究人員共同完成。

圖片

目前,VidTok代碼不僅開源了,還支持用戶在自定義數(shù)據(jù)集上的微調(diào),為研究者和開發(fā)者提供了一個高性能、易用的工具平臺。

性能全面領(lǐng)先,適用各種場景

近年來,視頻生成以及基于此的世界模型已經(jīng)成為人工智能領(lǐng)域的熱門研究方向,這兩者的核心在于對視頻內(nèi)容的高效建模。

視頻中蘊含了豐富的視覺信息,不僅能夠提供真實的視覺體驗,更能作為具身場景中模型理解世界的中間媒介。

然而,由于視頻像素級表示信息高度冗余,如何通過Tokenizer對視頻數(shù)據(jù)進行高效壓縮和表示成為關(guān)鍵課題。

當下很多工作如Sora,Genie等都會通過Tokenizer將原始的高維視頻數(shù)據(jù)(如圖像和視頻幀)轉(zhuǎn)換為更為緊湊的視覺Token,再以視覺Token為目標訓(xùn)練生成模型。

可以說,視覺Token的表示能力對于最終的效果至關(guān)重要,甚至決定了模型能力的上限。

圖片

Tokenizer的主要作用是將高維的原始數(shù)據(jù)轉(zhuǎn)換為隱空間中高效的壓縮表示,使得信息的生成和處理可以在該隱空間中進行。上圖展示了一個視頻的Token化過程,通過轉(zhuǎn)換為Token建模,能夠有效降低模型訓(xùn)練和推理時的計算需求。

根據(jù)不同的使用需求,視頻Tokenizer通常有如下分類:

  • 連續(xù)型和離散型。根據(jù)隱空間的數(shù)值分布,Tokenizer可以分為連續(xù)型和離散型,分別適用于從連續(xù)分布中采樣的模型(如擴散模型等)和從離散分布中采樣的模型(如語言模型等)。
  • 因果型和非因果型。因果結(jié)構(gòu)使得模型只依賴歷史幀來對當前幀進行Tokenization,這與真實世界系統(tǒng)的因果性質(zhì)保持一致。非因果模型則可以同時根據(jù)歷史幀和未來幀對當前幀進行Tokenization,通常具有更優(yōu)的重建質(zhì)量。
  • 不同的壓縮率模型。Sora等眾多工作采用了如4x8x8的視頻壓縮率(時間壓縮4倍、空間壓縮8倍),實現(xiàn)更高的視頻壓縮率而保持高質(zhì)量的視頻重建是目前的研究趨勢。

目前業(yè)界領(lǐng)先的視頻模型多為閉源狀態(tài),而開源的視頻Tokenizer大多受限于單一的模型設(shè)定或欠佳的重建質(zhì)量,導(dǎo)致可用性較差。

由此,來自微軟亞研院、上海交通大學(xué)和北京大學(xué)的研究人員最近正式發(fā)布了開源視頻Tokenizer——VidTok。

在測試中,VidTok性能全面領(lǐng)先,適用各種場景。

如下表所示,VidTok支持多樣化的隱空間且具有靈活的壓縮率,同時支持因果和非因果模型,以適應(yīng)不同的使用需求。

  • 對于連續(xù)型Tokenizer,支持不同的視頻壓縮率、不同的隱空間通道數(shù),同時支持因果和非因果模型。
  • 對于離散型Tokenizer,支持不同的視頻壓縮率、不同的碼本大小,同時支持因果和非因果模型。

更多模型在持續(xù)更新中。

圖片

為了全面評估VidTok在各個設(shè)定下的重建性能,作者將VidTok與最先進的連續(xù)和離散視頻Tokenizer分別進行了對齊設(shè)定下的比較。所有模型均為4x8x8倍視頻壓縮率的因果模型,主要包含以下三種設(shè)定:

  • VidTok-FSQ:離散型,碼本大小各異。基線方法包括MAGVIT-v2,OmniTokenizer,Cosmos-DV等。
  • VidTok-KL-4chn:連續(xù)型,隱空間通道數(shù)為4。基線方法包括CV-VAE,Open-Sora-v1.2,Open-Sora-Plan-v1.2等。
  • VidTok-KL-16chn:連續(xù)型,隱空間通道數(shù)為16?;€方法包括CogVideoX,Cosmos-CV等。

定量實驗結(jié)果表明,VidTok在上述三種設(shè)定下均達到了SOTA性能,在常見的視頻質(zhì)量評估指標PSNR、SSIM、FVD、LPIPS上具有全面的優(yōu)勢。

圖片

與現(xiàn)有的離散Tokenizer相比,VidTok即使在使用更小的碼本大小時(例如32,768),也展現(xiàn)出了更優(yōu)的重建性能。

在連續(xù)Tokenizer的設(shè)定下,無論隱空間通道數(shù)是4還是16,VidTok在所有評估指標上相比基線方法均取得了全面的提升。值得注意的是,這些提升是在沒有模型大小優(yōu)勢的情況下達成的。

除此之外,團隊還進行了定性分析。

圖片

上圖中展示了以上三種設(shè)定下的與基線方法的對比結(jié)果。

從視頻幀的重建質(zhì)量可以看出,與現(xiàn)有的方法相比,VidTok在各種模型設(shè)定下,均展現(xiàn)出了最優(yōu)的重建細節(jié)保真度和主觀視覺質(zhì)量。證明了VidTok作為多功能視頻Tokenizer的有效性。

所以VidTok是如何做到的?

VidTok的技術(shù)亮點解析

相對于現(xiàn)有的視頻Tokenizer,VidTok在模型架構(gòu)、量化技術(shù)、訓(xùn)練策略上分別做了創(chuàng)新。

高效的混合模型架構(gòu)設(shè)計

VidTok采用經(jīng)典的3D編碼器-解碼器結(jié)構(gòu),同時創(chuàng)新性地結(jié)合了3D、2D和1D卷積,有效地解耦空間和時間采樣。

在現(xiàn)有研究中普遍認為,盡管計算成本較高,完全的3D架構(gòu)提供了更優(yōu)的重建質(zhì)量。然而,VidTok發(fā)現(xiàn)將部分3D卷積替換為2D和1D卷積的組合,可以有效地解耦空間和時間采樣,在降低計算需求的同時,保持了高水平的重建質(zhì)量。

圖片

詳細的網(wǎng)絡(luò)架構(gòu)如上圖所示。VidTok分別處理空間采樣和時間采樣模塊,并在時間采樣模塊中引入了AlphaBlender操作符。其余組件,包括輸入/輸出層和瓶頸層,則利用3D卷積來促進信息融合。此外,整個架構(gòu)中引入了層歸一化以增強穩(wěn)定性和性能。實驗證明該架構(gòu)在重建質(zhì)量和計算量之間取得了平衡。

先進的量化技術(shù)

VidTok引入了有限標量量化(FSQ)技術(shù),無需顯式學(xué)習(xí)碼本,顯著提高了模型的訓(xùn)練穩(wěn)定性和重建性能。

圖片

有限標量量化(FSQ)由「Finite scalar quantization: Vq-vae made simple」提出,其核心原理是,在隱空間表征中,每個標量條目通過四舍五入獨立量化到最近的預(yù)定義標量值。

與傳統(tǒng)VQ相比,F(xiàn)SQ無需學(xué)習(xí)顯式的碼本,從而提高了訓(xùn)練的穩(wěn)定性。實驗表明,F(xiàn)SQ在碼本利用率、重建質(zhì)量和訓(xùn)練穩(wěn)定性方面具有顯著優(yōu)勢,作為一種先進的量化技術(shù),有效提升了離散Tokenizer的性能。

增強的訓(xùn)練策略

VidTok采用分階段訓(xùn)練策略,訓(xùn)練時間減少了50%,而重建質(zhì)量不受影響。

視頻Tokenizer的訓(xùn)練通常是計算密集的,要求大量計算資源(例如對于256x256分辨率的視頻需要3,072GPU小時的訓(xùn)練時長)。這就需要開發(fā)有效的策略來降低計算成本,同時保持模型性能。

VidTok采用一種兩階段訓(xùn)練方法來應(yīng)對這一挑戰(zhàn):首先在低分辨率視頻上對完整模型進行預(yù)訓(xùn)練,然后僅在高分辨率視頻上微調(diào)解碼器。這種訓(xùn)練策略顯著降低了計算成本——訓(xùn)練時間減少了一半(從3,072GPU小時降至1,536GPU 小時),而保持重建視頻質(zhì)量不變。

該兩階段訓(xùn)練的另一優(yōu)勢是,由于第二階段只會微調(diào)解碼器,因此模型可以快速適應(yīng)到新的領(lǐng)域數(shù)據(jù)中,而不會影響隱空間數(shù)據(jù)分布。

圖片

此外,由于視頻Tokenizer旨在建模輸入視頻的運動動態(tài),因此在模型中有效表示這些動態(tài)至關(guān)重要。VidTok使用較低幀率的數(shù)據(jù)進行訓(xùn)練,顯著增強了模型捕捉和表示運動動態(tài)的能力,獲得了更好的重建質(zhì)量。

VidTok的開源為視頻生成、世界模型領(lǐng)域提供了新的工具,特別是在當前業(yè)內(nèi)許多領(lǐng)先模型仍未開源的背景下。

團隊表示,VidTok支持后續(xù)微調(diào)也為其他應(yīng)用提供了更廣闊的使用空間,研究者可輕松將VidTok應(yīng)用于特定領(lǐng)域數(shù)據(jù)集,為目標場景優(yōu)化性能。

更多細節(jié)內(nèi)容感興趣的童鞋可參閱原論文。

論文地址:https://arxiv.org/abs/2412.13061。
項目地址:https://github.com/microsoft/vidtok。

責(zé)任編輯:姜華 來源: 量子位
相關(guān)推薦

2024-02-21 14:07:00

2024-11-25 08:20:00

2024-03-18 08:02:26

2024-04-25 13:14:19

模型數(shù)據(jù)

2025-01-10 09:40:00

視頻生成AI開源

2025-04-25 00:20:00

大模型tokenizer

2023-10-11 12:32:26

模型訓(xùn)練

2024-03-22 13:05:23

數(shù)據(jù)訓(xùn)練

2025-03-13 10:26:45

2022-12-25 12:57:00

模型自然學(xué)習(xí)

2010-03-25 15:10:07

Python詞法分析

2024-12-17 10:40:26

2025-02-10 08:30:00

2021-08-31 11:59:02

微軟Azure Cosmo漏洞

2025-03-20 14:24:21

2025-03-03 10:17:00

模型數(shù)據(jù)生成

2025-01-22 15:21:00

2024-08-19 08:45:00

開源模型

2021-08-30 15:41:23

代碼開源微軟

2022-08-01 10:26:52

生成網(wǎng)絡(luò)圖像修復(fù)
點贊
收藏

51CTO技術(shù)棧公眾號