字節(jié)豆包全新圖像Tokenizer:生成圖像最低只需32個(gè)token,最高提速410倍 精華
在生成式模型的迅速發(fā)展中,Image Tokenization 扮演著一個(gè)很重要的角色,例如Diffusion依賴的VAE或者是Transformer依賴的VQGAN。這些Tokenizers會(huì)將圖像編碼至一個(gè)更為緊湊的隱空間(latent space),使得生成高分辨率圖像更有效率。
然而,現(xiàn)有的Tokenizer通常會(huì)將輸入圖像映射為隱空間的一個(gè)降采樣后的2D矩陣,這一設(shè)計(jì)隱式的限制了token與圖像之間的映射關(guān)系,導(dǎo)致其很難有效的利用圖像中的冗余信息(比如相鄰的區(qū)域經(jīng)常會(huì)有類似的特征)來獲得一個(gè)更加有效的圖像編碼。
為了解決這一問題,字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)和慕尼黑工業(yè)大學(xué)提出了全新的1D圖像Tokenizer:TiTok,這一Tokenizer打破了2D Tokenizer的設(shè)計(jì)局限,可以將整個(gè)圖片壓縮至更為緊湊的Token序列。
- 論文鏈接:??https://arxiv.org/abs/2406.07550 ??
- 項(xiàng)目鏈接:??https://yucornetto.github.io/projects/titok.html??
- 代碼鏈接:https://github.com/bytedance/1d-tokenizer
對于256 x 256分辨率的圖片,TiTok最少僅需32個(gè)Token就可以表達(dá),比通常2D Tokenizer的256或1024個(gè)Token顯著減少。對于512 x 512分辨率的圖片,TiTok最少僅需64個(gè)Token,64倍小于Stable Diffusion的VAE Tokenizer。此外,在ImageNet圖像生成這一任務(wù)上,使用TiTok作為Tokenizer的生成器在生成質(zhì)量和生成速度上都有顯著提高。
在256分辨率,TiTok獲得了1.97的FID,顯著超過使用同樣生成器的MaskGIT 4.21。在512分辨率TiTok可以獲得2.74的FID,不僅超過了DiT(3.04),并且相比DiT在圖像生成上加速了驚人的410倍!TiTok的最好變種取得了2.13的FID,顯著超過DiT的同時(shí)仍舊有著74倍的加速。
TiTok僅用32個(gè)Token就可以完成高質(zhì)量的圖像重建與生成
圖像所需Token的顯著減少帶來了明顯更快的生成速度,但是同時(shí)維持了高質(zhì)量的圖像生成。
模型結(jié)構(gòu)
TiTok的結(jié)構(gòu)非常簡單,編碼器和解碼器部分各自是一個(gè)ViT,在編碼過程中,一組latent tokens會(huì)拼接在image patches后,在過完編碼器后,僅保留latent tokens并進(jìn)行quantization的過程。獲得的quantized latent tokens將會(huì)與一組mask tokens拼接在一起,一并送入解碼器,從mask token序列中重建出圖像。
1D Tokenization 性質(zhì)研究
研究者進(jìn)行了一系列實(shí)驗(yàn)研究關(guān)于不同數(shù)量的用于表示圖像的token,不同的tokenizer大小,重建表現(xiàn),生成表現(xiàn),linear probing準(zhǔn)確率,以及訓(xùn)練和推理速度的比較。在這一過程中,研究者發(fā)現(xiàn)(1)僅需32個(gè)Token便能取得很好的重建與生成效果(2)通過增大Tokenizer的模型大小,研究者可以使用更少的Token來表示圖片(3)當(dāng)圖片使用較少的Token來表示時(shí),Tokenizer會(huì)學(xué)到更強(qiáng)的語義信息(4)使用更少的Token來表示圖片時(shí),訓(xùn)練和推理速度都有了顯著的提升。
此外,視頻中展示了使用不同的Tokenizer大小以及Token數(shù)目時(shí)所重建出的圖片,可以看到更大的Tokenizer可以在有限的Token下重建出質(zhì)量更好的圖像。此外,當(dāng)僅有有限Token時(shí),模型更傾向于保留顯著區(qū)域有更好的重建效果。
實(shí)驗(yàn)驗(yàn)證
研究者主要在ImageNet-1k的256 x 256分辨率以及512 x 512分辨率上進(jìn)行了與其他方法的比較??梢钥吹?,盡管TiTok使用有限的Token數(shù)目,但是可以和其他使用更多Token的方法取得相當(dāng)?shù)闹亟ㄐЧ╮FID),使用較少的Token數(shù)目讓TiTok在維持較高的生成圖片質(zhì)量(gFID)的同時(shí)有著顯著快于其他方法的生成速度。
例如TiTok-L-32獲得了2.77的gFID score,同時(shí)可以以每秒101.6張圖片的速度進(jìn)行圖片生成,這一速度顯著快于其他Diffusion Models (169倍快于DiT)或者Transformer Models (339倍快于ViT-VQGAN).
TiTok使用較少Token的優(yōu)勢在更高分辨率的圖像生成上更加明顯,其中TiTok-L-64僅使用64個(gè)Token就能完成高質(zhì)量的512分辨率圖像的重建與生成,生成圖像的質(zhì)量不僅高于DiT (2.74 v.s. 3.04),同時(shí)生成速度提高了近410倍。
結(jié)論
在本文中,研究者專注于一個(gè)全新的1D Image Tokenizer,并提出了一種全新的Tokenizer來打破現(xiàn)有2D Tokenizer中的局限,進(jìn)而更好的利用圖像中的冗余信息。TiTok僅需少量的Token(比如32個(gè))來表示圖像,同時(shí)仍舊能進(jìn)行高質(zhì)量的圖像重建與生成。在ImageNet的256分辨率和512分辨率生成實(shí)驗(yàn)中,TiTok不僅取得了超過Diffusion Models的生成質(zhì)量,同時(shí)有著百倍更快的生成速度。
本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心
