自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="q5ial"><track id="q5ial"></track></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

字節(jié)豆包全新圖像Tokenizer：生成圖像最低只需32個(gè)token，最高提速410倍精華

輕薄滴假象

發(fā)布于 2024-6-24 08:37

瀏覽

0收藏

在生成式模型的迅速發(fā)展中，Image Tokenization 扮演著一個(gè)很重要的角色，例如Diffusion依賴的VAE或者是Transformer依賴的VQGAN。這些Tokenizers會(huì)將圖像編碼至一個(gè)更為緊湊的隱空間（latent space），使得生成高分辨率圖像更有效率。

然而，現(xiàn)有的Tokenizer通常會(huì)將輸入圖像映射為隱空間的一個(gè)降采樣后的2D矩陣，這一設(shè)計(jì)隱式的限制了token與圖像之間的映射關(guān)系，導(dǎo)致其很難有效的利用圖像中的冗余信息（比如相鄰的區(qū)域經(jīng)常會(huì)有類似的特征）來獲得一個(gè)更加有效的圖像編碼。

為了解決這一問題，字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)和慕尼黑工業(yè)大學(xué)提出了全新的1D圖像Tokenizer：TiTok，這一Tokenizer打破了2D Tokenizer的設(shè)計(jì)局限，可以將整個(gè)圖片壓縮至更為緊湊的Token序列。

字節(jié)豆包全新圖像Tokenizer：生成圖像最低只需32個(gè)token，最高提速410倍-AI.x社區(qū)

論文鏈接：??https://arxiv.org/abs/2406.07550 ??
項(xiàng)目鏈接：??https://yucornetto.github.io/projects/titok.html??
代碼鏈接：https://github.com/bytedance/1d-tokenizer

對于256 x 256分辨率的圖片，TiTok最少僅需32個(gè)Token就可以表達(dá)，比通常2D Tokenizer的256或1024個(gè)Token顯著減少。對于512 x 512分辨率的圖片，TiTok最少僅需64個(gè)Token，64倍小于Stable Diffusion的VAE Tokenizer。此外，在ImageNet圖像生成這一任務(wù)上，使用TiTok作為Tokenizer的生成器在生成質(zhì)量和生成速度上都有顯著提高。

在256分辨率，TiTok獲得了1.97的FID，顯著超過使用同樣生成器的MaskGIT 4.21。在512分辨率TiTok可以獲得2.74的FID，不僅超過了DiT（3.04），并且相比DiT在圖像生成上加速了驚人的410倍！TiTok的最好變種取得了2.13的FID，顯著超過DiT的同時(shí)仍舊有著74倍的加速。

字節(jié)豆包全新圖像Tokenizer：生成圖像最低只需32個(gè)token，最高提速410倍-AI.x社區(qū)

TiTok僅用32個(gè)Token就可以完成高質(zhì)量的圖像重建與生成

字節(jié)豆包全新圖像Tokenizer：生成圖像最低只需32個(gè)token，最高提速410倍-AI.x社區(qū)

圖像所需Token的顯著減少帶來了明顯更快的生成速度，但是同時(shí)維持了高質(zhì)量的圖像生成。

模型結(jié)構(gòu)

TiTok的結(jié)構(gòu)非常簡單，編碼器和解碼器部分各自是一個(gè)ViT，在編碼過程中，一組latent tokens會(huì)拼接在image patches后，在過完編碼器后，僅保留latent tokens并進(jìn)行quantization的過程。獲得的quantized latent tokens將會(huì)與一組mask tokens拼接在一起，一并送入解碼器，從mask token序列中重建出圖像。

字節(jié)豆包全新圖像Tokenizer：生成圖像最低只需32個(gè)token，最高提速410倍-AI.x社區(qū)

1D Tokenization 性質(zhì)研究

研究者進(jìn)行了一系列實(shí)驗(yàn)研究關(guān)于不同數(shù)量的用于表示圖像的token，不同的tokenizer大小，重建表現(xiàn)，生成表現(xiàn)，linear probing準(zhǔn)確率，以及訓(xùn)練和推理速度的比較。在這一過程中，研究者發(fā)現(xiàn)（1）僅需32個(gè)Token便能取得很好的重建與生成效果（2）通過增大Tokenizer的模型大小，研究者可以使用更少的Token來表示圖片（3）當(dāng)圖片使用較少的Token來表示時(shí)，Tokenizer會(huì)學(xué)到更強(qiáng)的語義信息（4）使用更少的Token來表示圖片時(shí)，訓(xùn)練和推理速度都有了顯著的提升。

字節(jié)豆包全新圖像Tokenizer：生成圖像最低只需32個(gè)token，最高提速410倍-AI.x社區(qū)

此外，視頻中展示了使用不同的Tokenizer大小以及Token數(shù)目時(shí)所重建出的圖片，可以看到更大的Tokenizer可以在有限的Token下重建出質(zhì)量更好的圖像。此外，當(dāng)僅有有限Token時(shí)，模型更傾向于保留顯著區(qū)域有更好的重建效果。

字節(jié)豆包全新圖像Tokenizer：生成圖像最低只需32個(gè)token，最高提速410倍-AI.x社區(qū)

實(shí)驗(yàn)驗(yàn)證

研究者主要在ImageNet-1k的256 x 256分辨率以及512 x 512分辨率上進(jìn)行了與其他方法的比較?？梢钥吹?，盡管TiTok使用有限的Token數(shù)目，但是可以和其他使用更多Token的方法取得相當(dāng)?shù)闹亟ㄐЧ╮FID），使用較少的Token數(shù)目讓TiTok在維持較高的生成圖片質(zhì)量（gFID）的同時(shí)有著顯著快于其他方法的生成速度。

例如TiTok-L-32獲得了2.77的gFID score，同時(shí)可以以每秒101.6張圖片的速度進(jìn)行圖片生成，這一速度顯著快于其他Diffusion Models （169倍快于DiT）或者Transformer Models （339倍快于ViT-VQGAN）.

字節(jié)豆包全新圖像Tokenizer：生成圖像最低只需32個(gè)token，最高提速410倍-AI.x社區(qū)

TiTok使用較少Token的優(yōu)勢在更高分辨率的圖像生成上更加明顯，其中TiTok-L-64僅使用64個(gè)Token就能完成高質(zhì)量的512分辨率圖像的重建與生成，生成圖像的質(zhì)量不僅高于DiT (2.74 v.s. 3.04)，同時(shí)生成速度提高了近410倍。

字節(jié)豆包全新圖像Tokenizer：生成圖像最低只需32個(gè)token，最高提速410倍-AI.x社區(qū)

結(jié)論

在本文中，研究者專注于一個(gè)全新的1D Image Tokenizer，并提出了一種全新的Tokenizer來打破現(xiàn)有2D Tokenizer中的局限，進(jìn)而更好的利用圖像中的冗余信息。TiTok僅需少量的Token（比如32個(gè)）來表示圖像，同時(shí)仍舊能進(jìn)行高質(zhì)量的圖像重建與生成。在ImageNet的256分辨率和512分辨率生成實(shí)驗(yàn)中，TiTok不僅取得了超過Diffusion Models的生成質(zhì)量，同時(shí)有著百倍更快的生成速度。

本文轉(zhuǎn)自機(jī)器之心，作者：機(jī)器之心

原文鏈接:??https://mp.weixin.qq.com/s/jQwv5MHWPqu1c7YLROBD3A??

標(biāo)簽

已于2024-6-24 08:38:11修改

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

只需一步！One-Step圖像轉(zhuǎn)換來了！親測效果驚艷！

angel ? 4343瀏覽 ? 0回復(fù)
圖像生成里程碑！VAR:自回歸模型首超Diffusion Transformer！（北大&字節(jié)）

angel ? 1.1w瀏覽 ? 0回復(fù)
北大字節(jié)開辟圖像生成新范式！超越Sora核心組件DiT，不再預(yù)測下一個(gè)token

Crystalcxt ? 2432瀏覽 ? 0回復(fù)
「個(gè)性化」圖像生成時(shí)代來了！六大頂尖高校聯(lián)手發(fā)布全新Gen4Gen框架

duhorse ? 2940瀏覽 ? 0回復(fù)
圖像生成模型王牌——Diffusion Transformers系列工作梳理

海因斯DK ? 5089瀏覽 ? 0回復(fù)
快3倍！Meta 違背經(jīng)典模型結(jié)構(gòu)，一次預(yù)測多個(gè)token，路徑可行，大模型大幅提速指日可待！

51CTO技術(shù)棧 ? 2646瀏覽 ? 0回復(fù)
next-token被淘汰！Meta實(shí)測「多token」訓(xùn)練方法，推理提速3倍，性能大漲10%+

duhorse ? 2888瀏覽 ? 0回復(fù)
CVPR 2024｜讓圖像擴(kuò)散模型生成高質(zhì)量360度場景，只需要一個(gè)語言模型

輕薄滴假象 ? 2989瀏覽 ? 0回復(fù)
字節(jié)豆包、武大提出 CAL：通過視覺相關(guān)的 token 增強(qiáng)多模態(tài)對齊效果

輕薄滴假象 ? 2593瀏覽 ? 0回復(fù)
MUMU：用文本、圖像引導(dǎo)，多模態(tài)圖像生成模型

Aceryt ? 2311瀏覽 ? 0回復(fù)
突破個(gè)性化圖像生成局限！MagicTailor：組件可控個(gè)性化圖像生成創(chuàng)新框架！

angel ? 2571瀏覽 ? 0回復(fù)
OmniTokenizer-視覺tokenizer生成

shizhi02 ? 1605瀏覽 ? 0回復(fù)
港大&字節(jié)發(fā)布領(lǐng)先商用級圖像視頻生成模型Goku有點(diǎn)東西

angel ? 2096瀏覽 ? 0回復(fù)
4090單卡部署滿血 671B DeepSeek，本地部署“成本驟降32倍”?。?！

玄姐聊AGI ? 6135瀏覽 ? 0回復(fù)
何愷明開辟分形圖像生成新范式！計(jì)算效率提高4000倍，首次實(shí)現(xiàn)高分辨率逐像素生成

Crystalcxt ? 1480瀏覽 ? 0回復(fù)
阿里開源QwQ-32B，性能與Deepseek R1持平。一個(gè)擁有320億參數(shù)的全新推理模型

Halo咯咯 ? 2132瀏覽 ? 0回復(fù)
港大&字節(jié)開源GigaTok首次破解圖像重建與生成矛盾，30億參數(shù)登頂SOTA！

angel ? 1104瀏覽 ? 0回復(fù)
只需一張圖，萬物皆可插！Insert Anything開源啦！開創(chuàng)AI圖像插入新時(shí)代｜浙大&哈佛等

angel ? 789瀏覽 ? 0回復(fù)
統(tǒng)一圖像編輯框架，達(dá)到閉源一流水平；高分辨率自回歸圖像生成；高低層次特征聯(lián)合的圖像生成；視頻試穿框架

AI研究前瞻 ? 177瀏覽 ? 0回復(fù)

輕薄滴假象

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek一口氣開源3個(gè)項(xiàng)目，還有梁文鋒親自參與，昨晚API大降價(jià) 2025-02-27 12:40:06發(fā)布
全球首個(gè)AI CUDA工程師來了！將PyTorch原生實(shí)現(xiàn)提速10-100倍 2025-02-21 13:20:31發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： ShareGPT4V作者團(tuán)隊(duì)又一力作！百萬高質(zhì)量視頻-字幕數(shù)據(jù)助力社區(qū)提升多模態(tài)大模型視頻理解及生成能力

下一篇：耳朵沒錯(cuò)，是聲音太真了，字節(jié)豆包語音合成成果Seed-TTS技術(shù)揭秘

社區(qū)精華內(nèi)容

目錄

^{<blockquote id="stisg"></blockquote>}