視覺(jué)Token無(wú)縫對(duì)齊LLMs詞表!V2Flow:基于LLMs實(shí)現(xiàn)高保真自回歸圖像生成
視覺(jué)Token可以與LLMs詞表無(wú)縫對(duì)齊了!
V2Flow,基于LLMs可以實(shí)現(xiàn)高保真自回歸圖像生成。
隨著ChatGPT掀起自回歸建模革命后,近年來(lái)研究者們開(kāi)始探索自回歸建模在視覺(jué)生成任務(wù)的應(yīng)用,將視覺(jué)和文本數(shù)據(jù)統(tǒng)一在“next-token prediction”框架下。
實(shí)現(xiàn)自回歸圖像生成的關(guān)鍵是設(shè)計(jì)向量化(Vector-Quantization)的視覺(jué)Tokenizer,將視覺(jué)內(nèi)容離散化成類似于大語(yǔ)言模型詞表的離散Token。
現(xiàn)有方法雖取得進(jìn)展,卻始終面臨兩大桎梏:
1、傳統(tǒng)視覺(jué)tokenizer生成的離散表征與LLM詞表存在顯著的分布偏差。
2、維度詛咒:圖像的二維結(jié)構(gòu)迫使大語(yǔ)言模型以逐行方式預(yù)測(cè)視覺(jué)token,與一維文本的連貫語(yǔ)義預(yù)測(cè)存在本質(zhì)沖突。
結(jié)構(gòu)性與特征分布性的雙重割裂,暴露了當(dāng)前自回歸視覺(jué)生成的重大缺陷:缺乏能夠既保證高保真圖像重建,又能與預(yù)訓(xùn)練LLMs詞匯表在結(jié)構(gòu)上和特征分布上統(tǒng)一的視覺(jué)tokenizer。解決這一問(wèn)題對(duì)于實(shí)現(xiàn)有效的多模態(tài)自回歸建模和增強(qiáng)的指令遵循能力至關(guān)重要。
因此,一個(gè)核心問(wèn)題是:
能否設(shè)計(jì)一種視覺(jué)tokenizer,使生成的離散視覺(jué)token在保證高質(zhì)量視覺(jué)重建的同時(shí),與預(yù)訓(xùn)練LLMs詞匯表實(shí)現(xiàn)無(wú)縫融合?
統(tǒng)一視覺(jué)Token與大語(yǔ)言模型詞表
最新開(kāi)源的V2Flow tokenizer,首次實(shí)現(xiàn)了將視覺(jué)內(nèi)容直接嵌入現(xiàn)有大語(yǔ)言模型的詞匯空間,在保證高質(zhì)量視覺(jué)重建的同時(shí)從根本上解決模態(tài)對(duì)齊問(wèn)題。總體而言,V2Flow主要包括三點(diǎn)核心貢獻(xiàn):
視覺(jué)詞匯重采樣器。
如圖1(a) ,將圖像壓縮成緊湊的一維離散token序列,每個(gè)token被表示為大語(yǔ)言模型(例如Qwen、LLaMA系列)詞匯空間上的軟類別分布。這一設(shè)計(jì)使得視覺(jué)tokens可以無(wú)縫地嵌入現(xiàn)有LLM的詞匯序列中。換言之,圖像信息被直接翻譯成LLM“聽(tīng)得懂”的語(yǔ)言,實(shí)現(xiàn)了視覺(jué)與語(yǔ)言模態(tài)的對(duì)齊。
在圖1(b)中,經(jīng)由重采樣器處理后,視覺(jué)tokens的潛在分布與大型語(yǔ)言模型(LLM)的詞匯表高度一致。這種在結(jié)構(gòu)和潛在分布上的高度兼容性,能夠降低視覺(jué)tokens直接融入已有LLM的復(fù)雜性。
圖 1 視覺(jué)詞匯重采樣器的核心設(shè)計(jì)。
掩碼自回歸流匹配編碼器。
為了實(shí)現(xiàn)離散化視覺(jué)token的高保真視覺(jué)重建,V2Flow提出了掩碼自回歸流匹配解碼器。該解碼器采用掩碼Transformer編碼-解碼結(jié)構(gòu),為視覺(jué)tokens補(bǔ)充豐富的上下文信息。增強(qiáng)后的視覺(jué)tokens用于條件化一個(gè)專門(mén)設(shè)計(jì)的速度場(chǎng)模型,從標(biāo)準(zhǔn)正態(tài)先驗(yàn)分布中重建出連續(xù)的視覺(jué)特征。在流匹配采樣階段,該解碼器采用類似MA的方式,以“next-set prediction”的方式逐步完成視覺(jué)重建。
相比于近期提出的僅依賴掩碼編碼器-解碼器結(jié)構(gòu)的TiTok,V2Flow自回歸采樣的優(yōu)勢(shì)是能夠在更少的視覺(jué)token數(shù)量下實(shí)現(xiàn)更高的重建質(zhì)量,有效提高了壓縮效率。
圖 2 掩碼自回歸流匹配解碼器示意圖以及采樣階段算法流程
端到端自回歸視覺(jué)生成。
圖3展示了V2Flow協(xié)同LLMs實(shí)現(xiàn)自回歸視覺(jué)生成的流程。為促進(jìn)兩者無(wú)縫融合,在已有LLM詞匯表基礎(chǔ)上擴(kuò)展了一系列特定視覺(jué)tokens,并直接利用V2Flow中的碼本進(jìn)行初始化。訓(xùn)練階段構(gòu)建了包含文本-圖像對(duì)的單輪對(duì)話數(shù)據(jù),文本提示作為輸入指令,而離散的視覺(jué)tokens則作為預(yù)測(cè)目標(biāo)響應(yīng)。
在推理階段,經(jīng)過(guò)預(yù)訓(xùn)練的LLM根據(jù)文本指令預(yù)測(cè)視覺(jué)tokens,直至預(yù)測(cè)到 token為止。隨后,離散視覺(jué)tokens被送入V2Flow解碼器,通過(guò)流匹配采樣重建出高質(zhì)量圖像。
圖3 V2Flow與預(yù)訓(xùn)練LLMs融合實(shí)現(xiàn)自回歸視覺(jué)生成的整體流程。
實(shí)驗(yàn)結(jié)果
重建質(zhì)量方面,V2Flow無(wú)論是在ImageNet-1k 測(cè)試數(shù)據(jù)集的256和512分辨率下均取得了競(jìng)爭(zhēng)性的重建性能。
相比于字節(jié)提出的一維離散化tokenizer TiTok相比,V2Flow利用更少的離散tokens實(shí)現(xiàn)了更高質(zhì)量的圖像重建,顯著提高了整體壓縮效率。
圖片
文本引導(dǎo)圖像生成方面,實(shí)驗(yàn)結(jié)果表明,相比于當(dāng)前兩種最先進(jìn)的自回歸生成模型Janus-Pro-7B和Lumina-mGPT-7B,V2Flow+LLaMA2-7B能夠更加準(zhǔn)確地捕捉文本提示中的語(yǔ)義細(xì)節(jié),展示了極具競(jìng)爭(zhēng)力的生成性能。
圖片
開(kāi)源生態(tài)與團(tuán)隊(duì)招募:共建多模態(tài)未來(lái)
開(kāi)源承諾:讓技術(shù)普惠每一位探索者
開(kāi)源是推動(dòng)AI技術(shù)進(jìn)化的核心動(dòng)力。本次發(fā)布的V2Flow框架已完整公開(kāi)訓(xùn)練與推理代碼庫(kù),開(kāi)發(fā)者可基于現(xiàn)有代碼快速?gòu)?fù)現(xiàn)論文中的核心實(shí)驗(yàn)。更令人期待的是,團(tuán)隊(duì)預(yù)告將于近期陸續(xù)發(fā)布:
512/1024分辨率預(yù)訓(xùn)練模型:支持高清圖像重建與生成
自回歸生成模型:集成LLaMA等主流大語(yǔ)言模型的開(kāi)箱即用方案
多模態(tài)擴(kuò)展工具包:未來(lái)將支持視頻、3D、語(yǔ)音等跨模態(tài)生成任務(wù)
加入我們:共創(chuàng)下一代多模態(tài)智能
V2Flow作者團(tuán)隊(duì)現(xiàn)招募多模態(tài)生成算法研究型實(shí)習(xí)生!如果你渴望站在AI內(nèi)容生成的最前沿,參與定義自回歸架構(gòu)的未來(lái),這里將是你實(shí)現(xiàn)突破的絕佳舞臺(tái)。
我們做什么?
探索文本、圖像、視頻、語(yǔ)音、音樂(lè)的統(tǒng)一自回歸生成范式
構(gòu)建支持高清、長(zhǎng)序列、強(qiáng)語(yǔ)義關(guān)聯(lián)的多模態(tài)大模型
攻克數(shù)字人、3D生成、實(shí)時(shí)交互創(chuàng)作等產(chǎn)業(yè)級(jí)應(yīng)用難題
我們需要你具備:
硬核技術(shù)力
- 精通Python,熟練使用PyTorch/TensorFlow等框架
- 深入理解Diffusers、DeepSpeed等AIGC工具鏈
- 在CV/NLP領(lǐng)域頂級(jí)會(huì)議(CVPR、ICML、NeurIPS等)發(fā)表論文者優(yōu)先
極致創(chuàng)新欲
- 對(duì)多模態(tài)生成、自回歸架構(gòu)、擴(kuò)散模型等技術(shù)有濃厚興趣
- 曾在Kaggle、ACM競(jìng)賽等獲得Top名次者優(yōu)先
- 有開(kāi)源項(xiàng)目貢獻(xiàn)或獨(dú)立開(kāi)發(fā)經(jīng)驗(yàn)者優(yōu)先
投遞方式:zhangguiwei@duxiaoman.com
論文鏈接:https://arxiv.org/abs/2503.07493
開(kāi)源項(xiàng)目鏈接:https://github.com/Davinci-XLab/V2Flow