自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

視覺(jué)Token無(wú)縫對(duì)齊LLMs詞表!V2Flow:基于LLMs實(shí)現(xiàn)高保真自回歸圖像生成

人工智能
隨著ChatGPT掀起自回歸建模革命后,近年來(lái)研究者們開(kāi)始探索自回歸建模在視覺(jué)生成任務(wù)的應(yīng)用,將視覺(jué)和文本數(shù)據(jù)統(tǒng)一在“next-token prediction”框架下。

視覺(jué)Token可以與LLMs詞表無(wú)縫對(duì)齊了!

V2Flow,基于LLMs可以實(shí)現(xiàn)高保真自回歸圖像生成。

隨著ChatGPT掀起自回歸建模革命后,近年來(lái)研究者們開(kāi)始探索自回歸建模在視覺(jué)生成任務(wù)的應(yīng)用,將視覺(jué)和文本數(shù)據(jù)統(tǒng)一在“next-token prediction”框架下。

實(shí)現(xiàn)自回歸圖像生成的關(guān)鍵是設(shè)計(jì)向量化(Vector-Quantization)的視覺(jué)Tokenizer,將視覺(jué)內(nèi)容離散化成類似于大語(yǔ)言模型詞表的離散Token。

現(xiàn)有方法雖取得進(jìn)展,卻始終面臨兩大桎梏:

1、傳統(tǒng)視覺(jué)tokenizer生成的離散表征與LLM詞表存在顯著的分布偏差。

2、維度詛咒:圖像的二維結(jié)構(gòu)迫使大語(yǔ)言模型以逐行方式預(yù)測(cè)視覺(jué)token,與一維文本的連貫語(yǔ)義預(yù)測(cè)存在本質(zhì)沖突。

結(jié)構(gòu)性與特征分布性的雙重割裂,暴露了當(dāng)前自回歸視覺(jué)生成的重大缺陷:缺乏能夠既保證高保真圖像重建,又能與預(yù)訓(xùn)練LLMs詞匯表在結(jié)構(gòu)上和特征分布上統(tǒng)一的視覺(jué)tokenizer。解決這一問(wèn)題對(duì)于實(shí)現(xiàn)有效的多模態(tài)自回歸建模和增強(qiáng)的指令遵循能力至關(guān)重要。

因此,一個(gè)核心問(wèn)題是:

能否設(shè)計(jì)一種視覺(jué)tokenizer,使生成的離散視覺(jué)token在保證高質(zhì)量視覺(jué)重建的同時(shí),與預(yù)訓(xùn)練LLMs詞匯表實(shí)現(xiàn)無(wú)縫融合?

統(tǒng)一視覺(jué)Token與大語(yǔ)言模型詞表

最新開(kāi)源的V2Flow tokenizer,首次實(shí)現(xiàn)了將視覺(jué)內(nèi)容直接嵌入現(xiàn)有大語(yǔ)言模型的詞匯空間,在保證高質(zhì)量視覺(jué)重建的同時(shí)從根本上解決模態(tài)對(duì)齊問(wèn)題。總體而言,V2Flow主要包括三點(diǎn)核心貢獻(xiàn):

視覺(jué)詞匯重采樣器

如圖1(a) ,將圖像壓縮成緊湊的一維離散token序列,每個(gè)token被表示為大語(yǔ)言模型(例如Qwen、LLaMA系列)詞匯空間上的軟類別分布。這一設(shè)計(jì)使得視覺(jué)tokens可以無(wú)縫地嵌入現(xiàn)有LLM的詞匯序列中。換言之,圖像信息被直接翻譯成LLM“聽(tīng)得懂”的語(yǔ)言,實(shí)現(xiàn)了視覺(jué)與語(yǔ)言模態(tài)的對(duì)齊。

在圖1(b)中,經(jīng)由重采樣器處理后,視覺(jué)tokens的潛在分布與大型語(yǔ)言模型(LLM)的詞匯表高度一致。這種在結(jié)構(gòu)和潛在分布上的高度兼容性,能夠降低視覺(jué)tokens直接融入已有LLM的復(fù)雜性。

圖 1 視覺(jué)詞匯重采樣器的核心設(shè)計(jì)。圖 1 視覺(jué)詞匯重采樣器的核心設(shè)計(jì)。

掩碼自回歸流匹配編碼器。

為了實(shí)現(xiàn)離散化視覺(jué)token的高保真視覺(jué)重建,V2Flow提出了掩碼自回歸流匹配解碼器。該解碼器采用掩碼Transformer編碼-解碼結(jié)構(gòu),為視覺(jué)tokens補(bǔ)充豐富的上下文信息。增強(qiáng)后的視覺(jué)tokens用于條件化一個(gè)專門(mén)設(shè)計(jì)的速度場(chǎng)模型,從標(biāo)準(zhǔn)正態(tài)先驗(yàn)分布中重建出連續(xù)的視覺(jué)特征。在流匹配采樣階段,該解碼器采用類似MA的方式,以“next-set prediction”的方式逐步完成視覺(jué)重建。

相比于近期提出的僅依賴掩碼編碼器-解碼器結(jié)構(gòu)的TiTok,V2Flow自回歸采樣的優(yōu)勢(shì)是能夠在更少的視覺(jué)token數(shù)量下實(shí)現(xiàn)更高的重建質(zhì)量,有效提高了壓縮效率。

圖 2 掩碼自回歸流匹配解碼器示意圖以及采樣階段算法流程圖 2 掩碼自回歸流匹配解碼器示意圖以及采樣階段算法流程

端到端自回歸視覺(jué)生成。

圖3展示了V2Flow協(xié)同LLMs實(shí)現(xiàn)自回歸視覺(jué)生成的流程。為促進(jìn)兩者無(wú)縫融合,在已有LLM詞匯表基礎(chǔ)上擴(kuò)展了一系列特定視覺(jué)tokens,并直接利用V2Flow中的碼本進(jìn)行初始化。訓(xùn)練階段構(gòu)建了包含文本-圖像對(duì)的單輪對(duì)話數(shù)據(jù),文本提示作為輸入指令,而離散的視覺(jué)tokens則作為預(yù)測(cè)目標(biāo)響應(yīng)。

在推理階段,經(jīng)過(guò)預(yù)訓(xùn)練的LLM根據(jù)文本指令預(yù)測(cè)視覺(jué)tokens,直至預(yù)測(cè)到 token為止。隨后,離散視覺(jué)tokens被送入V2Flow解碼器,通過(guò)流匹配采樣重建出高質(zhì)量圖像。

圖3 V2Flow與預(yù)訓(xùn)練LLMs融合實(shí)現(xiàn)自回歸視覺(jué)生成的整體流程。圖3 V2Flow與預(yù)訓(xùn)練LLMs融合實(shí)現(xiàn)自回歸視覺(jué)生成的整體流程。

實(shí)驗(yàn)結(jié)果

重建質(zhì)量方面,V2Flow無(wú)論是在ImageNet-1k 測(cè)試數(shù)據(jù)集的256和512分辨率下均取得了競(jìng)爭(zhēng)性的重建性能。

相比于字節(jié)提出的一維離散化tokenizer TiTok相比,V2Flow利用更少的離散tokens實(shí)現(xiàn)了更高質(zhì)量的圖像重建,顯著提高了整體壓縮效率。

圖片圖片

文本引導(dǎo)圖像生成方面,實(shí)驗(yàn)結(jié)果表明,相比于當(dāng)前兩種最先進(jìn)的自回歸生成模型Janus-Pro-7B和Lumina-mGPT-7B,V2Flow+LLaMA2-7B能夠更加準(zhǔn)確地捕捉文本提示中的語(yǔ)義細(xì)節(jié),展示了極具競(jìng)爭(zhēng)力的生成性能。

圖片圖片

開(kāi)源生態(tài)與團(tuán)隊(duì)招募:共建多模態(tài)未來(lái)

開(kāi)源承諾:讓技術(shù)普惠每一位探索者

開(kāi)源是推動(dòng)AI技術(shù)進(jìn)化的核心動(dòng)力。本次發(fā)布的V2Flow框架已完整公開(kāi)訓(xùn)練與推理代碼庫(kù),開(kāi)發(fā)者可基于現(xiàn)有代碼快速?gòu)?fù)現(xiàn)論文中的核心實(shí)驗(yàn)。更令人期待的是,團(tuán)隊(duì)預(yù)告將于近期陸續(xù)發(fā)布:

512/1024分辨率預(yù)訓(xùn)練模型:支持高清圖像重建與生成

自回歸生成模型:集成LLaMA等主流大語(yǔ)言模型的開(kāi)箱即用方案

多模態(tài)擴(kuò)展工具包:未來(lái)將支持視頻、3D、語(yǔ)音等跨模態(tài)生成任務(wù)

加入我們:共創(chuàng)下一代多模態(tài)智能

V2Flow作者團(tuán)隊(duì)現(xiàn)招募多模態(tài)生成算法研究型實(shí)習(xí)生!如果你渴望站在AI內(nèi)容生成的最前沿,參與定義自回歸架構(gòu)的未來(lái),這里將是你實(shí)現(xiàn)突破的絕佳舞臺(tái)。

我們做什么?

探索文本、圖像、視頻、語(yǔ)音、音樂(lè)的統(tǒng)一自回歸生成范式

構(gòu)建支持高清、長(zhǎng)序列、強(qiáng)語(yǔ)義關(guān)聯(lián)的多模態(tài)大模型

攻克數(shù)字人、3D生成、實(shí)時(shí)交互創(chuàng)作等產(chǎn)業(yè)級(jí)應(yīng)用難題

我們需要你具備:

硬核技術(shù)力

  • 精通Python,熟練使用PyTorch/TensorFlow等框架
  • 深入理解Diffusers、DeepSpeed等AIGC工具鏈
  • 在CV/NLP領(lǐng)域頂級(jí)會(huì)議(CVPR、ICML、NeurIPS等)發(fā)表論文者優(yōu)先

極致創(chuàng)新欲

  • 對(duì)多模態(tài)生成、自回歸架構(gòu)、擴(kuò)散模型等技術(shù)有濃厚興趣
  • 曾在Kaggle、ACM競(jìng)賽等獲得Top名次者優(yōu)先
  • 有開(kāi)源項(xiàng)目貢獻(xiàn)或獨(dú)立開(kāi)發(fā)經(jīng)驗(yàn)者優(yōu)先

   投遞方式:zhangguiwei@duxiaoman.com

論文鏈接:https://arxiv.org/abs/2503.07493

開(kāi)源項(xiàng)目鏈接:https://github.com/Davinci-XLab/V2Flow

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2025-04-29 08:18:48

2025-01-07 09:20:00

2025-04-01 09:40:00

2025-03-24 11:01:41

2024-12-20 14:27:09

2024-09-05 08:24:09

2024-04-17 12:59:18

前端Token開(kāi)發(fā)

2024-04-03 14:11:49

模型訓(xùn)練

2021-04-14 15:03:16

數(shù)據(jù)性能存儲(chǔ)

2025-04-21 08:20:00

視覺(jué)模型訓(xùn)練

2024-12-23 15:46:59

2021-04-14 14:50:27

計(jì)算機(jī)模型 技術(shù)

2023-07-17 11:02:36

模型開(kāi)源

2025-02-20 09:36:45

2024-09-02 14:37:50

2024-04-17 13:22:55

人工智能

2024-07-10 11:38:15

2024-06-04 09:25:51

2021-01-06 10:51:56

量子互聯(lián)網(wǎng)網(wǎng)絡(luò)安全
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)