自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="aiuu1"><rp id="aiuu1"><form id="aiuu1"></form></rp></cite>

<cite id="aiuu1"><track id="aiuu1"></track></cite>

<pre id="aiuu1"><pre id="aiuu1"></pre></pre>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

視覺(jué)Token無(wú)縫對(duì)齊LLMs詞表！V2Flow：基于LLMs實(shí)現(xiàn)高保真自回歸圖像生成

2025-04-03 10:17:23

隨著ChatGPT掀起自回歸建模革命后，近年來(lái)研究者們開(kāi)始探索自回歸建模在視覺(jué)生成任務(wù)的應(yīng)用，將視覺(jué)和文本數(shù)據(jù)統(tǒng)一在“next-token prediction”框架下。

視覺(jué)Token可以與LLMs詞表無(wú)縫對(duì)齊了！

V2Flow，基于LLMs可以實(shí)現(xiàn)高保真自回歸圖像生成。

隨著ChatGPT掀起自回歸建模革命后，近年來(lái)研究者們開(kāi)始探索自回歸建模在視覺(jué)生成任務(wù)的應(yīng)用，將視覺(jué)和文本數(shù)據(jù)統(tǒng)一在“next-token prediction”框架下。

實(shí)現(xiàn)自回歸圖像生成的關(guān)鍵是設(shè)計(jì)向量化(Vector-Quantization)的視覺(jué)Tokenizer，將視覺(jué)內(nèi)容離散化成類似于大語(yǔ)言模型詞表的離散Token。

現(xiàn)有方法雖取得進(jìn)展，卻始終面臨兩大桎梏：

1、傳統(tǒng)視覺(jué)tokenizer生成的離散表征與LLM詞表存在顯著的分布偏差。

2、維度詛咒：圖像的二維結(jié)構(gòu)迫使大語(yǔ)言模型以逐行方式預(yù)測(cè)視覺(jué)token，與一維文本的連貫語(yǔ)義預(yù)測(cè)存在本質(zhì)沖突。

結(jié)構(gòu)性與特征分布性的雙重割裂，暴露了當(dāng)前自回歸視覺(jué)生成的重大缺陷：缺乏能夠既保證高保真圖像重建，又能與預(yù)訓(xùn)練LLMs詞匯表在結(jié)構(gòu)上和特征分布上統(tǒng)一的視覺(jué)tokenizer。解決這一問(wèn)題對(duì)于實(shí)現(xiàn)有效的多模態(tài)自回歸建模和增強(qiáng)的指令遵循能力至關(guān)重要。

因此，一個(gè)核心問(wèn)題是：

能否設(shè)計(jì)一種視覺(jué)tokenizer，使生成的離散視覺(jué)token在保證高質(zhì)量視覺(jué)重建的同時(shí)，與預(yù)訓(xùn)練LLMs詞匯表實(shí)現(xiàn)無(wú)縫融合？

統(tǒng)一視覺(jué)Token與大語(yǔ)言模型詞表

最新開(kāi)源的V2Flow tokenizer，首次實(shí)現(xiàn)了將視覺(jué)內(nèi)容直接嵌入現(xiàn)有大語(yǔ)言模型的詞匯空間，在保證高質(zhì)量視覺(jué)重建的同時(shí)從根本上解決模態(tài)對(duì)齊問(wèn)題。總體而言，V2Flow主要包括三點(diǎn)核心貢獻(xiàn)：

視覺(jué)詞匯重采樣器。

如圖1(a) ，將圖像壓縮成緊湊的一維離散token序列，每個(gè)token被表示為大語(yǔ)言模型（例如Qwen、LLaMA系列）詞匯空間上的軟類別分布。這一設(shè)計(jì)使得視覺(jué)tokens可以無(wú)縫地嵌入現(xiàn)有LLM的詞匯序列中。換言之，圖像信息被直接翻譯成LLM“聽(tīng)得懂”的語(yǔ)言，實(shí)現(xiàn)了視覺(jué)與語(yǔ)言模態(tài)的對(duì)齊。

在圖1(b)中，經(jīng)由重采樣器處理后，視覺(jué)tokens的潛在分布與大型語(yǔ)言模型（LLM）的詞匯表高度一致。這種在結(jié)構(gòu)和潛在分布上的高度兼容性，能夠降低視覺(jué)tokens直接融入已有LLM的復(fù)雜性。

圖 1 視覺(jué)詞匯重采樣器的核心設(shè)計(jì)。

掩碼自回歸流匹配編碼器。

為了實(shí)現(xiàn)離散化視覺(jué)token的高保真視覺(jué)重建，V2Flow提出了掩碼自回歸流匹配解碼器。該解碼器采用掩碼Transformer編碼-解碼結(jié)構(gòu)，為視覺(jué)tokens補(bǔ)充豐富的上下文信息。增強(qiáng)后的視覺(jué)tokens用于條件化一個(gè)專門(mén)設(shè)計(jì)的速度場(chǎng)模型，從標(biāo)準(zhǔn)正態(tài)先驗(yàn)分布中重建出連續(xù)的視覺(jué)特征。在流匹配采樣階段，該解碼器采用類似MA的方式，以“next-set prediction”的方式逐步完成視覺(jué)重建。

相比于近期提出的僅依賴掩碼編碼器-解碼器結(jié)構(gòu)的TiTok，V2Flow自回歸采樣的優(yōu)勢(shì)是能夠在更少的視覺(jué)token數(shù)量下實(shí)現(xiàn)更高的重建質(zhì)量，有效提高了壓縮效率。

圖 2 掩碼自回歸流匹配解碼器示意圖以及采樣階段算法流程

端到端自回歸視覺(jué)生成。

圖3展示了V2Flow協(xié)同LLMs實(shí)現(xiàn)自回歸視覺(jué)生成的流程。為促進(jìn)兩者無(wú)縫融合，在已有LLM詞匯表基礎(chǔ)上擴(kuò)展了一系列特定視覺(jué)tokens，并直接利用V2Flow中的碼本進(jìn)行初始化。訓(xùn)練階段構(gòu)建了包含文本-圖像對(duì)的單輪對(duì)話數(shù)據(jù)，文本提示作為輸入指令，而離散的視覺(jué)tokens則作為預(yù)測(cè)目標(biāo)響應(yīng)。

在推理階段，經(jīng)過(guò)預(yù)訓(xùn)練的LLM根據(jù)文本指令預(yù)測(cè)視覺(jué)tokens，直至預(yù)測(cè)到 token為止。隨后，離散視覺(jué)tokens被送入V2Flow解碼器，通過(guò)流匹配采樣重建出高質(zhì)量圖像。

圖3 V2Flow與預(yù)訓(xùn)練LLMs融合實(shí)現(xiàn)自回歸視覺(jué)生成的整體流程。

實(shí)驗(yàn)結(jié)果

重建質(zhì)量方面，V2Flow無(wú)論是在ImageNet-1k 測(cè)試數(shù)據(jù)集的256和512分辨率下均取得了競(jìng)爭(zhēng)性的重建性能。

相比于字節(jié)提出的一維離散化tokenizer TiTok相比，V2Flow利用更少的離散tokens實(shí)現(xiàn)了更高質(zhì)量的圖像重建，顯著提高了整體壓縮效率。

圖片

文本引導(dǎo)圖像生成方面，實(shí)驗(yàn)結(jié)果表明，相比于當(dāng)前兩種最先進(jìn)的自回歸生成模型Janus-Pro-7B和Lumina-mGPT-7B，V2Flow+LLaMA2-7B能夠更加準(zhǔn)確地捕捉文本提示中的語(yǔ)義細(xì)節(jié)，展示了極具競(jìng)爭(zhēng)力的生成性能。

圖片

開(kāi)源生態(tài)與團(tuán)隊(duì)招募：共建多模態(tài)未來(lái)

開(kāi)源承諾：讓技術(shù)普惠每一位探索者

開(kāi)源是推動(dòng)AI技術(shù)進(jìn)化的核心動(dòng)力。本次發(fā)布的V2Flow框架已完整公開(kāi)訓(xùn)練與推理代碼庫(kù)，開(kāi)發(fā)者可基于現(xiàn)有代碼快速?gòu)?fù)現(xiàn)論文中的核心實(shí)驗(yàn)。更令人期待的是，團(tuán)隊(duì)預(yù)告將于近期陸續(xù)發(fā)布：

512/1024分辨率預(yù)訓(xùn)練模型：支持高清圖像重建與生成

自回歸生成模型：集成LLaMA等主流大語(yǔ)言模型的開(kāi)箱即用方案

多模態(tài)擴(kuò)展工具包：未來(lái)將支持視頻、3D、語(yǔ)音等跨模態(tài)生成任務(wù)

加入我們：共創(chuàng)下一代多模態(tài)智能

V2Flow作者團(tuán)隊(duì)現(xiàn)招募多模態(tài)生成算法研究型實(shí)習(xí)生！如果你渴望站在AI內(nèi)容生成的最前沿，參與定義自回歸架構(gòu)的未來(lái)，這里將是你實(shí)現(xiàn)突破的絕佳舞臺(tái)。

我們做什么？

探索文本、圖像、視頻、語(yǔ)音、音樂(lè)的統(tǒng)一自回歸生成范式

構(gòu)建支持高清、長(zhǎng)序列、強(qiáng)語(yǔ)義關(guān)聯(lián)的多模態(tài)大模型

攻克數(shù)字人、3D生成、實(shí)時(shí)交互創(chuàng)作等產(chǎn)業(yè)級(jí)應(yīng)用難題

我們需要你具備：

硬核技術(shù)力

精通Python，熟練使用PyTorch/TensorFlow等框架
深入理解Diffusers、DeepSpeed等AIGC工具鏈
在CV/NLP領(lǐng)域頂級(jí)會(huì)議（CVPR、ICML、NeurIPS等）發(fā)表論文者優(yōu)先

極致創(chuàng)新欲

對(duì)多模態(tài)生成、自回歸架構(gòu)、擴(kuò)散模型等技術(shù)有濃厚興趣
曾在Kaggle、ACM競(jìng)賽等獲得Top名次者優(yōu)先
有開(kāi)源項(xiàng)目貢獻(xiàn)或獨(dú)立開(kāi)發(fā)經(jīng)驗(yàn)者優(yōu)先

投遞方式：zhangguiwei@duxiaoman.com

論文鏈接：https://arxiv.org/abs/2503.07493

開(kāi)源項(xiàng)目鏈接：https://github.com/Davinci-XLab/V2Flow

責(zé)任編輯：武曉燕來(lái)源：量子位

LLMs 詞表建模

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<legend id="3h2z8"><track id="3h2z8"></track></legend>

<bdo id="3h2z8"></bdo>

<sub id="3h2z8"></sub>