自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="neqec"><p id="neqec"></p></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

UniToken：多模態(tài)AI的“全能選手”，一次編碼搞定圖文理解與圖像生成！

2025-04-25 09:10:00

人工智能新聞

復(fù)旦大學(xué)和美團(tuán)的研究者們提出了UniToken——一種創(chuàng)新的統(tǒng)一視覺編碼方案，在一個框架內(nèi)兼顧了圖文理解與圖像生成任務(wù)，并在多個權(quán)威評測中取得了領(lǐng)先的性能表現(xiàn)。

首次在統(tǒng)一框架內(nèi)實現(xiàn)理解與生成的“雙優(yōu)表現(xiàn)”，打破了多模態(tài)統(tǒng)一建模的僵局！

復(fù)旦大學(xué)和美團(tuán)的研究者們提出了UniToken——一種創(chuàng)新的統(tǒng)一視覺編碼方案，在一個框架內(nèi)兼顧了圖文理解與圖像生成任務(wù)，并在多個權(quán)威評測中取得了領(lǐng)先的性能表現(xiàn)。

UniToken通過融合連續(xù)和離散視覺表征，有效緩解了以往方法中“任務(wù)干擾”和“表示割裂”的問題，為多模態(tài)統(tǒng)一建模提供了新的范式。

為了便于社區(qū)內(nèi)研究者們復(fù)現(xiàn)與進(jìn)一步開發(fā)，UniToken團(tuán)隊已將代碼與模型全部開源。

任務(wù)背景：統(tǒng)一建模的挑戰(zhàn)

在傳統(tǒng)圖文理解或圖像生成模型中，其視覺編碼的底層特性差異較大。

譬如圖文理解模型（如LLaVA、Qwen-VL等）要求從圖像中抽取高層語義，從而進(jìn)一步結(jié)合文本進(jìn)行協(xié)同理解；而圖像生成模型（如DALL-E、Stable Diffusion等）則要求保留充分的底層細(xì)節(jié)以高保真圖像的生成。

由此，開發(fā)理解生成一體化的多模態(tài)大模型面臨著以下幾大難題：

視覺編碼割裂：理解任務(wù)偏好具有高層語義的連續(xù)視覺特征（如CLIP），而生成任務(wù)依賴保留底層細(xì)節(jié)的離散視覺特征（如VQ-GAN編碼的codebook）；

聯(lián)合訓(xùn)練干擾：理解與生成任務(wù)差異而帶來的沖突性使得在統(tǒng)一模型中訓(xùn)練時難以兼顧兩個任務(wù)的性能，存在“一個優(yōu)化，另一個退化”的現(xiàn)象。

為了應(yīng)對上述挑戰(zhàn)，領(lǐng)域內(nèi)的相關(guān)工作通常采取兩類范式：以VILA-U等為代表的工作通過結(jié)合圖像重建與圖文對比學(xué)習(xí)的訓(xùn)練目標(biāo)，來提升離散視覺編碼的語義豐富度；以Janus等為代表的工作通過為理解和生成任務(wù)分別定制相應(yīng)的視覺編碼器與預(yù)測頭，來實現(xiàn)兩個任務(wù)之間的解耦。

然而，前者在理解任務(wù)上目前依舊難以與連續(xù)視覺編碼驅(qū)動的多模態(tài)大模型匹敵；后者則在應(yīng)對更復(fù)雜的多模任務(wù)（例如多輪圖像編輯等）時面臨嚴(yán)重的上下文切換開銷及單邊信息缺失等問題。

UniToken：統(tǒng)一視覺表示，融合兩種世界

核心設(shè)計：連續(xù)+離散雙編碼器

不同于Janus的多任務(wù)解耦的設(shè)計思路，UniToken為所有下游任務(wù)均提供一套完備的視覺信息，促使多模態(tài)大模型以指令驅(qū)動的形式從中吸收相應(yīng)的知識。

具體而言，UniToken采取統(tǒng)一的雙邊視覺編碼器，其中將VQ-GAN的離散編碼與SigLIP的連續(xù)表征以下述方式進(jìn)行拼接，從而得到一套兼?zhèn)涓邔诱Z義與底層細(xì)節(jié)的視覺編碼：

[BOS][BOI]{離散圖像token}[SEP]{連續(xù)圖像embedding}[EOI]{文本}[EOS]

多階段訓(xùn)練策略

為了協(xié)調(diào)理解與生成任務(wù)的特性，UniToken采用三階段訓(xùn)練流程：

階段一：視覺語義空間對齊：

基于Chameleon作為基座，本階段旨在為LLM接入SigLIP的連續(xù)視覺編碼。為此，在訓(xùn)練時凍結(jié)LLM，僅訓(xùn)練SigLIP ViT和Adapter，使其輸出與語言空間對齊。

階段二：多任務(wù)聯(lián)合訓(xùn)練：

基于第一階段對齊后的雙邊編碼器所提供的完備視覺信息，本階段在大規(guī)模圖文理解與圖像生成數(shù)據(jù)集上聯(lián)合訓(xùn)練，通過控制數(shù)據(jù)配比（10M:10M）以均衡提升模型理解與生成任務(wù)的性能。

階段三：指令強(qiáng)化微調(diào)：

通過測試發(fā)現(xiàn)，第二階段訓(xùn)練后的模型在指令跟隨、布局圖像生成等方面的表現(xiàn)均有待加強(qiáng)，故在本階段進(jìn)一步引入高質(zhì)量多模態(tài)對話（423K）與精細(xì)化圖像生成數(shù)據(jù)（100K），進(jìn)一步增強(qiáng)模型對復(fù)雜指令的跟隨能力。

細(xì)粒度視覺增強(qiáng)

得益于保存了雙邊視覺編碼的完備性，UniToken可無縫銜接現(xiàn)有的細(xì)粒度視覺增強(qiáng)技術(shù)。

具體而言，UniToken在連續(xù)視覺編碼側(cè)引入兩項增強(qiáng)策略：

AnyRes：將高分辨率圖像劃分為多個子圖，分別提取特征后進(jìn)行相應(yīng)空間位置的拼接，以提升對圖像的細(xì)粒度感知；

ViT端到端微調(diào)：在模型的全訓(xùn)練流程中，動態(tài)微調(diào)連續(xù)視覺編碼器的權(quán)重，結(jié)合精細(xì)的學(xué)習(xí)率控制策略以避免模型崩潰，進(jìn)而適應(yīng)廣泛的任務(wù)場景。

實驗結(jié)果：超越SOTA，多模態(tài)統(tǒng)一的“優(yōu)等生”

在多個主流多模態(tài)基準(zhǔn)（圖文理解+圖像生成）上，UniToken均取得了媲美甚至領(lǐng)先于領(lǐng)域內(nèi)專用模型的性能：

與此同時，研究者們對于訓(xùn)練策略及視覺編碼的影響進(jìn)行了進(jìn)一步深入的消融分析：

在大規(guī)模數(shù)據(jù)場景下（>15M），1:1的理解+生成數(shù)據(jù)比例能夠兼顧理解與生成任務(wù)的性能

在應(yīng)對理解與生成的任務(wù)沖突時，統(tǒng)一的連續(xù)+離散的視覺編碼相較于僅采用離散編碼的方案具有較強(qiáng)的魯棒性。

總結(jié)：邁向通用理解生成一體化的多模態(tài)大模型

從發(fā)展趨勢上來看，目前圖文理解模型在通用性上遠(yuǎn)遠(yuǎn)領(lǐng)先于圖像生成模型。

而Gemini-2.0-Flash與GPT-4o在指令跟隨的圖像生成方面的驚艷表現(xiàn)，帶來了通用圖像生成模型未來的曙光。

在這樣的時代背景下，UniToken僅是初步的嘗試，而其信息完備的特性也為進(jìn)一步挖掘其更深層次的潛力提供了更多信心：

模型規(guī)模擴(kuò)展：借助更大的語言模型，進(jìn)一步探索統(tǒng)一模型在理解與生成上的“涌現(xiàn)能力”；

數(shù)據(jù)規(guī)模擴(kuò)展：引入更大規(guī)模的訓(xùn)練數(shù)據(jù)（如Janus-Pro使用的近2億樣本），推動模型性能極限；

任務(wù)類型擴(kuò)展：從傳統(tǒng)的理解與生成拓展至圖像編輯、故事生成等圖文交錯的任務(wù)，追逐通用生成能力的上限。

論文鏈接：https://arxiv.org/pdf/2504.04423

代碼地址：https://github.com/SxJyJay/UniToken

責(zé)任編輯：張燕妮來源：量子位

視覺圖像生成 AI

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<legend id="coe22"><track id="coe22"><dfn id="coe22"></dfn></track></legend>

<strong id="coe22"><abbr id="coe22"></abbr></strong><cite id="coe22"></cite>