自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

UniToken:多模態(tài)AI的“全能選手”,一次編碼搞定圖文理解與圖像生成!

人工智能 新聞
復(fù)旦大學(xué)和美團(tuán)的研究者們提出了UniToken——一種創(chuàng)新的統(tǒng)一視覺編碼方案,在一個框架內(nèi)兼顧了圖文理解與圖像生成任務(wù),并在多個權(quán)威評測中取得了領(lǐng)先的性能表現(xiàn)。

首次在統(tǒng)一框架內(nèi)實現(xiàn)理解與生成的“雙優(yōu)表現(xiàn)”,打破了多模態(tài)統(tǒng)一建模的僵局!

復(fù)旦大學(xué)和美團(tuán)的研究者們提出了UniToken——一種創(chuàng)新的統(tǒng)一視覺編碼方案,在一個框架內(nèi)兼顧了圖文理解與圖像生成任務(wù),并在多個權(quán)威評測中取得了領(lǐng)先的性能表現(xiàn)。

UniToken通過融合連續(xù)和離散視覺表征,有效緩解了以往方法中“任務(wù)干擾”和“表示割裂”的問題,為多模態(tài)統(tǒng)一建模提供了新的范式。

圖片

為了便于社區(qū)內(nèi)研究者們復(fù)現(xiàn)與進(jìn)一步開發(fā),UniToken團(tuán)隊已將代碼與模型全部開源。

圖片

任務(wù)背景:統(tǒng)一建模的挑戰(zhàn)

在傳統(tǒng)圖文理解或圖像生成模型中,其視覺編碼的底層特性差異較大。

譬如圖文理解模型(如LLaVA、Qwen-VL等)要求從圖像中抽取高層語義,從而進(jìn)一步結(jié)合文本進(jìn)行協(xié)同理解;而圖像生成模型(如DALL-E、Stable Diffusion等)則要求保留充分的底層細(xì)節(jié)以高保真圖像的生成。

由此,開發(fā)理解生成一體化的多模態(tài)大模型面臨著以下幾大難題:

視覺編碼割裂:理解任務(wù)偏好具有高層語義的連續(xù)視覺特征(如CLIP),而生成任務(wù)依賴保留底層細(xì)節(jié)的離散視覺特征(如VQ-GAN編碼的codebook);

聯(lián)合訓(xùn)練干擾:理解與生成任務(wù)差異而帶來的沖突性使得在統(tǒng)一模型中訓(xùn)練時難以兼顧兩個任務(wù)的性能,存在“一個優(yōu)化,另一個退化”的現(xiàn)象。

為了應(yīng)對上述挑戰(zhàn),領(lǐng)域內(nèi)的相關(guān)工作通常采取兩類范式:以VILA-U等為代表的工作通過結(jié)合圖像重建與圖文對比學(xué)習(xí)的訓(xùn)練目標(biāo),來提升離散視覺編碼的語義豐富度;以Janus等為代表的工作通過為理解和生成任務(wù)分別定制相應(yīng)的視覺編碼器與預(yù)測頭,來實現(xiàn)兩個任務(wù)之間的解耦。

然而,前者在理解任務(wù)上目前依舊難以與連續(xù)視覺編碼驅(qū)動的多模態(tài)大模型匹敵;后者則在應(yīng)對更復(fù)雜的多模任務(wù)(例如多輪圖像編輯等)時面臨嚴(yán)重的上下文切換開銷及單邊信息缺失等問題。

UniToken:統(tǒng)一視覺表示,融合兩種世界

核心設(shè)計:連續(xù)+離散雙編碼器

圖片

不同于Janus的多任務(wù)解耦的設(shè)計思路,UniToken為所有下游任務(wù)均提供一套完備的視覺信息,促使多模態(tài)大模型以指令驅(qū)動的形式從中吸收相應(yīng)的知識。

具體而言,UniToken采取統(tǒng)一的雙邊視覺編碼器,其中將VQ-GAN的離散編碼與SigLIP的連續(xù)表征以下述方式進(jìn)行拼接,從而得到一套兼?zhèn)涓邔诱Z義與底層細(xì)節(jié)的視覺編碼:

[BOS][BOI]{離散圖像token}[SEP]{連續(xù)圖像embedding}[EOI]{文本}[EOS]

多階段訓(xùn)練策略

為了協(xié)調(diào)理解與生成任務(wù)的特性,UniToken采用三階段訓(xùn)練流程:

階段一:視覺語義空間對齊:

基于Chameleon作為基座,本階段旨在為LLM接入SigLIP的連續(xù)視覺編碼。為此,在訓(xùn)練時凍結(jié)LLM,僅訓(xùn)練SigLIP ViT和Adapter,使其輸出與語言空間對齊。

階段二:多任務(wù)聯(lián)合訓(xùn)練:

基于第一階段對齊后的雙邊編碼器所提供的完備視覺信息,本階段在大規(guī)模圖文理解與圖像生成數(shù)據(jù)集上聯(lián)合訓(xùn)練,通過控制數(shù)據(jù)配比(10M:10M)以均衡提升模型理解與生成任務(wù)的性能。

階段三:指令強(qiáng)化微調(diào):

通過測試發(fā)現(xiàn),第二階段訓(xùn)練后的模型在指令跟隨、布局圖像生成等方面的表現(xiàn)均有待加強(qiáng),故在本階段進(jìn)一步引入高質(zhì)量多模態(tài)對話(423K)與精細(xì)化圖像生成數(shù)據(jù)(100K),進(jìn)一步增強(qiáng)模型對復(fù)雜指令的跟隨能力。

細(xì)粒度視覺增強(qiáng)

得益于保存了雙邊視覺編碼的完備性,UniToken可無縫銜接現(xiàn)有的細(xì)粒度視覺增強(qiáng)技術(shù)。

具體而言,UniToken在連續(xù)視覺編碼側(cè)引入兩項增強(qiáng)策略:

AnyRes:將高分辨率圖像劃分為多個子圖,分別提取特征后進(jìn)行相應(yīng)空間位置的拼接,以提升對圖像的細(xì)粒度感知;

ViT端到端微調(diào):在模型的全訓(xùn)練流程中,動態(tài)微調(diào)連續(xù)視覺編碼器的權(quán)重,結(jié)合精細(xì)的學(xué)習(xí)率控制策略以避免模型崩潰,進(jìn)而適應(yīng)廣泛的任務(wù)場景。

實驗結(jié)果:超越SOTA,多模態(tài)統(tǒng)一的“優(yōu)等生”

在多個主流多模態(tài)基準(zhǔn)(圖文理解+圖像生成)上,UniToken均取得了媲美甚至領(lǐng)先于領(lǐng)域內(nèi)專用模型的性能:

圖片圖片

圖片圖片

與此同時,研究者們對于訓(xùn)練策略及視覺編碼的影響進(jìn)行了進(jìn)一步深入的消融分析:

圖片

  • 在大規(guī)模數(shù)據(jù)場景下(>15M),1:1的理解+生成數(shù)據(jù)比例能夠兼顧理解與生成任務(wù)的性能

圖片

  • 在應(yīng)對理解與生成的任務(wù)沖突時,統(tǒng)一的連續(xù)+離散的視覺編碼相較于僅采用離散編碼的方案具有較強(qiáng)的魯棒性。

總結(jié):邁向通用理解生成一體化的多模態(tài)大模型

從發(fā)展趨勢上來看,目前圖文理解模型在通用性上遠(yuǎn)遠(yuǎn)領(lǐng)先于圖像生成模型。

而Gemini-2.0-Flash與GPT-4o在指令跟隨的圖像生成方面的驚艷表現(xiàn),帶來了通用圖像生成模型未來的曙光。

在這樣的時代背景下,UniToken僅是初步的嘗試,而其信息完備的特性也為進(jìn)一步挖掘其更深層次的潛力提供了更多信心:

模型規(guī)模擴(kuò)展:借助更大的語言模型,進(jìn)一步探索統(tǒng)一模型在理解與生成上的“涌現(xiàn)能力”;

數(shù)據(jù)規(guī)模擴(kuò)展:引入更大規(guī)模的訓(xùn)練數(shù)據(jù)(如Janus-Pro使用的近2億樣本),推動模型性能極限;

任務(wù)類型擴(kuò)展:從傳統(tǒng)的理解與生成拓展至圖像編輯、故事生成等圖文交錯的任務(wù),追逐通用生成能力的上限。

論文鏈接:https://arxiv.org/pdf/2504.04423

代碼地址:https://github.com/SxJyJay/UniToken

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-10-22 13:33:48

2021-01-08 05:22:47

Spark動態(tài)優(yōu)化

2017-08-11 13:55:13

數(shù)據(jù)庫水平切分架構(gòu)

2024-07-04 10:13:18

2025-03-13 10:18:42

2024-04-26 10:12:38

混合訓(xùn)練AI集群

2017-06-12 11:09:56

計數(shù)架構(gòu)數(shù)據(jù)庫

2009-08-11 09:29:16

刀片服務(wù)器

2022-09-08 08:08:16

AI模態(tài)圖像Transforme

2017-07-11 16:44:04

數(shù)據(jù)庫水平切分架構(gòu)

2024-01-30 13:17:00

AI數(shù)據(jù)

2024-10-21 11:05:00

2022-10-27 16:12:58

AI模型

2023-10-12 13:05:00

谷歌AI

2022-08-11 13:37:41

多模態(tài)算法多模態(tài)網(wǎng)絡(luò)

2025-03-04 09:50:00

2024-12-31 14:00:00

模型訓(xùn)練數(shù)據(jù)

2011-06-28 10:41:50

DBA
點贊
收藏

51CTO技術(shù)棧公眾號