理解生成協(xié)同促進(jìn)?華為諾亞提出ILLUME,15M數(shù)據(jù)實(shí)現(xiàn)多模態(tài)理解生成一體化
多模態(tài)理解與生成一體化模型,致力于將視覺理解與生成能力融入同一框架,不僅推動(dòng)了任務(wù)協(xié)同與泛化能力的突破,更重要的是,它代表著對(duì)類人智能(AGI)的一種深層探索。通過在單一模型中統(tǒng)一理解與生成,模型能夠從語義層面真正 “洞察” 視覺、文本與世界本質(zhì)之間的深層聯(lián)系,從而在復(fù)雜場(chǎng)景中實(shí)現(xiàn)更加智能、靈活的交互與任務(wù)執(zhí)行。
近期,華為諾亞方舟實(shí)驗(yàn)室提出了統(tǒng)一多模態(tài)大模型 ——ILLUME。這一模型以 LLM 為核心,采用 “連續(xù)圖像輸入 + 離散圖像輸出” 的架構(gòu),巧妙融合了多模態(tài)理解與生成的雙重能力,并深度挖掘了統(tǒng)一框架下理解與生成能力協(xié)同增強(qiáng)的潛力,展示了對(duì)多模態(tài)任務(wù)的全新詮釋。
- 論文標(biāo)題:ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance
- 論文地址:https://arxiv.org/pdf/2412.06673
總體來說,本文貢獻(xiàn)如下:
1、ILLUME 在保持整體架構(gòu)可擴(kuò)展與可泛化的前提下,通過合理的視覺詞表、訓(xùn)練策略與數(shù)據(jù)配比策略,成功以僅約 15M 的圖文對(duì)數(shù)據(jù)用于圖文對(duì)齊,實(shí)現(xiàn)了在視覺理解(包括自然圖像和文檔圖表)、生成、編輯等多元任務(wù)上的出色表現(xiàn),總體效果優(yōu)于現(xiàn)有統(tǒng)一模型例如 Chameleon, Show-O 和 Janus,與專用單任務(wù)模型相媲美。
2、ILLUME 提出一種自提升式多模態(tài)對(duì)齊策略,通過讓模型對(duì)自身生成的負(fù)樣本進(jìn)行內(nèi)省式評(píng)估,統(tǒng)一模型在理解和生成兩方面的能力可實(shí)現(xiàn)協(xié)同進(jìn)化。
ILLUME:理解生成一體的多模態(tài)大模型
挑戰(zhàn)一:如何高效訓(xùn)練一個(gè)統(tǒng)一多模態(tài)模型?
現(xiàn)有的統(tǒng)一多模態(tài)模型構(gòu)建方案多集中于在 LLM 基礎(chǔ)上拓展視覺詞表,以支持視覺生成任務(wù)。這些模型通常需要大量的圖文對(duì)數(shù)據(jù)來實(shí)現(xiàn)圖文對(duì)齊訓(xùn)練。這種對(duì)海量數(shù)據(jù)的依賴,在一定程度上放緩了這一領(lǐng)域進(jìn)一步探索與實(shí)踐的進(jìn)程。
與此不同的是,我們?cè)?ILLUME 中僅使用約 15M 的圖文對(duì)數(shù)據(jù)完成預(yù)訓(xùn)練,并在視覺理解(涵蓋自然圖像與文檔圖表)、生成與編輯等多類視覺文本任務(wù)上達(dá)到與專有模型相媲美的水平。這一成果并非僅體現(xiàn)于數(shù)據(jù)規(guī)模的減少,更重要的是在架構(gòu)、訓(xùn)練策略、數(shù)據(jù)配比以及視覺詞表表征方式上的關(guān)鍵設(shè)計(jì),使模型能夠更高效地進(jìn)行圖文對(duì)齊學(xué)習(xí)。這種方法為在更廣泛和更深層的多模態(tài)語義理解與生成融合中奠定了基礎(chǔ)。
關(guān)鍵設(shè)計(jì) 1:視覺詞表的表征選擇
傳統(tǒng)基于 VQGAN 的視覺詞表往往通過重建原始像素作為目標(biāo),但這種基于底層紋理的表征不利于與文本模態(tài)進(jìn)行高層語義對(duì)齊。與此相反,我們采用語義特征重建的方式構(gòu)造視覺詞表,直接在高層語義空間中完成圖文對(duì)齊的特征學(xué)習(xí)。實(shí)驗(yàn)表明,這一設(shè)計(jì)可顯著加速 MLLM 的預(yù)訓(xùn)練過程。
在解碼階段,我們?cè)倮?Diffusion 模型將語義特征還原為高保真像素空間,從而實(shí)現(xiàn)高達(dá) 32 倍的壓縮率。通過這一流程,模型在輸入端沿用連續(xù)視覺編碼器保障精細(xì)視覺理解能力,并在輸出端通過語義視覺詞表完成離散化處理,為視覺生成能力的無縫融合奠定基礎(chǔ)。
關(guān)鍵設(shè)計(jì) 2:三階段訓(xùn)練策略和數(shù)據(jù)配比
我們采用 “三階段” 訓(xùn)練策略,以分層遞進(jìn)的方式逐步強(qiáng)化模型的多模態(tài)理解與生成能力:
階段一:引入圖像重建任務(wù),為視覺詞表擴(kuò)展后的新參數(shù)進(jìn)行快速初始化,并對(duì)齊連續(xù)輸入與離散輸出的模式;
階段二:進(jìn)行圖文對(duì)齊預(yù)訓(xùn)練,進(jìn)一步強(qiáng)化模型在語義層面將圖像與文本聯(lián)結(jié)的能力;
階段三:對(duì)高質(zhì)量的理解、生成、混合數(shù)據(jù)進(jìn)行微調(diào),使模型最終勝任多類型的視覺文本任務(wù)(包括理解、生成與編輯)。
挑戰(zhàn)二:統(tǒng)一多模態(tài)模型的判別能力和生成能力能否相互促進(jìn)?
當(dāng)我們構(gòu)建一個(gè)統(tǒng)一模型后,我們最關(guān)心的是:聯(lián)合訓(xùn)練視覺理解和生成任務(wù)應(yīng)該如何促進(jìn)呢?
自提升多模態(tài)對(duì)齊方案
針對(duì)這一點(diǎn),我們提出了以自我評(píng)估過程為橋梁的自提升多模態(tài)對(duì)齊策略。通過讓模型對(duì)自身生成的負(fù)樣本進(jìn)行內(nèi)省式評(píng)估,模型在理解和生成兩方面的能力可實(shí)現(xiàn)協(xié)同進(jìn)化:
- 生成促進(jìn)理解:模型以自我評(píng)估的方式分析自己產(chǎn)生的負(fù)樣本,這種內(nèi)省過程使模型能夠查明并解決其自身弱點(diǎn),從而更準(zhǔn)確地理解圖像。
- 理解促進(jìn)生成:模型可以利用其判別能力來評(píng)估其自生成的圖像是否與文本一致,并基于此分析進(jìn)行修正,從而確保模型在推理時(shí)更加謹(jǐn)慎和準(zhǔn)確,避免在生成圖像時(shí)出現(xiàn)錯(cuò)誤。
我們的自提升多模態(tài)對(duì)齊方法分為三個(gè)步驟:
- Step 1: 語料自生成。采樣訓(xùn)練子集,推理模型生成圖像。
- Step 2: 生成評(píng)估數(shù)據(jù)。從物體、數(shù)量、顏色和空間關(guān)系多個(gè)維度評(píng)估圖像和文本的一致性,評(píng)估數(shù)據(jù)包括評(píng)估得分和相應(yīng)的分析。
- Step 3: 多模態(tài)對(duì)齊。將評(píng)估數(shù)據(jù)重新格式化后加入階段三訓(xùn)練,使模型在理解與生成層面同時(shí)得到強(qiáng)化。
實(shí)驗(yàn)結(jié)果證明,自提升多模態(tài)對(duì)齊方法能在理解和生成任務(wù)上同時(shí)為模型賦能,促使統(tǒng)一多模態(tài)模型向更高層次的智能形態(tài)穩(wěn)步邁進(jìn)。
實(shí)驗(yàn)結(jié)果
多模態(tài)理解任務(wù)
在 12 個(gè)常用的多模態(tài)理解開源綜合評(píng)測(cè)集與文檔場(chǎng)景評(píng)測(cè)集上,ILLUME 均展現(xiàn)出卓越性能,與現(xiàn)有統(tǒng)一多模態(tài)模型相比達(dá)到 SOTA 水準(zhǔn),尤其在文檔理解任務(wù)上表現(xiàn)尤為突出。同時(shí),相較多模態(tài)理解模型(如 LLaVA-NeXT),ILLUME 的理解能力總體保持相當(dāng)甚至更優(yōu)的水平。
文圖生成任務(wù)
ILLUME 在 3 個(gè)文生圖評(píng)測(cè)集上取得與現(xiàn)有生成模型和統(tǒng)一多模態(tài)模型相當(dāng)?shù)谋憩F(xiàn)。
編輯任務(wù)
ILLUME 能處理物體刪除,風(fēng)格遷移,圖像補(bǔ)充等各種編輯任務(wù)。