自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

理解生成協(xié)同促進(jìn)?華為諾亞提出ILLUME,15M數(shù)據(jù)實(shí)現(xiàn)多模態(tài)理解生成一體化

人工智能 新聞
近期,華為諾亞方舟實(shí)驗(yàn)室提出了統(tǒng)一多模態(tài)大模型 ——ILLUME。這一模型以 LLM 為核心,采用 “連續(xù)圖像輸入 + 離散圖像輸出” 的架構(gòu),巧妙融合了多模態(tài)理解與生成的雙重能力,并深度挖掘了統(tǒng)一框架下理解與生成能力協(xié)同增強(qiáng)的潛力,展示了對(duì)多模態(tài)任務(wù)的全新詮釋。

多模態(tài)理解與生成一體化模型,致力于將視覺理解與生成能力融入同一框架,不僅推動(dòng)了任務(wù)協(xié)同與泛化能力的突破,更重要的是,它代表著對(duì)類人智能(AGI)的一種深層探索。通過在單一模型中統(tǒng)一理解與生成,模型能夠從語義層面真正 “洞察” 視覺、文本與世界本質(zhì)之間的深層聯(lián)系,從而在復(fù)雜場(chǎng)景中實(shí)現(xiàn)更加智能、靈活的交互與任務(wù)執(zhí)行。

近期,華為諾亞方舟實(shí)驗(yàn)室提出了統(tǒng)一多模態(tài)大模型 ——ILLUME。這一模型以 LLM 為核心,采用 “連續(xù)圖像輸入 + 離散圖像輸出” 的架構(gòu),巧妙融合了多模態(tài)理解與生成的雙重能力,并深度挖掘了統(tǒng)一框架下理解與生成能力協(xié)同增強(qiáng)的潛力,展示了對(duì)多模態(tài)任務(wù)的全新詮釋。

圖片

  • 論文標(biāo)題:ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance
  • 論文地址:https://arxiv.org/pdf/2412.06673

總體來說,本文貢獻(xiàn)如下:

1、ILLUME 在保持整體架構(gòu)可擴(kuò)展與可泛化的前提下,通過合理的視覺詞表、訓(xùn)練策略與數(shù)據(jù)配比策略,成功以僅約 15M 的圖文對(duì)數(shù)據(jù)用于圖文對(duì)齊,實(shí)現(xiàn)了在視覺理解(包括自然圖像和文檔圖表)、生成、編輯等多元任務(wù)上的出色表現(xiàn),總體效果優(yōu)于現(xiàn)有統(tǒng)一模型例如 Chameleon, Show-O 和 Janus,與專用單任務(wù)模型相媲美。

圖片

2、ILLUME 提出一種自提升式多模態(tài)對(duì)齊策略,通過讓模型對(duì)自身生成的負(fù)樣本進(jìn)行內(nèi)省式評(píng)估,統(tǒng)一模型在理解和生成兩方面的能力可實(shí)現(xiàn)協(xié)同進(jìn)化。

ILLUME:理解生成一體的多模態(tài)大模型

挑戰(zhàn)一:如何高效訓(xùn)練一個(gè)統(tǒng)一多模態(tài)模型?

現(xiàn)有的統(tǒng)一多模態(tài)模型構(gòu)建方案多集中于在 LLM 基礎(chǔ)上拓展視覺詞表,以支持視覺生成任務(wù)。這些模型通常需要大量的圖文對(duì)數(shù)據(jù)來實(shí)現(xiàn)圖文對(duì)齊訓(xùn)練。這種對(duì)海量數(shù)據(jù)的依賴,在一定程度上放緩了這一領(lǐng)域進(jìn)一步探索與實(shí)踐的進(jìn)程。

圖片

與此不同的是,我們?cè)?ILLUME 中僅使用約 15M 的圖文對(duì)數(shù)據(jù)完成預(yù)訓(xùn)練,并在視覺理解(涵蓋自然圖像與文檔圖表)、生成與編輯等多類視覺文本任務(wù)上達(dá)到與專有模型相媲美的水平。這一成果并非僅體現(xiàn)于數(shù)據(jù)規(guī)模的減少,更重要的是在架構(gòu)、訓(xùn)練策略、數(shù)據(jù)配比以及視覺詞表表征方式上的關(guān)鍵設(shè)計(jì),使模型能夠更高效地進(jìn)行圖文對(duì)齊學(xué)習(xí)。這種方法為在更廣泛和更深層的多模態(tài)語義理解與生成融合中奠定了基礎(chǔ)。

關(guān)鍵設(shè)計(jì) 1:視覺詞表的表征選擇

傳統(tǒng)基于 VQGAN 的視覺詞表往往通過重建原始像素作為目標(biāo),但這種基于底層紋理的表征不利于與文本模態(tài)進(jìn)行高層語義對(duì)齊。與此相反,我們采用語義特征重建的方式構(gòu)造視覺詞表,直接在高層語義空間中完成圖文對(duì)齊的特征學(xué)習(xí)。實(shí)驗(yàn)表明,這一設(shè)計(jì)可顯著加速 MLLM 的預(yù)訓(xùn)練過程。

圖片

在解碼階段,我們?cè)倮?Diffusion 模型將語義特征還原為高保真像素空間,從而實(shí)現(xiàn)高達(dá) 32 倍的壓縮率。通過這一流程,模型在輸入端沿用連續(xù)視覺編碼器保障精細(xì)視覺理解能力,并在輸出端通過語義視覺詞表完成離散化處理,為視覺生成能力的無縫融合奠定基礎(chǔ)。

圖片

關(guān)鍵設(shè)計(jì) 2:三階段訓(xùn)練策略和數(shù)據(jù)配比

我們采用 “三階段” 訓(xùn)練策略,以分層遞進(jìn)的方式逐步強(qiáng)化模型的多模態(tài)理解與生成能力:

階段一:引入圖像重建任務(wù),為視覺詞表擴(kuò)展后的新參數(shù)進(jìn)行快速初始化,并對(duì)齊連續(xù)輸入與離散輸出的模式;

階段二:進(jìn)行圖文對(duì)齊預(yù)訓(xùn)練,進(jìn)一步強(qiáng)化模型在語義層面將圖像與文本聯(lián)結(jié)的能力;

階段三:對(duì)高質(zhì)量的理解、生成、混合數(shù)據(jù)進(jìn)行微調(diào),使模型最終勝任多類型的視覺文本任務(wù)(包括理解、生成與編輯)。

圖片

挑戰(zhàn)二:統(tǒng)一多模態(tài)模型的判別能力和生成能力能否相互促進(jìn)?

當(dāng)我們構(gòu)建一個(gè)統(tǒng)一模型后,我們最關(guān)心的是:聯(lián)合訓(xùn)練視覺理解和生成任務(wù)應(yīng)該如何促進(jìn)呢?

自提升多模態(tài)對(duì)齊方案

針對(duì)這一點(diǎn),我們提出了以自我評(píng)估過程為橋梁的自提升多模態(tài)對(duì)齊策略。通過讓模型對(duì)自身生成的負(fù)樣本進(jìn)行內(nèi)省式評(píng)估,模型在理解和生成兩方面的能力可實(shí)現(xiàn)協(xié)同進(jìn)化:

  • 生成促進(jìn)理解:模型以自我評(píng)估的方式分析自己產(chǎn)生的負(fù)樣本,這種內(nèi)省過程使模型能夠查明并解決其自身弱點(diǎn),從而更準(zhǔn)確地理解圖像。
  • 理解促進(jìn)生成:模型可以利用其判別能力來評(píng)估其自生成的圖像是否與文本一致,并基于此分析進(jìn)行修正,從而確保模型在推理時(shí)更加謹(jǐn)慎和準(zhǔn)確,避免在生成圖像時(shí)出現(xiàn)錯(cuò)誤。

我們的自提升多模態(tài)對(duì)齊方法分為三個(gè)步驟:

  • Step 1: 語料自生成。采樣訓(xùn)練子集,推理模型生成圖像。
  • Step 2: 生成評(píng)估數(shù)據(jù)。從物體、數(shù)量、顏色和空間關(guān)系多個(gè)維度評(píng)估圖像和文本的一致性,評(píng)估數(shù)據(jù)包括評(píng)估得分和相應(yīng)的分析。
  • Step 3: 多模態(tài)對(duì)齊。將評(píng)估數(shù)據(jù)重新格式化后加入階段三訓(xùn)練,使模型在理解與生成層面同時(shí)得到強(qiáng)化。

圖片

實(shí)驗(yàn)結(jié)果證明,自提升多模態(tài)對(duì)齊方法能在理解和生成任務(wù)上同時(shí)為模型賦能,促使統(tǒng)一多模態(tài)模型向更高層次的智能形態(tài)穩(wěn)步邁進(jìn)。

圖片

實(shí)驗(yàn)結(jié)果

多模態(tài)理解任務(wù)

在 12 個(gè)常用的多模態(tài)理解開源綜合評(píng)測(cè)集與文檔場(chǎng)景評(píng)測(cè)集上,ILLUME 均展現(xiàn)出卓越性能,與現(xiàn)有統(tǒng)一多模態(tài)模型相比達(dá)到 SOTA 水準(zhǔn),尤其在文檔理解任務(wù)上表現(xiàn)尤為突出。同時(shí),相較多模態(tài)理解模型(如 LLaVA-NeXT),ILLUME 的理解能力總體保持相當(dāng)甚至更優(yōu)的水平。

圖片


圖片

文圖生成任務(wù)

ILLUME 在 3 個(gè)文生圖評(píng)測(cè)集上取得與現(xiàn)有生成模型和統(tǒng)一多模態(tài)模型相當(dāng)?shù)谋憩F(xiàn)。

圖片

圖片

編輯任務(wù)

ILLUME 能處理物體刪除,風(fēng)格遷移,圖像補(bǔ)充等各種編輯任務(wù)。

圖片


圖片

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2010-12-21 17:22:24

2025-03-04 09:50:00

2013-02-04 12:47:42

華為企業(yè)一體化管理解決方案

2014-12-02 15:07:11

電信

2023-07-17 11:02:36

模型開源

2009-03-19 09:50:00

華為機(jī)房一體化

2014-12-09 14:30:06

一體化IT運(yùn)維

2009-09-07 23:09:17

2023-11-16 13:24:39

OceanBase數(shù)據(jù)庫

2019-05-13 15:09:32

華為

2023-12-20 07:35:03

大模型數(shù)據(jù)治理機(jī)器學(xué)習(xí)

2017-10-18 22:46:57

數(shù)據(jù)中心網(wǎng)絡(luò)通信技術(shù)

2009-07-02 09:32:00

2009-12-03 15:34:41

Suse Linux

2014-12-16 08:40:33

華為

2016-03-11 18:20:30

煙草信息化華為

2022-06-20 13:45:23

潮數(shù)科技
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)