自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<del id="s7p3j"></del>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

理解生成協(xié)同促進(jìn)？華為諾亞提出ILLUME，15M數(shù)據(jù)實(shí)現(xiàn)多模態(tài)理解生成一體化

作者：機(jī)器之心 2024-12-31 14:00:00

人工智能新聞

近期，華為諾亞方舟實(shí)驗(yàn)室提出了統(tǒng)一多模態(tài)大模型 ——ILLUME。這一模型以 LLM 為核心，采用 “連續(xù)圖像輸入 + 離散圖像輸出” 的架構(gòu)，巧妙融合了多模態(tài)理解與生成的雙重能力，并深度挖掘了統(tǒng)一框架下理解與生成能力協(xié)同增強(qiáng)的潛力，展示了對(duì)多模態(tài)任務(wù)的全新詮釋。

多模態(tài)理解與生成一體化模型，致力于將視覺理解與生成能力融入同一框架，不僅推動(dòng)了任務(wù)協(xié)同與泛化能力的突破，更重要的是，它代表著對(duì)類人智能（AGI）的一種深層探索。通過在單一模型中統(tǒng)一理解與生成，模型能夠從語義層面真正 “洞察” 視覺、文本與世界本質(zhì)之間的深層聯(lián)系，從而在復(fù)雜場(chǎng)景中實(shí)現(xiàn)更加智能、靈活的交互與任務(wù)執(zhí)行。

近期，華為諾亞方舟實(shí)驗(yàn)室提出了統(tǒng)一多模態(tài)大模型 ——ILLUME。這一模型以 LLM 為核心，采用 “連續(xù)圖像輸入 + 離散圖像輸出” 的架構(gòu)，巧妙融合了多模態(tài)理解與生成的雙重能力，并深度挖掘了統(tǒng)一框架下理解與生成能力協(xié)同增強(qiáng)的潛力，展示了對(duì)多模態(tài)任務(wù)的全新詮釋。

論文標(biāo)題：ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance
論文地址：https://arxiv.org/pdf/2412.06673

總體來說，本文貢獻(xiàn)如下：

1、ILLUME 在保持整體架構(gòu)可擴(kuò)展與可泛化的前提下，通過合理的視覺詞表、訓(xùn)練策略與數(shù)據(jù)配比策略，成功以僅約 15M 的圖文對(duì)數(shù)據(jù)用于圖文對(duì)齊，實(shí)現(xiàn)了在視覺理解（包括自然圖像和文檔圖表）、生成、編輯等多元任務(wù)上的出色表現(xiàn)，總體效果優(yōu)于現(xiàn)有統(tǒng)一模型例如 Chameleon, Show-O 和 Janus，與專用單任務(wù)模型相媲美。

2、ILLUME 提出一種自提升式多模態(tài)對(duì)齊策略，通過讓模型對(duì)自身生成的負(fù)樣本進(jìn)行內(nèi)省式評(píng)估，統(tǒng)一模型在理解和生成兩方面的能力可實(shí)現(xiàn)協(xié)同進(jìn)化。

ILLUME：理解生成一體的多模態(tài)大模型

挑戰(zhàn)一：如何高效訓(xùn)練一個(gè)統(tǒng)一多模態(tài)模型？

現(xiàn)有的統(tǒng)一多模態(tài)模型構(gòu)建方案多集中于在 LLM 基礎(chǔ)上拓展視覺詞表，以支持視覺生成任務(wù)。這些模型通常需要大量的圖文對(duì)數(shù)據(jù)來實(shí)現(xiàn)圖文對(duì)齊訓(xùn)練。這種對(duì)海量數(shù)據(jù)的依賴，在一定程度上放緩了這一領(lǐng)域進(jìn)一步探索與實(shí)踐的進(jìn)程。

與此不同的是，我們?cè)?ILLUME 中僅使用約 15M 的圖文對(duì)數(shù)據(jù)完成預(yù)訓(xùn)練，并在視覺理解（涵蓋自然圖像與文檔圖表）、生成與編輯等多類視覺文本任務(wù)上達(dá)到與專有模型相媲美的水平。這一成果并非僅體現(xiàn)于數(shù)據(jù)規(guī)模的減少，更重要的是在架構(gòu)、訓(xùn)練策略、數(shù)據(jù)配比以及視覺詞表表征方式上的關(guān)鍵設(shè)計(jì)，使模型能夠更高效地進(jìn)行圖文對(duì)齊學(xué)習(xí)。這種方法為在更廣泛和更深層的多模態(tài)語義理解與生成融合中奠定了基礎(chǔ)。

關(guān)鍵設(shè)計(jì) 1：視覺詞表的表征選擇

傳統(tǒng)基于 VQGAN 的視覺詞表往往通過重建原始像素作為目標(biāo)，但這種基于底層紋理的表征不利于與文本模態(tài)進(jìn)行高層語義對(duì)齊。與此相反，我們采用語義特征重建的方式構(gòu)造視覺詞表，直接在高層語義空間中完成圖文對(duì)齊的特征學(xué)習(xí)。實(shí)驗(yàn)表明，這一設(shè)計(jì)可顯著加速 MLLM 的預(yù)訓(xùn)練過程。

在解碼階段，我們?cè)倮?Diffusion 模型將語義特征還原為高保真像素空間，從而實(shí)現(xiàn)高達(dá) 32 倍的壓縮率。通過這一流程，模型在輸入端沿用連續(xù)視覺編碼器保障精細(xì)視覺理解能力，并在輸出端通過語義視覺詞表完成離散化處理，為視覺生成能力的無縫融合奠定基礎(chǔ)。

關(guān)鍵設(shè)計(jì) 2：三階段訓(xùn)練策略和數(shù)據(jù)配比

我們采用 “三階段” 訓(xùn)練策略，以分層遞進(jìn)的方式逐步強(qiáng)化模型的多模態(tài)理解與生成能力：

階段一：引入圖像重建任務(wù)，為視覺詞表擴(kuò)展后的新參數(shù)進(jìn)行快速初始化，并對(duì)齊連續(xù)輸入與離散輸出的模式；

階段二：進(jìn)行圖文對(duì)齊預(yù)訓(xùn)練，進(jìn)一步強(qiáng)化模型在語義層面將圖像與文本聯(lián)結(jié)的能力；

階段三：對(duì)高質(zhì)量的理解、生成、混合數(shù)據(jù)進(jìn)行微調(diào)，使模型最終勝任多類型的視覺文本任務(wù)（包括理解、生成與編輯）。

挑戰(zhàn)二：統(tǒng)一多模態(tài)模型的判別能力和生成能力能否相互促進(jìn)？

當(dāng)我們構(gòu)建一個(gè)統(tǒng)一模型后，我們最關(guān)心的是：聯(lián)合訓(xùn)練視覺理解和生成任務(wù)應(yīng)該如何促進(jìn)呢？

自提升多模態(tài)對(duì)齊方案

針對(duì)這一點(diǎn)，我們提出了以自我評(píng)估過程為橋梁的自提升多模態(tài)對(duì)齊策略。通過讓模型對(duì)自身生成的負(fù)樣本進(jìn)行內(nèi)省式評(píng)估，模型在理解和生成兩方面的能力可實(shí)現(xiàn)協(xié)同進(jìn)化：

生成促進(jìn)理解：模型以自我評(píng)估的方式分析自己產(chǎn)生的負(fù)樣本，這種內(nèi)省過程使模型能夠查明并解決其自身弱點(diǎn)，從而更準(zhǔn)確地理解圖像。
理解促進(jìn)生成：模型可以利用其判別能力來評(píng)估其自生成的圖像是否與文本一致，并基于此分析進(jìn)行修正，從而確保模型在推理時(shí)更加謹(jǐn)慎和準(zhǔn)確，避免在生成圖像時(shí)出現(xiàn)錯(cuò)誤。

我們的自提升多模態(tài)對(duì)齊方法分為三個(gè)步驟：

Step 1: 語料自生成。采樣訓(xùn)練子集，推理模型生成圖像。
Step 2: 生成評(píng)估數(shù)據(jù)。從物體、數(shù)量、顏色和空間關(guān)系多個(gè)維度評(píng)估圖像和文本的一致性，評(píng)估數(shù)據(jù)包括評(píng)估得分和相應(yīng)的分析。
Step 3: 多模態(tài)對(duì)齊。將評(píng)估數(shù)據(jù)重新格式化后加入階段三訓(xùn)練，使模型在理解與生成層面同時(shí)得到強(qiáng)化。

實(shí)驗(yàn)結(jié)果證明，自提升多模態(tài)對(duì)齊方法能在理解和生成任務(wù)上同時(shí)為模型賦能，促使統(tǒng)一多模態(tài)模型向更高層次的智能形態(tài)穩(wěn)步邁進(jìn)。

實(shí)驗(yàn)結(jié)果

多模態(tài)理解任務(wù)

在 12 個(gè)常用的多模態(tài)理解開源綜合評(píng)測(cè)集與文檔場(chǎng)景評(píng)測(cè)集上，ILLUME 均展現(xiàn)出卓越性能，與現(xiàn)有統(tǒng)一多模態(tài)模型相比達(dá)到 SOTA 水準(zhǔn)，尤其在文檔理解任務(wù)上表現(xiàn)尤為突出。同時(shí)，相較多模態(tài)理解模型（如 LLaVA-NeXT），ILLUME 的理解能力總體保持相當(dāng)甚至更優(yōu)的水平。

文圖生成任務(wù)

ILLUME 在 3 個(gè)文生圖評(píng)測(cè)集上取得與現(xiàn)有生成模型和統(tǒng)一多模態(tài)模型相當(dāng)?shù)谋憩F(xiàn)。

編輯任務(wù)

ILLUME 能處理物體刪除，風(fēng)格遷移，圖像補(bǔ)充等各種編輯任務(wù)。

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型訓(xùn)練數(shù)據(jù)

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<blockquote id="cbgdc"><i id="cbgdc"></i></blockquote>