自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

視覺自回歸生成理解編輯大一統(tǒng)！北大團隊多模態(tài)新突破，訓練數(shù)據(jù)代碼全面開源

2025-04-16 02:55:00

盡管VARGPT-v1.1取得了重大進展，但團隊指出目前版本和商用生成模型之間仍存在差距，此外在圖像編輯能力方面也存在局限性。

最近Google的Gemini Flash和OpenAI的GPT-4o等先進模型又一次推動了AI浪潮。這些模型通過整合文本、圖像、音頻等多種數(shù)據(jù)形式，實現(xiàn)了更為自然和高效的生成和交互。

北京大學團隊繼VARGPT實現(xiàn)視覺理解與生成任務統(tǒng)一之后，再度推出了VARGPT-v1.1版本。

該版本進一步提升了視覺自回歸模型的能力，不僅在在視覺理解方面有所加強，還在圖像生成和編輯任務中達到新的性能高度

目前訓練、推理和評估代碼，數(shù)據(jù)，模型均已開源。

圖片

VARGPT-v1.1延續(xù)了前作的設計理念，采用了創(chuàng)新的“next-token”與“next-scale”自回歸預測機制，同時引入四大關鍵創(chuàng)新點：

迭代視覺指令微調(diào)與強化學習結合的訓練策略：通過交替進行監(jiān)督微調(diào)（SFT）與基于偏好直接優(yōu)化（DPO）的強化學習，有效提高了模型的圖像生成質(zhì)量。模型逐步提升圖像生成分辨率，從256×256擴展至512×512像素，圖像細節(jié)與真實性顯著增強。
更大規(guī)模的視覺生成訓練數(shù)據(jù)集： VARGPT-v1.1采用了多達830萬條視覺生成指令數(shù)據(jù)，包括真實世界的LAION-COCO數(shù)據(jù)集以及由Midjourney與Flux模型生成的合成數(shù)據(jù)。大規(guī)模數(shù)據(jù)的使用顯著擴大了模型對不同類型圖像生成的泛化能力。
升級語言模型主干至Qwen2：引入最新的Qwen2-7B語言模型主干，利用其高效的注意力機制與更好的token化策略，有效提升了模型的視覺理解能力。
無架構修改的圖像編輯能力： VARGPT-v1.1在不改動模型架構的基礎上，通過專門構建的圖像編輯數(shù)據(jù)集，實現(xiàn)了圖像編輯功能。這使得模型不僅可以理解和生成圖像，還能根據(jù)用戶指令對圖像進行編輯。

圖片

1.模型架構

VARGPT-v1.1 遵循 VARGPT 的模型架構設計，以統(tǒng)一視覺理解和生成，其架構如上圖所示。由（1）一個大語言模型（Qwen2-7B）、視覺編碼器和用于視覺理解的理解投影器；（2）視覺解碼器和用于視覺生成的雙生成投影器組成。VARGPT-v1.1在大語言模型主干中采用因果注意力機制，同時在視覺解碼器中使用塊因果注意力機制。

圖片

2.訓練策略

圖片

VARGPT-v1.1的訓練遵循VARGPT的三階段訓練方法，整體訓練過程如上圖所示。區(qū)別于VARGPT，在第三階段， VARGPT-v1.1提出了迭代指令微調(diào)和強化學習的方法，以增強統(tǒng)一模型的視覺生成能力。具體來說，第三階段的迭代訓練過程如下圖所示：

圖片

2.1 視覺指令微調(diào)

視覺生成的指令微調(diào)旨在通過監(jiān)督微調(diào)賦予VARGPT-v1.1視覺生成能力。這個階段，首先解凍視覺解碼器和兩個投影器，并凍結其他參數(shù)以進行有監(jiān)督微調(diào)，如上圖所示。本文采用一種逐步提高圖像分辨率的訓練方法來訓練VARGPT-v1.1。具體來說，在第一個SFT階段，圖像分辨率設置為256x256，模型訓練40K步，以賦予其生成圖像的初始能力。在第二個SFT階段，圖像分辨率設置為512x512 ，模型訓練30K步，以進一步增強其高分辨率視覺生成能力。該視覺指令微調(diào)階段的訓練數(shù)據(jù)包括8.3M收集和構建的指令對。

圖片

2.2 基于人類反饋的強化學習

除了指令微調(diào)外，VARGPT-v1.1提出迭代指令微調(diào)與強化學習來訓練視覺自回歸的大視覺語言模型。VARGPT-v1.1通過將生成質(zhì)量的提升表述為一個偏好選擇問題,并采用直接偏好優(yōu)化（DPO）來對模型進行訓練。這種方法激勵模型傾向于生成高質(zhì)量的圖像輸出，同時拒絕質(zhì)量較差的輸出。具體來說，VARGPT-v1.1訓練時將傾向于拒絕低質(zhì)量的圖像,接受高質(zhì)量的圖像來優(yōu)化策略模型:

圖片

2.3 視覺編輯的有監(jiān)督微調(diào)

經(jīng)過有監(jiān)督微調(diào)（SFT）和直接偏好優(yōu)化（DPO）的多階段漸進式分辨率迭代后，我們系統(tǒng)地構建了一個包含來自Style-Booth的11325個樣本的指令調(diào)優(yōu)數(shù)據(jù)集，以使VARGPT-v1.1具備視覺編輯能力。該流程通過視覺編碼器處理目標圖像，同時利用編輯指令作為文本提示，來監(jiān)督模型對編輯后圖像分布的逼近。這種方法實現(xiàn)了：（1）架構保留式適配，無需引入的冗余設計實現(xiàn)編輯能力；（2）通過聯(lián)合文本-圖像標記預測實現(xiàn)統(tǒng)一的多模態(tài)編輯。在該監(jiān)督微調(diào)期間，所有模型參數(shù)均未凍結，以在保持生成多樣性的同時最大化編輯保真度。

3.實驗與結果

遵循VARGPT和其他多模態(tài)大語言模型的設置，本文在一系列面向?qū)W術任務的基準測試和最新的視覺理解基準測試中，評估了VARGPT-v1.1在視覺理解方面的有效性，總共涉及11個基準測試：在包括 MMMU、MME、MMBench、SEEDBench 和 POPE （包括不同的設置，隨機、流行和對抗）在內(nèi)的多模態(tài)基準上進行零樣本多模態(tài)評估?？傮w來說，VARGPT-v1.1 實現(xiàn)了顯著的視覺理解性能，在各種統(tǒng)一模型和各類多模態(tài)大語言模型的對比上均占優(yōu)勢。

圖片

3.1 Zero-shot multi-modal evaluation

對VARGPT-v1.1與各種先進的多模態(tài)模型進行了全面評估，結果如下表。實驗結果表明VARGPT -v1.1在所有基準測試中表現(xiàn)出色，在MMBench上達到81.01，在SEED上達到76.08，在MMMU上達到48.56，取得了先進水平的結果。此外，在LLaVA - Bench基準測試上的持續(xù)性能提升驗證了我們的架構選擇和訓練策略的有效性，確立了VARGPT-v1.1作為一個強大且通用的多模態(tài)模型的地位。

圖片

3.2 Performance comparison on visual question answering tasks

本文在多個視覺問答數(shù)據(jù)集上評估了VARGPT - v1.1的性能，并將其與幾種最先進的多模態(tài)模型進行了比較。結果見表3。我們的實驗結果表明VARGPT-v1.1在所有視覺問答（VQA）基準測試中均取得了卓越的性能，相較于現(xiàn)有模型有顯著提升。

圖片

3.3 Performance comparison on visual question answering tasks.

為了評估VARGPT的視覺生成能力，我們使用廣泛采用的GenEval基準和DPG - Bench基準進行了全面評估，定量結果分別見下表。這些數(shù)據(jù)集為文本到圖像的生成能力提供了嚴格的評估框架。我們的實驗結果表明，VARGPT-v1.1優(yōu)于許多專門的圖像生成模型，包括基于擴散的架構（如SDv2.1）和自回歸方法（如LlamaGen）。

圖片

3.4 Performance comparison on the DPG-Bench benchmark.

圖片

3.5 視覺理解的比較

VARGPT-v1.1 展現(xiàn)了更強的理解和解讀視覺內(nèi)容中幽默元素的能力。

圖片

3.6 多模態(tài)圖像文本生成

VARGPT-v1.1生成的一些512 x 512的樣本如下所示。VARGPT-v1.1支持用戶輸入文本和圖像指令，并同時輸出文本和圖像的混合模態(tài)數(shù)據(jù)。此外，與現(xiàn)有的統(tǒng)一模型基線相比，我們的方法在準確的文本到圖像生成方面取得了顯著改進。如下圖所示，我們展示了VARGPT-v1.1生成的代表性圖像輸出和對話交互。定性分析表明，VARGPT-v1.1始終能生成與給定文本指令緊密匹配的高質(zhì)量圖像。

圖片

3.7 圖像編輯能力

視覺編輯結果可視化如下圖所示，本文對視覺編輯能力進行的定性評估表明，VARGPT-v1.1具備基本的圖像操作能力。這種能力僅通過使用視覺編輯指令微調(diào)數(shù)據(jù)進行訓練即可獲得，無需對架構進行任何修改。此外，這些觀察結果證實了統(tǒng)一模型架構在單一框架內(nèi)實現(xiàn)通用視覺理解、生成和編輯方面具有巨大潛力。

圖片

4.結論與展望

VARGPT-v1.1通過采用為多模態(tài)大模型設計的靈活的訓練策略使其具有可擴展性，同時為多模態(tài)系統(tǒng)架構設計開辟了新的技術途徑。盡管VARGPT-v1.1取得了重大進展，但團隊指出目前版本和商用生成模型之間仍存在差距，此外在圖像編輯能力方面也存在局限性。未來，團隊將進一步擴展訓練數(shù)據(jù)規(guī)模，探索新型token化方法，并嘗試更多的強化學習策略，進一步推動多模態(tài)生成理解統(tǒng)一大模型的發(fā)展。

project: https://vargpt1-1.github.io/
code: https://github.com/VARGPT-family/VARGPT-v1.1
arxiv: https://arxiv.org/abs/2504.02949

責任編輯：武曉燕來源：量子位

視覺多模態(tài)模型

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

<cite id="rzb5s"></cite>