自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow

發(fā)布于 2024-11-20 10:41
瀏覽
0收藏

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2411.07975
github鏈接:https://github.com/deepseek-ai/Janus

亮點(diǎn)直擊

  • 統(tǒng)一多模態(tài)框架: 提出JanusFlow,一個同時處理圖像理解和文本到圖像生成任務(wù)的統(tǒng)一模型,解決了任務(wù)分離帶來的架構(gòu)復(fù)雜性問題。
  • 創(chuàng)新優(yōu)化策略: 采用任務(wù)解耦和表示對齊兩大關(guān)鍵策略,提高理解與生成任務(wù)的獨(dú)立性與語義一致性。
  • 卓越性能表現(xiàn):在多模態(tài)理解與文本到圖像生成基準(zhǔn)測試中超越現(xiàn)有專用模型和統(tǒng)一模型,取得領(lǐng)先成績。
  • 緊湊高效的設(shè)計:僅用1.3B 參數(shù)實現(xiàn)性能突破,展示出高效模型在多模態(tài)任務(wù)中的巨大潛力。

效果展示

文生圖

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

多模態(tài)理解

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

總結(jié)速覽

解決的問題

當(dāng)前圖像理解與生成任務(wù)通常由專門的模型完成,統(tǒng)一模型在性能和效率上仍然存在局限性,難以在兩個領(lǐng)域中同時達(dá)到優(yōu)異表現(xiàn)。

提出的方案

提出 JanusFlow 框架,采用極簡架構(gòu),將自回歸語言模型rectified flow相結(jié)合,實現(xiàn)圖像理解與生成的統(tǒng)一。

應(yīng)用的技術(shù)

  1. Rectified Flow:作為生成建模的先進(jìn)方法,簡化了在大語言模型框架中訓(xùn)練的復(fù)雜性。
  2. 理解與生成解碼器的解耦:分別優(yōu)化理解與生成任務(wù)的編碼器。
  3. 表示對齊:在統(tǒng)一訓(xùn)練過程中對理解和生成的表示進(jìn)行對齊,增強(qiáng)統(tǒng)一模型的表現(xiàn)力。

達(dá)到的效果

  1. 性能提升:在標(biāo)準(zhǔn)基準(zhǔn)上顯著優(yōu)于現(xiàn)有的統(tǒng)一模型,并在各領(lǐng)域中表現(xiàn)出與專用模型媲美甚至更優(yōu)的性能。
  2. 模型簡化:無需復(fù)雜的架構(gòu)修改,即可在統(tǒng)一框架內(nèi)有效訓(xùn)練,提升效率和通用性。

JanusFlow

本節(jié)介紹 JanusFlow 的架構(gòu)以及我們的訓(xùn)練策略。

背景

多模態(tài)大語言模型(MLLMs)

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

多模態(tài)理解與生成的統(tǒng)一框架

JanusFlow 提供了一個統(tǒng)一的框架,用于處理視覺理解和圖像生成任務(wù)。以下概述了 JanusFlow 如何在單一 LLM 架構(gòu)中處理這兩類任務(wù)。

多模態(tài)理解

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

訓(xùn)練方案

如下圖 3 所示,分三個階段依次訓(xùn)練模型,具體如下。

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

階段 1:隨機(jī)初始化組件的適配
在第一階段,我們僅訓(xùn)練隨機(jī)初始化的組件,包括線性層、生成編碼器和生成解碼器。這一階段旨在使這些新模塊與預(yù)訓(xùn)練的 LLM 和 SigLIP 編碼器有效配合,實質(zhì)上是為新引入的組件進(jìn)行初始化。

階段 2:統(tǒng)一預(yù)訓(xùn)練
在適配階段之后,我們訓(xùn)練整個模型,但不包括視覺編碼器,與先前方法一致 [57, 63]。訓(xùn)練數(shù)據(jù)包括三種類型:多模態(tài)理解、圖像生成和僅文本數(shù)據(jù)。最初分配較高比例的多模態(tài)理解數(shù)據(jù),以建立模型的理解能力。隨后逐步增加圖像生成數(shù)據(jù)的比例,以滿足基于擴(kuò)散模型的收斂需求。

階段 3:監(jiān)督微調(diào)(SFT) 最后階段,使用指令調(diào)優(yōu)數(shù)據(jù)對預(yù)訓(xùn)練模型進(jìn)行微調(diào),包括對話、任務(wù)特定的交流以及高質(zhì)量的文本條件圖像生成示例。在此階段,還解凍 SigLIP 編碼器參數(shù)。這一微調(diào)過程使模型能夠有效響應(yīng)用戶指令,完成多模態(tài)理解和圖像生成任務(wù)。

訓(xùn)練目標(biāo)

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

實驗

研究者們進(jìn)行了一系列實驗,以評估 JanusFlow 在多模態(tài)理解和生成任務(wù)中的能力。首先,我們描述了我們的實驗設(shè)置和實現(xiàn)細(xì)節(jié)。然后,展示了在多模態(tài)理解和圖像生成的標(biāo)準(zhǔn)基準(zhǔn)上的結(jié)果。最后,進(jìn)行了一些消融實驗,以驗證關(guān)鍵設(shè)計選擇。

實驗設(shè)置和實現(xiàn)細(xì)節(jié)

本文的框架基于 DeepSeek-LLM(1.3B)的增強(qiáng)版。LLM 由 24 個變換器塊組成,支持序列長度為 4,096。在本文的模型中,理解和生成任務(wù)都使用分辨率為 384 的圖像。

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

對于數(shù)據(jù)預(yù)處理,分別處理理解和生成數(shù)據(jù)。對于理解任務(wù),通過將長邊調(diào)整為目標(biāo)大小,并將圖像填充為正方形來保持所有圖像信息。對于生成任務(wù),將短邊調(diào)整為目標(biāo)大小,并應(yīng)用隨機(jī)方形裁剪,以避免填充偽影。在訓(xùn)練過程中,為提高訓(xùn)練效率,將多個序列打包成一個長度為 4,096 的單一序列。


實現(xiàn)基于 HAI-LLM 平臺,使用 PyTorch。訓(xùn)練是在 NVIDIA A100 GPU 上進(jìn)行的,每個模型需要約 1,600 A100 GPU 天。

訓(xùn)練數(shù)據(jù)設(shè)置

遵循 Janus 構(gòu)建訓(xùn)練數(shù)據(jù)。每個訓(xùn)練階段的數(shù)據(jù)配置如下。

階段 1 和階段 2 的數(shù)據(jù)

本文框架的前兩個階段使用三種類型的數(shù)據(jù):多模態(tài)理解數(shù)據(jù)、圖像生成數(shù)據(jù)和僅文本數(shù)據(jù)。

  1. 多模態(tài)理解數(shù)據(jù)。此類數(shù)據(jù)包含幾個子類別:
  • (a) 圖像描述數(shù)據(jù)。結(jié)合了來自 [20, 41, 50, 51, 53, 79] 的描述數(shù)據(jù)集,并使用開源多模態(tài)理解模型為來自 [16, 43] 的圖像生成附加描述。數(shù)據(jù)遵循模板格式,例如:“<image>生成此圖片的描述。<caption>”。
  • (b) 圖表和表格。直接采用來自 DeepSeek-VL 訓(xùn)練數(shù)據(jù)的圖表和表格數(shù)據(jù)。
  • (c) 任務(wù)數(shù)據(jù)。使用 ShareGPT4V 數(shù)據(jù),以促進(jìn)預(yù)訓(xùn)練期間的基本問答能力,數(shù)據(jù)結(jié)構(gòu)為:“<image><question><answer>”。
  • (d) 交替文本-圖像數(shù)據(jù)。此子類別來源于 [42, 81]。
  1. 圖像生成數(shù)據(jù)。圖像生成數(shù)據(jù)集結(jié)合了來自 [16, 21, 41, 43, 67, 69, 79, 82] 的高質(zhì)量圖像和 200 萬個內(nèi)部數(shù)據(jù)。我們使用多模態(tài)理解模型增強(qiáng)它們,生成機(jī)器生成的描述。篩選了來自 [16, 79] 的圖像,按縱橫比和美學(xué)評分進(jìn)行過濾,保留約 20% 的原始數(shù)據(jù)集。25% 的數(shù)據(jù)包含單句描述,這類數(shù)據(jù)幫助模型能夠處理簡短的提示。所有數(shù)據(jù)點(diǎn)格式為:“<prompt><image>”。
  2. 僅文本數(shù)據(jù)。直接使用 DeepSeek-LLM的文本語料庫。

階段 3 的數(shù)據(jù)SFT 階段同樣使用三種類型的數(shù)據(jù):

  1. 多模態(tài)指令數(shù)據(jù)。利用來自 [29, 33, 35, 47, 64, 78] 的指令調(diào)優(yōu)數(shù)據(jù)集。
  2. 圖像生成數(shù)據(jù)。將來自 [16, 79, 82] 的高質(zhì)量文本-圖像對重新格式化為指令格式:“User:<user prompt>\n\n Assistant:<image>”。
  3. 僅文本數(shù)據(jù)。直接合并了來自 [47] 的僅文本數(shù)據(jù)。

評估設(shè)置

圖像生成
使用視覺質(zhì)量和語義準(zhǔn)確性指標(biāo)來評估生成的圖像。對于視覺質(zhì)量評估,采用 Fréchet Inception DistanceFID)指標(biāo),并計算 30,000 張生成圖像與其對應(yīng)的來自 MJHQ 數(shù)據(jù)集的參考圖像之間的 FID。FID 的計算遵循 GigaGAN的實現(xiàn)。為了評估語義準(zhǔn)確性,使用兩個專門的框架:GenEval和 DPG-Bench。這些框架旨在評估生成的圖像是否準(zhǔn)確包含了輸入提示中指定的對象和關(guān)系,從而提供廣泛的生成能力評估。

多模態(tài)理解通過一系列多樣化的視覺-語言基準(zhǔn)測試來評估 JanusFlow 的多模態(tài)理解能力,這些基準(zhǔn)測試涉及一般的理解能力,包括 POPE、MME、MMBench、SEEDBench、VQAv2、GQA、MM-Vet 和 MMMU。

定量結(jié)果

圖像生成性能本文報告了在 GenEval、DPG-Bench 和 MJHQ FID-30k 上的性能。在下表 2 中,給出了 GenEval 的比較,包括所有子任務(wù)的分?jǐn)?shù)和總體分?jǐn)?shù)。JanusFlow 在總體得分上達(dá)到了 0.63,超過了之前的統(tǒng)一框架以及多個生成特定模型,包括 SDXL 和 DALL-E 2。在下表 3 中,展示了 DPG-Bench 上的結(jié)果及其相應(yīng)的比較。需要注意的是,表 3 中的所有方法都是生成特定模型,除了本文的模型之外。GenEval 和 DPG-Bench 上的結(jié)果展示了本文模型的指令跟隨能力。

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

在下表 4 中給出了 MJHQ FID-30k 的比較。計算 FID 的圖像是通過 CFG 因子 ?? = 2 和采樣步數(shù) 30 生成的。對 CFG 因子和采樣步數(shù)進(jìn)行了掃頻。本文的方法在所有 1.3B LLM 模型中表現(xiàn)最好。結(jié)果證明,Rectified Flow能夠改善生成圖像的質(zhì)量,優(yōu)于自回歸模型,如 Janus。

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

多模態(tài)理解性能
在下表 5 中展示了我們的方法與其他方法的比較,包括理解特定模型和統(tǒng)一的理解與生成模型。我們的模型在所有具有相似參數(shù)數(shù)量的模型中達(dá)到了最佳性能,甚至超過了多個規(guī)模更大的理解特定方法。我們的結(jié)果表明,我們的方法協(xié)調(diào)了自回歸 LLM 和Rectified Flow,在理解和生成任務(wù)中都取得了令人滿意的表現(xiàn)。

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

消融研究

本文進(jìn)行了全面的消融研究,以驗證關(guān)鍵設(shè)計選擇的有效性。為了提高計算效率,所有消融實驗均在 256 × 256 分辨率的圖像上進(jìn)行。除理解-only 和生成-only 變體外,所有模型均在我們的統(tǒng)一預(yù)訓(xùn)練數(shù)據(jù)集上訓(xùn)練了 50,000 次迭代,而理解-only 和生成-only 變體則根據(jù)其在預(yù)訓(xùn)練階段的數(shù)據(jù)比例進(jìn)行了相應(yīng)較少的訓(xùn)練迭代。這些消融研究的定量結(jié)果見下表 6。

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

表示對齊的影響

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

視覺編碼器解耦的影響通過 Exp. B、C 和 F 之間的比較驗證了使用強(qiáng)大預(yù)訓(xùn)練視覺編碼器在多模態(tài)理解中的有效性。在 Exp. B 中,采用類似 Transfusion 的設(shè)計,在 SDXL-VAE 潛在空間中為理解和生成編碼器實現(xiàn)了共享的 ConvNeXt 塊。Exp. C 則使用獨(dú)立的編碼器,架構(gòu)和初始化參數(shù)相同,但進(jìn)行了獨(dú)立訓(xùn)練。不同配置之間的性能差異驗證了在改進(jìn)我們統(tǒng)一模型能力方面解耦視覺編碼器的必要性。此外,Exp. C 和 F 中的優(yōu)越結(jié)果突出了利用預(yù)訓(xùn)練語義視覺編碼器進(jìn)行多模態(tài)理解任務(wù)的好處。

與理解/生成-only 模型的公平比較

為了建立有意義的基準(zhǔn),評估了在相同條件下訓(xùn)練的任務(wù)特定模型——使用相同的預(yù)訓(xùn)練數(shù)據(jù)集、基礎(chǔ)設(shè)施和超參數(shù)。Exp. D 和 E 代表了這些專門的模型,它們使用與統(tǒng)一模型相匹配的數(shù)據(jù)量進(jìn)行了訓(xùn)練,如前面表 6 所示。Exp. F 與這些任務(wù)特定基線之間的最小性能差距表明,本文的統(tǒng)一框架成功地將理解和生成能力集成在一起,且不會在任何任務(wù)的性能上造成顯著的妥協(xié)。

定性結(jié)果

本文展示了 JanusFlow 方法在圖像生成和理解任務(wù)上的定性評估。下圖 1(b) 和圖 4 展示了 JanusFlow 在圖像生成方面的能力。這些結(jié)果展示了我們生成的圖像在視覺質(zhì)量上的優(yōu)越性,并且證明了我們的框架能夠忠實地執(zhí)行各種指令。

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

在多模態(tài)理解方面,下圖 5 展示了示例對話,展示了我們的模型在不同場景下的理解能力。這些互動展示了模型在自然語言對話中理解和推理視覺內(nèi)容的能力。

自回歸和Rectified Flow完美融合統(tǒng)一多模態(tài)理解和生成!DeepSeek&北大等開源JanusFlow-AI.x社區(qū)

結(jié)論

本文提出了 JanusFlow,一種成功地將自回歸模型和Rectified Flow模型融合的統(tǒng)一框架,適用于多模態(tài)理解和生成任務(wù)。廣泛的實驗表明,這種統(tǒng)一方法在性能上與任務(wù)特定模型相當(dāng)。成功整合這兩種根本不同的模型架構(gòu),不僅解決了當(dāng)前多模態(tài)學(xué)習(xí)中的挑戰(zhàn),還為未來訓(xùn)練統(tǒng)一模型的研究開辟了新的可能性。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/1pN6_cn6i1SIiYiRV7UB3Q??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦