DeepSeek等團(tuán)隊(duì)新作JanusFlow: 1.3B大模型統(tǒng)一視覺理解和生成
在多模態(tài)AI領(lǐng)域,基于預(yù)訓(xùn)練視覺編碼器與MLLM的方法(如LLaVA系列)在視覺理解任務(wù)上展現(xiàn)出卓越性能。
而基于Rectified Flow的模型(如Stable Diffusion 3及其衍生版本)則在視覺生成方面取得重大突破。
能否將這兩種簡單的技術(shù)范式統(tǒng)一到單一模型中?
來自DeepSeek、北大、香港大學(xué)以及清華大學(xué)的團(tuán)隊(duì)研究表明:
在LLM框架內(nèi)直接融合這兩種結(jié)構(gòu),就可以實(shí)現(xiàn)視覺理解與生成能力的有效統(tǒng)一。
模型架構(gòu)
簡單來說,JanusFlow將基于視覺編碼器和LLM的理解框架與基于Rectified Flow的生成框架直接融合,實(shí)現(xiàn)了兩者在單一LLM中的端到端訓(xùn)練。
其核心設(shè)計(jì)包括:(1)采用解耦的視覺編碼器分別優(yōu)化理解與生成能力;(2)利用理解端編碼器對(duì)生成端特征進(jìn)行表征對(duì)齊,顯著提升RF的訓(xùn)練效率。基于1.3B規(guī)模的LLM,JanusFlow在視覺理解和生成任務(wù)上均超過此前同規(guī)模的統(tǒng)一多模態(tài)模型。
在LLM基礎(chǔ)上,JanusFlow加入了如下組件:
1、視覺理解編碼器(圖中的Und. Encoder):我們使用SigLIP將輸入的圖片轉(zhuǎn)換成Visual embeddings;專注于視覺理解任務(wù)的特征提取。
2、視覺生成編解碼器(圖中的Gen. Encoder/Decoder):輕量級(jí)模塊,總參數(shù)量約70M;基于SDXL-VAE的latent space進(jìn)行生成;編碼器:利用雙層ConvNeXt Block將輸入latent z_t 轉(zhuǎn)換為visual embeddings;解碼器:通過雙層ConvNeXt Block將處理后的embeddings解碼為latent space中的速度v 。
3、注意力機(jī)制:在我們的初步實(shí)驗(yàn)中,我們發(fā)現(xiàn)生成任務(wù)中causal attention和bidirectional attention效果相當(dāng);基于效率和簡潔性考慮,統(tǒng)一采用causal attention處理兩類任務(wù)。
JanusFlow有兩種生成模式:
1、視覺理解(文+圖->文):此時(shí),JanusFlow的推理模式是正常的自回歸模式,通過預(yù)測(cè)下一個(gè)token來生成回復(fù)
2、圖片生成(文->圖):此時(shí),JanusFlow的推理模式是采用歐拉法求解Rectified Flow學(xué)出的ODE,從t=0的純?cè)肼曋鸩酵七M(jìn)到t=1的干凈圖像。我們?cè)谏蛇^程中使用Classifier-Free Guidance并把迭代步數(shù)設(shè)置為30步。
方法與設(shè)計(jì)
1、三階段訓(xùn)練策略
我們的訓(xùn)練分為 Adaptation,Pre-Training 和 Supervised Fine-Tuning三階段。我們的訓(xùn)練數(shù)據(jù)包括視覺理解(圖生文)和視覺生成(文生圖)兩類。特別地,由于發(fā)現(xiàn)RF收斂速度顯著慢于AR,我們?cè)陬A(yù)訓(xùn)練階段采用了非對(duì)稱的數(shù)據(jù)配比策略(理解:生成=2:8),實(shí)驗(yàn)證明該配比能夠有效平衡模型的兩方面能力。詳細(xì)訓(xùn)練流程和數(shù)據(jù)配置請(qǐng)見論文。
2、解耦理解與生成的視覺編碼器
在之前結(jié)合LLM與Diffusion Model訓(xùn)練統(tǒng)一多模態(tài)模型的嘗試中,理解與生成任務(wù)通常采用同一個(gè)視覺編碼器(如Show-O [1] 中理解和生成均采用MAGVIT-v2將圖片轉(zhuǎn)換成離散token,Transfusion [2] 中理解和生成均采用latent space里的U-Net Encoder),往往導(dǎo)致理解和生成任務(wù)在視覺編碼層面的沖突。在我們的上一個(gè)工作 Janus [3] 中證實(shí)了對(duì)多模態(tài)理解和生成任務(wù)的編碼器進(jìn)行解耦能有效緩解沖突,提升模型的整體性能。在 JanusFlow 中,我們沿用了這一設(shè)計(jì)。我們進(jìn)行了一系列的消融實(shí)驗(yàn)探究了不同視覺編碼器策略的影響,證實(shí)為理解和生成任務(wù)分別配置專用編碼器能夠顯著提升整體性能。
3、表征對(duì)齊(Representation Alignment)
正如之前提到的,由于RF的訓(xùn)練收斂速度顯著慢于AR,JanusFlow的訓(xùn)練開銷較大。得益于我們解耦了理解與生成的編碼器,我們可以使用REPA [4] 的方法來加速RF訓(xùn)練的收斂速度。具體而言,我們?cè)谏蓴?shù)據(jù)的訓(xùn)練中要求視覺編碼器提取的訓(xùn)練圖片 x 的特征與其加噪樣本 z_t 在LLM中的中間層特征對(duì)齊。實(shí)驗(yàn)表明,該方法在僅增加少量計(jì)算開銷的情況下,顯著提升了生成任務(wù)的收斂效率。
(綠線:使用REPA;藍(lán)線:不使用REPA。使用REPA可以顯著加速FID的降低(與圖像質(zhì)量相關(guān))和CLIP score的升高(與文生圖模型的語義準(zhǔn)確度相關(guān))。)
4、消融實(shí)驗(yàn)
我們?cè)O(shè)計(jì)了六組對(duì)照實(shí)驗(yàn)以驗(yàn)證模型各組件的有效性:
A、不使用REPA,理解模塊是SigLIP,生成模塊是SDXL-VAE+ConvNeXt Block,聯(lián)合訓(xùn)練理解與生成任務(wù);
B、使用REPA,理解和生成模塊使用共享參數(shù)的SDXL-VAE+ConvNeXt Block,聯(lián)合訓(xùn)練理解與生成任務(wù);這個(gè)設(shè)置類似Transfusion;
C、使用REPA,理解和生成模塊使用獨(dú)立參數(shù)的SDXL-VAE+ConvNeXt Block,其中,理解部分的SDXL-VAE參數(shù)參與訓(xùn)練,聯(lián)合訓(xùn)練理解與生成任務(wù);
D、理解模塊是SigLIP,只訓(xùn)練理解數(shù)據(jù),保持與聯(lián)合訓(xùn)練中理解數(shù)據(jù)等量;這是同一框架和數(shù)據(jù)量下,理解模型的基準(zhǔn);
E、使用REPA,理解模塊是SigLIP,生成模塊是SDXL-VAE+ConvNeXt Block,只訓(xùn)練生成數(shù)據(jù),保持與聯(lián)合訓(xùn)練中生成數(shù)據(jù)等量;這是同一框架和數(shù)據(jù)量下,生成模型的基準(zhǔn);
F、使用REPA,理解模塊是SigLIP,生成模塊是SDXL-VAE+ConvNeXt Block,聯(lián)合訓(xùn)練理解與生成任務(wù)。
實(shí)驗(yàn)結(jié)果如下圖。
分析:
1、比較A和F:REPA的引入顯著提升了生成相關(guān)的指標(biāo)
2、比較B,C和F:解耦編碼器并使用SigLIP作為理解模塊能得到理解和生成能力最好的統(tǒng)一模型
3、比較D,E和F:我們的最終策略F在訓(xùn)練數(shù)據(jù)量和訓(xùn)練設(shè)置均相同的情況下,理解能力與純理解基準(zhǔn)相當(dāng),生成能力與純生成基準(zhǔn)基本持平;驗(yàn)證了F在保持各自性能的同時(shí)實(shí)現(xiàn)了兩個(gè)任務(wù)的有機(jī)統(tǒng)一
基于以上實(shí)驗(yàn)結(jié)果,我們采用方案F作為JanusFlow的最終架構(gòu)配置。
實(shí)驗(yàn)結(jié)果
JanusFlow在DPGBench,GenEval和多模態(tài)理解的測(cè)評(píng)標(biāo)準(zhǔn)上都取得了強(qiáng)大的效果。詳見表格。
△視覺理解分?jǐn)?shù):JanusFlow超過了一些同尺寸的純理解模型
△視覺生成分?jǐn)?shù):JanusFlow有較強(qiáng)的語義跟隨能力
△視覺理解主觀效果
△視覺生成主觀效果
最后總結(jié),JanusFlow通過融合自回歸LLM與Rectified Flow,成功構(gòu)建了一個(gè)統(tǒng)一的視覺理解與生成框架。該模型具有簡潔的架構(gòu)設(shè)計(jì),在視覺理解和生成兩大任務(wù)上均展現(xiàn)出強(qiáng)勁的競爭力。
論文鏈接:https://arxiv.org/abs/2411.07975
項(xiàng)目主頁: https://github.com/deepseek-ai/Janus
模型下載: https://huggingface.co/deepseek-ai/JanusFlow-1.3B
在線 Demo: https://huggingface.co/spaces/deepseek-ai/JanusFlow-1.3B