自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

解析DeepSeek Janus Pro論文:多模態(tài)AI領(lǐng)域的革命性突破 原創(chuàng)

發(fā)布于 2025-3-10 09:45
瀏覽
0收藏


編者按: 提到 DeepSeek,大家可能更熟悉 R1 模型 —— 這款以低成本、高性能和開源特性顛覆行業(yè)的語言模型,而今天這篇文章介紹的 DeepSeek Janus Pro,通過創(chuàng)新的架構(gòu)設(shè)計,在性能上超越了同領(lǐng)域的眾多頂尖專用模型(Janus-Pro 7B 在圖像理解和圖像生成兩方面都超越了 LLaVA、Dalle 3 和 SD XL 這樣的主流選手)。

本文深入解析了 Janus Pro 的技術(shù)細(xì)節(jié),從其核心設(shè)計原則到具體的圖像編碼器選擇,再到訓(xùn)練過程的三個階段,全面展示了 Janus Pro 如何通過創(chuàng)新的架構(gòu)設(shè)計和精細(xì)的訓(xùn)練策略,實現(xiàn)了在多模態(tài)理解和生成任務(wù)上的卓越表現(xiàn)。

作者 | AI Papers Academy

編譯 | 岳揚(yáng)

01 導(dǎo)言

業(yè)界仍在消化 DeepSeek 最近發(fā)布的震撼 AI 界的 DeepSeek-R1,但 R1 發(fā)布短短數(shù)日后,這家公司又祭出了另一款驚艷的開源多模態(tài)大模型 Janus Pro。這款對標(biāo)國際頂尖多模態(tài)模型的新作,標(biāo)志著 DeepSeek 在多模態(tài)領(lǐng)域的重大突破。

本文將深度解讀 Janus Pro 背后的研究論文《Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling》。要理解這篇論文,我們還需要首先解析 DeepSeek 的前一篇論文《JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation》中提出的 Janus 模型基礎(chǔ)架構(gòu)。閱讀本文無需任何先驗知識,我們將系統(tǒng)闡釋兩代模型的演進(jìn)邏輯:新論文建立在前一篇論文的基礎(chǔ)上,本文將對這兩篇論文進(jìn)行全景式解析。

解析DeepSeek Janus Pro論文:多模態(tài)AI領(lǐng)域的革命性突破-AI.x社區(qū)

Janus-Pro 相關(guān)論文的標(biāo)題和作者[1]

解析DeepSeek Janus Pro論文:多模態(tài)AI領(lǐng)域的革命性突破-AI.x社區(qū)

Janus-Pro 前一篇相關(guān)論文的標(biāo)題和作者[2]

02 統(tǒng)一多模態(tài)理解與生成

兩篇論文都聚焦于"統(tǒng)一多模態(tài)理解與生成(unified multimodal understanding and generation)"這一核心命題。在深入剖析 Janus 模型的技術(shù)細(xì)節(jié)之前,我們有必要先厘清這一概念。

2.1 圖像理解任務(wù)解析

解析DeepSeek Janus Pro論文:多模態(tài)AI領(lǐng)域的革命性突破-AI.x社區(qū)

MLLM 實現(xiàn)的圖像理解案例

大語言模型(LLM)已在諸多領(lǐng)域展現(xiàn)出卓越能力?;诖?,學(xué)界發(fā)展出多模態(tài)大語言模型(MLLM)技術(shù)路線,典型代表如 LLaVA。這類模型能同時處理文本指令與視覺輸入:如圖所示,當(dāng)用戶輸入"我的貓在做什么?(what is my cat doing?)"并附上貓咪圖片時,模型可精準(zhǔn)解析圖文信息,得出"貓咪試圖抓魚(the cat is trying to catch a fish)"的結(jié)論。

這種技術(shù)路線在圖像理解任務(wù)中成效顯著。以 Janus Pro 論文展示的案例為例:當(dāng)用戶提供蛋糕圖片并詢問其相關(guān)背景信息時,Janus 不僅準(zhǔn)確識別出蛋糕的主題元素是"貓和老鼠",更能調(diào)用其基座語言模型,延展輸出該經(jīng)典 IP 的背景知識。這體現(xiàn)了 MLLM 系統(tǒng)的雙重優(yōu)勢 —— 既具備跨模態(tài)理解能力,又可繼承 LLM 的通用知識儲備。

解析DeepSeek Janus Pro論文:多模態(tài)AI領(lǐng)域的革命性突破-AI.x社區(qū)

圖像理解任務(wù)案例展示[1]

2.2 圖像生成任務(wù)解析

解析DeepSeek Janus Pro論文:多模態(tài)AI領(lǐng)域的革命性突破-AI.x社區(qū)

圖像生成任務(wù)案例展示

當(dāng)前主流的圖像生成模型(如 Stable Diffusion、DALL-E 3 等其他模型)主要基于擴(kuò)散模型及其改進(jìn)架構(gòu)。如圖示案例所示,當(dāng)輸入"可愛的貓咪(a cute cat)"文本指令時,系統(tǒng)能夠生成高質(zhì)量視覺內(nèi)容。

2.3 單個模型統(tǒng)一處理圖像理解和生成任務(wù)的優(yōu)勢

現(xiàn)有技術(shù)路線中,圖像理解與生成通常分別由獨(dú)立的系統(tǒng)完成。將這些任務(wù)統(tǒng)一到一個模型中也有很大的好處:在實際應(yīng)用場景中,單一模型可同步處理這兩類任務(wù),避免多個模型切換帶來的計算資源浪費(fèi)與系統(tǒng)復(fù)雜度提升。

Janus 模型通過對模型架構(gòu)進(jìn)行創(chuàng)新設(shè)計,將這兩種任務(wù)的處理整合于統(tǒng)一框架中。雖然將多任務(wù)的處理統(tǒng)一于單一模型并非全新概念,但在后文進(jìn)行技術(shù)解析時將揭示其架構(gòu)設(shè)計的精妙之處。

解析DeepSeek Janus Pro論文:多模態(tài)AI領(lǐng)域的革命性突破-AI.x社區(qū)

使用 Janus 統(tǒng)一處理理解和生成任務(wù)

03 Janus 與 Janus Pro 架構(gòu)

解析DeepSeek Janus Pro論文:多模態(tài)AI領(lǐng)域的革命性突破-AI.x社區(qū)

Janus 和 Janus Pro 架構(gòu)[1]

原始 Janus 模型與 Janus Pro 的架構(gòu)設(shè)計相似,我們可以通過論文中的示意圖來理解。 Janus Pro 模型的核心是一個自回歸 Transformer 架構(gòu)的大語言模型(LLM)。

3.1 Janus Pro 的核心設(shè)計原則

其他統(tǒng)一處理多模態(tài)理解和生成的模型通常采用單一圖像編碼器。但DeepSeek 的研究人員發(fā)現(xiàn),理解與生成任務(wù)對圖像編碼的需求存在本質(zhì)差異,單一編碼器會經(jīng)常受到任務(wù)干擾的影響。因此 Janus 架構(gòu)的核心設(shè)計原則是解耦多模態(tài)理解與生成的視覺編碼,通過為不同任務(wù)類型配置專用編碼器實現(xiàn)功能隔離。

3.2 Janus Pro 圖像編碼器

對于圖像理解任務(wù),Janus 采用 SigLIP 進(jìn)行圖像編碼。SigLIP 是 OpenAI CLIP 模型的改進(jìn)版本,能夠從圖像中提取語義表征,使其非常適合圖像理解類任務(wù)。這些表征被線性映射到 LLM 的輸入嵌入空間。

對于圖像生成任務(wù),Janus 使用了來自自回歸圖像生成模型 LlamaGen 的現(xiàn)有編碼器。這是一個 vector quantization (VQ) tokenizer,可將圖像轉(zhuǎn)換為 ID 序列(譯者注:類似于將一段語音信號轉(zhuǎn)換為文字(語音 → 離散的文字符號),此處是將連續(xù)圖像特征轉(zhuǎn)換為離散的符號(ID)。),每個 ID 都與預(yù)定義向量相關(guān)聯(lián)。然后通過一個訓(xùn)練好的模塊,將這些預(yù)定義向量映射到 LLM 的輸入嵌入空間。

3.3 LLM 的處理過程與輸出

文本與圖像的嵌入向量被拼接形成 LLM 的輸入序列。對于圖像理解任務(wù),直接調(diào)用 LLM 內(nèi)置的文本預(yù)測頭輸出結(jié)果;對于圖像生成任務(wù),則在 LLM 上添加一個圖像解碼頭,由其處理最終的隱藏狀態(tài)(Hidden State,包含輸入序列的語義信息)生成圖像。

3.4 Rectified Flow

解析DeepSeek Janus Pro論文:多模態(tài)AI領(lǐng)域的革命性突破-AI.x社區(qū)

逐步去除圖像噪聲示例[3]

圖像生成過程采用 Rectified Flow 方法。 本文不深入技術(shù)細(xì)節(jié),但可通過對比擴(kuò)散模型(Diffusion Models)直觀理解其優(yōu)勢:從一張純噪聲圖像出發(fā),通過多步驟迭代(如1000步)逐步去噪,最終生成清晰圖像(如貓咪圖片)。該技術(shù)通過路徑優(yōu)化和噪聲抑制,顯著減少生成清晰圖像所需的步驟數(shù)量。

04 Janus Pro 訓(xùn)練過程

解析DeepSeek Janus Pro論文:多模態(tài)AI領(lǐng)域的革命性突破-AI.x社區(qū)

Janus 訓(xùn)練流程示意圖(源自原始 Janus 論文)[2]

上圖描述了 Janus 的訓(xùn)練流程,該圖取自原始 Janus 論文。我們將在本文解釋 Janus Pro 的不同之處。Janus 和 Janus Pro 的訓(xùn)練均分為三個階段。

4.1 第一階段 - Adaptation

本階段目的是讓新增組件與預(yù)訓(xùn)練好的組件有效協(xié)作。 為此,大語言模型(LLM)和圖像編碼器的權(quán)重被凍結(jié),僅訓(xùn)練新引入的組件。這些組件包括將圖像編碼映射到 LLM 輸入嵌入空間的映射模塊,以及圖像生成頭(Image Generation Head)。該階段使用 ImageNet 數(shù)據(jù)進(jìn)行訓(xùn)練,使模型能根據(jù)圖像類別生成對應(yīng)圖像。在 Janus Pro 模型中,本階段在 ImageNet 上的 training steps 有所增加。

4.2 第二階段 - Unified Pre-Training

此階段繼續(xù)訓(xùn)練新組件,同時解凍 LLM 及其內(nèi)置的文本預(yù)測頭,以增強(qiáng)對多模態(tài)嵌入序列的處理能力。 本階段訓(xùn)練樣本類型包含多模態(tài)理解任務(wù)樣本、圖像生成任務(wù)樣本和純文本數(shù)據(jù)。Janus Pro 與原始 Janus 的主要區(qū)別在于移除了本階段的 ImageNet 數(shù)據(jù)。在 Janus Pro 訓(xùn)練中直接使用 text-to-image 數(shù)據(jù),而原始 Janus 模型則從 ImageNet 數(shù)據(jù)起步,逐步增加 text-to-image 數(shù)據(jù)的比例。

有一處值得強(qiáng)調(diào),圖像編碼器的表征在訓(xùn)練過程中與圖像生成的潛在輸出進(jìn)行了對齊,以強(qiáng)化生成過程的語義一致性。

4.3 第三階段 - Supervised Fine-Tuning

第三階段使用指令調(diào)優(yōu)數(shù)據(jù)進(jìn)行監(jiān)督式微調(diào),數(shù)據(jù)包含對話樣本和高質(zhì)量文生圖(text-to-image)樣本。 此階段開始訓(xùn)練圖像理解編碼器,該流程在 Janus 和 Janus Pro 中保持一致。

相較于 Janus,Janus Pro 的其他主要改進(jìn)包括:擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模及模型規(guī)模。模型參數(shù)方面,使用的 LLM 從 15 億參數(shù)擴(kuò)展至 70 億參數(shù)。

05 Janus Pro 的成果

5.1 多模態(tài)理解與生成能力的對比

解析DeepSeek Janus Pro論文:多模態(tài)AI領(lǐng)域的革命性突破-AI.x社區(qū)

Janus Pro 與頂尖多模態(tài)理解及圖像生成模型的比較[1]

上圖為 Janus Pro 與其他高性能模型的對比結(jié)果。

左圖展示了多模態(tài)理解任務(wù)的性能,橫軸為模型參數(shù)量級,縱軸為多個基準(zhǔn)測試的平均準(zhǔn)確率。值得注意的是,Janus-Pro-7B 的表現(xiàn)優(yōu)于其他頂尖模型(如 LLaVA 系列)。更令人矚目的是,這一成績由統(tǒng)一模型實現(xiàn)(LLaVA 模型并非統(tǒng)一架構(gòu))。Janus Pro 還大大超越了以往的統(tǒng)一模型,并在參數(shù)量近乎 TokenFlow-XL 一半的情況下,準(zhǔn)確率略微領(lǐng)先于該模型。

右圖展示了兩個基準(zhǔn)測試的文生圖性能測評結(jié)果。Janus Pro 在生成質(zhì)量上超越了 DALL-E 3、SD3-Medium 等頂級專用圖像生成模型,同時刷新了統(tǒng)一模型在圖像生成領(lǐng)域的最高紀(jì)錄(此圖未完整展示相關(guān)對比)。

5.2 Janus 與 Janus Pro 的生成質(zhì)量對比

解析DeepSeek Janus Pro論文:多模態(tài)AI領(lǐng)域的革命性突破-AI.x社區(qū)

Janus 與 Janus Pro 的生成質(zhì)量對比[1]

圖中直觀展現(xiàn)了 Janus Pro 相較于前代模型的生成質(zhì)量提升。Janus Pro 生成的圖像在細(xì)節(jié)豐富度、語義一致性及視覺真實感上均有顯著優(yōu)化。例如,復(fù)雜場景的構(gòu)圖更精準(zhǔn),光影效果更自然,且文本描述中的隱含需求(如特定藝術(shù)風(fēng)格)被更完整地實現(xiàn)。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the author

AI Papers Academy

At AI Papers Academy, we simplify AI research papers and concepts, making AI more accessible.
Our goal is to save you time by breaking down complex ideas into clear, digestible insights.

END

本期互動內(nèi)容 ??

?如果您正在開發(fā)AI應(yīng)用,DeepSeek Janus Pro 的哪些特性最吸引您考慮使用?

??文中鏈接??

[1]??https://github.com/deepseek-ai/Janus??

[2]??https://arxiv.org/abs/2411.07975??

[3]??https://developer.nvidia.com/blog/improving-diffusion-models-as-an-alternative-to-gans-part-1/??

本文經(jīng)原作者授權(quán),由 Baihai IDP 編譯。 如需轉(zhuǎn)載譯文,請聯(lián)系獲取授權(quán)。

原文鏈接:

??https://aipapersacademy.com/janus-pro/??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦