自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<ruby id="g8dpr"><tt id="g8dpr"><abbr id="g8dpr"></abbr></tt></ruby>

<cite id="g8dpr"><rp id="g8dpr"><form id="g8dpr"></form></rp></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

DeepSeek多模態(tài)大模型Janus、Janus-Pro模型架構(gòu)及優(yōu)化方法淺談原創(chuàng)

大模型自然語(yǔ)言處理

發(fā)布于 2025-2-10 08:42

瀏覽

0收藏

deepseek開(kāi)源的多模態(tài)大模型-Janus再次升級(jí)，也來(lái)簡(jiǎn)單看下Janus的架構(gòu)設(shè)計(jì)。核心創(chuàng)新點(diǎn)：傳統(tǒng)的多模態(tài)模型通常使用單一視覺(jué)編碼器來(lái)處理多模態(tài)理解和生成任務(wù)，這會(huì)導(dǎo)致任務(wù)之間的沖突，因?yàn)檫@兩種任務(wù)對(duì)視覺(jué)信息的需求粒度不同。Janus 通過(guò)將視覺(jué)編碼解耦為獨(dú)立的路徑，分別處理多模態(tài)理解和生成任務(wù)，使兩個(gè)任務(wù)得到統(tǒng)一，并取得了比較好的性能。

多模態(tài)理解：使用 SigLIP 編碼器提取圖像的高級(jí)語(yǔ)義信息，適合理解任務(wù)。
視覺(jué)生成：使用 VQ Tokenizer 或 LlamaGen Tokenizer 提取圖像的細(xì)節(jié)信息，適合生成任務(wù)。

DeepSeek多模態(tài)大模型Janus、Janus-Pro模型架構(gòu)及優(yōu)化方法淺談-AI.x社區(qū)

方法架構(gòu)

DeepSeek多模態(tài)大模型Janus、Janus-Pro模型架構(gòu)及優(yōu)化方法淺談-AI.x社區(qū)

文本理解路徑直接通過(guò) LLM 的分詞器處理。多模態(tài)理解路徑通過(guò) SigLIP 編碼器和理解適配器處理。視覺(jué)生成路徑通過(guò) VQ Tokenizer 和生成適配器處理。所有路徑的特征序列最終被拼接并輸入到統(tǒng)一的 Transformer 中進(jìn)行處理

Janus 的架構(gòu)設(shè)計(jì)：

文本理解：使用語(yǔ)言模型（LLM）自帶的分詞器將文本轉(zhuǎn)換為離散 ID，并獲取對(duì)應(yīng)的特征表示。
多模態(tài)理解：使用 SigLIP 編碼器從圖像中提取高維語(yǔ)義特征，然后通過(guò)理解適配器（Und. Adaptor）將這些特征映射到 LLM 的輸入空間。
視覺(jué)生成：使用 VQ Tokenizer 將圖像轉(zhuǎn)換為離散 ID，然后通過(guò)生成適配器（Gen. Adaptor）將這些 ID 映射到 LLM 的輸入空間。

將上述特征序列拼接后輸入到統(tǒng)一的自回歸 Transformer 中進(jìn)行處理。

訓(xùn)練過(guò)程

DeepSeek多模態(tài)大模型Janus、Janus-Pro模型架構(gòu)及優(yōu)化方法淺談-AI.x社區(qū)

訓(xùn)練過(guò)程

第一階段：訓(xùn)練適配器和圖像頭
在嵌入空間內(nèi)創(chuàng)建視覺(jué)和語(yǔ)言元素之間的概念聯(lián)系，使 LLM（語(yǔ)言模型）能夠理解圖像中顯示的實(shí)體（讓LLM學(xué)會(huì)將SigLIP特征與實(shí)體名詞關(guān)聯(lián)），并具備初步的視覺(jué)生成能力。方法：凍結(jié)視覺(jué)編碼器和 LLM，只更新理解適配器、生成適配器和圖像頭中的可訓(xùn)練參數(shù)。這一階段主要關(guān)注于讓模型學(xué)會(huì)如何將視覺(jué)信息和語(yǔ)言信息進(jìn)行初步的融合和理解。
第二階段：統(tǒng)一預(yù)訓(xùn)練
通過(guò)多模態(tài)語(yǔ)料庫(kù)的訓(xùn)練，讓 Janus 能夠同時(shí)學(xué)習(xí)多模態(tài)理解和生成任務(wù)。方法：解凍 LLM，訓(xùn)練除了encoder的所有部分，并利用多種類(lèi)型的訓(xùn)練數(shù)據(jù)，包括純文本數(shù)據(jù)、多模態(tài)理解數(shù)據(jù)和視覺(jué)生成數(shù)據(jù)。受 Pixart 的啟發(fā)，首先使用 ImageNet-1k 數(shù)據(jù)集進(jìn)行簡(jiǎn)單的視覺(jué)生成訓(xùn)練，幫助模型掌握基本的像素依賴(lài)性。隨后，使用通用的文本到圖像數(shù)據(jù)增強(qiáng)模型的開(kāi)放域視覺(jué)生成能力。這一階段的訓(xùn)練數(shù)據(jù)包括純文本數(shù)據(jù)、多模態(tài)理解數(shù)據(jù)（如 WikiHow 和 WIT 數(shù)據(jù)集）和視覺(jué)生成數(shù)據(jù)（如 ImageNet-1k 和其他圖像-標(biāo)題對(duì)數(shù)據(jù)）。
第三階段：監(jiān)督微調(diào)
通過(guò)指令調(diào)整數(shù)據(jù)對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)，增強(qiáng)其指令跟隨和對(duì)話能力。方法：微調(diào)除生成編碼器（繼續(xù)凍結(jié)生成編碼器）之外的所有參數(shù)。專(zhuān)注于監(jiān)督答案，同時(shí)屏蔽系統(tǒng)和用戶提示。使用混合數(shù)據(jù)進(jìn)行微調(diào)，包括純文本對(duì)話數(shù)據(jù)、多模態(tài)理解數(shù)據(jù)和視覺(jué)生成數(shù)據(jù)，確保模型在各種場(chǎng)景下的多功能性。

Janus-Pro

Janus-Pro的網(wǎng)絡(luò)結(jié)構(gòu)和Janus基本一致，主要的改進(jìn)點(diǎn)是在訓(xùn)練策略、數(shù)據(jù)、模型大小上。

DeepSeek多模態(tài)大模型Janus、Janus-Pro模型架構(gòu)及優(yōu)化方法淺談-AI.x社區(qū)

訓(xùn)練改進(jìn)

三個(gè)階段訓(xùn)練過(guò)程改進(jìn)：

第一階段：增加了在ImageNet數(shù)據(jù)集上的訓(xùn)練步數(shù)，即使在固定LLM參數(shù)的情況下，模型也能有效建模像素依賴(lài)關(guān)系，并基于類(lèi)別名稱(chēng)生成合理圖像。
第二階段：去掉了ImageNet數(shù)據(jù)，直接使用正常的文本到圖像數(shù)據(jù)進(jìn)行訓(xùn)練，使模型能夠根據(jù)密集描述生成圖像。這種重新設(shè)計(jì)的方法提高了訓(xùn)練效率和整體性能。
第三階段：在監(jiān)督微調(diào)過(guò)程中，調(diào)整了不同類(lèi)型數(shù)據(jù)的比例，將多模態(tài)數(shù)據(jù)、純文本數(shù)據(jù)和文本到圖像數(shù)據(jù)的比例從7:3:10調(diào)整為5:1:4。這種調(diào)整在保持視覺(jué)生成能力的同時(shí)，提高了多模態(tài)理解性能。

數(shù)據(jù)擴(kuò)展

Janus-Pro在多模態(tài)理解和視覺(jué)生成方面擴(kuò)展了訓(xùn)練數(shù)據(jù)：

1、多模態(tài)理解

在第二階段預(yù)訓(xùn)練數(shù)據(jù)中，參考DeepSeekVL2，增加了約9000萬(wàn)樣本，包括圖像字幕數(shù)據(jù)集（如YFCC）以及表格、圖表和文檔理解數(shù)據(jù)（如Docmatix）。
在第三階段監(jiān)督微調(diào)數(shù)據(jù)中，加入了DeepSeek-VL2中的額外數(shù)據(jù)集，如MEME理解、中文對(duì)話數(shù)據(jù)和增強(qiáng)對(duì)話體驗(yàn)的數(shù)據(jù)集。

2、視覺(jué)生成

觀察到Janus中使用的現(xiàn)實(shí)世界數(shù)據(jù)質(zhì)量較低且噪聲較大，導(dǎo)致文本到圖像生成不穩(wěn)定。Janus-Pro加入了約7200萬(wàn)合成美學(xué)數(shù)據(jù)樣本，使現(xiàn)實(shí)數(shù)據(jù)與合成數(shù)據(jù)的比例達(dá)到1:1。這些合成數(shù)據(jù)的提示是公開(kāi)可用的，實(shí)驗(yàn)表明，模型在合成數(shù)據(jù)上訓(xùn)練時(shí)收斂更快，生成的文本到圖像輸出不僅更穩(wěn)定，而且美學(xué)質(zhì)量顯著提高。

模型擴(kuò)展

Janus-Pro將模型規(guī)模從1.5B擴(kuò)展到7B，驗(yàn)證了解耦視覺(jué)編碼方法的可擴(kuò)展性。使用更大的LLM時(shí)，多模態(tài)理解和視覺(jué)生成的損失收斂速度顯著提高。進(jìn)一步證明了解耦視覺(jué)編碼方法的可擴(kuò)展性。

實(shí)驗(yàn)

DeepSeek多模態(tài)大模型Janus、Janus-Pro模型架構(gòu)及優(yōu)化方法淺談-AI.x社區(qū)

DeepSeek多模態(tài)大模型Janus、Janus-Pro模型架構(gòu)及優(yōu)化方法淺談-AI.x社區(qū)

DeepSeek多模態(tài)大模型Janus、Janus-Pro模型架構(gòu)及優(yōu)化方法淺談-AI.x社區(qū)

參考文獻(xiàn)

janus：Janus:DecouplingVisualEncoding for Unified Multimodal Understanding and Generation，https://arxiv.org/pdf/2410.13848
janus_pro：https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf

本文轉(zhuǎn)載自公眾號(hào)大模型自然語(yǔ)言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/nuYh0xqN5JUWVgPuA7g6uQ??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

多模態(tài)

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

回復(fù)

相關(guān)推薦

多模態(tài)視覺(jué)-語(yǔ)言大模型的架構(gòu)演進(jìn)

angel ? 4227瀏覽 ? 0回復(fù)
淺談大模型RAG架構(gòu)落地的十大挑戰(zhàn)

玄姐聊AGI ? 3478瀏覽 ? 0回復(fù)
模型更新，評(píng)測(cè)集優(yōu)化：多模態(tài)大模型評(píng)測(cè)升級(jí)！

戀戀青鳥(niǎo) ? 4910瀏覽 ? 0回復(fù)
多模態(tài)大模型之模態(tài)融合的注意點(diǎn)及難點(diǎn)

AI探索時(shí)代 ? 5003瀏覽 ? 0回復(fù)
多模態(tài)大模型：基礎(chǔ)架構(gòu)

魯班模錘1 ? 2110瀏覽 ? 0回復(fù)
Janus 統(tǒng)一多模態(tài)理解和生成

kede96 ? 2288瀏覽 ? 0回復(fù)
DeepSeek AI發(fā)布Janus：一款擁有圖像生成能力的1.3B多模態(tài)模型

Halo咯咯 ? 5515瀏覽 ? 0回復(fù)
大模型面經(jīng)—如何評(píng)估顯卡利用率及顯卡運(yùn)用優(yōu)化方法

shizhi02 ? 2467瀏覽 ? 0回復(fù)
多模態(tài)大模型數(shù)據(jù)構(gòu)造方法

shizhi02 ? 2442瀏覽 ? 0回復(fù)
大模型的三大架構(gòu)及T5體驗(yàn)

一起AI技術(shù) ? 2672瀏覽 ? 0回復(fù)
比Janus更強(qiáng)！15M數(shù)據(jù)實(shí)現(xiàn)顛覆性統(tǒng)一多模態(tài)大模型！華為諾亞提出ILLUME

angel ? 2664瀏覽 ? 0回復(fù)
OCR-free感知多模態(tài)大模型技術(shù)鏈路及訓(xùn)練數(shù)據(jù)細(xì)節(jié)

大模型自然語(yǔ)言處理 ? 2484瀏覽 ? 0回復(fù)
Deepseek-Janus-Pro能識(shí)別圖片地址、看圖講故事

CourseAI ? 5328瀏覽 ? 0回復(fù)
DeepSeek 再爆大招，Janus-Pro 炸裂出場(chǎng)！

玄姐聊AGI ? 1665瀏覽 ? 0回復(fù)
解析DeepSeek Janus Pro論文：多模態(tài)AI領(lǐng)域的革命性突破

Baihai_IDP ? 1776瀏覽 ? 0回復(fù)
Phi-4-multimodal：圖、文、音頻統(tǒng)一的多模態(tài)大模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)

大模型自然語(yǔ)言處理 ? 1794瀏覽 ? 0回復(fù)
DeepSeek-R1的方法遷移到多模態(tài)大模型-開(kāi)源Vision-R1實(shí)現(xiàn)方法思路

大模型自然語(yǔ)言處理 ? 1648瀏覽 ? 0回復(fù)
Qwen-VL系列多模態(tài)大模型技術(shù)演進(jìn)-模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)

大模型自然語(yǔ)言處理 ? 2763瀏覽 ? 0回復(fù)
Kimi-VL開(kāi)源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析

大模型自然語(yǔ)言處理 ? 1015瀏覽 ? 0回復(fù)

大模型自然語(yǔ)言處理

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Kimi-VL開(kāi)源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析 2025-04-16 07:08:19發(fā)布
十大PDF解析工具在不同文檔類(lèi)別中的比較研究 2025-04-07 06:31:37發(fā)布

熱門(mén)推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：多模態(tài)大模型Reyes增加batch推理方式，提升推理速度

下一篇： RAG范式演進(jìn)及Agentic-RAG總結(jié)綜述

社區(qū)精華內(nèi)容

目錄

<blockquote id="huesw"><p id="huesw"></p></blockquote>

<style id="huesw"></style>

<legend id="huesw"><track id="huesw"></track></legend>