自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<style id="suvr9"></style>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

炸裂！Deepseek-Janus-Pro能識別圖片地址、看圖講故事

發(fā)布于 2025-2-3 13:57

瀏覽

0收藏

一、Janus-Pro能做5種任務(wù)

1.1 圖片描述

炸裂！Deepseek-Janus-Pro能識別圖片地址、看圖講故事-AI.x社區(qū)

1.2 地點識別

炸裂！Deepseek-Janus-Pro能識別圖片地址、看圖講故事-AI.x社區(qū)

1.3 背景推理

炸裂！Deepseek-Janus-Pro能識別圖片地址、看圖講故事-AI.x社區(qū)

1.4 OCR文字識別

炸裂！Deepseek-Janus-Pro能識別圖片地址、看圖講故事-AI.x社區(qū)

1.5 文圖生成

炸裂！Deepseek-Janus-Pro能識別圖片地址、看圖講故事-AI.x社區(qū)

二、Janus-Pro原理

Janus-Pro的核心設(shè)計原則采用自回歸框架，通過解耦視覺編碼，解決多模態(tài)理解和生成任務(wù)之間的沖突。
通過獨(dú)立的編碼方法將原始輸入轉(zhuǎn)換為特征，然后由統(tǒng)一的自回歸變換器進(jìn)行處理。
對于多模態(tài)理解任務(wù)，使用SigLIP編碼器從圖像中提取高維語義特征，并將其展平為一維序列，通過理解適配器將圖像特征映射到語言模型的輸入空間。
對于視覺生成任務(wù)，使用VQ標(biāo)記器將圖像轉(zhuǎn)換為離散ID，將ID序列展平為一維后，通過生成適配器-將每個ID對應(yīng)的碼本嵌入映射到語言模型的輸入空間。
然后將這些特征序列拼接形成多模態(tài)特征序列，輸入到語言模型中進(jìn)行處理。
例如，在多模態(tài)理解任務(wù)中，模型可以準(zhǔn)確識別圖像中的物體、場景和事件，并生成相應(yīng)的描述。
在視覺生成任務(wù)中，模型可以根據(jù)給定的文本提示生成高質(zhì)量的圖像。
例如，給定提示??一個在陽光下盛開的向日葵，上面有一只蜜蜂??，Janus-Pro能夠生成一幅展示向日葵和蜜蜂的圖像，其中蜜蜂的翅膀在陽光下閃閃發(fā)光，細(xì)節(jié)豐富且具有美感。

炸裂！Deepseek-Janus-Pro能識別圖片地址、看圖講故事-AI.x社區(qū)

三、模型架構(gòu)

炸裂！Deepseek-Janus-Pro能識別圖片地址、看圖講故事-AI.x社區(qū)

Janus-Pro 是一個統(tǒng)一的理解和生成 MLLM，它解耦了視覺編碼，以實現(xiàn)多模態(tài)理解和生成。
Janus-Pro 基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 構(gòu)建。
對于多模態(tài)理解，它使用 SigLIP-Large-Patch16-384 作為視覺編碼器，支持 384 x 384 圖像輸入，生成編碼器的碼本大小為16384，圖像下采樣因子為16。
理解適配器和生成適配器均為兩層MLP。
對于圖像生成，Janus-Pro 使用此處的分詞器，下采樣率為 16。

四、訓(xùn)練技巧

Janus-Pro的訓(xùn)練過程分為三個階段。

在第一階段，主要訓(xùn)練適配器和圖像頭部。

通過增加訓(xùn)練步數(shù)，使模型能夠在固定語言模型參數(shù)的情況下，通過ImageNet數(shù)據(jù)集有效建模像素依賴關(guān)系，生成合理圖像。

在第二階段，預(yù)訓(xùn)練文本到圖像。
Janus-Pro去掉了ImageNet數(shù)據(jù)，增加了約9000萬樣本，包括圖像字幕數(shù)據(jù)集（如YFCC）以及用于表格、圖表和文檔理解的數(shù)據(jù)（如Docmatix），使用普通文本到圖像數(shù)據(jù)進(jìn)行訓(xùn)練，提高了訓(xùn)練效率。
在第三階段，監(jiān)督微調(diào)。
Janus-Pro調(diào)整了不同類型數(shù)據(jù)的比例，將多模態(tài)數(shù)據(jù)、純文本數(shù)據(jù)和文本到圖像數(shù)據(jù)的比例從7:3:10調(diào)整為5:1:4，從而在保持強(qiáng)大視覺生成能力的同時，提升了多模態(tài)理解性能。
在多模態(tài)理解數(shù)據(jù)中，將圖像的長邊調(diào)整到384像素，短邊用背景顏色填充至384像素。
在視覺生成數(shù)據(jù)中，將圖像的短邊調(diào)整到384像素，長邊裁剪至384像素。
通過序列打包技術(shù)提高訓(xùn)練效率，并在單個訓(xùn)練步驟中按照指定比例混合所有數(shù)據(jù)類型。

炸裂！Deepseek-Janus-Pro能識別圖片地址、看圖講故事-AI.x社區(qū)

??https://github.com/deepseek-ai/Janus??

??https://hf-mirror.com/deepseek-ai/Janus-Pro-7B??

??https://bgithub.xyz/deepseek-i/Janus/blob/main/janus_pro_tech_report.pdf??

本文轉(zhuǎn)載自?? CourseAI??，作者： CourseAI

標(biāo)簽

贊

收藏

回復(fù)

舉報

社區(qū)頭條

回復(fù)

相關(guān)推薦

中科大等意外發(fā)現(xiàn)：大模型不看圖也能正確回答視覺問題！

Crystalcxt ? 2169瀏覽 ? 0回復(fù)
谷歌重磅發(fā)布Gemini 1.5 Pro：能自動寫影評，理解視頻！

Aceryt ? 4222瀏覽 ? 0回復(fù)
Leonardo新增圖片樣式引導(dǎo)，能精準(zhǔn)控制生成圖片啦！

Aceryt ? 2726瀏覽 ? 0回復(fù)
標(biāo)注受限也能識別多標(biāo)簽圖像！中山大學(xué)等發(fā)布異構(gòu)語義轉(zhuǎn)移HST框架 | IJCV 2024

duhorse ? 2239瀏覽 ? 0回復(fù)
DeepSeek AI發(fā)布Janus：一款擁有圖像生成能力的1.3B多模態(tài)模型

Halo咯咯 ? 5509瀏覽 ? 0回復(fù)
藝術(shù)家泄露OpenAI Sora視頻生成神器，附地址

云原生AI百寶箱 ? 1846瀏覽 ? 0回復(fù)
AI賦能教育：人工智能在教育中的八大應(yīng)用實例

風(fēng)云2002_1 ? 9912瀏覽 ? 0回復(fù)
谷歌AI發(fā)布Gemini 2.0 Flash：比Gemini 1.5 Pro快2倍的新AI模型

Halo咯咯 ? 5622瀏覽 ? 0回復(fù)
DeepSeek 再爆大招，Janus-Pro 炸裂出場！

玄姐聊AGI ? 1665瀏覽 ? 0回復(fù)
DeepSeek多模態(tài)大模型Janus、Janus-Pro模型架構(gòu)及優(yōu)化方法淺談

大模型自然語言處理 ? 2836瀏覽 ? 0回復(fù)
10分鐘讓W(xué)PS接入DeepSeek，實現(xiàn)AI賦能

AI取經(jīng)路 ? 4163瀏覽 ? 0回復(fù)
Deepseek算命？AI竟然能預(yù)測人生！我試了，結(jié)果讓我詫異.....

AI博物院 ? 3947瀏覽 ? 0回復(fù)
DeepSeek沖擊下，百度的開源牌能打響嗎？

51CTO技術(shù)棧 ? 1598瀏覽 ? 0回復(fù)
解析DeepSeek Janus Pro論文：多模態(tài)AI領(lǐng)域的革命性突破

Baihai_IDP ? 1772瀏覽 ? 0回復(fù)
3D點云賦能電影級特效：GEN3C效果炸裂??！

angel ? 2067瀏覽 ? 0回復(fù)
Google Gemma 3：性能“炸裂”還是榜單優(yōu)化？

amei2000go ? 1360瀏覽 ? 0回復(fù)
公式識別：利用分層且聚焦細(xì)節(jié)的網(wǎng)絡(luò)提升復(fù)雜公式識別能力

大模型自然語言處理 ? 888瀏覽 ? 0回復(fù)
ICLR 2025 | 被AI“洗圖”也能識別版權(quán)！水印技術(shù)重大突破：VINE模型全面碾壓舊方法!

angel ? 1250瀏覽 ? 0回復(fù)
AI 從此能“看圖思考”？

AI博物院 ? 626瀏覽 ? 0回復(fù)

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM 5天前發(fā)布
Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent：復(fù)雜文檔理解性能爆炸12%，錯誤率直降21% 2025-04-14 23:56:55發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： PlanRAG：商業(yè)決策驅(qū)動

下一篇：李飛飛+50美元+蒸餾 S1=? DeepSeekR1

社區(qū)精華內(nèi)容

目錄