自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

炸裂!Deepseek-Janus-Pro能識別圖片地址、看圖講故事

發(fā)布于 2025-2-3 13:57
瀏覽
0收藏

一、Janus-Pro能做5種任務(wù) 

1.1 圖片描述

炸裂!Deepseek-Janus-Pro能識別圖片地址、看圖講故事-AI.x社區(qū)

1.2 地點識別

炸裂!Deepseek-Janus-Pro能識別圖片地址、看圖講故事-AI.x社區(qū)

1.3 背景推理

炸裂!Deepseek-Janus-Pro能識別圖片地址、看圖講故事-AI.x社區(qū)

1.4 OCR文字識別

炸裂!Deepseek-Janus-Pro能識別圖片地址、看圖講故事-AI.x社區(qū)

1.5 文圖生成

炸裂!Deepseek-Janus-Pro能識別圖片地址、看圖講故事-AI.x社區(qū)

二、Janus-Pro原理 

  • Janus-Pro的核心設(shè)計原則采用自回歸框架,通過解耦視覺編碼,解決多模態(tài)理解和生成任務(wù)之間的沖突。
  • 通過獨(dú)立的編碼方法將原始輸入轉(zhuǎn)換為特征,然后由統(tǒng)一的自回歸變換器進(jìn)行處理。
  • 對于多模態(tài)理解任務(wù),使用SigLIP編碼器從圖像中提取高維語義特征,并將其展平為一維序列,通過理解適配器將圖像特征映射到語言模型的輸入空間。
  • 對于視覺生成任務(wù),使用VQ標(biāo)記器將圖像轉(zhuǎn)換為離散ID,將ID序列展平為一維后,通過生成適配器-將每個ID對應(yīng)的碼本嵌入映射到語言模型的輸入空間。
  • 然后將這些特征序列拼接形成多模態(tài)特征序列,輸入到語言模型中進(jìn)行處理。
  • 例如,在多模態(tài)理解任務(wù)中,模型可以準(zhǔn)確識別圖像中的物體、場景和事件,并生成相應(yīng)的描述。
  • 在視覺生成任務(wù)中,模型可以根據(jù)給定的文本提示生成高質(zhì)量的圖像。
  • 例如,給定提示??一個在陽光下盛開的向日葵,上面有一只蜜蜂??,Janus-Pro能夠生成一幅展示向日葵和蜜蜂的圖像,其中蜜蜂的翅膀在陽光下閃閃發(fā)光,細(xì)節(jié)豐富且具有美感。

炸裂!Deepseek-Janus-Pro能識別圖片地址、看圖講故事-AI.x社區(qū)

三、模型架構(gòu) 

炸裂!Deepseek-Janus-Pro能識別圖片地址、看圖講故事-AI.x社區(qū)

  • Janus-Pro 是一個統(tǒng)一的理解和生成 MLLM,它解耦了視覺編碼,以實現(xiàn)多模態(tài)理解和生成。
  • Janus-Pro 基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 構(gòu)建。
  • 對于多模態(tài)理解,它使用 SigLIP-Large-Patch16-384 作為視覺編碼器,支持 384 x 384 圖像輸入,生成編碼器的碼本大小為16384,圖像下采樣因子為16。
  • 理解適配器和生成適配器均為兩層MLP。
  • 對于圖像生成,Janus-Pro 使用此處的分詞器,下采樣率為 16。

四、訓(xùn)練技巧 

Janus-Pro的訓(xùn)練過程分為三個階段。

  • 在第一階段,主要訓(xùn)練適配器和圖像頭部。
  • 通過增加訓(xùn)練步數(shù),使模型能夠在固定語言模型參數(shù)的情況下,通過ImageNet數(shù)據(jù)集有效建模像素依賴關(guān)系,生成合理圖像。
  • 在第二階段,預(yù)訓(xùn)練文本到圖像。
  • Janus-Pro去掉了ImageNet數(shù)據(jù),增加了約9000萬樣本,包括圖像字幕數(shù)據(jù)集(如YFCC)以及用于表格、圖表和文檔理解的數(shù)據(jù)(如Docmatix),使用普通文本到圖像數(shù)據(jù)進(jìn)行訓(xùn)練,提高了訓(xùn)練效率。
  • 在第三階段,監(jiān)督微調(diào)。
  • Janus-Pro調(diào)整了不同類型數(shù)據(jù)的比例,將多模態(tài)數(shù)據(jù)、純文本數(shù)據(jù)和文本到圖像數(shù)據(jù)的比例從7:3:10調(diào)整為5:1:4,從而在保持強(qiáng)大視覺生成能力的同時,提升了多模態(tài)理解性能。
  • 在多模態(tài)理解數(shù)據(jù)中,將圖像的長邊調(diào)整到384像素,短邊用背景顏色填充至384像素。
  • 在視覺生成數(shù)據(jù)中,將圖像的短邊調(diào)整到384像素,長邊裁剪至384像素。
  • 通過序列打包技術(shù)提高訓(xùn)練效率,并在單個訓(xùn)練步驟中按照指定比例混合所有數(shù)據(jù)類型。

炸裂!Deepseek-Janus-Pro能識別圖片地址、看圖講故事-AI.x社區(qū)

??https://github.com/deepseek-ai/Janus??

??https://hf-mirror.com/deepseek-ai/Janus-Pro-7B??

??https://bgithub.xyz/deepseek-i/Janus/blob/main/janus_pro_tech_report.pdf??

 

本文轉(zhuǎn)載自?? CourseAI??,作者: CourseAI

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦