自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Qwen-VL系列多模態(tài)大模型技術(shù)演進(jìn)-模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié) 原創(chuàng) 精華

發(fā)布于 2025-3-25 10:02
瀏覽
0收藏

Qwen2.5B-VL-32B開源之際,記錄一下Qwen-VL系列多模態(tài)大模型技術(shù)演進(jìn)-模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié),僅供參考。

系列模型的應(yīng)用場景:

  • Qwen-VL:基礎(chǔ)圖像理解和對話。
  • Qwen2-VL:圖像+短視頻理解,代理任務(wù)。
  • Qwen2.5-VL:長視頻、復(fù)雜文檔解析、多語言支持,適用于更廣泛的現(xiàn)實場景。

模型架構(gòu)演進(jìn)一覽(其實差不多,模型側(cè)有一些細(xì)節(jié)改動,系列更多還是數(shù)據(jù)上的增量訓(xùn)練):

模型

大型語言模型 (LLM)

視覺編碼器 (ViT)

視覺-語言連接機(jī)制

位置編碼

Qwen-VL

Qwen-7B

ViT-bigG(OpenClip 初始化),固定分辨率 448×448

位置感知 VL Adapter(256 查詢,交叉注意力)

2D 絕對位置編碼

Qwen2-VL

Qwen2

ViT(DFN 初始化),動態(tài)分辨率支持,最大 16384 標(biāo)記

MLP 壓縮(2×2 token合并)

2D-RoPE + M-RoPE(多模態(tài))

Qwen2.5-VL

Qwen2.5

重新設(shè)計 ViT,原生分辨率,窗口注意力,3D patch

MLP 壓縮(4 patch 合并)

2D-RoPE + MRoPE(絕對時間)

一、Qwen-VL

模型架構(gòu)

  1. 大型語言模型(LLM):Qwen-7B
  2. 視覺編碼器:采用Vision Transformer(ViT)架構(gòu),初始化權(quán)重來自O(shè)penClip的ViT-bigG。
  • 輸入處理:輸入圖像被調(diào)整到特定分辨率,然后被分割成固定大小的patch。
  • 特征提取:ViT通過自注意力機(jī)制來捕捉圖像中的全局和局部信息,生成一組圖像特征。
  1. 位置感知的視覺-語言適配器:為了緩解長圖像特征序列帶來的效率問題,Qwen-VL引入了一個視覺-語言適配器。這個適配器的作用是將圖像特征序列壓縮到一個固定長度(例如256),以便更好地與語言模型結(jié)合。
  • 壓縮機(jī)制:適配器包含一個單層交叉注意力模塊,使用可學(xué)習(xí)的查詢向量對圖像特征進(jìn)行壓縮。
  • 位置信息:為了保持位置信息的完整性,適配器在交叉注意力機(jī)制中使用2D絕對位置編碼。
  1. 輸入和輸出
  • 圖像輸入:圖像通過視覺編碼器和適配器處理后,生成固定長度的圖像特征序列。為了區(qū)分圖像特征輸入和文本特征輸入,特殊標(biāo)記(< img> 和 < /img>)被添加到圖像特征序列的開頭和結(jié)尾。
  • 邊界框輸入和輸出:為了增強(qiáng)模型的細(xì)粒度視覺理解能力,Qwen-VL支持邊界框輸入和輸出。邊界框通過標(biāo)準(zhǔn)化和字符串格式化處理,使用特殊標(biāo)記< box>組?進(jìn)行區(qū)分。

訓(xùn)練方法

Qwen-VL系列多模態(tài)大模型技術(shù)演進(jìn)-模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)-AI.x社區(qū)

訓(xùn)練過程分為三個階段:兩個預(yù)訓(xùn)練階段和一個指令微調(diào)階段。

階段1 預(yù)訓(xùn)練
  • 目標(biāo):利用大規(guī)模、弱標(biāo)注的圖像-文本對數(shù)據(jù)訓(xùn)練模型,優(yōu)化視覺編碼器和視覺-語言適配器,同時凍結(jié)大型語言模型。
  • 數(shù)據(jù)集:從多個公開來源(如 LAION、DataComp、Coyo 等)和內(nèi)部數(shù)據(jù)中收集 50 億圖像-文本對,清理后剩 14 億(英語 77.3%,中文 22.7%)。數(shù)據(jù)清理后保留率 28%,數(shù)據(jù)集細(xì)節(jié)如下:

Qwen-VL系列多模態(tài)大模型技術(shù)演進(jìn)-模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)-AI.x社區(qū)

  • 訓(xùn)練細(xì)節(jié)

     a.輸入圖像分辨率:224X224。

     b.訓(xùn)練目標(biāo):最小化文本標(biāo)記的交叉熵。

     c.超參數(shù):最大學(xué)習(xí)率 2X10-4,批量大小 30720,訓(xùn)練 50,000 步,處理約 15 億樣本。

階段2 多任務(wù)預(yù)訓(xùn)練
  • 目標(biāo):引入高質(zhì)量、細(xì)粒度標(biāo)注數(shù)據(jù),提升模型的多任務(wù)能力,解鎖并訓(xùn)練整體模型。
  • 數(shù)據(jù)集:涵蓋 7 個任務(wù)(說明、VQA、對齊、引用對齊、接地說明、OCR、純文本自回歸),數(shù)據(jù)來源包括 GRIT、Visual Genome、RefCOCO 等,以及內(nèi)部數(shù)據(jù)和合成 OCR 數(shù)據(jù),總計約 77M 樣本。Qwen-VL系列多模態(tài)大模型技術(shù)演進(jìn)-模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)-AI.x社區(qū)
  • 訓(xùn)練數(shù)據(jù)格式:Qwen-VL系列多模態(tài)大模型技術(shù)演進(jìn)-模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)-AI.x社區(qū)
  • 訓(xùn)練細(xì)節(jié)

    a.視覺編碼器分辨率提升至 448X448,移除窗口和全局注意力機(jī)制。

    b.數(shù)據(jù)格式:交錯圖像-文本序列,長度 2048。

    c.訓(xùn)練目標(biāo)與預(yù)訓(xùn)練階段一致。

  • 改進(jìn):更高的分辨率減少信息丟失,任務(wù)多樣性增強(qiáng)模型能力。
階段3 SFT
  • 目標(biāo):通過指令微調(diào)提升 Qwen-VL 的指令遵循和對話能力,生成 Qwen-VL-Chat。
  • 數(shù)據(jù)集:使用 350k 指令調(diào)整數(shù)據(jù),包括 LLM 自生成的圖像說明/對話數(shù)據(jù)、手動標(biāo)注和模型生成的定位/多圖像理解數(shù)據(jù),以及多模態(tài)和純文本對話數(shù)據(jù)的混合。
  • 訓(xùn)練數(shù)據(jù)格式:Qwen-VL系列多模態(tài)大模型技術(shù)演進(jìn)-模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)-AI.x社區(qū)
  • 訓(xùn)練細(xì)節(jié):凍結(jié)視覺編碼器,僅優(yōu)化語言模型和適配器。
  • 結(jié)果:模型有效遷移定位和多圖像理解能力至多種語言和問題類型,同時保持對話通用性。

超參數(shù)細(xì)節(jié)

Qwen-VL系列多模態(tài)大模型技術(shù)演進(jìn)-模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)-AI.x社區(qū)

三階段訓(xùn)練超參數(shù)細(xì)節(jié)

二、Qwen2-VL

Qwen2-VL總體沿用了

模型架構(gòu)

Qwen-VL系列多模態(tài)大模型技術(shù)演進(jìn)-模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)-AI.x社區(qū)

1. 視覺編碼器:

沿用qwen-vl的形式視覺編碼器ViT,但有如下幾點(diǎn)改進(jìn):

  • 動態(tài)分辨率支持:Qwen2-VL引入了“Naive Dynamic Resolution”機(jī)制,允許模型動態(tài)地將不同分辨率的圖像轉(zhuǎn)換為不同數(shù)量的視覺tokens。這種靈活性使得模型能夠更有效地處理各種分辨率的圖像,而不會損失細(xì)節(jié)信息。
  • 2D-RoPE:為了更好地捕捉圖像的空間信息,Qwen2-VL在ViT中引入了二維旋轉(zhuǎn)位置嵌入(2D-RoPE)。傳統(tǒng)的RoPE用于一維序列,而2D-RoPE則擴(kuò)展到二維空間,能夠同時捕捉圖像的高度和寬度信息。
  • 壓縮機(jī)制:在推理階段,Qwen2-VL使用一個簡單的多層感知機(jī)(MLP)層來壓縮相鄰的2x2token為一個token,以減少每個圖像的視覺token數(shù)量。有助于減少計算負(fù)擔(dān),同時保持模型的性能。
2. 多模態(tài)旋轉(zhuǎn)位置嵌入(M-RoPE)

Qwen-VL系列多模態(tài)大模型技術(shù)演進(jìn)-模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)-AI.x社區(qū)

M-RoPE是Qwen2-VL的創(chuàng)新點(diǎn),用于建模多模態(tài)輸入的位置信息。傳統(tǒng)的RoPE僅限于一維序列,而M-RoPE則擴(kuò)展到多模態(tài)輸入。實現(xiàn)方式如下:

  • 分解位置嵌入:M-RoPE將原始的旋轉(zhuǎn)嵌入分解為三個組件:時間、高度和寬度。對于文本輸入,這三個組件使用相同的位置ID,使其功能上等同于1D-RoPE。
  • 多模態(tài)應(yīng)用:在處理圖像時,時間ID保持不變,而高度和寬度組件根據(jù)標(biāo)記在圖像中的位置分配不同的ID。對于視頻,時間ID隨著每一幀的增加而遞增,而高度和寬度組件的ID分配模式與圖像相同。
3. 統(tǒng)一的圖像和視頻理解

Qwen2-VL采用混合訓(xùn)練方法,結(jié)合圖像和視頻數(shù)據(jù)進(jìn)行訓(xùn)練,以確保模型在圖像理解和視頻理解方面的能力。訓(xùn)練策略如下:

  • 視頻采樣:為了盡可能完整地保留視頻信息,Qwen2-VL每秒采樣兩幀視頻。此外,使用3D卷積來處理視頻輸入,允許模型處理3D管狀結(jié)構(gòu)而不是2D補(bǔ)丁,從而能夠處理更多的視頻幀而不增加序列長度。
  • 動態(tài)調(diào)整分辨率:為了平衡長視頻處理的計算需求和整體訓(xùn)練效率,Qwen2-VL動態(tài)調(diào)整每個視頻幀的分辨率,限制每個視頻的總標(biāo)記數(shù)為16384。這種策略確保了模型在處理長視頻時的效率和性能。

訓(xùn)練方法

階段1:預(yù)訓(xùn)練

通過大量的圖像-文本對,訓(xùn)練ViT以提取圖像中的特征,并將其與文本信息相結(jié)合。 ? 目標(biāo):專注于訓(xùn)練視覺Transformer(ViT)組件,以增強(qiáng)大型語言模型(LLM)的語義理解能力。 ? 數(shù)據(jù):使用大規(guī)模的圖像-文本對數(shù)據(jù)集進(jìn)行訓(xùn)練,以提高模型對圖像語義的理解。

階段2:全參數(shù)預(yù)訓(xùn)練

通過更廣泛的數(shù)據(jù)集,訓(xùn)練模型在多種任務(wù)上的表現(xiàn),特別是復(fù)雜的多模態(tài)任務(wù)。 ? 目標(biāo):解鎖所有參數(shù)并進(jìn)行更廣泛的數(shù)據(jù)訓(xùn)練,實現(xiàn)更全面的學(xué)習(xí)。 ? 數(shù)據(jù):引入更多樣化的數(shù)據(jù)集,包括圖像-文本對、OCR數(shù)據(jù)、交錯圖像-文本文章、視覺問答數(shù)據(jù)集、視頻對話和圖像知識數(shù)據(jù)集。

階段3:SFT

通過SFT,訓(xùn)練模型理解和執(zhí)行各種指令的能力,特別是在多模態(tài)任務(wù)中。

  • 目標(biāo):凍結(jié)ViT參數(shù),專門對LLM進(jìn)行微調(diào),優(yōu)化其在指令遵循任務(wù)上的表現(xiàn)。
  • 數(shù)據(jù):使用指令遵循數(shù)據(jù)集進(jìn)行訓(xùn)練,涵蓋純文本對話數(shù)據(jù)和多模態(tài)對話數(shù)據(jù)。數(shù)據(jù)格式如下:Qwen-VL系列多模態(tài)大模型技術(shù)演進(jìn)-模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)-AI.x社區(qū)

Qwen2.5-VL

模型架構(gòu)

Qwen-VL系列多模態(tài)大模型技術(shù)演進(jìn)-模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)-AI.x社區(qū)

在Qwen2.5-VL中,模型的整體架構(gòu)由三個主要組件構(gòu)成:大型語言模型(LLM)、視覺編碼器(Vision Encoder)和基于MLP的視覺-語言融合器。以下是對這些組件的詳細(xì)解釋:

  1. LLM:Qwen2.5 LLM
  2. 視覺編碼器:采用重新設(shè)計的ViT架構(gòu)。支持原生輸入分辨率,同時加速整個視覺編碼器的計算過程。
  • 2D-RoPE:用于有效地捕捉二維空間中的空間關(guān)系。
  • 窗口注意力:在大多數(shù)層中使用窗口注意力,以確保計算成本與patch數(shù)量成線性關(guān)系,而不是二次關(guān)系。這種設(shè)計允許模型在處理不同大小的圖像時保持高效。
  • 動態(tài)采樣:在訓(xùn)練過程中,圖像的高度和寬度被調(diào)整為28的倍數(shù),然后輸入到ViT中。輸入圖像被分割成步長為14的patch,生成一組圖像特征。
  • 3D patch劃分:對于視頻數(shù)據(jù),兩幀連續(xù)的圖像被組合在一起,以減少輸入到語言模型的標(biāo)記數(shù)量。這種方法不僅保持了與傳統(tǒng)架構(gòu)的兼容性,還提高了處理順序視頻數(shù)據(jù)的效率。
  1. 基于MLP的視覺-語言融合器:為了應(yīng)對長序列圖像特征的效率挑戰(zhàn),Qwen2.5-VL采用了一種簡單而有效的方法來壓縮特征序列。首先,不直接使用ViT提取的原始補(bǔ)丁特征,而是將空間上相鄰的四組patch特征進(jìn)行分組。這些分組的特征隨后被連接并通過一個兩層的MLP進(jìn)行處理,將其投影到與文本嵌入對齊的維度。這種方法不僅減少了計算成本,還提供了一種靈活的方式來動態(tài)壓縮不同長度的圖像特征序列。

訓(xùn)練方法

Qwen2.5-VL 整體的預(yù)訓(xùn)練分為三個階段:

預(yù)訓(xùn)練
  • 視覺預(yù)訓(xùn)練: 僅訓(xùn)練 ViT,使用圖像標(biāo)題、視覺知識和 OCR 數(shù)據(jù)。
  • 多模態(tài)預(yù)訓(xùn)練: 解凍所有模型參數(shù),使用交錯數(shù)據(jù)、VQA、視頻、智能體等多種數(shù)據(jù)。
  • 長上下文預(yù)訓(xùn)練: 引入視頻、智能體數(shù)據(jù),并增加序列長度。

Qwen-VL系列多模態(tài)大模型技術(shù)演進(jìn)-模型架構(gòu)、訓(xùn)練方法、數(shù)據(jù)細(xì)節(jié)-AI.x社區(qū)

預(yù)訓(xùn)練數(shù)據(jù)著重通過各種策略提升了數(shù)據(jù)質(zhì)量:

  • 交錯圖文數(shù)據(jù): 通過數(shù)據(jù)評分和清洗流程,確保使用高質(zhì)量、相關(guān)的交錯數(shù)據(jù)。
  • 絕對位置坐標(biāo)的grounding數(shù)據(jù): 使用基于輸入圖像實際尺寸的坐標(biāo)值來表示邊界框和點(diǎn),提高模型對真實世界尺度和空間關(guān)系的捕捉能力。
  • 文檔全解析數(shù)據(jù): 合成包含表格、圖表、公式、圖像、樂譜、化學(xué)式等多種元素的文檔數(shù)據(jù),并以 HTML 格式統(tǒng)一表示,實現(xiàn)多模態(tài)文檔元素的無縫集成。
  • OCR 數(shù)據(jù): 收集和整理來自不同來源的 OCR 數(shù)據(jù),包括合成數(shù)據(jù)、開源數(shù)據(jù)和內(nèi)部收集的數(shù)據(jù),并支持多種語言。
  • 視頻數(shù)據(jù): 動態(tài)采樣 FPS,構(gòu)建長視頻標(biāo)題,并以秒和時分秒幀 (hmsf) 格式表示時間戳。
  • 智能體數(shù)據(jù): 收集移動、Web 和桌面平臺的屏幕截圖,并使用合成數(shù)據(jù)引擎生成屏幕截圖標(biāo)題和 UI 元素接地注釋。

其中最值得注意的特性是目標(biāo)檢測任務(wù)使用了絕對位置坐標(biāo),以及視頻數(shù)據(jù)訓(xùn)練中進(jìn)行動態(tài)采樣FPS(Frames per second),目的是為了增強(qiáng)VLM的空間和時間理解能力。

后訓(xùn)練

Qwen2.5-VL 的后訓(xùn)練采用包含監(jiān)督微調(diào) (SFT) 和直接偏好優(yōu)化 (DPO) 的雙階段優(yōu)化范式,ViT的參數(shù)在整個后訓(xùn)練階段都是凍結(jié)的。

  1. 監(jiān)督微調(diào) (SFT)
    SFT階段用到的instruction data包含約 200 萬條數(shù)據(jù),50% 為純文本數(shù)據(jù),50% 為多模態(tài)數(shù)據(jù)(圖文和視頻文本)。在數(shù)據(jù)過濾流程中,先使用 Qwen2-VL-Instag (一個基于Qwen2-VL的分類模型)將 QA 對分層分類為 8 個主要領(lǐng)域和 30 個細(xì)粒度子類別,然后對于這些細(xì)分類別,使用領(lǐng)域定制過濾,結(jié)合基于規(guī)則和基于模型的過濾方法。
    此外,在訓(xùn)練中還使用拒絕采樣 (Rejection Sampling)技術(shù),增強(qiáng)模型的推理能力。使用一個中間版本的 Qwen2.5-VL 模型,對帶有標(biāo)注(ground truth)的數(shù)據(jù)集生成響應(yīng),將模型生成的響應(yīng)與標(biāo)注的正確答案進(jìn)行比較,只保留模型輸出與正確答案匹配的樣本,丟棄不匹配的樣本。此外還進(jìn)一步過濾掉不理想的輸出,例如:代碼切換 (code-switching)、過長 (excessive length)、重復(fù)模式 (repetitive patterns)等。通過這種方式,確保數(shù)據(jù)集中只包含高質(zhì)量、準(zhǔn)確的示例。

     a.基于規(guī)則的過濾: 刪除重復(fù)模式、不完整或格式錯誤的條目,以及不相關(guān)或可能導(dǎo)致有害輸出的查詢和答案。

     b.基于模型的過濾: 使用 Qwen2.5-VL 系列訓(xùn)練的獎勵模型評估多模態(tài) QA 對。

  1. 直接偏好優(yōu)化 (DPO):
    介紹的不是特別的詳細(xì),沒看懂,僅使用圖文和純文本數(shù)據(jù),不使用視頻數(shù)據(jù),利用偏好數(shù)據(jù)將模型與人類偏好對齊。

參考文獻(xiàn)

  • Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond,https://arxiv.org/pdf/2308.12966
  • Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution,https://arxiv.org/pdf/2409.12191
  • Qwen2.5-VL Technical Report,https://arxiv.org/abs/2502.13923


公眾號大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/8bzHK5FsCzwmK_hD4DBrzA??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦