自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析 原創(chuàng)

發(fā)布于 2025-4-16 07:08
瀏覽
0收藏

模型架構(gòu)

Kimi-VL模型整體架構(gòu)框架與前期內(nèi)容介紹的llava、reyes等多模態(tài)大模型的架構(gòu)大差不差,組成形式:視覺編碼器(MoonViT)+ MLP層 + MoE的LLM。

Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析-AI.x社區(qū)

模型架構(gòu)

1. MoonViT:視覺編碼器

MoonViT的設(shè)計(jì)目標(biāo)是能夠以圖像的原始分辨率處理圖像,從而消除復(fù)雜的子圖像分割和拼接操作。這種設(shè)計(jì)使得MoonViT能夠更靈活地處理不同分辨率的圖像,而不需要進(jìn)行額外的預(yù)處理步驟。

實(shí)現(xiàn)方式:

  • 圖像分塊和拼接:MoonViT采用NaViT中的打包方法,將圖像分割成補(bǔ)丁,展平后順序連接成一維序列。便于使用FlashAttention進(jìn)行優(yōu)化注意力計(jì)算。
  • 位置編碼:MoonViT從SigLIP-SO-400M初始化,并使用插值的位置嵌入來更好地保留SigLIP的能力。然而隨著圖像分辨率的增加,這些插值的位置嵌入變得不足。為了解決這個(gè)問題,MoonViT引入了二維旋轉(zhuǎn)位置嵌入(RoPE),這在高度和寬度維度上改進(jìn)了對細(xì)粒度位置信息的表示,特別是在高分辨率圖像中。
  • 連續(xù)特征輸出:經(jīng)過處理后,MoonViT輸出的連續(xù)圖像特征被傳遞到MLP層,對齊LLM的維度。
2. MLP層

MLP層的作用是連接MoonViT和LLM:首先,MLP投影器使用像素重排操作來壓縮MoonViT提取的圖像特征的空間維度,進(jìn)行2x2的下采樣并相應(yīng)地?cái)U(kuò)展通道維度。壓縮后的特征隨后輸入到一個(gè)兩層MLP中,將其投影到與LLM嵌入相同的維度。

3. 混合專家(MoE)語言模型

Kimi-VL的語言模型基于2.8B激活參數(shù)的MoE語言模型-Moonlight模型,總共有16B參數(shù)。Moonlight模型從預(yù)訓(xùn)練階段的中間檢查點(diǎn)初始化,該檢查點(diǎn)已經(jīng)處理了5.2T個(gè)純文本令牌,并激活了8K的上下文長度。

預(yù)訓(xùn)練數(shù)據(jù)與方法

Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析-AI.x社區(qū)

四階段訓(xùn)練數(shù)據(jù)情況

Kimi-VL的預(yù)訓(xùn)練搞了四個(gè)階段,每個(gè)階段都有特定的目標(biāo)和數(shù)據(jù)集

總結(jié)如下:

Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析-AI.x社區(qū)

總結(jié)

階段

目標(biāo)

損失函數(shù)/數(shù)據(jù)

訓(xùn)練策略

訓(xùn)練階段

訓(xùn)練一個(gè)能夠處理原生分辨率圖像的視覺編碼器(MoonViT)

最終損失函數(shù)為 ,其中 ;圖像和文本編碼器計(jì)算對比損失,文本解碼器進(jìn)行條件生成的下一個(gè)標(biāo)記預(yù)測(NTP)

1. 初始化時(shí),使用SigLIP SO-400M的權(quán)重,并采用漸進(jìn)分辨率采樣策略來逐步允許更大的尺寸
2. 文本解碼器從一個(gè)小型的純解碼器模型初始化

聯(lián)合預(yù)訓(xùn)練階段

通過結(jié)合純文本數(shù)據(jù)和多模態(tài)數(shù)據(jù)來增強(qiáng)模型的語言和多模態(tài)能力

純文本數(shù)據(jù)和多模態(tài)數(shù)據(jù)

繼續(xù)使用加載的LLM檢查點(diǎn)進(jìn)行訓(xùn)練,消耗額外的1.4T token。初始步驟僅使用語言數(shù)據(jù),然后逐漸增加多模態(tài)數(shù)據(jù)的比例

聯(lián)合冷卻階段

通過高質(zhì)量的語言和多模態(tài)數(shù)據(jù)進(jìn)一步確保模型的性能

1. 高質(zhì)量的語言和多模態(tài)數(shù)據(jù)集
2. 語言部分:使用高質(zhì)量子集數(shù)據(jù)進(jìn)行訓(xùn)練,提高數(shù)學(xué)推理、知識任務(wù)和代碼生成的能力
3. 多模態(tài)部分:使用高質(zhì)量子集的重放和學(xué)術(shù)視覺或視覺-語言數(shù)據(jù)源的過濾和改寫

1. 通過實(shí)驗(yàn)驗(yàn)證,觀察到在冷卻階段引入合成數(shù)據(jù)可以顯著提高性能
2. 保持語言和多模態(tài)QA對的低比例,以避免過擬合這些QA模式

聯(lián)合長上下文激活階段

擴(kuò)展模型的上下文長度,使其能夠處理長文本和多模態(tài)輸入

1. 長文本、長視頻和長文檔等多模態(tài)數(shù)據(jù)
2. 數(shù)據(jù)集包括長文本和長多模態(tài)數(shù)據(jù),以激活模型的長上下文能力

1. 將模型的上下文長度從8192(8K)擴(kuò)展到131072(128K)
2. 通過兩個(gè)子階段進(jìn)行擴(kuò)展,每個(gè)子階段將模型的上下文長度增加四倍
3. 使用長數(shù)據(jù)和短數(shù)據(jù)的混合策略,確保模型在學(xué)習(xí)長上下文理解的同時(shí)保持短上下文能力

后訓(xùn)練方法

Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析-AI.x社區(qū)

后訓(xùn)練過程

Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析-AI.x社區(qū)

總結(jié)

階段

目標(biāo)

技術(shù)實(shí)現(xiàn)

訓(xùn)練策略

聯(lián)合監(jiān)督微調(diào)(SFT)

通過指令微調(diào)來增強(qiáng)模型的指令遵循能力和對話能力,從而創(chuàng)建一個(gè)交互式的Kimi-VL模型

1. 使用ChatML格式進(jìn)行指令優(yōu)化,保持與Kimi-VL架構(gòu)的一致性
2. 優(yōu)化語言模型、MLP投影器和視覺編碼器,使用純文本和視覺-語言的微調(diào)數(shù)據(jù)進(jìn)行訓(xùn)練
3. 監(jiān)督僅應(yīng)用于答案和特殊標(biāo)記,系統(tǒng)提示和用戶提示被屏蔽
4. 精心策劃的多模態(tài)指令-響應(yīng)對,確保對話角色標(biāo)記、視覺嵌入的結(jié)構(gòu)注入和跨模態(tài)位置關(guān)系的保留

1. 首先在32k令牌的序列長度上訓(xùn)練1個(gè)epoch,然后在128k令牌的序列長度上再訓(xùn)練1個(gè)epoch
2. 學(xué)習(xí)率在第一個(gè)階段從  遞減到 ,然后在第二個(gè)階段重新加熱到  并最終遞減到 
3. 通過將多個(gè)訓(xùn)練示例打包到單個(gè)訓(xùn)練序列中來提高訓(xùn)練效率

長鏈推理(CoT)監(jiān)督微調(diào)

通過構(gòu)建高質(zhì)量的推理路徑數(shù)據(jù)集來增強(qiáng)模型的長鏈推理能力

1. 使用提示工程構(gòu)建一個(gè)小型但高質(zhì)量的長鏈推理預(yù)熱數(shù)據(jù)集,包含文本和圖像輸入的準(zhǔn)確驗(yàn)證推理路徑
2. 通過輕量級SFT對預(yù)熱數(shù)據(jù)進(jìn)行訓(xùn)練,以激活模型的多模態(tài)推理策略

1. 通過提示工程生成長鏈推理路徑,類似于拒絕采樣(RS),但專注于通過提示工程生成長鏈推理路徑
2. 預(yù)熱數(shù)據(jù)集設(shè)計(jì)用于封裝人類推理的關(guān)鍵認(rèn)知過程,如計(jì)劃、評估、反思和探索

強(qiáng)化學(xué)習(xí)(RL)

通過強(qiáng)化學(xué)習(xí)進(jìn)一步提升模型的推理能力,使其能夠自主生成結(jié)構(gòu)化的CoT推理路徑

1. 采用在線策略鏡像下降變體作為RL算法,迭代優(yōu)化策略模型  以提高其問題解決準(zhǔn)確性
2. 使用相對熵進(jìn)行正則化,以穩(wěn)定策略更新

1. 在每個(gè)訓(xùn)練迭代中,從數(shù)據(jù)集D中采樣一個(gè)問題批次,并使用策略梯度更新模型參數(shù)到 
2. 實(shí)施基于長度的獎(jiǎng)勵(lì)來懲罰過長的響應(yīng),減少過度思考問題
3. 使用課程采樣和優(yōu)先級采樣策略,利用難度標(biāo)簽和實(shí)例成功率來優(yōu)化學(xué)習(xí)軌跡和提高訓(xùn)練效率

數(shù)據(jù)構(gòu)建方法

Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析-AI.x社區(qū)

數(shù)據(jù)類型

目標(biāo)

數(shù)據(jù)來源

質(zhì)量控制/數(shù)據(jù)增強(qiáng)

字幕數(shù)據(jù)

為模型提供基本的模態(tài)對齊和廣泛的世界知識,使多模態(tài)LLM以高學(xué)習(xí)效率獲得更廣泛的世界知識

1. 多種開源的中英文字幕數(shù)據(jù)集,如Schuhmann et al. (2022) 和 Gadre et al. (2024)
2. 大量來自多個(gè)來源的內(nèi)部字幕數(shù)據(jù)

1. 嚴(yán)格限制合成字幕數(shù)據(jù)的比重,減少幻覺風(fēng)險(xiǎn)
2. 遵循嚴(yán)格質(zhì)量控制流程,避免重復(fù)并保持高圖像-文本相關(guān)性
3. 預(yù)訓(xùn)練中變化圖像分辨率,確保視覺塔處理高低分辨率圖像時(shí)有效

圖像-文本交錯(cuò)數(shù)據(jù)

在多模態(tài)預(yù)訓(xùn)練階段增強(qiáng)多圖像理解能力、提供詳細(xì)圖像知識、獲得更長多模態(tài)上下文學(xué)習(xí)能力

1. 開源的交錯(cuò)數(shù)據(jù)集,如Zhu et al. (2024) 和 Laurencon et al. (2024)
2. 大規(guī)模內(nèi)部數(shù)據(jù)集,使用教科書、網(wǎng)頁和教程等資源

1. 進(jìn)行標(biāo)準(zhǔn)過濾、去重等質(zhì)量控制流程
2. 通過數(shù)據(jù)重新排序程序保持所有圖像和文本的正確順序

OCR數(shù)據(jù)

將圖像中的文本轉(zhuǎn)換為可編輯格式,使模型更好地與人類價(jià)值觀對齊

1. 開源和內(nèi)部數(shù)據(jù)集,涵蓋單頁和多頁輸入,多種語言和密集文本布局
2. 內(nèi)部數(shù)據(jù)集包括多語言文本、密集文本布局、網(wǎng)絡(luò)內(nèi)容和手寫樣本

應(yīng)用廣泛的數(shù)據(jù)增強(qiáng)技術(shù),如旋轉(zhuǎn)、失真、顏色調(diào)整和噪聲添加,提高模型的魯棒性

知識數(shù)據(jù)

從多樣化的來源組裝一個(gè)全面的人類知識庫,進(jìn)一步增強(qiáng)模型的能力

1. 類似于文本預(yù)訓(xùn)練數(shù)據(jù),從教科書、研究論文和其他學(xué)術(shù)材料中收集
2. 使用布局解析器和OCR模型處理內(nèi)容

為避免模型僅關(guān)注OCR信息,開發(fā)額外管道捕獲嵌入在圖像中的純文本內(nèi)容

代理數(shù)據(jù)

增強(qiáng)模型在代理任務(wù)中的接地和規(guī)劃能力

1. 公開數(shù)據(jù)和內(nèi)部平臺收集的虛擬機(jī)環(huán)境截圖和相應(yīng)動作數(shù)據(jù)
2. 設(shè)計(jì)桌面、移動和Web環(huán)境的動作空間,收集軟件圖形用戶界面(GUI)中的圖標(biāo)數(shù)據(jù)

視頻數(shù)據(jù)

在預(yù)訓(xùn)練、冷卻和長上下文激活階段增強(qiáng)模型能力,使其理解長上下文序列和感知短視頻片段中的精細(xì)時(shí)空對應(yīng)關(guān)系

1. 開源數(shù)據(jù)集和內(nèi)部網(wǎng)絡(luò)規(guī)模視頻數(shù)據(jù),覆蓋不同持續(xù)時(shí)間的視頻
2. 視頻數(shù)據(jù)涵蓋各種場景和任務(wù),如視頻描述和視頻接地

1. 對于長視頻,設(shè)計(jì)管道生成密集字幕,嚴(yán)格限制合成密集視頻描述數(shù)據(jù)的比重以減少幻覺風(fēng)險(xiǎn)

文本數(shù)據(jù)

為訓(xùn)練大型語言模型(LLMs)提供全面和高質(zhì)量的數(shù)據(jù)

1. 覆蓋五個(gè)領(lǐng)域:英語、中文、代碼、數(shù)學(xué)與推理、知識
2. 使用復(fù)雜的過濾和質(zhì)量控制機(jī)制確保每個(gè)領(lǐng)域的最高質(zhì)量訓(xùn)練數(shù)據(jù)

1. 對每個(gè)數(shù)據(jù)源進(jìn)行嚴(yán)格的個(gè)體驗(yàn)證,評估其對整體訓(xùn)練配方的具體貢獻(xiàn)
2. 通過廣泛實(shí)驗(yàn)確定不同文檔類型的采樣策略,優(yōu)化訓(xùn)練語料庫的整體組成

實(shí)驗(yàn)效果

Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析-AI.x社區(qū)

Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析-AI.x社區(qū)

Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析-AI.x社區(qū)

參考文獻(xiàn):KIMI-VL TECHNICAL REPORT,https://github.com/MoonshotAI/Kimi-VL/blob/main/Kimi-VL.pdf


公眾號大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/z6jlbWbqbrOEJUIhT5Ajwg??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-4-16 07:08:19修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦