Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析 原創(chuàng)
模型架構(gòu)
Kimi-VL模型整體架構(gòu)框架與前期內(nèi)容介紹的llava、reyes等多模態(tài)大模型的架構(gòu)大差不差,組成形式:視覺編碼器(MoonViT)+ MLP層 + MoE的LLM。
模型架構(gòu)
1. MoonViT:視覺編碼器
MoonViT的設(shè)計(jì)目標(biāo)是能夠以圖像的原始分辨率處理圖像,從而消除復(fù)雜的子圖像分割和拼接操作。這種設(shè)計(jì)使得MoonViT能夠更靈活地處理不同分辨率的圖像,而不需要進(jìn)行額外的預(yù)處理步驟。
實(shí)現(xiàn)方式:
- 圖像分塊和拼接:MoonViT采用NaViT中的打包方法,將圖像分割成補(bǔ)丁,展平后順序連接成一維序列。便于使用FlashAttention進(jìn)行優(yōu)化注意力計(jì)算。
- 位置編碼:MoonViT從SigLIP-SO-400M初始化,并使用插值的位置嵌入來更好地保留SigLIP的能力。然而隨著圖像分辨率的增加,這些插值的位置嵌入變得不足。為了解決這個(gè)問題,MoonViT引入了二維旋轉(zhuǎn)位置嵌入(RoPE),這在高度和寬度維度上改進(jìn)了對細(xì)粒度位置信息的表示,特別是在高分辨率圖像中。
- 連續(xù)特征輸出:經(jīng)過處理后,MoonViT輸出的連續(xù)圖像特征被傳遞到MLP層,對齊LLM的維度。
2. MLP層
MLP層的作用是連接MoonViT和LLM:首先,MLP投影器使用像素重排操作來壓縮MoonViT提取的圖像特征的空間維度,進(jìn)行2x2的下采樣并相應(yīng)地?cái)U(kuò)展通道維度。壓縮后的特征隨后輸入到一個(gè)兩層MLP中,將其投影到與LLM嵌入相同的維度。
3. 混合專家(MoE)語言模型
Kimi-VL的語言模型基于2.8B激活參數(shù)的MoE語言模型-Moonlight模型,總共有16B參數(shù)。Moonlight模型從預(yù)訓(xùn)練階段的中間檢查點(diǎn)初始化,該檢查點(diǎn)已經(jīng)處理了5.2T個(gè)純文本令牌,并激活了8K的上下文長度。
預(yù)訓(xùn)練數(shù)據(jù)與方法
四階段訓(xùn)練數(shù)據(jù)情況
Kimi-VL的預(yù)訓(xùn)練搞了四個(gè)階段,每個(gè)階段都有特定的目標(biāo)和數(shù)據(jù)集。
總結(jié)如下:
總結(jié)
階段 | 目標(biāo) | 損失函數(shù)/數(shù)據(jù) | 訓(xùn)練策略 |
訓(xùn)練階段 | 訓(xùn)練一個(gè)能夠處理原生分辨率圖像的視覺編碼器(MoonViT) | 最終損失函數(shù)為 ,其中 ;圖像和文本編碼器計(jì)算對比損失,文本解碼器進(jìn)行條件生成的下一個(gè)標(biāo)記預(yù)測(NTP) | 1. 初始化時(shí),使用SigLIP SO-400M的權(quán)重,并采用漸進(jìn)分辨率采樣策略來逐步允許更大的尺寸 |
聯(lián)合預(yù)訓(xùn)練階段 | 通過結(jié)合純文本數(shù)據(jù)和多模態(tài)數(shù)據(jù)來增強(qiáng)模型的語言和多模態(tài)能力 | 純文本數(shù)據(jù)和多模態(tài)數(shù)據(jù) | 繼續(xù)使用加載的LLM檢查點(diǎn)進(jìn)行訓(xùn)練,消耗額外的1.4T token。初始步驟僅使用語言數(shù)據(jù),然后逐漸增加多模態(tài)數(shù)據(jù)的比例 |
聯(lián)合冷卻階段 | 通過高質(zhì)量的語言和多模態(tài)數(shù)據(jù)進(jìn)一步確保模型的性能 | 1. 高質(zhì)量的語言和多模態(tài)數(shù)據(jù)集 | 1. 通過實(shí)驗(yàn)驗(yàn)證,觀察到在冷卻階段引入合成數(shù)據(jù)可以顯著提高性能 |
聯(lián)合長上下文激活階段 | 擴(kuò)展模型的上下文長度,使其能夠處理長文本和多模態(tài)輸入 | 1. 長文本、長視頻和長文檔等多模態(tài)數(shù)據(jù) | 1. 將模型的上下文長度從8192(8K)擴(kuò)展到131072(128K) |
后訓(xùn)練方法
后訓(xùn)練過程
總結(jié)
階段 | 目標(biāo) | 技術(shù)實(shí)現(xiàn) | 訓(xùn)練策略 |
聯(lián)合監(jiān)督微調(diào)(SFT) | 通過指令微調(diào)來增強(qiáng)模型的指令遵循能力和對話能力,從而創(chuàng)建一個(gè)交互式的Kimi-VL模型 | 1. 使用ChatML格式進(jìn)行指令優(yōu)化,保持與Kimi-VL架構(gòu)的一致性 | 1. 首先在32k令牌的序列長度上訓(xùn)練1個(gè)epoch,然后在128k令牌的序列長度上再訓(xùn)練1個(gè)epoch |
長鏈推理(CoT)監(jiān)督微調(diào) | 通過構(gòu)建高質(zhì)量的推理路徑數(shù)據(jù)集來增強(qiáng)模型的長鏈推理能力 | 1. 使用提示工程構(gòu)建一個(gè)小型但高質(zhì)量的長鏈推理預(yù)熱數(shù)據(jù)集,包含文本和圖像輸入的準(zhǔn)確驗(yàn)證推理路徑 | 1. 通過提示工程生成長鏈推理路徑,類似于拒絕采樣(RS),但專注于通過提示工程生成長鏈推理路徑 |
強(qiáng)化學(xué)習(xí)(RL) | 通過強(qiáng)化學(xué)習(xí)進(jìn)一步提升模型的推理能力,使其能夠自主生成結(jié)構(gòu)化的CoT推理路徑 | 1. 采用在線策略鏡像下降變體作為RL算法,迭代優(yōu)化策略模型 以提高其問題解決準(zhǔn)確性 | 1. 在每個(gè)訓(xùn)練迭代中,從數(shù)據(jù)集D中采樣一個(gè)問題批次,并使用策略梯度更新模型參數(shù)到 |
數(shù)據(jù)構(gòu)建方法
數(shù)據(jù)類型 | 目標(biāo) | 數(shù)據(jù)來源 | 質(zhì)量控制/數(shù)據(jù)增強(qiáng) |
字幕數(shù)據(jù) | 為模型提供基本的模態(tài)對齊和廣泛的世界知識,使多模態(tài)LLM以高學(xué)習(xí)效率獲得更廣泛的世界知識 | 1. 多種開源的中英文字幕數(shù)據(jù)集,如Schuhmann et al. (2022) 和 Gadre et al. (2024) | 1. 嚴(yán)格限制合成字幕數(shù)據(jù)的比重,減少幻覺風(fēng)險(xiǎn) |
圖像-文本交錯(cuò)數(shù)據(jù) | 在多模態(tài)預(yù)訓(xùn)練階段增強(qiáng)多圖像理解能力、提供詳細(xì)圖像知識、獲得更長多模態(tài)上下文學(xué)習(xí)能力 | 1. 開源的交錯(cuò)數(shù)據(jù)集,如Zhu et al. (2024) 和 Laurencon et al. (2024) | 1. 進(jìn)行標(biāo)準(zhǔn)過濾、去重等質(zhì)量控制流程 |
OCR數(shù)據(jù) | 將圖像中的文本轉(zhuǎn)換為可編輯格式,使模型更好地與人類價(jià)值觀對齊 | 1. 開源和內(nèi)部數(shù)據(jù)集,涵蓋單頁和多頁輸入,多種語言和密集文本布局 | 應(yīng)用廣泛的數(shù)據(jù)增強(qiáng)技術(shù),如旋轉(zhuǎn)、失真、顏色調(diào)整和噪聲添加,提高模型的魯棒性 |
知識數(shù)據(jù) | 從多樣化的來源組裝一個(gè)全面的人類知識庫,進(jìn)一步增強(qiáng)模型的能力 | 1. 類似于文本預(yù)訓(xùn)練數(shù)據(jù),從教科書、研究論文和其他學(xué)術(shù)材料中收集 | 為避免模型僅關(guān)注OCR信息,開發(fā)額外管道捕獲嵌入在圖像中的純文本內(nèi)容 |
代理數(shù)據(jù) | 增強(qiáng)模型在代理任務(wù)中的接地和規(guī)劃能力 | 1. 公開數(shù)據(jù)和內(nèi)部平臺收集的虛擬機(jī)環(huán)境截圖和相應(yīng)動作數(shù)據(jù) | 無 |
視頻數(shù)據(jù) | 在預(yù)訓(xùn)練、冷卻和長上下文激活階段增強(qiáng)模型能力,使其理解長上下文序列和感知短視頻片段中的精細(xì)時(shí)空對應(yīng)關(guān)系 | 1. 開源數(shù)據(jù)集和內(nèi)部網(wǎng)絡(luò)規(guī)模視頻數(shù)據(jù),覆蓋不同持續(xù)時(shí)間的視頻 | 1. 對于長視頻,設(shè)計(jì)管道生成密集字幕,嚴(yán)格限制合成密集視頻描述數(shù)據(jù)的比重以減少幻覺風(fēng)險(xiǎn) |
文本數(shù)據(jù) | 為訓(xùn)練大型語言模型(LLMs)提供全面和高質(zhì)量的數(shù)據(jù) | 1. 覆蓋五個(gè)領(lǐng)域:英語、中文、代碼、數(shù)學(xué)與推理、知識 | 1. 對每個(gè)數(shù)據(jù)源進(jìn)行嚴(yán)格的個(gè)體驗(yàn)證,評估其對整體訓(xùn)練配方的具體貢獻(xiàn) |
實(shí)驗(yàn)效果
參考文獻(xiàn):KIMI-VL TECHNICAL REPORT,https://github.com/MoonshotAI/Kimi-VL/blob/main/Kimi-VL.pdf
公眾號大模型自然語言處理 作者:余俊暉
原文鏈接:??https://mp.weixin.qq.com/s/z6jlbWbqbrOEJUIhT5Ajwg??
