Moonshot AI開(kāi)源輕量級(jí)MoE多模態(tài)模型Kimi-VL,2.8B參數(shù)媲美SOTA模型!
最近有點(diǎn)忙,沒(méi)來(lái)得及更新,但一直保持著對(duì)前沿技術(shù)的緊密關(guān)注,不得不感嘆當(dāng)今技術(shù)日新月異。
多模態(tài)推理模型進(jìn)展,現(xiàn)有的開(kāi)源大型視覺(jué)語(yǔ)言模型在可擴(kuò)展性、計(jì)算效率和高級(jí)推理能力方面顯著落后于純文本語(yǔ)言模型。
OpenAI的GPT-4o和Google的Gemini等模型能夠無(wú)縫感知和解釋視覺(jué)輸入,但不開(kāi)源,DeepSeek-R1等模型雖然采用了MoE架構(gòu),但在長(zhǎng)上下文推理和多模態(tài)任務(wù)上仍有不足。
此外,早期的基于MoE的視覺(jué)語(yǔ)言模型在架構(gòu)和能力上存在局限,無(wú)法處理長(zhǎng)上下文和高分辨率視覺(jué)輸入。
今天來(lái)看一下月之暗面最新的工作,基于MoE架構(gòu)的高效多模態(tài)模型Kimi-VL。
先來(lái)看下Kimi-VL的主要?jiǎng)?chuàng)新:
- 創(chuàng)新的模型架構(gòu)設(shè)計(jì):該模型由 MoonViT(原生分辨率視覺(jué)編碼器)、MLP 投影器和 MoE 語(yǔ)言模型組成,能夠處理多種輸入形式(單圖像、多圖像、視頻、長(zhǎng)文檔等),在多種任務(wù)(如細(xì)粒度感知、數(shù)學(xué)問(wèn)題、大學(xué)水平問(wèn)題、OCR、代理任務(wù)等)上表現(xiàn)出色。
- 高效多模態(tài)推理能力:Kimi-VL 在多個(gè)具有挑戰(zhàn)性的視覺(jué)語(yǔ)言任務(wù)中展現(xiàn)出強(qiáng)大的能力,包括大學(xué)水平的圖像和視頻理解、OCR、數(shù)學(xué)推理、多圖像理解等,并在與 GPT-4omini、Qwen2.5-VL-7B、Gemma-3-12B-IT 等前沿高效 VLM 的比較評(píng)估中表現(xiàn)出色,甚至在某些關(guān)鍵領(lǐng)域超越了 GPT-4o。
- 長(zhǎng)文本和長(zhǎng)視頻處理能力:Kimi-VL 擁有 128K 擴(kuò)展上下文窗口,能夠處理多樣化的長(zhǎng)輸入,在 LongVideoBench 和 MMLongBench-Doc 等基準(zhǔn)測(cè)試中取得了令人印象深刻的分?jǐn)?shù)(分別為 64.5 和 35.1),并且其原生分辨率視覺(jué)編碼器 MoonViT 能夠清晰地看到和理解超高分辨率視覺(jué)輸入,同時(shí)在常見(jiàn)任務(wù)中保持較低的計(jì)算成本。
- 推出 Kimi-VL-Thinking 變體:基于 Kimi-VL,通過(guò)長(zhǎng)鏈推理(CoT)監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)開(kāi)發(fā)了 Kimi-VL-Thinking,該模型僅2.8B激活參數(shù)就在 MMMU、MathVision 和 MathVista 等基準(zhǔn)測(cè)試中表現(xiàn)出色。
再來(lái)看下突破性的性能表現(xiàn):
- 與Qwen2.5-VL、Gemma-3等前沿開(kāi)源VLM相比,Kimi-VL-Thinking僅使用2.8B激活參數(shù)即可實(shí)現(xiàn)強(qiáng)大的多模態(tài)推理。
- 在一些重要基準(zhǔn)測(cè)試中,Kimi新模型“以小博大”,2.8B的參數(shù)激活超越了GPT-4o、Llama-3.2等前沿模型。
下面來(lái)詳細(xì)介紹下技術(shù)細(xì)節(jié):
1、模型架構(gòu)
Kimi-VL 的模型架構(gòu)由三個(gè)主要部分組成:原生分辨率視覺(jué)編碼器(MoonViT)、MLP 投影器和混合專家(MoE)語(yǔ)言模型。
MoonViT:原生分辨率視覺(jué)編碼器
MoonViT 是 Kimi-VL 的視覺(jué)編碼器,其核心功能是能夠直接處理不同分辨率的圖像,而無(wú)需復(fù)雜的子圖像分割和拼接操作。這種設(shè)計(jì)使得模型能夠更自然地處理多樣化的視覺(jué)輸入,同時(shí)保持高效的計(jì)算性能。
實(shí)現(xiàn)細(xì)節(jié):
- 圖像預(yù)處理:MoonViT 采用 NaViT 的打包方法,將圖像分割為圖塊(patches),展平后按順序拼接成一維序列。這種預(yù)處理方法使得 MoonViT 能夠與語(yǔ)言模型共享相同的核心計(jì)算算子和優(yōu)化,例如變長(zhǎng)序列注意力機(jī)制(如 FlashAttention)。
- 位置嵌入:MoonViT 基于 SigLIP-SO-400M 初始化并持續(xù)預(yù)訓(xùn)練,該模型原本使用可學(xué)習(xí)的固定尺寸絕對(duì)位置嵌入來(lái)編碼空間信息。然而,隨著圖像分辨率的提高,這些插值后的嵌入逐漸變得不足。為了解決這一問(wèn)題,在高度和寬度維度上引入了二維旋轉(zhuǎn)位置嵌入(RoPE),從而改善了細(xì)粒度位置信息的表示,尤其是在高分辨率圖像中。這兩種位置嵌入方法共同為模型編碼空間信息,并與展平和打包流程無(wú)縫集成。
- 輸出特征:生成的連續(xù)圖像特征隨后被傳遞到 MLP 投影器,并最終輸入 MoE 語(yǔ)言模型進(jìn)行后續(xù)訓(xùn)練階段。
MLP 投影器
MLP 投影器的作用是將視覺(jué)編碼器(MoonViT)提取的圖像特征投影到語(yǔ)言模型(LLM)的嵌入維度。這一過(guò)程確保了視覺(jué)特征能夠被語(yǔ)言模型有效理解和處理。
實(shí)現(xiàn)細(xì)節(jié):
- 像素混洗操作:首先使用像素混洗操作對(duì) MoonViT 提取的圖像特征進(jìn)行空間維度壓縮,進(jìn)行 2×2 下采樣并相應(yīng)擴(kuò)展通道維度。
- 兩層 MLP:將像素混洗后的特征輸入兩層 MLP,將其投影到 LLM 嵌入的維度。
混合專家(MoE)語(yǔ)言模型
Kimi-VL 的語(yǔ)言模型采用 Moonlight 模型,一個(gè)具有2.8B激活參數(shù)、16B總參數(shù)的 MoE 語(yǔ)言模型,其架構(gòu)與 DeepSeek-V3 相似。MoE 架構(gòu)通過(guò)動(dòng)態(tài)選擇專家模塊來(lái)處理輸入,從而在保持高效計(jì)算的同時(shí),提升模型的表達(dá)能力和推理能力。
實(shí)現(xiàn)細(xì)節(jié):
- 初始化:從 Moonlight 預(yù)訓(xùn)練階段的中間檢查點(diǎn)初始化,該檢查點(diǎn)已處理 5.2T 純文本數(shù)據(jù) token 并激活了 8192 token(8K)的上下文長(zhǎng)度。
- 聯(lián)合預(yù)訓(xùn)練:使用總計(jì) 2.3T token 的多模態(tài)和純文本數(shù)據(jù)的聯(lián)合配方繼續(xù)預(yù)訓(xùn)練。這一過(guò)程確保了模型在語(yǔ)言和多模態(tài)任務(wù)上的全面能力。
- 專家選擇:MoE 架構(gòu)通過(guò)動(dòng)態(tài)選擇專家模塊來(lái)處理輸入,從而在保持高效計(jì)算的同時(shí),提升模型的表達(dá)能力和推理能力。
增強(qiáng)版Muon優(yōu)化器
在訓(xùn)練Kimi-VL模型時(shí),優(yōu)化器的選擇對(duì)于模型的收斂速度和最終性能至關(guān)重要。本研究中使用了增強(qiáng)版的Muon優(yōu)化器(Muon is Scalable for LLM Training),它在原始Muon優(yōu)化器的基礎(chǔ)上,通過(guò)增加權(quán)重衰減、調(diào)整Per-Parameter更新規(guī)模、基于ZeRO-1優(yōu)化策略,開(kāi)發(fā)了Muon優(yōu)化器的分布式實(shí)現(xiàn)等方法進(jìn)行了改進(jìn),以更好地適應(yīng)大規(guī)模訓(xùn)練的需求。
2、預(yù)訓(xùn)練
Kimi-VL的預(yù)訓(xùn)練過(guò)程包含四個(gè)階段,每個(gè)階段都有其特定的目標(biāo)和數(shù)據(jù)組成,旨在逐步提升模型的語(yǔ)言和多模態(tài)能力。
ViT訓(xùn)練階段
這一階段的目標(biāo)是訓(xùn)練一個(gè)強(qiáng)大的原生分辨率視覺(jué)編碼器(MoonViT),使其能夠高效處理不同分辨率的圖像。
訓(xùn)練數(shù)據(jù)使用圖像-文本對(duì)進(jìn)行訓(xùn)練,其中文本部分包括:圖像替代文本(alt text)、合成標(biāo)題(synthetic captions)、grounding 邊界框(grounding bboxes)、OCR 文本(OCR texts)。
方法:
- 損失函數(shù):結(jié)合 SigLIP 損失(一種對(duì)比損失變體)和基于輸入圖像的標(biāo)題生成交叉熵?fù)p失。最終損失函數(shù)為:
,其中λ=2。
- 訓(xùn)練策略:圖像和文本編碼器計(jì)算對(duì)比損失,文本解碼器基于圖像編碼器的特征進(jìn)行下一 token 預(yù)測(cè)(NTP)。為加速訓(xùn)練,使用 SigLIP SO-400M 權(quán)重初始化兩個(gè)編碼器,并采用漸進(jìn)分辨率采樣策略逐步允許更大尺寸的圖像。
- 對(duì)齊階段:在消耗 2T token 的 CoCa 式階段訓(xùn)練 ViT 后,再用 0.1T token 將 MoonViT 與 MoE 語(yǔ)言模型對(duì)齊,此階段僅更新 MoonViT 和 MLP 投影器。這一對(duì)齊階段顯著降低了語(yǔ)言模型中 MoonViT 嵌入的初始困惑度,為后續(xù)聯(lián)合預(yù)訓(xùn)練階段的平穩(wěn)進(jìn)行奠定了基礎(chǔ)。
聯(lián)合預(yù)訓(xùn)練階段
這一階段的目標(biāo)是整合語(yǔ)言和視覺(jué)能力,提升模型的多模態(tài)理解能力。
訓(xùn)練數(shù)據(jù)使用純文本數(shù)據(jù)和多模態(tài)數(shù)據(jù)的組合進(jìn)行訓(xùn)練。多模態(tài)數(shù)據(jù)包括:圖像-文本對(duì)、視頻-文本對(duì)、OCR 數(shù)據(jù)、知識(shí)數(shù)據(jù)(如幾何圖形、圖表等)
方法:
- 訓(xùn)練策略:從加載的 LLM 檢查點(diǎn)繼續(xù)訓(xùn)練,采用相同的學(xué)習(xí)率調(diào)度器,額外消耗 1.4T token。初始步驟僅使用語(yǔ)言數(shù)據(jù),之后逐步增加多模態(tài)數(shù)據(jù)的比例。
- 漸進(jìn)方法:通過(guò)逐步增加多模態(tài)數(shù)據(jù)的比例,確保模型在保留語(yǔ)言能力的同時(shí),成功整合視覺(jué)理解能力。
聯(lián)合冷卻階段
這一階段的目標(biāo)是通過(guò)高質(zhì)量的數(shù)據(jù)進(jìn)一步提升模型的性能,特別是在數(shù)學(xué)推理、知識(shí)型任務(wù)和代碼生成方面
訓(xùn)練數(shù)據(jù)使用高質(zhì)量的語(yǔ)言和多模態(tài)數(shù)據(jù)集進(jìn)行訓(xùn)練,包括:合成數(shù)據(jù)(用于數(shù)學(xué)推理、知識(shí)型任務(wù)和代碼生成)、經(jīng)過(guò)篩選的學(xué)術(shù)視覺(jué)或視覺(jué)語(yǔ)言數(shù)據(jù)源
方法:
- 語(yǔ)言部分:通過(guò)實(shí)證研究,發(fā)現(xiàn)冷卻階段加入合成數(shù)據(jù)能顯著提升性能,尤其是在數(shù)學(xué)推理、知識(shí)型任務(wù)和代碼生成方面。冷卻數(shù)據(jù)集的一般文本部分選自預(yù)訓(xùn)練語(yǔ)料庫(kù)的高保真子集。
- 多模態(tài)部分:除了采用文本冷卻數(shù)據(jù)準(zhǔn)備的兩種策略(即問(wèn)答合成和高質(zhì)量子集回放)外,還篩選并重寫(xiě)了多種學(xué)術(shù)視覺(jué)或視覺(jué)語(yǔ)言數(shù)據(jù)源為 QA 對(duì)。
- 采樣策略:采用混合方法,利用選定的預(yù)訓(xùn)練子集,同時(shí)通過(guò)專有語(yǔ)言模型生成內(nèi)容進(jìn)行增強(qiáng)。通過(guò)拒絕采樣技術(shù)生成 QA 對(duì),并在整合到冷卻數(shù)據(jù)集前進(jìn)行全面驗(yàn)證。
聯(lián)合冷卻階段是模型預(yù)訓(xùn)練過(guò)程中的一個(gè)重要環(huán)節(jié),通過(guò)使用高質(zhì)量的數(shù)據(jù)集和特定的訓(xùn)練策略,可以幫助模型在多種任務(wù)上表現(xiàn)出色,通過(guò)逐步減少數(shù)據(jù)的復(fù)雜性和多樣性,幫助模型在訓(xùn)練過(guò)程中更加穩(wěn)定,避免過(guò)擬合,進(jìn)一步提升模型的性能和穩(wěn)定性。
聯(lián)合長(zhǎng)上下文激活階段
這一階段的目標(biāo)是擴(kuò)展模型的上下文長(zhǎng)度,使其能夠處理更長(zhǎng)的文本和視頻輸入。
訓(xùn)練數(shù)據(jù)使用長(zhǎng)文本、長(zhǎng)視頻和長(zhǎng)文檔等長(zhǎng)上下文數(shù)據(jù)進(jìn)行訓(xùn)練。
方法:
- 上下文長(zhǎng)度擴(kuò)展:將模型的上下文長(zhǎng)度從 8192(8K)擴(kuò)展到 131072(128K),并將其 RoPE 嵌入的逆頻率從 50,000 重置為 800,000。
- 分階段擴(kuò)展:聯(lián)合長(zhǎng)上下文階段分為兩個(gè)子階段,每個(gè)子階段將模型的上下文長(zhǎng)度擴(kuò)展四倍。在每個(gè)子階段,將長(zhǎng)數(shù)據(jù)的比例過(guò)濾并上采樣至 25%,同時(shí)用剩余的 75% token 回放前一階段的短數(shù)據(jù)。
- 數(shù)據(jù)組成:長(zhǎng)上下文激活數(shù)據(jù)不僅包含長(zhǎng)文本,還包括長(zhǎng)多模態(tài)數(shù)據(jù),如長(zhǎng)交錯(cuò)數(shù)據(jù)、長(zhǎng)視頻和長(zhǎng)文檔。還合成了一小部分 QA 對(duì)以增強(qiáng)長(zhǎng)上下文激活的學(xué)習(xí)效率。
經(jīng)過(guò)長(zhǎng)上下文激活后,模型能夠通過(guò)長(zhǎng)純文本或長(zhǎng)視頻的 NIAH 評(píng)估,證明了其多功能的長(zhǎng)上下文能力。具體來(lái)說(shuō),模型在不同上下文長(zhǎng)度范圍內(nèi)的 NIAH 召回準(zhǔn)確率如表所示:
3、后訓(xùn)練
在預(yù)訓(xùn)練階段之后,Kimi-VL 進(jìn)入后訓(xùn)練階段,這一階段的目標(biāo)是通過(guò)特定的任務(wù)數(shù)據(jù)進(jìn)一步微調(diào)模型,以提升其在實(shí)際應(yīng)用中的性能。后訓(xùn)練階段主要包括以下幾個(gè)部分:聯(lián)合監(jiān)督微調(diào)(SFT)、長(zhǎng)鏈推理(CoT)監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)(RL)。
聯(lián)合監(jiān)督微調(diào)(SFT)
這一階段,通過(guò)基于指令的微調(diào),增強(qiáng)模型遵循指令和進(jìn)行對(duì)話的能力,最終形成交互式的 Kimi-VL 模型。
訓(xùn)練數(shù)據(jù)使用純文本和視覺(jué)語(yǔ)言 SFT 數(shù)據(jù)的混合進(jìn)行訓(xùn)練。這些數(shù)據(jù)包括指令-響應(yīng)對(duì),覆蓋多種任務(wù)和場(chǎng)景。
長(zhǎng)鏈推理(CoT)監(jiān)督微調(diào)
這一階段,通過(guò)長(zhǎng)鏈推理(CoT)監(jiān)督微調(diào),提升模型在復(fù)雜推理任務(wù)中的表現(xiàn)。
訓(xùn)練數(shù)據(jù)基于精煉的RL提示集,通過(guò)提示工程構(gòu)建了一個(gè)高質(zhì)量的長(zhǎng) CoT 預(yù)熱數(shù)據(jù)集,包含針對(duì)文本和圖像輸入的經(jīng)過(guò)準(zhǔn)確驗(yàn)證的推理路徑。生成的預(yù)熱數(shù)據(jù)集旨在封裝對(duì)人類式推理至關(guān)重要的關(guān)鍵認(rèn)知過(guò)程,例如規(guī)劃(模型在執(zhí)行前系統(tǒng)化步驟)、評(píng)估(對(duì)中間步驟的關(guān)鍵評(píng)估)、反思(重新考慮并改進(jìn)方法)和探索(鼓勵(lì)考慮替代解決方案)。
方法:對(duì)預(yù)熱數(shù)據(jù)集進(jìn)行輕量級(jí)監(jiān)督微調(diào),引導(dǎo)模型內(nèi)化這些多模態(tài)推理策略。逐步增加推理路徑的復(fù)雜性,使模型能夠處理更復(fù)雜的推理任務(wù)。
強(qiáng)化學(xué)習(xí)(RL)
這一階段,通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步提升模型的推理能力,使其能夠自主生成結(jié)構(gòu)化的 CoT 推理過(guò)程。
方法:采用在線策略鏡像下降變體作為 RL 算法,通過(guò)迭代優(yōu)化策略模型以提高其問(wèn)題解決準(zhǔn)確性。在第i次訓(xùn)練迭代中,將當(dāng)前模型視為參考策略模型,并優(yōu)化以下目標(biāo),通過(guò)相對(duì)熵正則化以穩(wěn)定策略更新:
4、實(shí)驗(yàn)結(jié)果
與前沿模型對(duì)比
推理能力
- Kimi-VL 的長(zhǎng)鏈推理(CoT)能力通過(guò)長(zhǎng) CoT 監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)得到了顯著提升,使其在處理復(fù)雜的多步推理任務(wù)時(shí)具有強(qiáng)大的能力。
- Kimi-VL-Thinking 在測(cè)試時(shí)推理長(zhǎng)度的擴(kuò)展也表現(xiàn)出色,表明 Kimi-VL-Thinking 能夠利用更長(zhǎng)的推理鏈來(lái)提高其在復(fù)雜任務(wù)中的表現(xiàn)。