自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

Moonshot AI開(kāi)源輕量級(jí)MoE多模態(tài)模型Kimi-VL，2.8B參數(shù)媲美SOTA模型！

作者：Goldma 2025-04-14 00:30:00

人工智能開(kāi)源

帶你一起來(lái)看一下月之暗面最新的工作，基于MoE架構(gòu)的高效多模態(tài)模型Kimi-VL。

最近有點(diǎn)忙，沒(méi)來(lái)得及更新，但一直保持著對(duì)前沿技術(shù)的緊密關(guān)注，不得不感嘆當(dāng)今技術(shù)日新月異。

多模態(tài)推理模型進(jìn)展，現(xiàn)有的開(kāi)源大型視覺(jué)語(yǔ)言模型在可擴(kuò)展性、計(jì)算效率和高級(jí)推理能力方面顯著落后于純文本語(yǔ)言模型。

OpenAI的GPT-4o和Google的Gemini等模型能夠無(wú)縫感知和解釋視覺(jué)輸入，但不開(kāi)源，DeepSeek-R1等模型雖然采用了MoE架構(gòu)，但在長(zhǎng)上下文推理和多模態(tài)任務(wù)上仍有不足。

此外，早期的基于MoE的視覺(jué)語(yǔ)言模型在架構(gòu)和能力上存在局限，無(wú)法處理長(zhǎng)上下文和高分辨率視覺(jué)輸入。

今天來(lái)看一下月之暗面最新的工作，基于MoE架構(gòu)的高效多模態(tài)模型Kimi-VL。

先來(lái)看下Kimi-VL的主要?jiǎng)?chuàng)新：

創(chuàng)新的模型架構(gòu)設(shè)計(jì)：該模型由 MoonViT（原生分辨率視覺(jué)編碼器）、MLP 投影器和 MoE 語(yǔ)言模型組成，能夠處理多種輸入形式（單圖像、多圖像、視頻、長(zhǎng)文檔等），在多種任務(wù)（如細(xì)粒度感知、數(shù)學(xué)問(wèn)題、大學(xué)水平問(wèn)題、OCR、代理任務(wù)等）上表現(xiàn)出色。
高效多模態(tài)推理能力：Kimi-VL 在多個(gè)具有挑戰(zhàn)性的視覺(jué)語(yǔ)言任務(wù)中展現(xiàn)出強(qiáng)大的能力，包括大學(xué)水平的圖像和視頻理解、OCR、數(shù)學(xué)推理、多圖像理解等，并在與 GPT-4omini、Qwen2.5-VL-7B、Gemma-3-12B-IT 等前沿高效 VLM 的比較評(píng)估中表現(xiàn)出色，甚至在某些關(guān)鍵領(lǐng)域超越了 GPT-4o。
長(zhǎng)文本和長(zhǎng)視頻處理能力：Kimi-VL 擁有 128K 擴(kuò)展上下文窗口，能夠處理多樣化的長(zhǎng)輸入，在 LongVideoBench 和 MMLongBench-Doc 等基準(zhǔn)測(cè)試中取得了令人印象深刻的分?jǐn)?shù)（分別為 64.5 和 35.1），并且其原生分辨率視覺(jué)編碼器 MoonViT 能夠清晰地看到和理解超高分辨率視覺(jué)輸入，同時(shí)在常見(jiàn)任務(wù)中保持較低的計(jì)算成本。
推出 Kimi-VL-Thinking 變體：基于 Kimi-VL，通過(guò)長(zhǎng)鏈推理（CoT）監(jiān)督微調(diào)（SFT）和強(qiáng)化學(xué)習(xí)（RL）開(kāi)發(fā)了 Kimi-VL-Thinking，該模型僅2.8B激活參數(shù)就在 MMMU、MathVision 和 MathVista 等基準(zhǔn)測(cè)試中表現(xiàn)出色。

再來(lái)看下突破性的性能表現(xiàn)：

與Qwen2.5-VL、Gemma-3等前沿開(kāi)源VLM相比，Kimi-VL-Thinking僅使用2.8B激活參數(shù)即可實(shí)現(xiàn)強(qiáng)大的多模態(tài)推理。

在一些重要基準(zhǔn)測(cè)試中，Kimi新模型“以小博大”，2.8B的參數(shù)激活超越了GPT-4o、Llama-3.2等前沿模型。

下面來(lái)詳細(xì)介紹下技術(shù)細(xì)節(jié)：

1、模型架構(gòu)

Kimi-VL 的模型架構(gòu)由三個(gè)主要部分組成：原生分辨率視覺(jué)編碼器（MoonViT）、MLP 投影器和混合專家（MoE）語(yǔ)言模型。

MoonViT：原生分辨率視覺(jué)編碼器

MoonViT 是 Kimi-VL 的視覺(jué)編碼器，其核心功能是能夠直接處理不同分辨率的圖像，而無(wú)需復(fù)雜的子圖像分割和拼接操作。這種設(shè)計(jì)使得模型能夠更自然地處理多樣化的視覺(jué)輸入，同時(shí)保持高效的計(jì)算性能。

實(shí)現(xiàn)細(xì)節(jié)：

圖像預(yù)處理：MoonViT 采用 NaViT 的打包方法，將圖像分割為圖塊（patches），展平后按順序拼接成一維序列。這種預(yù)處理方法使得 MoonViT 能夠與語(yǔ)言模型共享相同的核心計(jì)算算子和優(yōu)化，例如變長(zhǎng)序列注意力機(jī)制（如 FlashAttention）。
位置嵌入：MoonViT 基于 SigLIP-SO-400M 初始化并持續(xù)預(yù)訓(xùn)練，該模型原本使用可學(xué)習(xí)的固定尺寸絕對(duì)位置嵌入來(lái)編碼空間信息。然而，隨著圖像分辨率的提高，這些插值后的嵌入逐漸變得不足。為了解決這一問(wèn)題，在高度和寬度維度上引入了二維旋轉(zhuǎn)位置嵌入（RoPE），從而改善了細(xì)粒度位置信息的表示，尤其是在高分辨率圖像中。這兩種位置嵌入方法共同為模型編碼空間信息，并與展平和打包流程無(wú)縫集成。
輸出特征：生成的連續(xù)圖像特征隨后被傳遞到 MLP 投影器，并最終輸入 MoE 語(yǔ)言模型進(jìn)行后續(xù)訓(xùn)練階段。

MLP 投影器

MLP 投影器的作用是將視覺(jué)編碼器（MoonViT）提取的圖像特征投影到語(yǔ)言模型（LLM）的嵌入維度。這一過(guò)程確保了視覺(jué)特征能夠被語(yǔ)言模型有效理解和處理。

實(shí)現(xiàn)細(xì)節(jié)：

像素混洗操作：首先使用像素混洗操作對(duì) MoonViT 提取的圖像特征進(jìn)行空間維度壓縮，進(jìn)行 2×2 下采樣并相應(yīng)擴(kuò)展通道維度。
兩層 MLP：將像素混洗后的特征輸入兩層 MLP，將其投影到 LLM 嵌入的維度。

混合專家（MoE）語(yǔ)言模型

Kimi-VL 的語(yǔ)言模型采用 Moonlight 模型，一個(gè)具有2.8B激活參數(shù)、16B總參數(shù)的 MoE 語(yǔ)言模型，其架構(gòu)與 DeepSeek-V3 相似。MoE 架構(gòu)通過(guò)動(dòng)態(tài)選擇專家模塊來(lái)處理輸入，從而在保持高效計(jì)算的同時(shí)，提升模型的表達(dá)能力和推理能力。

實(shí)現(xiàn)細(xì)節(jié)：

初始化：從 Moonlight 預(yù)訓(xùn)練階段的中間檢查點(diǎn)初始化，該檢查點(diǎn)已處理 5.2T 純文本數(shù)據(jù) token 并激活了 8192 token（8K）的上下文長(zhǎng)度。
聯(lián)合預(yù)訓(xùn)練：使用總計(jì) 2.3T token 的多模態(tài)和純文本數(shù)據(jù)的聯(lián)合配方繼續(xù)預(yù)訓(xùn)練。這一過(guò)程確保了模型在語(yǔ)言和多模態(tài)任務(wù)上的全面能力。
專家選擇：MoE 架構(gòu)通過(guò)動(dòng)態(tài)選擇專家模塊來(lái)處理輸入，從而在保持高效計(jì)算的同時(shí)，提升模型的表達(dá)能力和推理能力。

增強(qiáng)版Muon優(yōu)化器

在訓(xùn)練Kimi-VL模型時(shí)，優(yōu)化器的選擇對(duì)于模型的收斂速度和最終性能至關(guān)重要。本研究中使用了增強(qiáng)版的Muon優(yōu)化器（Muon is Scalable for LLM Training），它在原始Muon優(yōu)化器的基礎(chǔ)上，通過(guò)增加權(quán)重衰減、調(diào)整Per-Parameter更新規(guī)模、基于ZeRO-1優(yōu)化策略，開(kāi)發(fā)了Muon優(yōu)化器的分布式實(shí)現(xiàn)等方法進(jìn)行了改進(jìn)，以更好地適應(yīng)大規(guī)模訓(xùn)練的需求。

2、預(yù)訓(xùn)練

Kimi-VL的預(yù)訓(xùn)練過(guò)程包含四個(gè)階段，每個(gè)階段都有其特定的目標(biāo)和數(shù)據(jù)組成，旨在逐步提升模型的語(yǔ)言和多模態(tài)能力。

ViT訓(xùn)練階段

這一階段的目標(biāo)是訓(xùn)練一個(gè)強(qiáng)大的原生分辨率視覺(jué)編碼器（MoonViT），使其能夠高效處理不同分辨率的圖像。

訓(xùn)練數(shù)據(jù)使用圖像-文本對(duì)進(jìn)行訓(xùn)練，其中文本部分包括：圖像替代文本（alt text）、合成標(biāo)題（synthetic captions）、grounding 邊界框（grounding bboxes）、OCR 文本（OCR texts）。

方法：

損失函數(shù)：結(jié)合 SigLIP 損失（一種對(duì)比損失變體）和基于輸入圖像的標(biāo)題生成交叉熵?fù)p失。最終損失函數(shù)為：，其中λ=2。
訓(xùn)練策略：圖像和文本編碼器計(jì)算對(duì)比損失，文本解碼器基于圖像編碼器的特征進(jìn)行下一 token 預(yù)測(cè)（NTP）。為加速訓(xùn)練，使用 SigLIP SO-400M 權(quán)重初始化兩個(gè)編碼器，并采用漸進(jìn)分辨率采樣策略逐步允許更大尺寸的圖像。
對(duì)齊階段：在消耗 2T token 的 CoCa 式階段訓(xùn)練 ViT 后，再用 0.1T token 將 MoonViT 與 MoE 語(yǔ)言模型對(duì)齊，此階段僅更新 MoonViT 和 MLP 投影器。這一對(duì)齊階段顯著降低了語(yǔ)言模型中 MoonViT 嵌入的初始困惑度，為后續(xù)聯(lián)合預(yù)訓(xùn)練階段的平穩(wěn)進(jìn)行奠定了基礎(chǔ)。

聯(lián)合預(yù)訓(xùn)練階段

這一階段的目標(biāo)是整合語(yǔ)言和視覺(jué)能力，提升模型的多模態(tài)理解能力。

訓(xùn)練數(shù)據(jù)使用純文本數(shù)據(jù)和多模態(tài)數(shù)據(jù)的組合進(jìn)行訓(xùn)練。多模態(tài)數(shù)據(jù)包括：圖像-文本對(duì)、視頻-文本對(duì)、OCR 數(shù)據(jù)、知識(shí)數(shù)據(jù)（如幾何圖形、圖表等）

方法：

訓(xùn)練策略：從加載的 LLM 檢查點(diǎn)繼續(xù)訓(xùn)練，采用相同的學(xué)習(xí)率調(diào)度器，額外消耗 1.4T token。初始步驟僅使用語(yǔ)言數(shù)據(jù)，之后逐步增加多模態(tài)數(shù)據(jù)的比例。
漸進(jìn)方法：通過(guò)逐步增加多模態(tài)數(shù)據(jù)的比例，確保模型在保留語(yǔ)言能力的同時(shí)，成功整合視覺(jué)理解能力。

聯(lián)合冷卻階段

這一階段的目標(biāo)是通過(guò)高質(zhì)量的數(shù)據(jù)進(jìn)一步提升模型的性能，特別是在數(shù)學(xué)推理、知識(shí)型任務(wù)和代碼生成方面

訓(xùn)練數(shù)據(jù)使用高質(zhì)量的語(yǔ)言和多模態(tài)數(shù)據(jù)集進(jìn)行訓(xùn)練，包括：合成數(shù)據(jù)（用于數(shù)學(xué)推理、知識(shí)型任務(wù)和代碼生成）、經(jīng)過(guò)篩選的學(xué)術(shù)視覺(jué)或視覺(jué)語(yǔ)言數(shù)據(jù)源

方法：

語(yǔ)言部分：通過(guò)實(shí)證研究，發(fā)現(xiàn)冷卻階段加入合成數(shù)據(jù)能顯著提升性能，尤其是在數(shù)學(xué)推理、知識(shí)型任務(wù)和代碼生成方面。冷卻數(shù)據(jù)集的一般文本部分選自預(yù)訓(xùn)練語(yǔ)料庫(kù)的高保真子集。
多模態(tài)部分：除了采用文本冷卻數(shù)據(jù)準(zhǔn)備的兩種策略（即問(wèn)答合成和高質(zhì)量子集回放）外，還篩選并重寫(xiě)了多種學(xué)術(shù)視覺(jué)或視覺(jué)語(yǔ)言數(shù)據(jù)源為 QA 對(duì)。
采樣策略：采用混合方法，利用選定的預(yù)訓(xùn)練子集，同時(shí)通過(guò)專有語(yǔ)言模型生成內(nèi)容進(jìn)行增強(qiáng)。通過(guò)拒絕采樣技術(shù)生成 QA 對(duì)，并在整合到冷卻數(shù)據(jù)集前進(jìn)行全面驗(yàn)證。

聯(lián)合冷卻階段是模型預(yù)訓(xùn)練過(guò)程中的一個(gè)重要環(huán)節(jié)，通過(guò)使用高質(zhì)量的數(shù)據(jù)集和特定的訓(xùn)練策略，可以幫助模型在多種任務(wù)上表現(xiàn)出色，通過(guò)逐步減少數(shù)據(jù)的復(fù)雜性和多樣性，幫助模型在訓(xùn)練過(guò)程中更加穩(wěn)定，避免過(guò)擬合，進(jìn)一步提升模型的性能和穩(wěn)定性。

聯(lián)合長(zhǎng)上下文激活階段

這一階段的目標(biāo)是擴(kuò)展模型的上下文長(zhǎng)度，使其能夠處理更長(zhǎng)的文本和視頻輸入。

訓(xùn)練數(shù)據(jù)使用長(zhǎng)文本、長(zhǎng)視頻和長(zhǎng)文檔等長(zhǎng)上下文數(shù)據(jù)進(jìn)行訓(xùn)練。

方法：

上下文長(zhǎng)度擴(kuò)展：將模型的上下文長(zhǎng)度從 8192（8K）擴(kuò)展到 131072（128K），并將其 RoPE 嵌入的逆頻率從 50,000 重置為 800,000。
分階段擴(kuò)展：聯(lián)合長(zhǎng)上下文階段分為兩個(gè)子階段，每個(gè)子階段將模型的上下文長(zhǎng)度擴(kuò)展四倍。在每個(gè)子階段，將長(zhǎng)數(shù)據(jù)的比例過(guò)濾并上采樣至 25%，同時(shí)用剩余的 75% token 回放前一階段的短數(shù)據(jù)。
數(shù)據(jù)組成：長(zhǎng)上下文激活數(shù)據(jù)不僅包含長(zhǎng)文本，還包括長(zhǎng)多模態(tài)數(shù)據(jù)，如長(zhǎng)交錯(cuò)數(shù)據(jù)、長(zhǎng)視頻和長(zhǎng)文檔。還合成了一小部分 QA 對(duì)以增強(qiáng)長(zhǎng)上下文激活的學(xué)習(xí)效率。

經(jīng)過(guò)長(zhǎng)上下文激活后，模型能夠通過(guò)長(zhǎng)純文本或長(zhǎng)視頻的 NIAH 評(píng)估，證明了其多功能的長(zhǎng)上下文能力。具體來(lái)說(shuō)，模型在不同上下文長(zhǎng)度范圍內(nèi)的 NIAH 召回準(zhǔn)確率如表所示：

3、后訓(xùn)練

在預(yù)訓(xùn)練階段之后，Kimi-VL 進(jìn)入后訓(xùn)練階段，這一階段的目標(biāo)是通過(guò)特定的任務(wù)數(shù)據(jù)進(jìn)一步微調(diào)模型，以提升其在實(shí)際應(yīng)用中的性能。后訓(xùn)練階段主要包括以下幾個(gè)部分：聯(lián)合監(jiān)督微調(diào)（SFT）、長(zhǎng)鏈推理（CoT）監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)（RL）。

聯(lián)合監(jiān)督微調(diào)（SFT）

這一階段，通過(guò)基于指令的微調(diào)，增強(qiáng)模型遵循指令和進(jìn)行對(duì)話的能力，最終形成交互式的 Kimi-VL 模型。

訓(xùn)練數(shù)據(jù)使用純文本和視覺(jué)語(yǔ)言 SFT 數(shù)據(jù)的混合進(jìn)行訓(xùn)練。這些數(shù)據(jù)包括指令-響應(yīng)對(duì)，覆蓋多種任務(wù)和場(chǎng)景。

長(zhǎng)鏈推理（CoT）監(jiān)督微調(diào)

這一階段，通過(guò)長(zhǎng)鏈推理（CoT）監(jiān)督微調(diào)，提升模型在復(fù)雜推理任務(wù)中的表現(xiàn)。

訓(xùn)練數(shù)據(jù)基于精煉的RL提示集，通過(guò)提示工程構(gòu)建了一個(gè)高質(zhì)量的長(zhǎng) CoT 預(yù)熱數(shù)據(jù)集，包含針對(duì)文本和圖像輸入的經(jīng)過(guò)準(zhǔn)確驗(yàn)證的推理路徑。生成的預(yù)熱數(shù)據(jù)集旨在封裝對(duì)人類式推理至關(guān)重要的關(guān)鍵認(rèn)知過(guò)程，例如規(guī)劃（模型在執(zhí)行前系統(tǒng)化步驟）、評(píng)估（對(duì)中間步驟的關(guān)鍵評(píng)估）、反思（重新考慮并改進(jìn)方法）和探索（鼓勵(lì)考慮替代解決方案）。

方法：對(duì)預(yù)熱數(shù)據(jù)集進(jìn)行輕量級(jí)監(jiān)督微調(diào)，引導(dǎo)模型內(nèi)化這些多模態(tài)推理策略。逐步增加推理路徑的復(fù)雜性，使模型能夠處理更復(fù)雜的推理任務(wù)。

強(qiáng)化學(xué)習(xí)（RL）

這一階段，通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步提升模型的推理能力，使其能夠自主生成結(jié)構(gòu)化的 CoT 推理過(guò)程。

方法：采用在線策略鏡像下降變體作為 RL 算法，通過(guò)迭代優(yōu)化策略模型以提高其問(wèn)題解決準(zhǔn)確性。在第i次訓(xùn)練迭代中，將當(dāng)前模型視為參考策略模型，并優(yōu)化以下目標(biāo)，通過(guò)相對(duì)熵正則化以穩(wěn)定策略更新：

4、實(shí)驗(yàn)結(jié)果

與前沿模型對(duì)比

推理能力

Kimi-VL 的長(zhǎng)鏈推理（CoT）能力通過(guò)長(zhǎng) CoT 監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)得到了顯著提升，使其在處理復(fù)雜的多步推理任務(wù)時(shí)具有強(qiáng)大的能力。

Kimi-VL-Thinking 在測(cè)試時(shí)推理長(zhǎng)度的擴(kuò)展也表現(xiàn)出色，表明 Kimi-VL-Thinking 能夠利用更長(zhǎng)的推理鏈來(lái)提高其在復(fù)雜任務(wù)中的表現(xiàn)。

5、Kimi-VL能力展示

責(zé)任編輯：龐桂玉來(lái)源：小白學(xué)AI算法

多模態(tài)模型開(kāi)源 MoE SOTA模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

<menuitem id="fmvzi"></menuitem>

<sub id="fmvzi"></sub>

<sub id="fmvzi"><p id="fmvzi"></p></sub>

<p id="fmvzi"></p>