MM-Eureka:極少數(shù)據(jù)實(shí)現(xiàn)多模態(tài)推理的R1-Zero時刻
盡管 DeepSeek-R1 在單模態(tài)推理中取得了顯著成功,但已有的多模態(tài)嘗試(如 R1-V、R1-Multimodal-Journey、LMM-R1)尚未完全復(fù)現(xiàn)其核心特征。
例如,R1-V 僅在簡單計(jì)數(shù)任務(wù)上表現(xiàn)出進(jìn)步,未能實(shí)現(xiàn)回答長度的增長和頓悟時刻;R1-Multimodal-Journey 則在訓(xùn)練過程中回答長度反而降低;LMM-R1 雖然有所進(jìn)步,但尚未在大規(guī)模圖文數(shù)據(jù)訓(xùn)練中得到驗(yàn)證。而 Kimi 1.5 盡管表現(xiàn)突出,但并未開源其模型或數(shù)據(jù)。
- 論文標(biāo)題:MM-EUREKA:EXPLORING VISUAL AHA MOMENT WITH RULE-BASED LARGE-SCALE REINFORCEMENT LEARNING
- 代碼地址:https://github.com/ModalMinds/MM-EUREKA
- 技術(shù)報告:https://arxiv.org/pdf/2503.07365
- 模型地址:https://huggingface.co/FanqingM/MM-Eureka-Zero-38B
https://huggingface.co/FanqingM/MM-Eureka-8B - 數(shù)據(jù)集地址:https://huggingface.co/datasets/FanqingM/MM-Eureka-Dataset
我們這篇工作聚焦于一個核心問題:如何在多模態(tài)環(huán)境中復(fù)現(xiàn) DeepSeek-R1 的關(guān)鍵特性,包括穩(wěn)定的回答長度增長、準(zhǔn)確率獎勵以及 Visual aha-moment?
為了解答這一問題,來自上海人工智能實(shí)驗(yàn)室、上海創(chuàng)智學(xué)院、上海交通大學(xué)和香港大學(xué)的研究人員提出了多模態(tài)學(xué)科推理模型 MM-Eureka。
我們的探索
開源框架:我們基于 OpenRLHF 開發(fā)了一個高效可擴(kuò)展的多模態(tài)大規(guī)模強(qiáng)化學(xué)習(xí)框架,支持 InternVL 等多種模型和 RL 算法。相比 R1-V 等已有框架,我們的方案成功訓(xùn)練了 InternVL 2.5-38B 等大型模型。
穩(wěn)定訓(xùn)練:我們開發(fā)了兩個模型——MM-Eureka-8B(基于 InternVL 2.5-Instruct-8B)和 MM-Eureka-Zero-38B(基于 InternVL 2.5-Pretrained-38B),均成功復(fù)現(xiàn)了穩(wěn)定的 accuracy reward、response length 增長以及 Visual aha-moment。
極大的數(shù)據(jù)效率:僅使用 54K 圖文數(shù)據(jù)進(jìn)行規(guī)則型 RL 訓(xùn)練,平均性能超過使用 1M 數(shù)據(jù)的 MPO 模型;整體基準(zhǔn)準(zhǔn)確率與使用 12M 數(shù)據(jù)進(jìn)行 CoT SFT 訓(xùn)練的模型相當(dāng)!MM-Eureka-Zero 僅使用 8K 圖文數(shù)學(xué)推理數(shù)據(jù)(指令模型的 0.05%),在我們自建的 K12 基準(zhǔn)測試上超越指令模型 8.2%,在 MathVerse 上表現(xiàn)相當(dāng)。
重要發(fā)現(xiàn)
- 極簡的 RL 設(shè)計(jì)足以獲得出色效果。在 instruct 模型上實(shí)驗(yàn)時,添加 KL 散度會限制模型探索,導(dǎo)致無法觀測到 response length 的提高。
- 數(shù)據(jù)選擇對于穩(wěn)定 RL 訓(xùn)練很重要!基于難度的數(shù)據(jù)過濾策略對 RL 訓(xùn)練穩(wěn)定性至關(guān)重要。在 8B-instruct 模型上進(jìn)行 RL 訓(xùn)練時,若不進(jìn)行數(shù)據(jù)過濾,訓(xùn)練過程極其不穩(wěn)定。
- 模型在 RL 訓(xùn)練中展現(xiàn)類似 DeepSeek-R1 的 aha-moment,特別是模型不僅學(xué)會反思和回溯,還學(xué)會重新審視圖像中的關(guān)鍵信息,我們認(rèn)為這是 Visual aha-moment 的關(guān)鍵特征。
我們的成果
- 無論在 Instruct 還是 Pretrained Model 上,我們均在極簡 RL 設(shè)計(jì)以及數(shù)據(jù)篩選策略下實(shí)現(xiàn)了穩(wěn)定的 Accuracy Reward 提升和 Response Length 提升。
- 在 Instruct 模型上,幾乎全部使用開源數(shù)據(jù)(50K),便在所有多模態(tài)數(shù)學(xué)推理基準(zhǔn)上取得穩(wěn)定提升。相比其他后訓(xùn)練策略,比如 MPO(1M 數(shù)據(jù))和 CoT SFT(12M 數(shù)據(jù)),我們發(fā)現(xiàn)簡單的 rule-based RL 具備極強(qiáng)的數(shù)據(jù)高效性,使用幾十分之一的數(shù)據(jù),平均性能超過 MPO,與 CoT SFT 相當(dāng)。
- 在 Pretrained 模型上進(jìn)一步挖掘 RL 潛力,僅需 8K 多模態(tài)數(shù)學(xué)推理數(shù)據(jù),即可在奧林匹克數(shù)學(xué)測試集(部分)和 K12 數(shù)學(xué)推理測試集上,超過使用 16.3M 數(shù)據(jù)進(jìn)行 SFT 的指令模型。在 MathVerse 上,兩種模型表現(xiàn)也相似。我們僅使用了指令模型數(shù)據(jù)量的 0.05%,凸顯了強(qiáng)化學(xué)習(xí)的巨大潛力!
其他嘗試與反思
我們在復(fù)現(xiàn)過程中進(jìn)行了許多其他的嘗試,在此分享一些我們認(rèn)為有幫助,但并未成功驗(yàn)證的操作。我們認(rèn)為這并不代表這些方法有問題,而是需要進(jìn)一步探索。
Curriculum Learning:盡管我們基于難度劃分?jǐn)?shù)據(jù)并嘗試從易到難訓(xùn)練,但未觀察到明顯性能提升。我們認(rèn)為簡單問題的學(xué)習(xí)難以直接泛化到難題,如何更有效地組織課程學(xué)習(xí)數(shù)據(jù)仍需探索。
Online Data Filter:我們將預(yù)先基于難度的數(shù)據(jù)篩選策略記為 Offline Data Filter。這種方案雖然可以幫助 RL 進(jìn)行穩(wěn)定訓(xùn)練,但其數(shù)據(jù)利用率降低了,因此我們希望在模型訓(xùn)練過程中動態(tài)進(jìn)行基于難度的數(shù)據(jù)篩選(類似 PRIME)。然而,我們發(fā)現(xiàn)訓(xùn)練結(jié)果不如 offline data filter 穩(wěn)定,我們認(rèn)為這是因?yàn)槊看胃聲r的數(shù)據(jù)量不同,導(dǎo)致梯度不穩(wěn)定。
Model Size:盡管目前一些工作,比如 ORZ、SimpleRL 在 7B level 的 LLM 上也復(fù)現(xiàn)了 R1 的表現(xiàn),但我們在多模態(tài)推理場景下,難以通過 8B 的 InternVL Pretrained 進(jìn)行成功復(fù)現(xiàn)。我們認(rèn)為這受制于多模態(tài)推理數(shù)據(jù)質(zhì)量以及多模態(tài)預(yù)訓(xùn)練數(shù)據(jù)中很少存在 long CoT 數(shù)據(jù)。
我們的期望
我們開源了全套數(shù)據(jù)(包括自助收集的高質(zhì)量多模態(tài) K12 數(shù)據(jù)集)、代碼和模型,并發(fā)布了詳細(xì)的技術(shù)報告,涵蓋所有復(fù)現(xiàn)過程及未成功的嘗試。希望我們的工作能幫助社區(qū)共同推進(jìn)多模態(tài)推理的發(fā)展!我們同樣在持續(xù)推進(jìn)模型訓(xùn)練,請繼續(xù)關(guān)注!