從零搭一套可復(fù)現(xiàn)、可教學(xué)、可觀察的RL for VLM訓(xùn)練流程,我們試了試
自 Deepseek-R1 發(fā)布以來,研究社區(qū)迅速響應(yīng),紛紛在各自任務(wù)中復(fù)現(xiàn) R1-moment。
在過去的幾個(gè)月中,越來越多的研究嘗試將 RL Scaling 的成功應(yīng)用擴(kuò)展到視覺語言模型(VLM)領(lǐng)域 —— 刷榜、追性能、制造 “Aha Moment”,整個(gè)社區(qū)正高速奔跑,RL for VLM 的邊界也在不斷被推遠(yuǎn)。
但在這樣一個(gè)節(jié)奏飛快、聚焦結(jié)果的研究環(huán)境中,基礎(chǔ)設(shè)施層面的透明性、評估的一致性,以及訓(xùn)練過程的可解釋性,往往被忽視。
這會(huì)帶來三個(gè)問題:
- 當(dāng)?shù)讓訉?shí)現(xiàn)依賴封裝復(fù)雜的 RL 庫時(shí),整體流程往往難以看清,理解和修改成本高,不利于方法的教學(xué)與傳播;
- 缺乏一致、魯棒的評估標(biāo)準(zhǔn),不同方法之間難以公平比較,也難以積累長期洞察;
- 訓(xùn)練過程行為不可觀測,模型如何學(xué)習(xí)、學(xué)習(xí)出了什么能力、訓(xùn)練過程中出現(xiàn)了哪些行為變得難以分析。
于是,來自上海交通大學(xué)、MiniMax、復(fù)旦大學(xué)和 SII 的研究團(tuán)隊(duì)選擇按下暫停鍵,進(jìn)行了一次關(guān)于 RL Scaling 的重新思考(Rethinking):
他們提出 MAYE —— 一個(gè)從零實(shí)現(xiàn)的 RL for VLM 框架與標(biāo)準(zhǔn)化評估方案,希望為該領(lǐng)域奠定一個(gè)透明、可復(fù)現(xiàn)、可教學(xué)的研究起點(diǎn)。
- 論文標(biāo)題:Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme
- 論文地址:https://arxiv.org/pdf/2504.02587
- 代碼地址:https://github.com/GAIR-NLP/MAYE
- 數(shù)據(jù)集地址:https://huggingface.co/datasets/ManTle/MAYE
三大核心貢獻(xiàn)
重塑 RL+VLMs 的研究范式
1. 簡潔透明的 RL for VLM 訓(xùn)練架構(gòu):輕依賴、強(qiáng)可控
MAYE 的實(shí)現(xiàn)很「干凈」:
- 沒有 Ray / DeepSpeed / TRL / Verl / OpenRLHF / AReaL
- 從零實(shí)現(xiàn),無黑箱封裝,無多余抽象
- 基于 Transformers / FSDP2 / vLLM 搭建,專為 VLM 設(shè)計(jì)
- 支持靈活改動(dòng),適合教學(xué)與研究場景
這樣的設(shè)計(jì)不僅提升了訓(xùn)練過程的可解釋性,也極大降低了 RL for VLM 的入門門檻:每一行代碼、每一個(gè)環(huán)節(jié)都可見、可查、可改,研究者可以更清晰地理解模型是如何學(xué)習(xí)的,又為何能收斂。
我們并未采用當(dāng)前 VLM-RL 社區(qū)常用的 GRPO,而是選擇探索 Reinforce++ 的替代可能性。整個(gè)項(xiàng)目的靈感來源于 OpenAI Spinning Up,我們希望 MAYE 能成為 VLM-RL 研究中的一個(gè)輕量、透明、可教學(xué)的入門底座。
相比市面上黑盒化程度較高的 RL 框架,MAYE 更像是一個(gè)透明的「教學(xué)級實(shí)驗(yàn)框架」:既可直接運(yùn)行,也可任意插拔、修改各個(gè)組件,非常適合用于方法對比、原理教學(xué),甚至作為新手入門的第一課。
我們將完整的訓(xùn)練流程解構(gòu)為 4 個(gè)輕量模塊:
數(shù)據(jù)流動(dòng)(data flow) → 響應(yīng)采集 (response collection) → 軌跡構(gòu)造 (trajectory generation)→ 策略更新 (policy update)
每一步都通過清晰的接口呈現(xiàn),可以像樂高一樣自由拼接、替換,將原本復(fù)雜封裝的黑盒流程徹底 “白盒化”。
訓(xùn)練過程不再是只能看 loss 和 accuracy 的黑箱,而是變成一條可以觀察、分析、干預(yù)的路徑。
RL for VLM,只需四步:結(jié)構(gòu)清晰,可拆可查
2. 標(biāo)準(zhǔn)化評估方案:看清訓(xùn)練過程,看懂模型行為
RL 研究中,一直存在兩個(gè)老大難問題:訓(xùn)練過程不穩(wěn)定,評估過程不透明。
尤其在 VLM 場景下,很多 RL 工作只關(guān)注 “最后結(jié)果”,缺乏對學(xué)習(xí)曲線、行為演化的系統(tǒng)性觀察與分析。
那么 —— 模型究竟是如何學(xué)會(huì)的?反思能力是如何出現(xiàn)的?長輸出真的等于更強(qiáng)推理嗎?過去缺乏統(tǒng)一的方式來回答這些問題。
為此,MAYE 提出了一整套細(xì)致、可復(fù)現(xiàn)的標(biāo)準(zhǔn)化評估方案(evaluation scheme),用于系統(tǒng)追蹤訓(xùn)練動(dòng)態(tài)和模型行為演化:
訓(xùn)練集指標(biāo):
- accuracy curve(準(zhǔn)確率曲線)
- response length(響應(yīng)長度)
- 多次獨(dú)立運(yùn)行取均值,展現(xiàn)真實(shí)學(xué)習(xí)趨勢
驗(yàn)證 & 測試集指標(biāo):
- pass@1 與 pass@8,在不同溫度設(shè)置下評估泛化能力
- 提供平均值 + 最大值,全面覆蓋性能變化
反思行為指標(biāo):
- 反思詞使用頻率統(tǒng)計(jì)(e.g., re-check, think again, verify)
- 五個(gè)比例指標(biāo),量化反思是否真正帶來了正確率提升
這些指標(biāo)覆蓋了訓(xùn)練全過程,既能用于算法開發(fā),也適合橫向比較、機(jī)制研究。
無論你是做方法、做分析,還是做認(rèn)知能力探測,MAYE 都能提供一套清晰可復(fù)現(xiàn)的過程視角。
準(zhǔn)確率曲線、輸出長度、反思指標(biāo)——三類視角還原 RL 全貌
3. 實(shí)證發(fā)現(xiàn)與行為洞察:RL 不止有效,更值得被理解
MAYE 不只是一個(gè)框架和評估工具,也是一套可以產(chǎn)出研究發(fā)現(xiàn)的實(shí)驗(yàn)平臺(tái)。
研究團(tuán)隊(duì)在多個(gè)主流 VLMs(如 Qwen2 / Qwen2.5-VL-Instruct)和兩類視覺推理數(shù)據(jù)集(文本主導(dǎo) / 圖像主導(dǎo))上開展系統(tǒng)實(shí)驗(yàn),復(fù)現(xiàn)實(shí)驗(yàn)足夠穩(wěn)健:所有結(jié)果均基于 3 次獨(dú)立運(yùn)行,并報(bào)告均值與標(biāo)準(zhǔn)差。
在此基礎(chǔ)上,我們觀察到了一些有代表性的現(xiàn)象:
- 輸出長度會(huì)隨著模型架構(gòu)、數(shù)據(jù)分布、訓(xùn)練隨機(jī)種子而顯著變化,是判斷模型推理策略演化的重要觀測信號;
- 反思行為(Reflection)頻率與輸出長度高度相關(guān),但大多數(shù)性能提升仍來源于非反思型推理。輸出變長 ≠ 模型變強(qiáng)。長文本可能意味著更豐富的推理,也可能只是訓(xùn)練過程中的隨機(jī)漂移或復(fù)讀堆疊。只有當(dāng) “更長” 帶來 “更準(zhǔn)”,才值得被認(rèn)為是有效行為;
- Aha Moment 并不是 RL 訓(xùn)練憑空生成的,而是在 VLM 模型本身能力基礎(chǔ)上被進(jìn)一步激發(fā)和強(qiáng)化;
在多個(gè)模型和數(shù)據(jù)集上,系統(tǒng)追蹤了訓(xùn)練動(dòng)態(tài)與反思行為
在相同高質(zhì)量監(jiān)督數(shù)據(jù)(來自 textbook-style CoT)下,RL 在驗(yàn)證集和測試集上均顯著優(yōu)于 SFT,且具有更強(qiáng)的 OOD 泛化能力。即便是 Qwen2.5-VL 這類強(qiáng)基座模型,也能從 RL 中獲得額外提升。
驗(yàn)證集與測試集全維度對比:RL 展現(xiàn)出更強(qiáng)的泛化能力
驗(yàn)證集與測試集全維度對比:RL 展現(xiàn)出更強(qiáng)的泛化能力
這些實(shí)證結(jié)果不僅揭示了 RL 對模型行為的真實(shí)影響,也為后續(xù)研究者提供了穩(wěn)定、可對照的 baseline 實(shí)驗(yàn)結(jié)果。我們也呼吁社區(qū)更多采用多次獨(dú)立運(yùn)行報(bào)告結(jié)果,推動(dòng) RL for VLM 從 “能跑通” 邁向 “可分析、可信任”。
結(jié)語
MAYE 并不是一項(xiàng)追求極致性能的框架優(yōu)化工程,而是一套面向研究者與教學(xué)場景的基礎(chǔ)設(shè)施嘗試。
我們希望它能成為 RL-VLM 研究中一塊干凈的起點(diǎn),幫助社區(qū)更透明地理解訓(xùn)練過程、更一致地衡量行為變化、也更高效地探索 RL Scaling for VLM 的邊界。
這只是一個(gè)起步,希望它對你的工作有所幫助。歡迎反饋、改進(jìn)、復(fù)用。論文與代碼資源全面開源,歡迎研究者探索和復(fù)現(xiàn)。