自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

從零搭一套可復(fù)現(xiàn)、可教學(xué)、可觀察的RL for VLM訓(xùn)練流程,我們試了試

人工智能 新聞
來自上海交通大學(xué)、MiniMax、復(fù)旦大學(xué)和 SII 的研究團(tuán)隊(duì)選擇按下暫停鍵,進(jìn)行了一次關(guān)于 RL Scaling 的重新思考(Rethinking)。

自 Deepseek-R1 發(fā)布以來,研究社區(qū)迅速響應(yīng),紛紛在各自任務(wù)中復(fù)現(xiàn) R1-moment。

在過去的幾個(gè)月中,越來越多的研究嘗試將 RL Scaling 的成功應(yīng)用擴(kuò)展到視覺語言模型(VLM)領(lǐng)域 —— 刷榜、追性能、制造 “Aha Moment”,整個(gè)社區(qū)正高速奔跑,RL for VLM 的邊界也在不斷被推遠(yuǎn)。

但在這樣一個(gè)節(jié)奏飛快、聚焦結(jié)果的研究環(huán)境中,基礎(chǔ)設(shè)施層面的透明性、評估的一致性,以及訓(xùn)練過程的可解釋性,往往被忽視。

這會(huì)帶來三個(gè)問題:

  • 當(dāng)?shù)讓訉?shí)現(xiàn)依賴封裝復(fù)雜的 RL 庫時(shí),整體流程往往難以看清,理解和修改成本高,不利于方法的教學(xué)與傳播;
  • 缺乏一致、魯棒的評估標(biāo)準(zhǔn),不同方法之間難以公平比較,也難以積累長期洞察;
  • 訓(xùn)練過程行為不可觀測,模型如何學(xué)習(xí)、學(xué)習(xí)出了什么能力、訓(xùn)練過程中出現(xiàn)了哪些行為變得難以分析。

于是,來自上海交通大學(xué)、MiniMax、復(fù)旦大學(xué)和 SII 的研究團(tuán)隊(duì)選擇按下暫停鍵,進(jìn)行了一次關(guān)于 RL Scaling 的重新思考(Rethinking):

他們提出 MAYE —— 一個(gè)從零實(shí)現(xiàn)的 RL for VLM 框架與標(biāo)準(zhǔn)化評估方案,希望為該領(lǐng)域奠定一個(gè)透明、可復(fù)現(xiàn)、可教學(xué)的研究起點(diǎn)。

圖片

  • 論文標(biāo)題:Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme
  • 論文地址:https://arxiv.org/pdf/2504.02587
  • 代碼地址:https://github.com/GAIR-NLP/MAYE
  • 數(shù)據(jù)集地址:https://huggingface.co/datasets/ManTle/MAYE

三大核心貢獻(xiàn)

重塑 RL+VLMs 的研究范式

1. 簡潔透明的 RL for VLM 訓(xùn)練架構(gòu):輕依賴、強(qiáng)可控

MAYE 的實(shí)現(xiàn)很「干凈」:

  • 沒有 Ray / DeepSpeed / TRL / Verl / OpenRLHF / AReaL
  • 從零實(shí)現(xiàn),無黑箱封裝,無多余抽象
  • 基于 Transformers / FSDP2 / vLLM 搭建,專為 VLM 設(shè)計(jì)
  • 支持靈活改動(dòng),適合教學(xué)與研究場景

這樣的設(shè)計(jì)不僅提升了訓(xùn)練過程的可解釋性,也極大降低了 RL for VLM 的入門門檻:每一行代碼、每一個(gè)環(huán)節(jié)都可見、可查、可改,研究者可以更清晰地理解模型是如何學(xué)習(xí)的,又為何能收斂。

我們并未采用當(dāng)前 VLM-RL 社區(qū)常用的 GRPO,而是選擇探索 Reinforce++ 的替代可能性。整個(gè)項(xiàng)目的靈感來源于 OpenAI Spinning Up,我們希望 MAYE 能成為 VLM-RL 研究中的一個(gè)輕量、透明、可教學(xué)的入門底座。

相比市面上黑盒化程度較高的 RL 框架,MAYE 更像是一個(gè)透明的「教學(xué)級實(shí)驗(yàn)框架」:既可直接運(yùn)行,也可任意插拔、修改各個(gè)組件,非常適合用于方法對比、原理教學(xué),甚至作為新手入門的第一課。

我們將完整的訓(xùn)練流程解構(gòu)為 4 個(gè)輕量模塊:

數(shù)據(jù)流動(dòng)(data flow)  → 響應(yīng)采集 (response collection) → 軌跡構(gòu)造 (trajectory generation)→ 策略更新 (policy update)

每一步都通過清晰的接口呈現(xiàn),可以像樂高一樣自由拼接、替換,將原本復(fù)雜封裝的黑盒流程徹底 “白盒化”。

訓(xùn)練過程不再是只能看 loss 和 accuracy 的黑箱,而是變成一條可以觀察、分析、干預(yù)的路徑。

圖片

RL for VLM,只需四步:結(jié)構(gòu)清晰,可拆可查

 2. 標(biāo)準(zhǔn)化評估方案:看清訓(xùn)練過程,看懂模型行為

RL 研究中,一直存在兩個(gè)老大難問題:訓(xùn)練過程不穩(wěn)定,評估過程不透明。

尤其在 VLM 場景下,很多 RL 工作只關(guān)注 “最后結(jié)果”,缺乏對學(xué)習(xí)曲線、行為演化的系統(tǒng)性觀察與分析。

那么 —— 模型究竟是如何學(xué)會(huì)的?反思能力是如何出現(xiàn)的?長輸出真的等于更強(qiáng)推理嗎?過去缺乏統(tǒng)一的方式來回答這些問題。

為此,MAYE 提出了一整套細(xì)致、可復(fù)現(xiàn)的標(biāo)準(zhǔn)化評估方案(evaluation scheme),用于系統(tǒng)追蹤訓(xùn)練動(dòng)態(tài)和模型行為演化:

訓(xùn)練集指標(biāo):

  • accuracy curve(準(zhǔn)確率曲線)
  • response length(響應(yīng)長度)
  • 多次獨(dú)立運(yùn)行取均值,展現(xiàn)真實(shí)學(xué)習(xí)趨勢

驗(yàn)證 & 測試集指標(biāo):

  • pass@1 與 pass@8,在不同溫度設(shè)置下評估泛化能力
  • 提供平均值 + 最大值,全面覆蓋性能變化

反思行為指標(biāo):

  • 反思詞使用頻率統(tǒng)計(jì)(e.g., re-check, think again, verify)
  • 五個(gè)比例指標(biāo),量化反思是否真正帶來了正確率提升

這些指標(biāo)覆蓋了訓(xùn)練全過程,既能用于算法開發(fā),也適合橫向比較、機(jī)制研究。

無論你是做方法、做分析,還是做認(rèn)知能力探測,MAYE 都能提供一套清晰可復(fù)現(xiàn)的過程視角。

圖片

準(zhǔn)確率曲線、輸出長度、反思指標(biāo)——三類視角還原 RL 全貌

3. 實(shí)證發(fā)現(xiàn)與行為洞察:RL 不止有效,更值得被理解

MAYE 不只是一個(gè)框架和評估工具,也是一套可以產(chǎn)出研究發(fā)現(xiàn)的實(shí)驗(yàn)平臺(tái)。

 研究團(tuán)隊(duì)在多個(gè)主流 VLMs(如 Qwen2 / Qwen2.5-VL-Instruct)和兩類視覺推理數(shù)據(jù)集(文本主導(dǎo) / 圖像主導(dǎo))上開展系統(tǒng)實(shí)驗(yàn),復(fù)現(xiàn)實(shí)驗(yàn)足夠穩(wěn)健:所有結(jié)果均基于 3 次獨(dú)立運(yùn)行,并報(bào)告均值與標(biāo)準(zhǔn)差。

在此基礎(chǔ)上,我們觀察到了一些有代表性的現(xiàn)象:

  • 輸出長度會(huì)隨著模型架構(gòu)、數(shù)據(jù)分布、訓(xùn)練隨機(jī)種子而顯著變化,是判斷模型推理策略演化的重要觀測信號;
  • 反思行為(Reflection)頻率與輸出長度高度相關(guān),但大多數(shù)性能提升仍來源于非反思型推理。輸出變長 ≠ 模型變強(qiáng)。長文本可能意味著更豐富的推理,也可能只是訓(xùn)練過程中的隨機(jī)漂移或復(fù)讀堆疊。只有當(dāng) “更長” 帶來 “更準(zhǔn)”,才值得被認(rèn)為是有效行為;
  • Aha Moment 并不是 RL 訓(xùn)練憑空生成的,而是在 VLM 模型本身能力基礎(chǔ)上被進(jìn)一步激發(fā)和強(qiáng)化;

圖片

在多個(gè)模型和數(shù)據(jù)集上,系統(tǒng)追蹤了訓(xùn)練動(dòng)態(tài)與反思行為

在相同高質(zhì)量監(jiān)督數(shù)據(jù)(來自 textbook-style CoT)下,RL 在驗(yàn)證集和測試集上均顯著優(yōu)于 SFT,且具有更強(qiáng)的 OOD 泛化能力。即便是 Qwen2.5-VL 這類強(qiáng)基座模型,也能從 RL 中獲得額外提升。

圖片

驗(yàn)證集與測試集全維度對比:RL 展現(xiàn)出更強(qiáng)的泛化能力

圖片

驗(yàn)證集與測試集全維度對比:RL 展現(xiàn)出更強(qiáng)的泛化能力

這些實(shí)證結(jié)果不僅揭示了 RL 對模型行為的真實(shí)影響,也為后續(xù)研究者提供了穩(wěn)定、可對照的 baseline 實(shí)驗(yàn)結(jié)果。我們也呼吁社區(qū)更多采用多次獨(dú)立運(yùn)行報(bào)告結(jié)果,推動(dòng) RL for VLM 從 “能跑通” 邁向 “可分析、可信任”。

結(jié)語

MAYE 并不是一項(xiàng)追求極致性能的框架優(yōu)化工程,而是一套面向研究者與教學(xué)場景的基礎(chǔ)設(shè)施嘗試。

我們希望它能成為 RL-VLM 研究中一塊干凈的起點(diǎn),幫助社區(qū)更透明地理解訓(xùn)練過程、更一致地衡量行為變化、也更高效地探索 RL Scaling for VLM 的邊界。

這只是一個(gè)起步,希望它對你的工作有所幫助。歡迎反饋、改進(jìn)、復(fù)用。論文與代碼資源全面開源,歡迎研究者探索和復(fù)現(xiàn)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2021-11-07 20:43:14

React

2022-07-10 20:45:47

React加載動(dòng)畫庫

2023-03-22 23:23:25

React加載動(dòng)畫庫

2023-02-09 12:42:40

2015-11-13 10:42:06

微軟表情包爾康少爺

2021-11-29 16:12:38

AI數(shù)據(jù)強(qiáng)化學(xué)習(xí)

2021-07-15 10:55:59

SQLLinux日志

2013-04-03 13:08:54

2010-05-12 09:21:49

2009-06-23 18:01:45

Ajax框架源代碼

2018-08-31 08:42:48

LinuxUnix實(shí)用程序

2014-12-02 10:02:21

Android異步任務(wù)

2023-03-03 17:00:00

部署Linux內(nèi)核

2023-07-03 11:03:26

數(shù)據(jù)庫云遷移

2021-01-08 08:19:36

數(shù)據(jù)庫TiDB集群

2019-10-11 15:58:25

戴爾

2021-05-27 07:12:19

單點(diǎn)登錄系統(tǒng)

2021-11-14 22:14:08

人工智能機(jī)器學(xué)習(xí)工具

2021-07-12 11:24:00

流利說可觀察性平臺(tái)阿里云

2024-12-09 09:25:30

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號