自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<u id="kdha3"><form id="kdha3"></form></u>

<legend id="kdha3"><track id="kdha3"></track></legend>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

從零搭一套可復(fù)現(xiàn)、可教學(xué)、可觀察的RL for VLM訓(xùn)練流程，我們試了試

作者：機(jī)器之心 2025-04-09 12:06:21

人工智能新聞

來自上海交通大學(xué)、MiniMax、復(fù)旦大學(xué)和 SII 的研究團(tuán)隊(duì)選擇按下暫停鍵，進(jìn)行了一次關(guān)于 RL Scaling 的重新思考（Rethinking）。

自 Deepseek-R1 發(fā)布以來，研究社區(qū)迅速響應(yīng)，紛紛在各自任務(wù)中復(fù)現(xiàn) R1-moment。

在過去的幾個(gè)月中，越來越多的研究嘗試將 RL Scaling 的成功應(yīng)用擴(kuò)展到視覺語言模型（VLM）領(lǐng)域 —— 刷榜、追性能、制造 “Aha Moment”，整個(gè)社區(qū)正高速奔跑，RL for VLM 的邊界也在不斷被推遠(yuǎn)。

但在這樣一個(gè)節(jié)奏飛快、聚焦結(jié)果的研究環(huán)境中，基礎(chǔ)設(shè)施層面的透明性、評估的一致性，以及訓(xùn)練過程的可解釋性，往往被忽視。

這會(huì)帶來三個(gè)問題：

當(dāng)?shù)讓訉?shí)現(xiàn)依賴封裝復(fù)雜的 RL 庫時(shí)，整體流程往往難以看清，理解和修改成本高，不利于方法的教學(xué)與傳播；
缺乏一致、魯棒的評估標(biāo)準(zhǔn)，不同方法之間難以公平比較，也難以積累長期洞察；
訓(xùn)練過程行為不可觀測，模型如何學(xué)習(xí)、學(xué)習(xí)出了什么能力、訓(xùn)練過程中出現(xiàn)了哪些行為變得難以分析。

于是，來自上海交通大學(xué)、MiniMax、復(fù)旦大學(xué)和 SII 的研究團(tuán)隊(duì)選擇按下暫停鍵，進(jìn)行了一次關(guān)于 RL Scaling 的重新思考（Rethinking）：

他們提出 MAYE —— 一個(gè)從零實(shí)現(xiàn)的 RL for VLM 框架與標(biāo)準(zhǔn)化評估方案，希望為該領(lǐng)域奠定一個(gè)透明、可復(fù)現(xiàn)、可教學(xué)的研究起點(diǎn)。

論文標(biāo)題：Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme
論文地址：https://arxiv.org/pdf/2504.02587
代碼地址：https://github.com/GAIR-NLP/MAYE
數(shù)據(jù)集地址：https://huggingface.co/datasets/ManTle/MAYE

三大核心貢獻(xiàn)

重塑 RL+VLMs 的研究范式

1. 簡潔透明的 RL for VLM 訓(xùn)練架構(gòu)：輕依賴、強(qiáng)可控

MAYE 的實(shí)現(xiàn)很「干凈」：

沒有 Ray / DeepSpeed / TRL / Verl / OpenRLHF / AReaL
從零實(shí)現(xiàn)，無黑箱封裝，無多余抽象
基于 Transformers / FSDP2 / vLLM 搭建，專為 VLM 設(shè)計(jì)
支持靈活改動(dòng)，適合教學(xué)與研究場景

這樣的設(shè)計(jì)不僅提升了訓(xùn)練過程的可解釋性，也極大降低了 RL for VLM 的入門門檻：每一行代碼、每一個(gè)環(huán)節(jié)都可見、可查、可改，研究者可以更清晰地理解模型是如何學(xué)習(xí)的，又為何能收斂。

我們并未采用當(dāng)前 VLM-RL 社區(qū)常用的 GRPO，而是選擇探索 Reinforce++ 的替代可能性。整個(gè)項(xiàng)目的靈感來源于 OpenAI Spinning Up，我們希望 MAYE 能成為 VLM-RL 研究中的一個(gè)輕量、透明、可教學(xué)的入門底座。

相比市面上黑盒化程度較高的 RL 框架，MAYE 更像是一個(gè)透明的「教學(xué)級實(shí)驗(yàn)框架」：既可直接運(yùn)行，也可任意插拔、修改各個(gè)組件，非常適合用于方法對比、原理教學(xué)，甚至作為新手入門的第一課。

我們將完整的訓(xùn)練流程解構(gòu)為 4 個(gè)輕量模塊：

數(shù)據(jù)流動(dòng)（data flow) → 響應(yīng)采集 (response collection) → 軌跡構(gòu)造 (trajectory generation）→ 策略更新 (policy update)

每一步都通過清晰的接口呈現(xiàn)，可以像樂高一樣自由拼接、替換，將原本復(fù)雜封裝的黑盒流程徹底 “白盒化”。

訓(xùn)練過程不再是只能看 loss 和 accuracy 的黑箱，而是變成一條可以觀察、分析、干預(yù)的路徑。

RL for VLM，只需四步：結(jié)構(gòu)清晰，可拆可查

2. 標(biāo)準(zhǔn)化評估方案：看清訓(xùn)練過程，看懂模型行為

RL 研究中，一直存在兩個(gè)老大難問題：訓(xùn)練過程不穩(wěn)定，評估過程不透明。

尤其在 VLM 場景下，很多 RL 工作只關(guān)注 “最后結(jié)果”，缺乏對學(xué)習(xí)曲線、行為演化的系統(tǒng)性觀察與分析。

那么 —— 模型究竟是如何學(xué)會(huì)的？反思能力是如何出現(xiàn)的？長輸出真的等于更強(qiáng)推理嗎？過去缺乏統(tǒng)一的方式來回答這些問題。

為此，MAYE 提出了一整套細(xì)致、可復(fù)現(xiàn)的標(biāo)準(zhǔn)化評估方案（evaluation scheme），用于系統(tǒng)追蹤訓(xùn)練動(dòng)態(tài)和模型行為演化：

訓(xùn)練集指標(biāo)：

accuracy curve（準(zhǔn)確率曲線）
response length（響應(yīng)長度）
多次獨(dú)立運(yùn)行取均值，展現(xiàn)真實(shí)學(xué)習(xí)趨勢

驗(yàn)證 & 測試集指標(biāo)：

pass@1 與 pass@8，在不同溫度設(shè)置下評估泛化能力
提供平均值 + 最大值，全面覆蓋性能變化

反思行為指標(biāo)：

反思詞使用頻率統(tǒng)計(jì)（e.g., re-check, think again, verify）
五個(gè)比例指標(biāo)，量化反思是否真正帶來了正確率提升

這些指標(biāo)覆蓋了訓(xùn)練全過程，既能用于算法開發(fā)，也適合橫向比較、機(jī)制研究。

無論你是做方法、做分析，還是做認(rèn)知能力探測，MAYE 都能提供一套清晰可復(fù)現(xiàn)的過程視角。

準(zhǔn)確率曲線、輸出長度、反思指標(biāo)——三類視角還原 RL 全貌

3. 實(shí)證發(fā)現(xiàn)與行為洞察：RL 不止有效，更值得被理解

MAYE 不只是一個(gè)框架和評估工具，也是一套可以產(chǎn)出研究發(fā)現(xiàn)的實(shí)驗(yàn)平臺(tái)。

研究團(tuán)隊(duì)在多個(gè)主流 VLMs（如 Qwen2 / Qwen2.5-VL-Instruct）和兩類視覺推理數(shù)據(jù)集（文本主導(dǎo) / 圖像主導(dǎo)）上開展系統(tǒng)實(shí)驗(yàn)，復(fù)現(xiàn)實(shí)驗(yàn)足夠穩(wěn)健：所有結(jié)果均基于 3 次獨(dú)立運(yùn)行，并報(bào)告均值與標(biāo)準(zhǔn)差。

在此基礎(chǔ)上，我們觀察到了一些有代表性的現(xiàn)象：

輸出長度會(huì)隨著模型架構(gòu)、數(shù)據(jù)分布、訓(xùn)練隨機(jī)種子而顯著變化，是判斷模型推理策略演化的重要觀測信號；
反思行為（Reflection）頻率與輸出長度高度相關(guān)，但大多數(shù)性能提升仍來源于非反思型推理。輸出變長 ≠ 模型變強(qiáng)。長文本可能意味著更豐富的推理，也可能只是訓(xùn)練過程中的隨機(jī)漂移或復(fù)讀堆疊。只有當(dāng) “更長” 帶來 “更準(zhǔn)”，才值得被認(rèn)為是有效行為；
Aha Moment 并不是 RL 訓(xùn)練憑空生成的，而是在 VLM 模型本身能力基礎(chǔ)上被進(jìn)一步激發(fā)和強(qiáng)化；

在多個(gè)模型和數(shù)據(jù)集上，系統(tǒng)追蹤了訓(xùn)練動(dòng)態(tài)與反思行為

在相同高質(zhì)量監(jiān)督數(shù)據(jù)（來自 textbook-style CoT）下，RL 在驗(yàn)證集和測試集上均顯著優(yōu)于 SFT，且具有更強(qiáng)的 OOD 泛化能力。即便是 Qwen2.5-VL 這類強(qiáng)基座模型，也能從 RL 中獲得額外提升。

驗(yàn)證集與測試集全維度對比：RL 展現(xiàn)出更強(qiáng)的泛化能力

驗(yàn)證集與測試集全維度對比：RL 展現(xiàn)出更強(qiáng)的泛化能力

這些實(shí)證結(jié)果不僅揭示了 RL 對模型行為的真實(shí)影響，也為后續(xù)研究者提供了穩(wěn)定、可對照的 baseline 實(shí)驗(yàn)結(jié)果。我們也呼吁社區(qū)更多采用多次獨(dú)立運(yùn)行報(bào)告結(jié)果，推動(dòng) RL for VLM 從 “能跑通” 邁向 “可分析、可信任”。

結(jié)語

MAYE 并不是一項(xiàng)追求極致性能的框架優(yōu)化工程，而是一套面向研究者與教學(xué)場景的基礎(chǔ)設(shè)施嘗試。

我們希望它能成為 RL-VLM 研究中一塊干凈的起點(diǎn)，幫助社區(qū)更透明地理解訓(xùn)練過程、更一致地衡量行為變化、也更高效地探索 RL Scaling for VLM 的邊界。

這只是一個(gè)起步，希望它對你的工作有所幫助。歡迎反饋、改進(jìn)、復(fù)用。論文與代碼資源全面開源，歡迎研究者探索和復(fù)現(xiàn)。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 工具模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營