超越DeepSeek-R1關(guān)鍵RL算法GRPO,CMU「元強(qiáng)化微調(diào)」新范式登場(chǎng)
大語(yǔ)言模型(LLM)在推理領(lǐng)域的最新成果表明了通過(guò)擴(kuò)展測(cè)試時(shí)計(jì)算來(lái)提高推理能力的潛力,比如 OpenAI 的 o1 系列。
通常來(lái)說(shuō),這些方法在訓(xùn)練模型時(shí)可以產(chǎn)生比典型正確解決方案更長(zhǎng)的軌跡,并包含了試圖實(shí)現(xiàn)某些「算法」的 token:例如反思前一個(gè)答案、規(guī)劃或?qū)崿F(xiàn)某種形式的線性搜索。這些方法包括顯式地微調(diào)預(yù)訓(xùn)練 LLM 以適應(yīng)算法行為,例如對(duì)搜索數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)(SFT)或針對(duì) 0/1 正確性獎(jiǎng)勵(lì)運(yùn)行結(jié)果獎(jiǎng)勵(lì)(outcome-reward,OR)RL。
雖然通過(guò)「結(jié)果獎(jiǎng)勵(lì) RL 生成長(zhǎng)推理鏈」的方式來(lái)訓(xùn)練模型消耗測(cè)試時(shí)計(jì)算的前景看好,但為了繼續(xù)從擴(kuò)展測(cè)試時(shí)計(jì)算中獲得收益,我們最終需要回答一些關(guān)鍵的理解和方法設(shè)計(jì)問(wèn)題。
第一個(gè)問(wèn)題:當(dāng)前的 LLM 是否高效使用了測(cè)試時(shí)間計(jì)算?也就是說(shuō),它們是否消耗了與典型解決方案長(zhǎng)度大致相當(dāng)?shù)?token,或者它們是否在簡(jiǎn)單的問(wèn)題上使用了太多 token?
第二個(gè)問(wèn)題:當(dāng)運(yùn)行測(cè)試時(shí) token 預(yù)算遠(yuǎn)大于用于訓(xùn)練的 token 預(yù)算時(shí),LLM 是否能夠「發(fā)現(xiàn)」用于更難問(wèn)題的解決方案?最終,我們希望模型能夠從它們生成的每個(gè) token(或任何語(yǔ)義上有意義的片段)中獲得足夠的效用,這不僅是為了提高效率,還因?yàn)檫@樣做可以形成一個(gè)系統(tǒng)化的流程來(lái)發(fā)現(xiàn)更難、分布外問(wèn)題的解決方案。
在本文中,CMU、HuggingFace 的研究者提出從元強(qiáng)化學(xué)習(xí)(RL)的視角來(lái)形式化上述優(yōu)化測(cè)試時(shí)計(jì)算的挑戰(zhàn)。
- 論文標(biāo)題:Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning
- 論文地址:https://arxiv.org/pdf/2503.07572
- 項(xiàng)目主頁(yè):https://cohenqu.github.io/mrt.github.io/
在構(gòu)建方法的過(guò)程中,研究者在給定問(wèn)題上將 LLM 的輸出流分割成多個(gè)片段(圖 2)。如果我們只關(guān)心效率,那么 LLM 應(yīng)該只學(xué)習(xí)利用并直接輸出最終答案,而無(wú)需耗費(fèi)太多片段。另一方面,如果 LLM 僅專注于發(fā)現(xiàn)(discovery),那么探索就更可取,這樣 LLM 就可以耗費(fèi)幾個(gè)片段來(lái)嘗試不同的方法,并進(jìn)行驗(yàn)證和修改,然后得出最終答案。
從根本上說(shuō),這與傳統(tǒng)的 RL 不同,這里的目標(biāo)是學(xué)習(xí)一個(gè)可以在每個(gè)測(cè)試問(wèn)題上實(shí)現(xiàn)探索 - 利用算法的 LLM。換句話說(shuō),本文的目標(biāo)是從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)這樣的算法,使其成為一個(gè)「元」RL 學(xué)習(xí)問(wèn)題。
理想的「元」行為是在過(guò)早采用一種方法(即「利用」片段)和嘗試過(guò)多高風(fēng)險(xiǎn)策略(即「探索」片段)之間取得平衡的行為。從元 RL 文獻(xiàn)中,我們知道探索和利用的最佳權(quán)衡相當(dāng)于最小化輸出 token 預(yù)算的累積悔值。這種悔值衡量了 LLM 與一個(gè) oracle 比較器成功可能性之間的累積差異,如圖 1 (b) 中的紅色陰影區(qū)域所示。
通過(guò)訓(xùn)練 LLM 來(lái)最小化每個(gè)查詢的累積悔值,本文學(xué)習(xí)了一種在某種程度上與測(cè)試時(shí)預(yù)算無(wú)關(guān)的策略,即在部署時(shí) LLM 僅耗費(fèi)必要數(shù)量的 token,同時(shí)在更大的 token 預(yù)算下運(yùn)行時(shí)仍會(huì)取得進(jìn)展。
具體地,研究者利用一類新的微調(diào)方法來(lái)優(yōu)化測(cè)試時(shí)計(jì)算,通過(guò)最小化累積悔值的概念產(chǎn)生了一種被稱為元強(qiáng)化微調(diào)(Meta Reinforcement Fine-Tuning,MRT)的解決方案(或范式),從而為評(píng)估現(xiàn)有推理模型(如 Deepseek-R1)在使用測(cè)試時(shí)計(jì)算的有效性提供了一個(gè)指標(biāo)。
研究者發(fā)現(xiàn),使用結(jié)果獎(jiǎng)勵(lì) RL 進(jìn)行微調(diào)的 SOTA LLM 無(wú)法通過(guò)更多片段來(lái)提高發(fā)現(xiàn)正確答案的概率,即它們沒(méi)有取得穩(wěn)定的「進(jìn)展」(如上圖 1 (a) 所示),即使這種行為對(duì)于發(fā)現(xiàn)未見(jiàn)過(guò)難題的解決方案至關(guān)重要。事實(shí)上,在 FLOPs 匹配的評(píng)估中,運(yùn)行更少片段并結(jié)合多數(shù)投票的更簡(jiǎn)單方法通常對(duì)較難的問(wèn)題更有效(下圖 3)。
相反,研究者表明,當(dāng)目標(biāo)是最小化悔值時(shí),除了結(jié)果獎(jiǎng)勵(lì)之外,對(duì)進(jìn)展的優(yōu)化也會(huì)自然而然出現(xiàn)。本文的微調(diào)范式 MRT 為 RL 訓(xùn)練規(guī)定了密集的獎(jiǎng)勵(lì)(reward bonus)。直觀地說(shuō),這一進(jìn)展獎(jiǎng)勵(lì)衡量了在生成給定片段之前和之后獲得正確答案的似然的變化。
在實(shí)驗(yàn)部分,研究者在兩種設(shè)置下對(duì) MRT 進(jìn)行了評(píng)估,二者的不同之處在于它們對(duì)片段進(jìn)行參數(shù)化的方式。對(duì)于第一種設(shè)置,他們對(duì)基礎(chǔ)模型進(jìn)行微調(diào),包括 DeepScaleR-1.5B-Preview、DeepSeek-R1-Distill-Qwen-1.5B 和 DeepSeekR1-Distill-Qwen-7B,并采用了數(shù)學(xué)推理問(wèn)題數(shù)據(jù)集。
結(jié)果發(fā)現(xiàn),MRT 的表現(xiàn)始終優(yōu)于結(jié)果獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí),在多個(gè)基準(zhǔn)測(cè)試(AIME 2024、AIME 2025、AMC 2023 等)上取得了 15 億參數(shù)規(guī)模的 SOTA 結(jié)果,其相較于基礎(chǔ)模型的準(zhǔn)確率提升是標(biāo)準(zhǔn)結(jié)果獎(jiǎng)勵(lì) RL(GRPO)的約 2-3 倍,而 token 效率是 GRPO 的 1.5 倍、是基礎(chǔ)模型的 5 倍。GRPO 是 DeepSeek-R1 的關(guān)鍵強(qiáng)化學(xué)習(xí)算法。
對(duì)于第二種設(shè)置,研究者對(duì) Llama 3.1 進(jìn)行微調(diào)以實(shí)現(xiàn)回溯,結(jié)果表明,MRT 相較于 STaR 和 GRPO 均實(shí)現(xiàn)了 1.6-1.7 倍的 token 效率提升。
元強(qiáng)化微調(diào)(MRT)范式
MRT 的目標(biāo)是直接學(xué)習(xí)一種與預(yù)算無(wú)關(guān)(budget-agnostic)的 LLM,使其能夠穩(wěn)步取得進(jìn)展。
該研究使用在線強(qiáng)化學(xué)習(xí)方法(如 GRPO)實(shí)現(xiàn)元強(qiáng)化學(xué)習(xí)范式。下面是它的工作原理:
該研究定義了一個(gè)元證明器策略(Meta-Prover Policy)μ,用于評(píng)估一個(gè)片段對(duì)解決問(wèn)題的貢獻(xiàn)程度。該策略的工作方式如下:
- 強(qiáng)制終止當(dāng)前的思考?jí)K(thought block),使用「time is up」提示(prompt);
- 讓模型根據(jù)當(dāng)前的推理前綴(reasoning prefix)生成其最佳猜測(cè)的解決方案。
對(duì)于推理過(guò)程中的每一個(gè)片段,需要這樣操作:
- 使用元證明器策略 μ 計(jì)算思維前綴的獎(jiǎng)勵(lì);
- 基于這個(gè)前綴采樣多個(gè)策略內(nèi)的軌跡(rollouts),這些軌跡被均勻分配為:繼續(xù)進(jìn)一步推理;終止思考軌跡并生成最佳猜測(cè)的解決方案;
- 根據(jù)對(duì)進(jìn)展(progress)的獎(jiǎng)勵(lì),然后計(jì)算進(jìn)展獎(jiǎng)勵(lì)。
在訓(xùn)練過(guò)程中,該研究?jī)?yōu)化了包含標(biāo)準(zhǔn)結(jié)果獎(jiǎng)勵(lì)和基于進(jìn)展的密集獎(jiǎng)勵(lì)獎(jiǎng)勵(lì)的 MRT 目標(biāo)函數(shù):
實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)評(píng)估了 MRT 在優(yōu)化「測(cè)試時(shí)計(jì)算」資源方面的有效性。
如表 1 所示,MRT 的表現(xiàn)優(yōu)于在相同數(shù)據(jù)集上未使用密集獎(jiǎng)勵(lì)訓(xùn)練的模型。
此外,該研究還得出了以下結(jié)論:
- 基于 DeepScaleR-1.5B-Preview 基礎(chǔ)模型微調(diào)的模型達(dá)到了其規(guī)模下 SOTA 水平。由于模型在經(jīng)過(guò)蒸餾或已經(jīng)經(jīng)過(guò)強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的基礎(chǔ)模型上進(jìn)行了訓(xùn)練,因此絕對(duì)性能提升較小。然而,與基于結(jié)果獎(jiǎng)勵(lì)的 RL 方法(如 GRPO)相比,使用 MRT 的相對(duì)性能提升約為 2-3 倍。
- 當(dāng)使用 DeepScaleR-1.5B 模型在 AIME 問(wèn)題數(shù)據(jù)集上進(jìn)行微調(diào)時(shí),MRT 不僅在 AIME 2024 和 AIME 2025 評(píng)估集上取得了更好的性能(這或許在意料之中),而且在相對(duì)于結(jié)果獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RL)分布外的 AMC 2023 數(shù)據(jù)集上也保持了較好的性能。
MRT 對(duì) token 的處理效率
前文我們已經(jīng)看到 MRT 可以在 pass@1 準(zhǔn)確率上超越標(biāo)準(zhǔn)的結(jié)果獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RL)。接下來(lái),作者嘗試評(píng)估 MRT(RL)在 token 效率上是否可以帶來(lái)提升。
如圖 7 所示,MRT 在 AIME 2024 數(shù)據(jù)集上,在相同 token 數(shù)量的情況下,平均準(zhǔn)確率比基礎(chǔ)模型高出 5%。此外,MRT(RL)在 AIME 2024 上所需的 token 數(shù)量比基礎(chǔ)模型少 5 倍,在 MATH 500 上少 4 倍,就能達(dá)到相同的性能(本例中使用的是 DeepSeek-R1 蒸餾的 Qwen-1.5B 模型)。
同樣地,MRT 在 token 效率上比結(jié)果獎(jiǎng)勵(lì) RL 提高了 1.2-1.6 倍。這些結(jié)果表明,MRT 在保持或提升準(zhǔn)確率的同時(shí),顯著提高了 token 效率。
回溯搜索設(shè)置中的線性化評(píng)估
在這種設(shè)置中,模型被限制為先生成一個(gè)解決方案,接著進(jìn)行錯(cuò)誤檢測(cè),最后在進(jìn)行修正(如圖 5 所示)。
該研究首先對(duì)基于 Llama-3.1-8B 模型微調(diào)的 MRT 的 STaR 變體進(jìn)行評(píng)估。如圖 8(左)所示,MRT 在兩種評(píng)估模式下(并行模式為實(shí)線;線性化模式為虛線)均實(shí)現(xiàn)了最高的測(cè)試效率,并在線性化評(píng)估模式下將效率提高了 30% 以上。
圖 8(右)顯示,與結(jié)果獎(jiǎng)勵(lì) GRPO 相比,MRT(RL)通過(guò)減少 1.6 倍的 token 來(lái)提升線性化效率。