自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="cyfot"></sub>

<cite id="cyfot"></cite>

^{<blockquote id="cyfot"></blockquote>}

<sub id="cyfot"><p id="cyfot"></p></sub>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

超越DeepSeek-R1關(guān)鍵RL算法GRPO，CMU「元強(qiáng)化微調(diào)」新范式登場(chǎng)

作者：機(jī)器之心 2025-03-13 11:07:30

人工智能新聞

在本文中，CMU、HuggingFace 的研究者提出從元強(qiáng)化學(xué)習(xí)（RL）的視角來(lái)形式化上述優(yōu)化測(cè)試時(shí)計(jì)算的挑戰(zhàn)。

大語(yǔ)言模型（LLM）在推理領(lǐng)域的最新成果表明了通過(guò)擴(kuò)展測(cè)試時(shí)計(jì)算來(lái)提高推理能力的潛力，比如 OpenAI 的 o1 系列。

通常來(lái)說(shuō)，這些方法在訓(xùn)練模型時(shí)可以產(chǎn)生比典型正確解決方案更長(zhǎng)的軌跡，并包含了試圖實(shí)現(xiàn)某些「算法」的 token：例如反思前一個(gè)答案、規(guī)劃或?qū)崿F(xiàn)某種形式的線性搜索。這些方法包括顯式地微調(diào)預(yù)訓(xùn)練 LLM 以適應(yīng)算法行為，例如對(duì)搜索數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)（SFT）或針對(duì) 0/1 正確性獎(jiǎng)勵(lì)運(yùn)行結(jié)果獎(jiǎng)勵(lì)（outcome-reward，OR）RL。

雖然通過(guò)「結(jié)果獎(jiǎng)勵(lì) RL 生成長(zhǎng)推理鏈」的方式來(lái)訓(xùn)練模型消耗測(cè)試時(shí)計(jì)算的前景看好，但為了繼續(xù)從擴(kuò)展測(cè)試時(shí)計(jì)算中獲得收益，我們最終需要回答一些關(guān)鍵的理解和方法設(shè)計(jì)問(wèn)題。

第一個(gè)問(wèn)題：當(dāng)前的 LLM 是否高效使用了測(cè)試時(shí)間計(jì)算？也就是說(shuō)，它們是否消耗了與典型解決方案長(zhǎng)度大致相當(dāng)?shù)?token，或者它們是否在簡(jiǎn)單的問(wèn)題上使用了太多 token？

第二個(gè)問(wèn)題：當(dāng)運(yùn)行測(cè)試時(shí) token 預(yù)算遠(yuǎn)大于用于訓(xùn)練的 token 預(yù)算時(shí)，LLM 是否能夠「發(fā)現(xiàn)」用于更難問(wèn)題的解決方案？最終，我們希望模型能夠從它們生成的每個(gè) token（或任何語(yǔ)義上有意義的片段）中獲得足夠的效用，這不僅是為了提高效率，還因?yàn)檫@樣做可以形成一個(gè)系統(tǒng)化的流程來(lái)發(fā)現(xiàn)更難、分布外問(wèn)題的解決方案。

在本文中，CMU、HuggingFace 的研究者提出從元強(qiáng)化學(xué)習(xí)（RL）的視角來(lái)形式化上述優(yōu)化測(cè)試時(shí)計(jì)算的挑戰(zhàn)。

論文標(biāo)題：Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning
論文地址：https://arxiv.org/pdf/2503.07572
項(xiàng)目主頁(yè)：https://cohenqu.github.io/mrt.github.io/

在構(gòu)建方法的過(guò)程中，研究者在給定問(wèn)題上將 LLM 的輸出流分割成多個(gè)片段（圖 2）。如果我們只關(guān)心效率，那么 LLM 應(yīng)該只學(xué)習(xí)利用并直接輸出最終答案，而無(wú)需耗費(fèi)太多片段。另一方面，如果 LLM 僅專注于發(fā)現(xiàn)（discovery），那么探索就更可取，這樣 LLM 就可以耗費(fèi)幾個(gè)片段來(lái)嘗試不同的方法，并進(jìn)行驗(yàn)證和修改，然后得出最終答案。

從根本上說(shuō)，這與傳統(tǒng)的 RL 不同，這里的目標(biāo)是學(xué)習(xí)一個(gè)可以在每個(gè)測(cè)試問(wèn)題上實(shí)現(xiàn)探索 - 利用算法的 LLM。換句話說(shuō)，本文的目標(biāo)是從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)這樣的算法，使其成為一個(gè)「元」RL 學(xué)習(xí)問(wèn)題。

SCR-20250312-mzdt_副本.jpg 理想的「元」行為是在過(guò)早采用一種方法（即「利用」片段）和嘗試過(guò)多高風(fēng)險(xiǎn)策略（即「探索」片段）之間取得平衡的行為。從元 RL 文獻(xiàn)中，我們知道探索和利用的最佳權(quán)衡相當(dāng)于最小化輸出 token 預(yù)算的累積悔值。這種悔值衡量了 LLM 與一個(gè) oracle 比較器成功可能性之間的累積差異，如圖 1 (b) 中的紅色陰影區(qū)域所示。

通過(guò)訓(xùn)練 LLM 來(lái)最小化每個(gè)查詢的累積悔值，本文學(xué)習(xí)了一種在某種程度上與測(cè)試時(shí)預(yù)算無(wú)關(guān)的策略，即在部署時(shí) LLM 僅耗費(fèi)必要數(shù)量的 token，同時(shí)在更大的 token 預(yù)算下運(yùn)行時(shí)仍會(huì)取得進(jìn)展。

具體地，研究者利用一類新的微調(diào)方法來(lái)優(yōu)化測(cè)試時(shí)計(jì)算，通過(guò)最小化累積悔值的概念產(chǎn)生了一種被稱為元強(qiáng)化微調(diào)（Meta Reinforcement Fine-Tuning，MRT）的解決方案（或范式），從而為評(píng)估現(xiàn)有推理模型（如 Deepseek-R1）在使用測(cè)試時(shí)計(jì)算的有效性提供了一個(gè)指標(biāo)。

研究者發(fā)現(xiàn)，使用結(jié)果獎(jiǎng)勵(lì) RL 進(jìn)行微調(diào)的 SOTA LLM 無(wú)法通過(guò)更多片段來(lái)提高發(fā)現(xiàn)正確答案的概率，即它們沒(méi)有取得穩(wěn)定的「進(jìn)展」（如上圖 1 (a) 所示），即使這種行為對(duì)于發(fā)現(xiàn)未見(jiàn)過(guò)難題的解決方案至關(guān)重要。事實(shí)上，在 FLOPs 匹配的評(píng)估中，運(yùn)行更少片段并結(jié)合多數(shù)投票的更簡(jiǎn)單方法通常對(duì)較難的問(wèn)題更有效（下圖 3）。

SCR-20250312-olro_副本.jpg

相反，研究者表明，當(dāng)目標(biāo)是最小化悔值時(shí)，除了結(jié)果獎(jiǎng)勵(lì)之外，對(duì)進(jìn)展的優(yōu)化也會(huì)自然而然出現(xiàn)。本文的微調(diào)范式 MRT 為 RL 訓(xùn)練規(guī)定了密集的獎(jiǎng)勵(lì)（reward bonus）。直觀地說(shuō)，這一進(jìn)展獎(jiǎng)勵(lì)衡量了在生成給定片段之前和之后獲得正確答案的似然的變化。

在實(shí)驗(yàn)部分，研究者在兩種設(shè)置下對(duì) MRT 進(jìn)行了評(píng)估，二者的不同之處在于它們對(duì)片段進(jìn)行參數(shù)化的方式。對(duì)于第一種設(shè)置，他們對(duì)基礎(chǔ)模型進(jìn)行微調(diào)，包括 DeepScaleR-1.5B-Preview、DeepSeek-R1-Distill-Qwen-1.5B 和 DeepSeekR1-Distill-Qwen-7B，并采用了數(shù)學(xué)推理問(wèn)題數(shù)據(jù)集。

結(jié)果發(fā)現(xiàn)，MRT 的表現(xiàn)始終優(yōu)于結(jié)果獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)，在多個(gè)基準(zhǔn)測(cè)試（AIME 2024、AIME 2025、AMC 2023 等）上取得了 15 億參數(shù)規(guī)模的 SOTA 結(jié)果，其相較于基礎(chǔ)模型的準(zhǔn)確率提升是標(biāo)準(zhǔn)結(jié)果獎(jiǎng)勵(lì) RL（GRPO）的約 2-3 倍，而 token 效率是 GRPO 的 1.5 倍、是基礎(chǔ)模型的 5 倍。GRPO 是 DeepSeek-R1 的關(guān)鍵強(qiáng)化學(xué)習(xí)算法。

對(duì)于第二種設(shè)置，研究者對(duì) Llama 3.1 進(jìn)行微調(diào)以實(shí)現(xiàn)回溯，結(jié)果表明，MRT 相較于 STaR 和 GRPO 均實(shí)現(xiàn)了 1.6-1.7 倍的 token 效率提升。

元強(qiáng)化微調(diào)（MRT）范式

MRT 的目標(biāo)是直接學(xué)習(xí)一種與預(yù)算無(wú)關(guān)（budget-agnostic）的 LLM，使其能夠穩(wěn)步取得進(jìn)展。

該研究使用在線強(qiáng)化學(xué)習(xí)方法（如 GRPO）實(shí)現(xiàn)元強(qiáng)化學(xué)習(xí)范式。下面是它的工作原理：

該研究定義了一個(gè)元證明器策略（Meta-Prover Policy）μ，用于評(píng)估一個(gè)片段對(duì)解決問(wèn)題的貢獻(xiàn)程度。該策略的工作方式如下：

強(qiáng)制終止當(dāng)前的思考?jí)K（thought block），使用「time is up」提示（prompt）；
讓模型根據(jù)當(dāng)前的推理前綴（reasoning prefix）生成其最佳猜測(cè)的解決方案。

對(duì)于推理過(guò)程中的每一個(gè)片段，需要這樣操作：

使用元證明器策略 μ 計(jì)算思維前綴的獎(jiǎng)勵(lì)；
基于這個(gè)前綴采樣多個(gè)策略內(nèi)的軌跡（rollouts），這些軌跡被均勻分配為：繼續(xù)進(jìn)一步推理；終止思考軌跡并生成最佳猜測(cè)的解決方案；
根據(jù)對(duì)進(jìn)展（progress）的獎(jiǎng)勵(lì)，然后計(jì)算進(jìn)展獎(jiǎng)勵(lì)。

在訓(xùn)練過(guò)程中，該研究?jī)?yōu)化了包含標(biāo)準(zhǔn)結(jié)果獎(jiǎng)勵(lì)和基于進(jìn)展的密集獎(jiǎng)勵(lì)獎(jiǎng)勵(lì)的 MRT 目標(biāo)函數(shù)：

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)評(píng)估了 MRT 在優(yōu)化「測(cè)試時(shí)計(jì)算」資源方面的有效性。

如表 1 所示，MRT 的表現(xiàn)優(yōu)于在相同數(shù)據(jù)集上未使用密集獎(jiǎng)勵(lì)訓(xùn)練的模型。

此外，該研究還得出了以下結(jié)論：

基于 DeepScaleR-1.5B-Preview 基礎(chǔ)模型微調(diào)的模型達(dá)到了其規(guī)模下 SOTA 水平。由于模型在經(jīng)過(guò)蒸餾或已經(jīng)經(jīng)過(guò)強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練的基礎(chǔ)模型上進(jìn)行了訓(xùn)練，因此絕對(duì)性能提升較小。然而，與基于結(jié)果獎(jiǎng)勵(lì)的 RL 方法（如 GRPO）相比，使用 MRT 的相對(duì)性能提升約為 2-3 倍。
當(dāng)使用 DeepScaleR-1.5B 模型在 AIME 問(wèn)題數(shù)據(jù)集上進(jìn)行微調(diào)時(shí)，MRT 不僅在 AIME 2024 和 AIME 2025 評(píng)估集上取得了更好的性能（這或許在意料之中），而且在相對(duì)于結(jié)果獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)（RL）分布外的 AMC 2023 數(shù)據(jù)集上也保持了較好的性能。

MRT 對(duì) token 的處理效率

前文我們已經(jīng)看到 MRT 可以在 pass@1 準(zhǔn)確率上超越標(biāo)準(zhǔn)的結(jié)果獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)（RL）。接下來(lái)，作者嘗試評(píng)估 MRT（RL）在 token 效率上是否可以帶來(lái)提升。

如圖 7 所示，MRT 在 AIME 2024 數(shù)據(jù)集上，在相同 token 數(shù)量的情況下，平均準(zhǔn)確率比基礎(chǔ)模型高出 5%。此外，MRT（RL）在 AIME 2024 上所需的 token 數(shù)量比基礎(chǔ)模型少 5 倍，在 MATH 500 上少 4 倍，就能達(dá)到相同的性能（本例中使用的是 DeepSeek-R1 蒸餾的 Qwen-1.5B 模型）。

同樣地，MRT 在 token 效率上比結(jié)果獎(jiǎng)勵(lì) RL 提高了 1.2-1.6 倍。這些結(jié)果表明，MRT 在保持或提升準(zhǔn)確率的同時(shí)，顯著提高了 token 效率。

回溯搜索設(shè)置中的線性化評(píng)估

在這種設(shè)置中，模型被限制為先生成一個(gè)解決方案，接著進(jìn)行錯(cuò)誤檢測(cè)，最后在進(jìn)行修正（如圖 5 所示）。

該研究首先對(duì)基于 Llama-3.1-8B 模型微調(diào)的 MRT 的 STaR 變體進(jìn)行評(píng)估。如圖 8（左）所示，MRT 在兩種評(píng)估模式下（并行模式為實(shí)線；線性化模式為虛線）均實(shí)現(xiàn)了最高的測(cè)試效率，并在線性化評(píng)估模式下將效率提高了 30% 以上。

圖 8（右）顯示，與結(jié)果獎(jiǎng)勵(lì) GRPO 相比，MRT（RL）通過(guò)減少 1.6 倍的 token 來(lái)提升線性化效率。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

強(qiáng)化學(xué)習(xí)AI 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)