自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

清華大學(xué) | 強(qiáng)化學(xué)習(xí)是否激勵(lì)LLM中超越基本模型的推理能力?

發(fā)布于 2025-4-27 07:32
瀏覽
0收藏

論文

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?2504.13837

清華大學(xué) | 強(qiáng)化學(xué)習(xí)是否激勵(lì)LLM中超越基本模型的推理能力?-AI.x社區(qū)

TL;DR:

清華大學(xué) | 強(qiáng)化學(xué)習(xí)是否激勵(lì)LLM中超越基本模型的推理能力?-AI.x社區(qū)

  • 雖然強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的模型在較小的 k 值(例如,k = 1)下優(yōu)于其基本模型,但基本模型可以在較大的 k 值下獲得與 RL 對(duì)應(yīng)物相比的可比甚至更高的 pass@k 分?jǐn)?shù)。
  • 進(jìn)一步分析表明,RL 訓(xùn)練模型生成的推理路徑已經(jīng)包含在基礎(chǔ)模型的抽樣分布中,表明 RL 訓(xùn)練模型中表現(xiàn)出的大部分推理能力已經(jīng)由基礎(chǔ)模型獲得。
  • RL 訓(xùn)練通過將模型的輸出分布偏向更有可能產(chǎn)生獎(jiǎng)勵(lì)的路徑來提高性能,從而更有效地采樣正確的響應(yīng)。
  • 然而,這也限制了它們的探索能力,導(dǎo)致與基本模型相比推理能力邊界更窄。
  • 在使用 RLVR 訓(xùn)練的視覺推理任務(wù)中觀察到類似的結(jié)果。
  • 此外,發(fā)現(xiàn)蒸餾可以真正將新知識(shí)引入模型。

RLVR對(duì)推理能力邊界的影響

分析按任務(wù)類別組織,涵蓋三個(gè)代表性領(lǐng)域:數(shù)學(xué)、代碼生成和視覺推理。對(duì)于所有涉及基礎(chǔ)和 RL 訓(xùn)練模型的采樣過程,使用 0.6 的溫度和 0.95 的 top-p 值,最多可生成 16,384 個(gè)令牌。

清華大學(xué) | 強(qiáng)化學(xué)習(xí)是否激勵(lì)LLM中超越基本模型的推理能力?-AI.x社區(qū)

用于評(píng)估 RLVR 對(duì)不同任務(wù)中 LLM 推理邊界的影響的實(shí)驗(yàn)裝置

用于數(shù)學(xué)推理的RLVR

  • 將基本大語(yǔ)言模型(LLM)(Qwen-2.5 和 LLaMA-3.1–8B)的性能與其 RLVR 訓(xùn)練的對(duì)應(yīng)物(在 GSM8K 和數(shù)學(xué)數(shù)據(jù)集上使用 GRPO 訓(xùn)練)進(jìn)行比較。
  • 在各種數(shù)學(xué)基準(zhǔn)(GSM8K、MATH500、Minerva、奧林匹克、AIME24、AMC23)上使用 pass@k(在 k 次嘗試內(nèi)生成正確答案的概率)評(píng)估模型。
  • 包括與Oat-Zero-7B的額外比較,這是一個(gè)使用Oat-Zero框架訓(xùn)練的 RL 模型。

清華大學(xué) | 強(qiáng)化學(xué)習(xí)是否激勵(lì)LLM中超越基本模型的推理能力?-AI.x社區(qū)

  • 當(dāng) k 較小時(shí)(例如,k = 1,相當(dāng)于平均情況精度),RLVR 增加了采樣正確答案的可能性。
  • RLVR 縮小了模型的整體問題解決范圍,基本模型在更大的 k 值下優(yōu)于 RL 模型就證明了這一點(diǎn)。

用于代碼生成的RLVR

  • 模型:Code-R1(特別是 CodeR1-Zero-Qwen2.5–7B)使用基于預(yù)定義測(cè)試用例的二進(jìn)制正確性獎(jiǎng)勵(lì),通過 RLVR 進(jìn)行訓(xùn)練。該模型基于 Qwen2.5-7B-Instruct-1M 并在 12K LeetCode 和 TACO 樣本上進(jìn)行訓(xùn)練。
  • 評(píng)估:性能在三個(gè)代碼生成基準(zhǔn)上進(jìn)行評(píng)估:LiveCodeBench v5(880 個(gè)問題)、HumanEval+ 和 MBPP+。

清華大學(xué) | 強(qiáng)化學(xué)習(xí)是否激勵(lì)LLM中超越基本模型的推理能力?-AI.x社區(qū)

  • RLVR 提高了代碼生成任務(wù)中的單樣本性能(pass@1),類似于它對(duì)數(shù)學(xué)推理任務(wù)的影響。
  • RLVR 對(duì)模型的推理邊界或覆蓋范圍產(chǎn)生負(fù)面影響。雖然原始模型顯示出通過增加采樣(k)解決更多問題的潛力,但 RLVR 訓(xùn)練的模型停滯不前。具體來說,在 k = 128 時(shí),原始模型解決了約 50% 的問題,而 RLVR 模型在 LiveCodeBench 上僅解決了約 42.8% 的問題。
  • 盡管 RLVR 提高了初始性能,但與原始模型相比,當(dāng)允許多次解決嘗試時(shí),它限制了模型解決更廣泛?jiǎn)栴}的潛力。這表明在單樣本精度和探索能力之間存在權(quán)衡。

用于視覺推理的RLVR

  • 模型:Qwen-2.5-VL-7B(一種視覺語(yǔ)言模型)在幾何 3K(Geometry3K)數(shù)據(jù)集上使用 EasyR1 框架進(jìn)行訓(xùn)練。
  • 評(píng)估數(shù)據(jù):MathVista-TestMini 和 MathVision-TestMini 的過濾版本,排除選擇題以避免猜測(cè)偏差。過濾導(dǎo)致 MathVista 出現(xiàn) 460 個(gè)問題,MathVision 出現(xiàn) 114 個(gè)問題。

清華大學(xué) | 強(qiáng)化學(xué)習(xí)是否激勵(lì)LLM中超越基本模型的推理能力?-AI.x社區(qū)

  • RLVR 不斷提高 LLM 的視覺推理性能,類似于它對(duì)數(shù)學(xué)和編碼基準(zhǔn)的影響。
  • 這一改進(jìn)歸因于可解決問題的更廣泛覆蓋,這意味著該模型可以在 RLVR 訓(xùn)練后解決更廣泛的問題。
  • 在挑戰(zhàn)性問題中對(duì)思維鏈(CoT)的手動(dòng)檢查表明,性能的提高是由于模型學(xué)習(xí)有效的推理路徑,而不是隨機(jī)猜測(cè)。具體來說,對(duì)于原始和 RL 模型,8 個(gè)被檢查的問題中有 7 個(gè)至少有一個(gè)正確的 CoT 導(dǎo)致正確的答案。這驗(yàn)證了 CoT 方法在提高推理能力方面的有效性。

深度分析

基本模型中已經(jīng)存在的推理模式

比較基本模型的可解問題集及其在 AIME24(數(shù)學(xué)問題)和編碼任務(wù)上的相應(yīng) RL 訓(xùn)練版本。

執(zhí)行的困惑分析:測(cè)量由 RL 訓(xùn)練模型(YRL)和基礎(chǔ)模型本身(YBase)生成的響應(yīng)的基礎(chǔ)模型(PPLBase)生成的響應(yīng)的困惑,并將它們與來自更強(qiáng)模型(OpenAI-o1,YGT)的響應(yīng)進(jìn)行比較。

清華大學(xué) | 強(qiáng)化學(xué)習(xí)是否激勵(lì)LLM中超越基本模型的推理能力?-AI.x社區(qū)

由基礎(chǔ)和 RL 模型評(píng)估的不同來源響應(yīng)的困惑分布

  • RLVR 沒有引入新的推理能力:RL 訓(xùn)練的模型沒有表現(xiàn)出超出基本模型中已經(jīng)存在的推理能力。RL 模型利用的推理路徑已經(jīng)存在于基本模型的輸出分布中。這得到了困惑分析的支持,表明 RL 模型的響應(yīng)很可能是由基本模型產(chǎn)生的。
  • RLVR 提高了采樣效率:雖然沒有引入新功能,但 RLVR 提高了對(duì)基本模型中已經(jīng)存在的正確推理路徑進(jìn)行采樣的可能性,從而在 pass@1 方面獲得更好的性能。
  • RLVR 縮小了推理邊界:采樣效率的提高是以減少探索和生成響應(yīng)的多樣性為代價(jià)的,這導(dǎo)致更大的 k 值降低 pass@k(在 k 次嘗試中解決問題)。這歸因于 RL 傾向于減少輸出熵。

蒸餾擴(kuò)展推理邊界

將大型推理模型(DeepSeek-R1)蒸餾為較小的基本模型(Qwen-2.5-Math-7B)。蒸餾模型(DeepSeek-R1-Distill-Qwen-7B)的性能與:

  • 基本模型(Qwen-2.5-Math-7B)
  • 它的 RL 訓(xùn)練對(duì)應(yīng)物(Qwen-2.5-Math-7B-Oat-Zero)
  • 指令調(diào)整模型(Qwen-2.5-Math-7B-Instruct)

清華大學(xué) | 強(qiáng)化學(xué)習(xí)是否激勵(lì)LLM中超越基本模型的推理能力?-AI.x社區(qū)

base、Instruct、RL 和蒸餾模型的覆蓋率比較

  • 蒸餾顯著提高了基礎(chǔ)模型的推理能力。
  • 與 RL 受到基礎(chǔ)模型推理能力的限制不同,蒸餾引入了從更強(qiáng)的教師模型中學(xué)到的新推理模式,允許蒸餾模型超越基礎(chǔ)模型的限制。

不同RL算法的影響

  • 算法:幾種流行的 RL 算法(近端策略優(yōu)化算法(PPO)、通用相對(duì)策略優(yōu)化算法(GRPO)、強(qiáng)化學(xué)習(xí)++(Reinforce++)、RLOO、ReMax、DAPO)使用 VeRL 框架重新實(shí)現(xiàn)。
  • 數(shù)據(jù)集:Omni-MATH-規(guī)則數(shù)據(jù)集分為訓(xùn)練集和域內(nèi)測(cè)試集。MATH500 用作域外基準(zhǔn)測(cè)試。
  • 指標(biāo):采樣效率差距(ΔSE)定義為 RL 訓(xùn)練模型的 pass@1 和基本模型的 pass@256 之間的差異。較低的 ΔSE 表示更好的采樣效率。

清華大學(xué) | 強(qiáng)化學(xué)習(xí)是否激勵(lì)LLM中超越基本模型的推理能力?-AI.x社區(qū)

不同的 RL 算法

  • 一般性能:不同的 RL 算法在 pass@1 和 pass@256 上表現(xiàn)出微小的差異,但沒有一個(gè)明顯縮小采樣效率差距(ΔSE)。所有算法的 ΔSE 都保持在 40 點(diǎn)以上。
  • DAPO:pass@1 分?jǐn)?shù)略高,但在訓(xùn)練期間每批需要更多的樣本(3-6 倍),pass@256 表現(xiàn)大幅下降。
  • RLOO 和 Reinforce++:在不同的 k 值(1 到 256)上始終表現(xiàn)良好,具有高效的培訓(xùn)成本,在有效性和效率之間提供了良好的平衡。
  • ReMax:表現(xiàn)出較低的性能,可能是由于作為優(yōu)勢(shì)基線的二元和高度可變的獎(jiǎng)勵(lì)造成的不穩(wěn)定。

RL訓(xùn)練的漸近效應(yīng)

使用不同數(shù)量的訓(xùn)練步驟(例如,150、450)使用 RL 訓(xùn)練的模型。使用訓(xùn)練、域內(nèi)測(cè)試和域外測(cè)試集上的 pass@1(精確匹配準(zhǔn)確度)和 pass@256(前 256 個(gè)候選者內(nèi)的準(zhǔn)確度)指標(biāo)來評(píng)估性能。

清華大學(xué) | 強(qiáng)化學(xué)習(xí)是否激勵(lì)LLM中超越基本模型的推理能力?-AI.x社區(qū)

不同的 RL 訓(xùn)練步驟

  • 增加 RL 訓(xùn)練步驟顯著提高了訓(xùn)練集上的 pass@1(從 26.1 到 42.5)。
  • 然而,在域內(nèi)和域外測(cè)試集上 pass@1 的改進(jìn)超過 150 步是微不足道的,這表明訓(xùn)練集可能過度擬合。
  • 增加訓(xùn)練步驟會(huì)導(dǎo)致所有數(shù)據(jù)集的 pass@256 下降,最低性能為 450 步。這表明隨著訓(xùn)練的進(jìn)行,推理邊界和探索能力會(huì)降低,這可能是由于輸出熵的減少。
  • 更長(zhǎng)的 RL 訓(xùn)練(超過 150 步)可能不會(huì)提供實(shí)質(zhì)性的好處,甚至可能由于過度擬合和減少探索而阻礙性能。

本文轉(zhuǎn)載自??柏企閱文??,作者:柏企

已于2025-4-27 10:44:06修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦