自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

更長思維并不等于更強推理性能,強化學(xué)習(xí)可以很簡潔

人工智能 新聞
第二輪強化學(xué)習(xí)(僅使用一些有時可解的問題)可以縮短回答時間,同時保持甚至提高準(zhǔn)確度。這對部署效率具有重大意義。

今天早些時候,著名研究者和技術(shù)作家 Sebastian Raschka 發(fā)布了一條推文,解讀了一篇來自 Wand AI 的強化學(xué)習(xí)研究,其中分析了推理模型生成較長響應(yīng)的原因。

他寫到:「眾所周知,推理模型通常會生成較長的響應(yīng),這會增加計算成本。現(xiàn)在,這篇新論文表明,這種行為源于強化學(xué)習(xí)的訓(xùn)練過程,而并非更高的準(zhǔn)確度實際需要更長的答案。當(dāng)模型獲得負獎勵時,強化學(xué)習(xí)損失函數(shù)就傾向于生成較長的響應(yīng),我認為這能解釋純強化學(xué)習(xí)訓(xùn)練為什么會導(dǎo)致出現(xiàn)頓悟時刻和更長思維鏈。」

圖片

也就是說,如果模型獲得負獎勵(即答案是錯的),PPO 背后的數(shù)學(xué)原理會導(dǎo)致響應(yīng)變長,這樣平均每個 token 的損失就更小一些。因此,模型會間接地收到鼓勵,從而使其響應(yīng)更長。即使這些額外的 token 對解決問題沒有實際幫助,也會出現(xiàn)這種情況。

響應(yīng)長度與損失有什么關(guān)系呢?當(dāng)使用負獎勵時,更長的響應(yīng)可以稀釋每個 token 的懲罰,從而讓損失值更低(即更好 —— 即使模型仍然會得出錯誤的答案。

圖片

因此,模型會「學(xué)習(xí)」到:即使較長的回答對正確性沒有幫助,也能減少懲罰。

此外,研究人員還表明,第二輪強化學(xué)習(xí)(僅使用一些有時可解的問題)可以縮短回答時間,同時保持甚至提高準(zhǔn)確度。這對部署效率具有重大意義。

以下是該論文得到的三大關(guān)鍵發(fā)現(xiàn):

  • 簡潔性與準(zhǔn)確度之間的相關(guān)性:該團隊證明,在推理和非推理模型的推斷(inference)過程中,簡潔的推理往往與更高的準(zhǔn)確度密切相關(guān)。
  • 對 PPO 損失函數(shù)的動態(tài)分析:該團隊通過數(shù)學(xué)分析,建立了響應(yīng)正確性與 PPO 損失函數(shù)之間的聯(lián)系。具體而言,研究表明,錯誤的答案往往會導(dǎo)致響應(yīng)較長,而正確的答案則傾向于簡潔。
  • 有限的數(shù)據(jù):該團隊通過實驗證明,即使在非常小的數(shù)據(jù)集上,強化學(xué)習(xí)的后訓(xùn)練階段仍然有效,這一結(jié)果與文獻中的當(dāng)前趨勢相悖,并且強化學(xué)習(xí)后訓(xùn)練在資源受限的場景下也是可行的。

有研究者認為這項研究揭示了強化學(xué)習(xí)存在的一個普遍問題:訓(xùn)練的目標(biāo)只是為了獲得獎勵,而并非是解決問題。

圖片

下面我們就來具體看看這篇論文。

圖片

  • 論文標(biāo)題:Concise Reasoning via Reinforcement Learning 
  • 論文地址:https://arxiv.org/abs/2504.05185

響應(yīng)更長≠性能更好

下表展示了使用不同模型在不同基準(zhǔn)測試上,答案正確或錯誤時的平均響應(yīng)長度。藍色小字表示用于計算所得平均值的樣本數(shù)。

圖片

由此可知,更長響應(yīng)不一定能帶來更好的性能。

于是問題來了:使用 RL 訓(xùn)練的 LLM 傾向于在什么時候增加響應(yīng)長度?原因又是為何?

每個推理問題都是一個 MDP

從根本上講,每個推理問題(例如,數(shù)學(xué)問題)都構(gòu)成了一個馬爾可夫決策過程 (MDP),而不僅僅是一個靜態(tài)樣本。

MDP 由狀態(tài)空間 S、動作空間 A、轉(zhuǎn)換函數(shù) T、獎勵函數(shù) R、初始狀態(tài)分布 P_0 和折扣因子 γ 組成。

在語言建模中,每個 token 位置 k 處的狀態(tài)由直到 k 為止并包括 k 的所有 token(或其嵌入)組成,另外還包括上下文信息(例如問題陳述)。動作空間對應(yīng)于可能 token 的詞匯表。轉(zhuǎn)換函數(shù)可確定性地將新的 token 附加到序列中。除了最后一步之外,所有步驟的獎勵函數(shù)都為零。在最后一步,正確性根據(jù)最終答案和格式進行評估。初始狀態(tài)取決于提示詞,其中可能包含問題陳述和指令(例如,「逐步求解并將最終答案放入方框中」)。強化學(xué)習(xí)的目標(biāo)是最大化預(yù)期回報,預(yù)期回報定義為根據(jù) γ 折扣后的未來獎勵之和。在 LLM 的后訓(xùn)練中,通常將 γ 設(shè)置為 1。

為了在僅提供最終答案的情況下解決問題,需要一個能夠偶爾得出正確答案的基礎(chǔ)模型。在對多個問題進行訓(xùn)練時,整體 MDP 由多個初始狀態(tài)和更新的獎勵函數(shù)組成。添加更多問題會修改 P_0 和 R,但會保留基本的 MDP 結(jié)構(gòu)。

這會引入兩個重要的考慮因素:(1) 更大的問題集會增加 MDP 的復(fù)雜性,但這可能會使所學(xué)技術(shù)具有更高的泛化能力。(2) 原理上看,即使是單個問題(或一小組問題)也足以使強化學(xué)習(xí)訓(xùn)練生效,盡管這可能會引發(fā)過擬合的問題。

過擬合是監(jiān)督學(xué)習(xí)中的一個問題,因為模型會記住具體的例子,而不是進行泛化。相比之下,在線強化學(xué)習(xí)則不會受到這個問題的影響。與依賴靜態(tài)訓(xùn)練數(shù)據(jù)的監(jiān)督學(xué)習(xí)不同,在線強化學(xué)習(xí)會持續(xù)生成新的響應(yīng)軌跡,從而使模型能夠動態(tài)地改進其推理能力。此外,在線強化學(xué)習(xí)不僅僅是模仿預(yù)先定義的解答;它還會主動探索各種推理策略,并強化那些能夠得出正確答案的策略。

兩種關(guān)鍵機制促成了這種穩(wěn)健性:(1) 采樣技術(shù)(例如非零溫度)可確保生成的響應(yīng)具有變化性;(2) 訓(xùn)練期間持續(xù)的模型更新會隨著時間的推移引入新的響應(yīng)分布,從而防止訓(xùn)練停滯和過擬合。

這能解釋在小規(guī)模問題集上進行強化學(xué)習(xí)訓(xùn)練會保持有效性的原因。該團隊表示,之前還沒有人報告過將強化學(xué)習(xí)訓(xùn)練應(yīng)用于極小數(shù)據(jù)集的研究,這也是本研究的貢獻之一。

除了數(shù)據(jù)大小的考慮之外,需要強調(diào)的是,強化學(xué)習(xí)的唯一目標(biāo)是最小化損失,這也就相當(dāng)于最大化預(yù)期回報。從這個角度來看,強化學(xué)習(xí)訓(xùn)練過程中響應(yīng)長度的任何顯著變化都必然是由損失最小化驅(qū)動的,而非模型進行更廣泛推理的固有傾向。

為了進一步研究這一點,該團隊基于 DeepSeek-R1-Distill-Qwen-1.5B 基礎(chǔ)模型,使用近端策略優(yōu)化 (PPO) 算法進行了強化學(xué)習(xí)訓(xùn)練。訓(xùn)練數(shù)據(jù)是從 OlympiadBench 數(shù)據(jù)集中選擇的四個問題。

之所以特意選擇這些問題,是因為即使進行了廣泛的采樣,基礎(chǔ)模型也始終無法解決這些問題,導(dǎo)致終端獎勵恒定為 -0.5。其上下文大小限制為 20K token,該團隊繪制了策略損失與響應(yīng)長度的關(guān)系圖(參見圖 1)。

圖片

結(jié)果清楚地表明,響應(yīng)長度和損失之間存在很強的相關(guān)性:隨著響應(yīng)長度的增加,損失持續(xù)下降。這直接證明:損失最小化(而非模型產(chǎn)生更長響應(yīng)的內(nèi)在趨勢)才是驅(qū)動響應(yīng)長度增長的主要動力。

對于 PPO 對響應(yīng)長度的影響,該團隊也從數(shù)學(xué)角度進行了解釋。詳見原論文。

一種兩階段強化學(xué)習(xí)策略

該團隊的分析突出了幾個要點。

  • 當(dāng)在極其困難的問題訓(xùn)練時,響應(yīng)長度往往會增加,因為較長的響應(yīng)更有可能受到 PPO 的青睞,因為模型難以獲得正回報。
  • 當(dāng)在偶爾可解的問題上訓(xùn)練時,響應(yīng)長度預(yù)計會縮短。
  • 在大規(guī)模訓(xùn)練場景中,響應(yīng)長度的動態(tài)會變得非常復(fù)雜,并會受到底層問題難度的巨大影響。

該團隊認為,由于大多數(shù)問題至少偶爾可解,因此平均響應(yīng)長度最終會減少。值得注意的是,該團隊目前的分析不適用于 GRPO,對此類方法的精確分析還留待未來研究。盡管如此,由于簡潔性與更高準(zhǔn)確度之間的相關(guān)性,該團隊推測:如果訓(xùn)練持續(xù)足夠長的時間,這種增長最終可能會停止并開始逆轉(zhuǎn)。

如果數(shù)據(jù)集包含過多無法解決的問題,那么從「鼓勵響應(yīng)更長」到「鼓勵簡潔性」的轉(zhuǎn)變可能會大幅延遲且成本高昂。

為了解決這個問題,該團隊提出了一種新方法:通過一個后續(xù)強化學(xué)習(xí)訓(xùn)練階段來強制實現(xiàn)簡潔性,該階段使用了偶爾可解問題的數(shù)據(jù)集。于是,就能得到一種兩階段的強化學(xué)習(xí)訓(xùn)練方法:

在第一階段,用高難度問題訓(xùn)練模型。此階段的目標(biāo)是增強模型解決問題的能力,由于 PPO 主要會遇到負獎勵,從而促使模型產(chǎn)生更長的響應(yīng),因此響應(yīng)長度預(yù)計會增加。值得注意的是,第一階段也可被視為現(xiàn)有推理模型的強化學(xué)習(xí)訓(xùn)練。

在第二階段,使用非零 p_a(偶爾可解)的問題繼續(xù)訓(xùn)練。此階段能在保持甚至提高準(zhǔn)確度的同時提升簡潔性。值得注意的是,正如后面將看到的,它還能顯著提高模型對降低溫度值的穩(wěn)健性 —— 即使在有限的采樣量下也能確保卓越的性能。

從 MDP 的角度,該團隊得到了一個關(guān)鍵洞察:即使問題集很小,也可以實現(xiàn)有效的強化學(xué)習(xí)訓(xùn)練,盡管這可能會降低泛化能力。尤其要指出,在訓(xùn)練的第二階段 —— 此時模型已經(jīng)具備泛化能力,即使僅有只包含少量問題的極小數(shù)據(jù)集也可使用 PPO。

實驗結(jié)果

該團隊也通過實驗檢驗了新提出的兩階段強化學(xué)習(xí)訓(xùn)練方法。

問題難度如何影響準(zhǔn)確度-響應(yīng)長度的相關(guān)性

圖 2 給出了準(zhǔn)確度和響應(yīng)長度隨訓(xùn)練步數(shù)的變化。

圖片

可以看到,在所有問題集中,準(zhǔn)確度的提高與響應(yīng)長度的縮短相一致 —— 這表明隨著模型準(zhǔn)確度的提高,其響應(yīng)長度也隨之縮短。此外,對于更簡單的問題集,響應(yīng)長度縮短得更快。最后,對于最難的數(shù)據(jù)集,由于問題很少能夠解決,因此響應(yīng)長度有所增加。

響應(yīng)長度減少

圖 3 展示了在不同的測試數(shù)據(jù)集(AIME 2024、AMC 2023 和 MATH-500)上,經(jīng)過后訓(xùn)練的 1.5B 和 7B 模型的準(zhǔn)確度和響應(yīng)長度隨訓(xùn)練步數(shù)的變化情況。

圖片

可以看到,新提出的兩階段強化學(xué)習(xí)訓(xùn)練方法會讓響應(yīng)長度顯著下降,同時準(zhǔn)確度會保持穩(wěn)定。而右圖在 MMLU_STEM 上的結(jié)果更是表明:僅使用 8 個樣本,強化學(xué)習(xí)后訓(xùn)練也能帶來準(zhǔn)確度提升。

性能和穩(wěn)健性的提升

前面的實驗結(jié)果已經(jīng)證明:進一步的強化學(xué)習(xí)后訓(xùn)練可以在保持準(zhǔn)確度的同時縮短響應(yīng)長度。該團隊進一步研究發(fā)現(xiàn):進一步的強化學(xué)習(xí)后訓(xùn)練也能提升模型的穩(wěn)健性和性能。

為了評估模型的穩(wěn)健性,該團隊檢查了它們對溫度設(shè)置的敏感性。將溫度設(shè)置為零會大幅降低 R1 等推理模型的準(zhǔn)確度。然而,諸如 pass@1 之類的標(biāo)準(zhǔn)指標(biāo)依賴于非零溫度下的多個樣本,這通常會掩蓋在小型數(shù)據(jù)集上進行二次強化學(xué)習(xí)后訓(xùn)練的優(yōu)勢。

該團隊使用 0 和 0.6 的溫度值進行了實驗,結(jié)果見表 3。

圖片

可以看到,當(dāng)溫度設(shè)置為 0 時,經(jīng)過后訓(xùn)練的模型的表現(xiàn)顯著優(yōu)于基線模型,這表明經(jīng)過后訓(xùn)練的模型與基線模型相比更加穩(wěn)健。

該團隊還表明,在有限數(shù)量的樣本上進行進一步的強化學(xué)習(xí)訓(xùn)練可以顯著提升準(zhǔn)確度。這種效果取決于先前在類似(甚至相同)問題上進行過的強化學(xué)習(xí)訓(xùn)練程度。如果模型已經(jīng)進行過大量強化學(xué)習(xí)訓(xùn)練,可能就更難以進一步提升準(zhǔn)確度。

為了探究這一點,該團隊基于 Qwen-Math-v2.5 使用了在線強化學(xué)習(xí)進行實驗,訓(xùn)練樣本是來自 MATH 數(shù)據(jù)集的 4 個樣本。不同于 R1,該模型之前并沒有經(jīng)過強化學(xué)習(xí)訓(xùn)練,而是僅在大量數(shù)學(xué)數(shù)據(jù)上進行了 token completion 訓(xùn)練。結(jié)果見表 4。

圖片

可以看到,提升很驚人!在 1.5B 模型上,提升高達 30%。這表明,就算僅使用 4 個問題進行強化學(xué)習(xí)后訓(xùn)練,也能得到顯著的準(zhǔn)確度提升,尤其是當(dāng)模型之前未進行過強化學(xué)習(xí)推理優(yōu)化訓(xùn)練時。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-04-21 09:07:00

2012-02-03 14:39:12

Java

2015-08-12 10:04:24

2024-08-16 14:15:00

AI訓(xùn)練

2010-04-28 14:38:26

云計算

2021-09-06 15:29:16

大數(shù)據(jù)防疫信息安全

2021-09-17 12:54:05

AI 數(shù)據(jù)人工智能

2024-11-21 14:00:00

模型AI

2024-12-09 13:40:26

2025-04-27 09:19:00

強化學(xué)習(xí)模型AI

2024-12-02 12:37:42

2010-10-18 10:51:00

蘋果

2017-06-29 08:45:06

MySQLNOT INNOT EXISTS

2017-02-28 16:26:52

網(wǎng)易云新東方精雕細刻

2025-04-07 09:00:00

數(shù)據(jù)測試工具

2023-11-30 18:25:57

數(shù)據(jù)訓(xùn)練

2022-11-07 07:28:39

大腦創(chuàng)傷功能

2022-12-01 08:00:00

2019-10-14 09:58:00

機器學(xué)習(xí)人工智能計算機

2022-04-14 09:35:03

Vue.js設(shè)計Reflect
點贊
收藏

51CTO技術(shù)棧公眾號