強(qiáng)化學(xué)習(xí)Scaling Law錯(cuò)了?無(wú)需蒸餾,數(shù)據(jù)量只要1/6,效果還更好
DeepSeek-R1帶火了使用強(qiáng)化學(xué)習(xí)訓(xùn)練LLM。在訓(xùn)練中,AI靈機(jī)一動(dòng),讓作者耳目一新,甚至因此驚嘆到:這就是強(qiáng)化學(xué)習(xí)的力與美!
DeepSeek-R1-Zero驚艷了研究人員
然而,對(duì)RL訓(xùn)練的理解存在空白:這些工作的訓(xùn)練數(shù)據(jù)的透明度有限,誰(shuí)知道是方法好還是數(shù)據(jù)集質(zhì)量好?
剛剛出爐的新論文揭示了RL訓(xùn)練的另一面,探討了一個(gè)核心問題:
在提升語(yǔ)言模型推理能力方面,什么真正決定了強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練數(shù)據(jù)的有效性?
研究團(tuán)隊(duì)對(duì)「擴(kuò)大RL訓(xùn)練數(shù)據(jù)規(guī)模,就能提升模型性能」這一觀念提出了挑戰(zhàn)。
核心發(fā)現(xiàn)是,訓(xùn)練樣本的質(zhì)量和相關(guān)性遠(yuǎn)比數(shù)量重要。
通過廣泛的實(shí)證分析,新研究得出了一些令人驚訝的觀察結(jié)果,這些結(jié)果從根本上改變了對(duì)RL訓(xùn)練動(dòng)態(tài)的理解:
- 經(jīng)過精心挑選的1389個(gè)RL訓(xùn)練樣本子集,可以實(shí)現(xiàn)和8523個(gè)樣本的完整數(shù)據(jù)集相當(dāng)甚至更優(yōu)的性能。
- 新方法「學(xué)習(xí)影響測(cè)量」(LIM),可以有效地預(yù)測(cè)哪些樣本對(duì)模型改進(jìn)的貢獻(xiàn)最大,消除了手動(dòng)樣本管理的需要,而且易于擴(kuò)展。
- 通往更好推理能力的道路,可能不在于簡(jiǎn)單地?cái)U(kuò)大RL訓(xùn)練數(shù)據(jù)規(guī)模,而在于更具選擇性地使用哪些樣本。
項(xiàng)目地址:https://github.com/GAIR-NLP/LIMR
Scaling Law適用于強(qiáng)化學(xué)習(xí)訓(xùn)練嗎?
在這項(xiàng)工作中,在一個(gè)基本場(chǎng)景,探索RL訓(xùn)練數(shù)據(jù)的Scaling Law:直接從沒有經(jīng)過知識(shí)蒸餾的基礎(chǔ)模型開始(類似于Deepseek R1-zero的設(shè)置)。
對(duì)RL訓(xùn)練數(shù)據(jù)需求的理解不足,面臨下列難題:
- 由于缺乏明確的數(shù)據(jù)規(guī)?;鶞?zhǔn),必須依賴反復(fù)試驗(yàn),導(dǎo)致資源利用效率低下,而結(jié)果也可能不是最優(yōu)的。
- 樣本數(shù)量如何影響模型性能,該領(lǐng)域缺乏對(duì)該問題的系統(tǒng)分析,很難做出資源分配的明智決策。
更重要的是,這種不確定性提出了關(guān)鍵問題:
擴(kuò)大RL訓(xùn)練數(shù)據(jù)規(guī)模真的是提高模型性能的關(guān)鍵嗎?
或者是否忽略了更基本的因素,例如樣本質(zhì)量和選擇標(biāo)準(zhǔn)?
學(xué)習(xí)影響測(cè)量
學(xué)習(xí)影響測(cè)量(Learning Impact Measurement,LIM),是一種系統(tǒng)的方法,用于量化和優(yōu)化強(qiáng)化學(xué)習(xí)中訓(xùn)練數(shù)據(jù)的價(jià)值。
新方法通過分析學(xué)習(xí)動(dòng)態(tài),識(shí)別最有效的訓(xùn)練樣本,從而應(yīng)對(duì)強(qiáng)化學(xué)習(xí)訓(xùn)練中數(shù)據(jù)效率的關(guān)鍵挑戰(zhàn)。
RL訓(xùn)練中的學(xué)習(xí)動(dòng)態(tài)
為了理解訓(xùn)練數(shù)據(jù)和模型改進(jìn)之間的關(guān)系,使用MATH-FULL數(shù)據(jù)集進(jìn)行了廣泛的分析,數(shù)據(jù)集包含8,523個(gè)難度級(jí)別不同的數(shù)學(xué)問題。
初步研究表明,不同的訓(xùn)練樣本對(duì)模型學(xué)習(xí)的貢獻(xiàn)是不平等的,這與將所有樣本統(tǒng)一對(duì)待的傳統(tǒng)方法相反。
如圖2a所示,觀察到不同的學(xué)習(xí)軌跡:一些樣本表現(xiàn)出穩(wěn)定的性能模式,而另一些樣本則顯示出復(fù)雜的學(xué)習(xí)動(dòng)態(tài),這些動(dòng)態(tài)似乎驅(qū)動(dòng)了顯著的模型改進(jìn)。
圖a解題獎(jiǎng)勵(lì)軌跡揭示了不同的模式:保持接近零獎(jiǎng)勵(lì)的樣本、快速獲得高獎(jiǎng)勵(lì)的樣本,以及顯示出具有不同改進(jìn)率的動(dòng)態(tài)學(xué)習(xí)進(jìn)展的樣本。
圖b表明較高的LIM分?jǐn)?shù)反映了與模型學(xué)習(xí)軌跡更好的對(duì)齊,其中顯示出相似增長(zhǎng)模式的軌跡獲得更高的分?jǐn)?shù)。
圖2:(a)MATH-FULL數(shù)據(jù)集中訓(xùn)練樣本在不同epoch的學(xué)習(xí)動(dòng)態(tài)分析。(b)樣本學(xué)習(xí)軌跡與平均獎(jiǎng)勵(lì)曲線(紅色)的比較。
這些觀察結(jié)果引出了核心見解:檢查單個(gè)樣本與模型的整體學(xué)習(xí)進(jìn)程的對(duì)齊程度,可以系統(tǒng)地衡量強(qiáng)化學(xué)習(xí)訓(xùn)練中數(shù)據(jù)的價(jià)值。
這種理解構(gòu)成了新方法LIM的基礎(chǔ)。
學(xué)習(xí)影響測(cè)量(LIM)
LIM的核心是模型對(duì)齊的軌跡分析。
它根據(jù)訓(xùn)練樣本對(duì)模型學(xué)習(xí)的貢獻(xiàn),來(lái)評(píng)估它們的價(jià)值。
新研究的主要發(fā)現(xiàn)是,學(xué)習(xí)模式與模型整體性能軌跡互補(bǔ)的樣本往往對(duì)優(yōu)化更有價(jià)值。
學(xué)習(xí)影響測(cè)量(LIM)主要分為兩步:(1)分析模型對(duì)齊的軌跡;(2)計(jì)算一個(gè)歸一化對(duì)齊分?jǐn)?shù)。
考慮到神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)通常遵循對(duì)數(shù)增長(zhǎng)模式,使用模型的平均獎(jiǎng)勵(lì)曲線,作為衡量樣本有效性的參考(圖2b):
其中:r_k^i表示樣本i在epoch k的獎(jiǎng)勵(lì);N是樣本總數(shù);K是總的epoch數(shù)。
對(duì)于每個(gè)樣本,LIM計(jì)算一個(gè)歸一化對(duì)齊分?jǐn)?shù):
本質(zhì)上,這個(gè)公式是在平均獎(jiǎng)勵(lì)變化趨勢(shì)上,比較單個(gè)樣本與整體的相似程度。
如果一個(gè)樣本的獎(jiǎng)勵(lì)變化趨勢(shì)與整體趨勢(shì)高度一致(即,當(dāng)整體獎(jiǎng)勵(lì)上升時(shí),該樣本的獎(jiǎng)勵(lì)也上升,反之亦然),那么它的對(duì)齊分?jǐn)?shù)就會(huì)較高。
反之,如果一個(gè)樣本的獎(jiǎng)勵(lì)變化趨勢(shì)與整體趨勢(shì)差異較大,那么它的對(duì)齊分?jǐn)?shù)就會(huì)較低。
該分?jǐn)?shù)量化了樣本的學(xué)習(xí)模式與模型整體學(xué)習(xí)軌跡的對(duì)齊程度,分?jǐn)?shù)越高表示對(duì)齊程度越好。
尋找「黃金」樣本
基于對(duì)齊分?jǐn)?shù),LIM采用了選擇性抽樣策略:s_i>θ,其中θ作為質(zhì)量閾值,可以根據(jù)具體要求進(jìn)行調(diào)整。在實(shí)驗(yàn)中,研究人員設(shè)置θ=0.6產(chǎn)生了優(yōu)化的數(shù)據(jù)集 (LIMR),其中包含來(lái)自原始數(shù)據(jù)集的1,389個(gè)高價(jià)值樣本。
基線數(shù)據(jù)選擇方法
在開發(fā)核心方法時(shí),研究人員探索了幾種替代方法,有助于最終方法的形成和驗(yàn)證。
這些方法為強(qiáng)化學(xué)習(xí)中的數(shù)據(jù)選擇提供了寶貴的見解。
- 隨機(jī)抽樣基線(RAND):從MATH-FULL中隨機(jī)選擇1389個(gè)樣本,以匹配主要方法的大小,為評(píng)估選擇性抽樣的有效性提供了一個(gè)基本的參考點(diǎn)。
- 線性進(jìn)展分析方法(LINEAR):根據(jù)在訓(xùn)練周期中持續(xù)顯示穩(wěn)步改進(jìn)的一致性,來(lái)評(píng)估樣本。雖然這種方法捕獲了逐漸進(jìn)展的樣本,但它經(jīng)常錯(cuò)過有快速早期收益然后趨于穩(wěn)定的有價(jià)值的樣本。使用閾值θ=0.7,此方法產(chǎn)生1189個(gè)樣本。
獎(jiǎng)勵(lì)設(shè)計(jì)
與Deepseek R1類似,使用基于規(guī)則的獎(jiǎng)勵(lì)函數(shù)。
具體來(lái)說(shuō),對(duì)于正確答案,獎(jiǎng)勵(lì)為1;對(duì)于不正確但格式正確的答案,獎(jiǎng)勵(lì)為-0.5;對(duì)于格式錯(cuò)誤的答案,獎(jiǎng)勵(lì)為-1。形式上,這可以表示為:
實(shí)驗(yàn)結(jié)果
為了驗(yàn)證LIMR方法的有效性,研究團(tuán)隊(duì)開展了一系列實(shí)驗(yàn)。
在實(shí)驗(yàn)設(shè)置上,訓(xùn)練環(huán)節(jié)采用OpenRLHF框架中實(shí)現(xiàn)的近端策略優(yōu)化(PPO)算法,以Qwen2.5-Math-7B為初始策略模型。
評(píng)估環(huán)節(jié)選擇了多個(gè)具有挑戰(zhàn)性的基準(zhǔn)測(cè)試,包括MATH500、AIME2024和AMC2023。為提高評(píng)估效率,借助vLLM框架進(jìn)行評(píng)估。
從不同數(shù)據(jù)選擇策略的對(duì)比來(lái)看,直接在Qwen-Math-7B上使用MATH-FULL數(shù)據(jù)集進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,模型性能有顯著提升。
使用MATH-RAND數(shù)據(jù)集訓(xùn)練,與完整數(shù)據(jù)集相比,平均準(zhǔn)確率下降8.1%;MATH-LINEAR的準(zhǔn)確率損失為2%。
而LIMR盡管數(shù)據(jù)集規(guī)模減少了80%,但性能與MATH-FULL幾乎相當(dāng)。這充分證明在強(qiáng)化學(xué)習(xí)中,真正起關(guān)鍵作用的往往只是一小部分問題。
進(jìn)一步分析訓(xùn)練過程中的各項(xiàng)指標(biāo)演變,發(fā)現(xiàn)LIMR和MATH-FULL的準(zhǔn)確率曲線近乎一致,且均明顯優(yōu)于MATH-RAND。
在序列長(zhǎng)度方面,MATH-FULL的訓(xùn)練曲線不穩(wěn)定,而LIMR的曲線先下降后逐漸上升。訓(xùn)練獎(jiǎng)勵(lì)方面,LIMR的獎(jiǎng)勵(lì)曲線上升更快,最終接近1.0,這表明模型在訓(xùn)練過程中能夠更有效地利用LIMR數(shù)據(jù)集進(jìn)行學(xué)習(xí)。
圖4展示了在三個(gè)具有挑戰(zhàn)性的基準(zhǔn)測(cè)試上模型性能的對(duì)比分析。結(jié)果表明,LIMR在所有三個(gè)基準(zhǔn)測(cè)試上的性能都與MATH-FULL相當(dāng),同時(shí)顯著優(yōu)于MATH-RAND。
值得注意的是,LIMR在AIME24和AMC23數(shù)據(jù)集上表現(xiàn)出色,有力證明了其性能提升并非歸因于對(duì)單個(gè)數(shù)據(jù)集的過擬合,而是反映了模型數(shù)學(xué)推理能力的真正提高。
RL的數(shù)據(jù)效率優(yōu)于SFT
研究者發(fā)現(xiàn),對(duì)于數(shù)據(jù)稀疏且模型較小的情況,強(qiáng)化學(xué)習(xí)>監(jiān)督微調(diào)!
研究者用來(lái)自s1的1000條數(shù)據(jù)和來(lái)自LIMO的817條數(shù)據(jù),通過監(jiān)督微調(diào)對(duì)Qwen-2.5-Math-7B進(jìn)行訓(xùn)練,并與LIMR進(jìn)行比較。
實(shí)驗(yàn)結(jié)果表明,在相同的約1000個(gè)問題下,與LIMO和s1相比,LIMR在AIME上的相對(duì)提升超過100%,在AMC23和MATH500上的準(zhǔn)確率提高了10%以上。
這進(jìn)一步強(qiáng)調(diào)了選擇適合模型的數(shù)據(jù),而不是盲目選擇更具挑戰(zhàn)性的數(shù)據(jù)的重要性。在數(shù)據(jù)稀疏的場(chǎng)景以及小模型應(yīng)用中,強(qiáng)化學(xué)習(xí)結(jié)合有效的數(shù)據(jù)選擇策略,能有效地提升模型的推理能力。
本文的方法不僅為研究人員提供了一種高效、可擴(kuò)展的RL訓(xùn)練解決方案,還揭示了提升推理能力的關(guān)鍵可能在于優(yōu)化數(shù)據(jù)質(zhì)量,而非單純?cè)黾訑?shù)據(jù)量。
與監(jiān)督微調(diào)(SFT)的對(duì)比實(shí)驗(yàn)表明,當(dāng)RL結(jié)合高效的數(shù)據(jù)選擇策略時(shí),在數(shù)據(jù)有限的小模型上表現(xiàn)尤為突出。