自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

不蒸餾R1也能超越DeepSeek,上海 AI Lab 用RL突破數(shù)學(xué)推理極限

人工智能 新聞
研究團(tuán)隊(duì)重新審視了當(dāng)前基于結(jié)果獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)算法,經(jīng)過嚴(yán)格的理論推導(dǎo)與證明,重新設(shè)計(jì)了一個(gè)新的結(jié)果獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)算法,并在這個(gè)過程中得出了三點(diǎn)重要結(jié)論。

僅通過強(qiáng)化學(xué)習(xí),就能超越DeepSeek!

上海AI Lab提出了基于結(jié)果獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)新范式——

從Qwen2.5-32B-Base模型出發(fā),僅通過微調(diào)和基于結(jié)果反饋的強(qiáng)化學(xué)習(xí),在不蒸餾超大模型如DeepSeek-R1的情況下,就能超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超強(qiáng)數(shù)學(xué)推理性能。

團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)前大模型數(shù)學(xué)推理任務(wù)面臨”三重門”困局:

  • 稀疏獎(jiǎng)勵(lì)困境:最終答案對(duì)錯(cuò)的二元反饋,使復(fù)雜推理的優(yōu)化變得困難
  • 局部正確陷阱:長(zhǎng)思維鏈中部分正確步驟反而可能誤導(dǎo)模型學(xué)習(xí)
  • 規(guī)模依賴魔咒:傳統(tǒng)蒸餾方法迫使研究者陷入”參數(shù)規(guī)模軍備競(jìng)賽”

因此,研究團(tuán)隊(duì)重新審視了當(dāng)前基于結(jié)果獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)算法,經(jīng)過嚴(yán)格的理論推導(dǎo)與證明,重新設(shè)計(jì)了一個(gè)新的結(jié)果獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)算法,并在這個(gè)過程中得出了三點(diǎn)重要結(jié)論:

  • 對(duì)于正樣本:在二元反饋環(huán)境下,通過最佳軌跡采樣(BoN)的行為克隆即可學(xué)習(xí)最優(yōu)策略
  • 對(duì)于負(fù)樣本:需要使用獎(jiǎng)勵(lì)重塑來維護(hù)策略優(yōu)化目標(biāo)的一致性
  • 對(duì)于長(zhǎng)序列:不同的序列部分對(duì)結(jié)果的貢獻(xiàn)不同,因此需要更細(xì)粒度的獎(jiǎng)勵(lì)分配函數(shù),這個(gè)函數(shù)可以通過結(jié)果獎(jiǎng)勵(lì)習(xí)得

通俗來說,就是通過對(duì)正確樣本模仿學(xué)習(xí),錯(cuò)誤樣本偏好學(xué)習(xí),關(guān)鍵步驟重點(diǎn)學(xué)習(xí),無需依賴超大規(guī)模的模型(例如DeepSeek-R1)進(jìn)行蒸餾,僅通過強(qiáng)化學(xué)習(xí)即可達(dá)到驚人的效果。

除此之外,團(tuán)隊(duì)也對(duì)不同起點(diǎn)模型進(jìn)行了強(qiáng)化學(xué)習(xí)訓(xùn)練對(duì)比和分析,發(fā)現(xiàn)強(qiáng)化學(xué)習(xí)的起點(diǎn)模型訓(xùn)練數(shù)據(jù)分布對(duì)最終的模型效果也很重要。因此,研究團(tuán)隊(duì)將RL訓(xùn)練的數(shù)據(jù)、起點(diǎn)和最終模型一起完整開源,來推動(dòng)社區(qū)的公平比較和進(jìn)一步研究。項(xiàng)目鏈接已放文末。

從頭設(shè)計(jì)結(jié)果獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)

針對(duì)數(shù)學(xué)推理任務(wù)中強(qiáng)化學(xué)習(xí)面臨的稀疏獎(jiǎng)勵(lì)局部正確難題,團(tuán)隊(duì)提出新的策略優(yōu)化框架OREAL。

通過理論創(chuàng)新實(shí)現(xiàn)針對(duì)性的算法改進(jìn),在用實(shí)驗(yàn)說明“怎么做更好”之前,首先論證“為什么這么做更好”

正負(fù)樣本獎(jiǎng)勵(lì)重塑,解決稀疏獎(jiǎng)勵(lì)困境

在數(shù)學(xué)推理任務(wù)的采樣流程中,團(tuán)隊(duì)經(jīng)過理論分析推導(dǎo),提出核心見解:在二元反饋機(jī)制下,采樣任意數(shù)量包含正確答案的BoN(Best-of-N)設(shè)置,其正確軌跡的分布具有一致性特征。這一發(fā)現(xiàn)表明,通過直接行為克?。╞ehaviorcloning)采樣得到的正確軌跡,已經(jīng)構(gòu)成了正樣本訓(xùn)練中的最優(yōu)設(shè)置。

在對(duì)正樣本做模仿學(xué)習(xí)的基礎(chǔ)上,團(tuán)隊(duì)提出直接懲罰負(fù)樣本會(huì)導(dǎo)致梯度偏差問題,對(duì)負(fù)樣本的訓(xùn)練原則應(yīng)當(dāng)是維護(hù)優(yōu)化梯度形式與學(xué)習(xí)BoN分布一致。通過深入分析正負(fù)樣本的訓(xùn)練梯度,研究者們提出了基于平均準(zhǔn)確率p的獎(jiǎng)勵(lì)重塑因子來維護(hù)上述一致性,為GRPO等算法的改進(jìn)提供了理論依據(jù)。這種設(shè)置使模型既能有效吸收成功經(jīng)驗(yàn),又能精確識(shí)別關(guān)鍵錯(cuò)誤邊界,對(duì)訓(xùn)練性能有明顯幫助。

結(jié)果獎(jiǎng)勵(lì)「因果溯源」,跳出局部正確陷阱

針對(duì)復(fù)雜的長(zhǎng)推理鏈問題,OREAL創(chuàng)新性地設(shè)計(jì)了token重要性估計(jì)器。通過構(gòu)建序列累計(jì)形式的獎(jiǎng)勵(lì)函數(shù),我們將結(jié)果獎(jiǎng)勵(lì)逆向分解到每個(gè)推理步驟(見下面的token-level RM熱力圖)。這種方法能夠精確定位核心錯(cuò)誤步驟,在訓(xùn)練時(shí)實(shí)現(xiàn)更精細(xì)的梯度更新,顯著提升了模型在長(zhǎng)序列任務(wù)中的表現(xiàn)。

OREAL框架

將幾項(xiàng)認(rèn)知組合起來,團(tuán)隊(duì)提出的最優(yōu)強(qiáng)化學(xué)習(xí)策略可以概括為:在正確樣本上模仿學(xué)習(xí),在錯(cuò)誤樣本上偏好學(xué)習(xí),對(duì)關(guān)鍵步驟做重點(diǎn)學(xué)習(xí)。

通過合理的分析和實(shí)踐,一步步將強(qiáng)化學(xué)習(xí)性能推到最佳水平。

強(qiáng)化學(xué)習(xí)超越蒸餾,擺脫規(guī)模依賴魔咒

團(tuán)隊(duì)在7B和32B兩個(gè)規(guī)模的模型上僅使用4千條高質(zhì)量訓(xùn)練樣本進(jìn)行了訓(xùn)練和測(cè)試,

在7B量級(jí)上,Oreal-7B在MATH-500上取得了91.0的pass@1準(zhǔn)確率。這是首次通過強(qiáng)化學(xué)習(xí)而非蒸餾方法達(dá)到了如此高的精度。這一成績(jī)不僅為基于RL的方法樹立了新的里程碑,還超越了更大參數(shù)量的模型,包括QWQ-32B-Preview和OpenAI-O1-Mini。

此外,將Oreal應(yīng)用于此前最佳的7B模型(DeepSeek-r1-Distill-Qwen-7B)后,得到的新模型OREAL-DSR1-Distill-Qwen-7B在MATH-500上取得了94.0的pass@1精度,創(chuàng)下了7B模型的記錄。千問的基座,經(jīng)過DeepSeek的蒸餾訓(xùn)練,再經(jīng)過上海AI Lab的強(qiáng)化學(xué)習(xí)訓(xùn)練,達(dá)到了中國(guó)原創(chuàng)新高度。

對(duì)于32B模型,Oreal-32B在MATH-500上也達(dá)到了95.0的分?jǐn)?shù),超越了同級(jí)別的DeepSeek-r1-Distill-Qwen-32B,實(shí)現(xiàn)32B模型的新SOTA。

One More Thing

最后,研究團(tuán)隊(duì)還對(duì)比了不同基座模型下的性能表現(xiàn),發(fā)現(xiàn)不同性能起點(diǎn)的策略模型RL后性能上限是不同的,起點(diǎn)模型越強(qiáng),RL后的性能越好。

并且,盡管在多個(gè)基座模型上,大部分benchmark性能都會(huì)在RL后有所提升,偶爾也會(huì)出現(xiàn)持平(OREAL-32B在AIME2025-I)或者性能下降(相比于DSR1-Distill-Qwen-7B在AIME2024)。

研究認(rèn)為,這些情況的出現(xiàn)可能與訓(xùn)練語(yǔ)料的質(zhì)量、難度和數(shù)量等方面準(zhǔn)備的不夠充分有關(guān),這也給未來的研究留下了空間。

因此,除了強(qiáng)大的RL算法,團(tuán)隊(duì)還提出兩個(gè)關(guān)鍵因素對(duì)于RL在數(shù)學(xué)推理任務(wù)中的成功至關(guān)重要:

強(qiáng)大的起點(diǎn)模型是RL可以有效激發(fā)模型潛在能力的前提。

在RL階段使用的數(shù)據(jù)也必須在質(zhì)量、難度、數(shù)量和多樣性方面都得到充分保證。高質(zhì)量的數(shù)據(jù)集能夠讓模型通過面對(duì)廣泛的挑戰(zhàn)和學(xué)習(xí)機(jī)會(huì),充分發(fā)揮其潛力。

模型數(shù)據(jù)全面開源,助力強(qiáng)化學(xué)習(xí)研究

研究團(tuán)隊(duì)同時(shí)也注意到,盡管DeepSeek-R1的出現(xiàn)引發(fā)了社區(qū)對(duì)于大語(yǔ)言模型強(qiáng)化學(xué)習(xí)的學(xué)習(xí)和研究熱情,大家使用的訓(xùn)練起點(diǎn)模型、訓(xùn)練數(shù)據(jù)、訓(xùn)練算法和超參細(xì)節(jié)都不盡相同,影響了算法和模型性能的清晰比較。

因此,研究團(tuán)隊(duì)將整個(gè)RL訓(xùn)練過程中用到的訓(xùn)練數(shù)據(jù)、起點(diǎn)模型和RL后模型都進(jìn)行了全面開源,訓(xùn)練代碼也將開源到XTuner。

歡迎下載體驗(yàn):

項(xiàng)目鏈接:
https://github.com/InternLM/OREAL
論文地址:
https://arxiv.org/abs/2502.06781
RL 訓(xùn)練數(shù)據(jù)鏈接:
https://huggingface.co/datasets/internlm/OREAL-RL-Prompts
系列模型地址:
https://huggingface.co/collections/internlm/oreal-67aaccf5a8192c1ba3cff018

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-02-12 12:12:59

2025-02-20 15:32:28

2025-01-27 12:30:07

2025-04-22 09:12:00

AI模型數(shù)據(jù)

2025-03-06 10:14:39

2025-02-11 16:11:12

2025-01-21 09:36:51

2025-01-26 08:40:00

AI模型預(yù)測(cè)

2025-03-06 09:55:49

2025-01-21 11:53:53

2025-04-21 08:42:00

模型開源AI

2025-03-13 11:07:30

2025-02-10 06:50:00

AIDeepSeek推理模型

2025-02-08 11:31:17

DeepseekR1模型

2025-02-25 08:20:50

AI程序員DeepSeek

2025-03-06 01:00:00

2025-02-20 17:19:08

2025-02-10 14:05:00

訓(xùn)練模型AI

2025-02-12 11:53:18

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)