自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

出人意料!DeepSeek-R1用的GRPO其實(shí)沒必要?規(guī)?;瘡?qiáng)化學(xué)習(xí)訓(xùn)練用PPO就夠了

人工智能 新聞
相較于 PPO,GRPO 去掉了價(jià)值模型,而是通過分組分?jǐn)?shù)來估計(jì)基線,從而可極大減少訓(xùn)練資源。

DeepSeek-R1 非常熱門,而在其公布的訓(xùn)練配方中,GRPO(Group Relative Policy Optimization)非常關(guān)鍵,是 DeepSeek-R1 核心的強(qiáng)化學(xué)習(xí)算法。

PPO 與 GRPO 的對比,來自論文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》

相較于 PPO,GRPO 去掉了價(jià)值模型,而是通過分組分?jǐn)?shù)來估計(jì)基線,從而可極大減少訓(xùn)練資源。

DeepSeek-R1 技術(shù)報(bào)告中寫到:「具體來說,我們使用 DeepSeek-V3-Base 作為基礎(chǔ)模型,并采用 GRPO 作為強(qiáng)化學(xué)習(xí)框架來提高模型的推理性能。在訓(xùn)練過程中,DeepSeek-R1-Zero 自然地涌現(xiàn)出了許多強(qiáng)大而有趣的推理行為。經(jīng)過數(shù)千個(gè)強(qiáng)化學(xué)習(xí)步驟后,DeepSeek-R1-Zero 在推理基準(zhǔn)上表現(xiàn)出超強(qiáng)的性能?!?/span>

但現(xiàn)在,有一項(xiàng)研究卻證明 GRPO 對推理模型來說并不很重要。

階躍星辰與清華大學(xué)近期的一項(xiàng)研究發(fā)現(xiàn),只需使用帶 GAE (λ= 1,γ= 1)的普通 PPO 以及基于規(guī)則的簡單獎(jiǎng)勵(lì)函數(shù),無需任何 KL 正則化,就足以擴(kuò)展在推理任務(wù)上的響應(yīng)長度和基準(zhǔn)性能,類似于在 DeepSeek-R1-Zero 上觀察到的現(xiàn)象。

使用這種極簡方法,他們打造了 Open-Reasoner-Zero,這是首個(gè)面向大規(guī)模推理的強(qiáng)化學(xué)習(xí)訓(xùn)練的開源實(shí)現(xiàn)。并且該實(shí)現(xiàn)在 GPQA Diamond 基準(zhǔn)上的表現(xiàn)優(yōu)于 DeepSeek-R1-Zero-Qwen-32B,同時(shí)僅需使用 1/30 的訓(xùn)練步數(shù)。需要強(qiáng)調(diào),該團(tuán)隊(duì)不僅開源了代碼,還發(fā)布了參數(shù)設(shè)置、訓(xùn)練數(shù)據(jù)和模型權(quán)重。

  • 論文標(biāo)題:Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
  • 論文地址:https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/blob/main/ORZ_paper.pdf
  • 項(xiàng)目地址:https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero
  • Hugging Face:https://huggingface.co/Open-Reasoner-Zero

從基礎(chǔ)模型開始擴(kuò)展強(qiáng)化學(xué)習(xí)

下面首先將介紹基礎(chǔ)又關(guān)鍵的設(shè)置,括數(shù)據(jù)整編、獎(jiǎng)勵(lì)函數(shù)和近端策略優(yōu)化 (PPO) 算法的詳細(xì)設(shè)置。然后會(huì)討論從消融實(shí)驗(yàn)中得出的關(guān)鍵見解,這些見解可以成功實(shí)現(xiàn)規(guī)?;瘡?qiáng)化學(xué)習(xí)訓(xùn)練。

基礎(chǔ)設(shè)置

實(shí)驗(yàn)中,基礎(chǔ)模型使用的是 Qwen2.5-{7B, 32B},并且不經(jīng)過任何微調(diào)(如蒸餾或 SFT)即開始規(guī)?;瘡?qiáng)化學(xué)習(xí)訓(xùn)練。在 Qwen2.5-{7B, 32B} 基礎(chǔ)模型的基礎(chǔ)上,該團(tuán)隊(duì)擴(kuò)展了標(biāo)準(zhǔn) PPO 算法,以用于面向推理的強(qiáng)化學(xué)習(xí)訓(xùn)練,同時(shí)仔細(xì)考慮了可擴(kuò)展性和穩(wěn)健性。

數(shù)據(jù)集方面,該團(tuán)隊(duì)精心編排了涉及 STEM、數(shù)學(xué)和推理任務(wù)的數(shù)萬對問答數(shù)據(jù),目標(biāo)是增強(qiáng)模型在多樣化和復(fù)雜問題求解場景中的能力。

受 DeepSeek-R1 啟發(fā),他們設(shè)計(jì)的提示詞模板可以引導(dǎo)模型利用推理計(jì)算,逐步掌握針對復(fù)雜任務(wù)的推理能力,如表 1 所示。

此外,他們還基于 OpenRLHF 開發(fā)了一個(gè)高效的大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練框架,通過引入更靈活的訓(xùn)練器,實(shí)現(xiàn)了 GPU 共置生成(collocation generation)以及支持卸載和回載的訓(xùn)練。

數(shù)據(jù)集

高質(zhì)量訓(xùn)練數(shù)據(jù)對可擴(kuò)展 Reasoner-Zero 訓(xùn)練來說非常關(guān)鍵。這里作者關(guān)注了三個(gè)關(guān)鍵方面:數(shù)量、多樣性和質(zhì)量。

詳細(xì)的收集整理過程請閱讀原論文。最終,他們得到的數(shù)據(jù)集包含 57k 樣本,涵蓋 STEM、數(shù)學(xué)和推理領(lǐng)域。

獎(jiǎng)勵(lì)函數(shù)

不同于 DeepSeek-R1-Zero,這里的規(guī)?;瘡?qiáng)化學(xué)習(xí)訓(xùn)練采用了簡單的規(guī)則式獎(jiǎng)勵(lì)函數(shù) —— 該函數(shù)僅檢查答案的正確性,沒有任何額外的格式獎(jiǎng)勵(lì)。

具體來說,這個(gè)獎(jiǎng)勵(lì)函數(shù)會(huì)在訓(xùn)練時(shí)提取 <answer> 與 </answer> 標(biāo)簽之間的內(nèi)容,并將其與參考答案比較。

為了保證規(guī)?;瘡?qiáng)化學(xué)習(xí)清晰又簡單,他們實(shí)現(xiàn)了一種二元獎(jiǎng)勵(lì)方案:如果與參考答案完全匹配,則獎(jiǎng)勵(lì)為 1;所有其他情況的獎(jiǎng)勵(lì)為 0。

為了確保評估嚴(yán)格且一致,他們采用了被廣泛使用的 Math-Verify 庫,圖 3 展示了其用法。

出人意料的是,該團(tuán)隊(duì)發(fā)現(xiàn),使用新設(shè)計(jì)的提示,即使是未對齊的基礎(chǔ)模型也能以很高的概率產(chǎn)生格式良好的響應(yīng)。在早期訓(xùn)練階段,基礎(chǔ)模型僅通過簡單的基于規(guī)則的獎(jiǎng)勵(lì)函數(shù)就能快速學(xué)會(huì)和強(qiáng)化正確的推理和回答格式,如圖 4 所示。更重要的是,初步實(shí)驗(yàn)表明,復(fù)雜的獎(jiǎng)勵(lì)函數(shù)不僅是不必要的,而且可能為獎(jiǎng)勵(lì) hacking 留下潛在的空間

強(qiáng)化學(xué)習(xí)算法

不同于 DeepSeek-R1-Zero 使用的 GRPO,該團(tuán)隊(duì)為規(guī)模化訓(xùn)練采用的強(qiáng)化學(xué)習(xí)算法是近端策略優(yōu)化(PPO)算法。

具體來說,對于每個(gè)問題 q(即提示詞),模型會(huì)根據(jù)基于規(guī)則的獎(jiǎng)勵(lì)函數(shù)生成一組響應(yīng) {o_1, o_2, ..., o_n} 并接收相應(yīng)的獎(jiǎng)勵(lì) {r_1, r_2, ..., r_n},其中 n 表示采樣軌跡的數(shù)量(即每個(gè)提示詞的 rollout 大?。?。

對于時(shí)間步驟 t (即 token t)處的每個(gè)響應(yīng) o_i ,令 s_t 表示時(shí)刻 t 的狀態(tài),包括問題和所有之前生成的 token,并令 a_t 表示在該步驟生成的 token。

對于每個(gè) token,使用 Generalized Advantage Estimation(GAE)計(jì)算其優(yōu)勢估計(jì)。一般來說,GAE 能在優(yōu)勢估計(jì)中提供偏差與方差的權(quán)衡,做法是通過一個(gè)由參數(shù) λ 控制的指數(shù)加權(quán)平均值將 n 步優(yōu)勢估計(jì)組合起來。該優(yōu)勢估計(jì)的計(jì)算方式是:,其中是 TD(temporal difference)殘差,γ 是折扣因子,它決定了未來獎(jiǎng)勵(lì)相對于即時(shí)獎(jiǎng)勵(lì)的價(jià)值。該 PPO 算法通過優(yōu)化以下目標(biāo)函數(shù)來更新策略模型參數(shù) θ 以最大化預(yù)期獎(jiǎng)勵(lì)和價(jià)值模型參數(shù) Φ,從而最小化價(jià)值損失:

其中 ε 是 clipping 參數(shù),π_θ 是當(dāng)前策略,π_θ_old 是更新前的舊策略,V_Φ 是價(jià)值函數(shù), 是折扣回報(bào)。

具體到實(shí)例上,該團(tuán)隊(duì)為該 PPO 算法精心挑選了一些超參數(shù):GAE 參數(shù) λ = 1.0、折扣因子 γ = 1.0 和 clipping 參數(shù) ε = 0.2。

主要發(fā)現(xiàn)

該團(tuán)隊(duì)得到了以下主要發(fā)現(xiàn):

強(qiáng)化學(xué)習(xí)算法關(guān)鍵實(shí)現(xiàn):實(shí)證研究表明,原始的 PPO 在不同模型規(guī)模和訓(xùn)練持續(xù)時(shí)間內(nèi)能夠提供非常穩(wěn)定和強(qiáng)大的訓(xùn)練過程,而無需進(jìn)行額外的修改。通過廣泛的實(shí)驗(yàn),他們發(fā)現(xiàn) GAE 參數(shù)在 PPO 推理任務(wù)中起著關(guān)鍵作用。具體來說,設(shè)置 λ = 1.0 和 γ = 1.0。雖然這種設(shè)置在傳統(tǒng)強(qiáng)化學(xué)習(xí)場景中通常被認(rèn)為是次優(yōu)的,但它卻能實(shí)現(xiàn)規(guī)?;瘡?qiáng)化學(xué)習(xí)訓(xùn)練的理想平衡。

最小獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì):該團(tuán)隊(duì)研究表明,簡單的基于規(guī)則的獎(jiǎng)勵(lì)函數(shù)不僅足夠而且是最佳的,因?yàn)樽钚≡O(shè)計(jì)不會(huì)留下任何潛在的獎(jiǎng)勵(lì) hacking 空間。值得注意的是,即使是未對齊的基礎(chǔ)模型也能快速適應(yīng)所需的格式,這表明這是一項(xiàng)簡單的任務(wù),不需要復(fù)雜的獎(jiǎng)勵(lì)工程設(shè)計(jì)。

損失函數(shù):該團(tuán)隊(duì)在不依賴任何基于 KL 的正則化技術(shù)(例如 KL 形狀的獎(jiǎng)勵(lì)和損失)的情況下實(shí)現(xiàn)了穩(wěn)定的訓(xùn)練,這不同于 RLHF 社區(qū)和推理器模型普遍使用的方法。這也有很好的潛力實(shí)現(xiàn)進(jìn)一步大規(guī)模強(qiáng)化學(xué)習(xí)。

擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模:該團(tuán)隊(duì)發(fā)現(xiàn)擴(kuò)大數(shù)據(jù)量和多樣性對于 Reasoner-Zero 訓(xùn)練至關(guān)重要。雖然在有限的學(xué)術(shù)數(shù)據(jù)集(如 MATH)上進(jìn)行訓(xùn)練會(huì)導(dǎo)致性能快速停滯,但該團(tuán)隊(duì)精細(xì)編排的大規(guī)模多樣化數(shù)據(jù)集能夠?qū)崿F(xiàn)持續(xù)擴(kuò)展,而不會(huì)在訓(xùn)練和測試集上出現(xiàn)飽和跡象。

實(shí)驗(yàn)表現(xiàn)如何?

下面介紹 Open-Reasoner-Zero 模型的全面實(shí)驗(yàn)結(jié)果和分析。其中包括兩個(gè)方面的初步實(shí)驗(yàn)結(jié)果:利用訓(xùn)練得到的推理器進(jìn)行蒸餾,在蒸餾得到的模型上使用 Open-Reasoner-Zero 訓(xùn)練流程以進(jìn)一步增強(qiáng)其推理能力(類似 DeepSeek-R1 的方法)。訓(xùn)練的細(xì)節(jié)和超參數(shù)請參閱原論文,這里我們重點(diǎn)來看結(jié)果。

訓(xùn)練曲線

圖 2 顯示了在 Open-Reasoner-Zero 7B 和 32B 上的實(shí)驗(yàn)的訓(xùn)練獎(jiǎng)勵(lì)和平均響應(yīng)長度曲線,而圖 5 展示了在訓(xùn)練和評估集上對 Open-Reasoner-Zero 7B 的實(shí)驗(yàn)的獎(jiǎng)勵(lì) / 準(zhǔn)確度和平均響應(yīng)長度曲線。訓(xùn)練獎(jiǎng)勵(lì)曲線和響應(yīng)長度曲線分別表示生成的響應(yīng)的平均獎(jiǎng)勵(lì)和每個(gè)生成步驟中生成的響應(yīng)的平均長度。

可以看到,這些指標(biāo)在整個(gè)訓(xùn)練過程中在兩個(gè)模型和所有基準(zhǔn)上都得到了持續(xù)的改進(jìn),并有值得注意的觀察結(jié)果:OpenReasoner-Zero 表現(xiàn)出一種有趣的「階躍時(shí)刻」現(xiàn)象,其中響應(yīng)指標(biāo)在訓(xùn)練過程中突然增加,這表明其涌現(xiàn)出了推理能力。

響應(yīng)長度擴(kuò)展與 DeepSeek-R1-Zero

如圖 6 所示,可以看到整個(gè)訓(xùn)練過程中響應(yīng)長度持續(xù)增加,沒有飽和跡象,類似于 DeepSeek-R1-Zero 中看到的行為。

值得注意的是,雖然模型大小和訓(xùn)練步驟都有助于改善響應(yīng)長度,但 Open-Reasoner-Zero-32B 模型僅用 1/5.8 的訓(xùn)練步數(shù)就實(shí)現(xiàn)了與 DeepSeek-R1-Zero (671B MoE) 相當(dāng)?shù)捻憫?yīng)長度。這種卓越的訓(xùn)練效率證明了新的極簡主義方法對大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練的有效性。

質(zhì)量分析

該團(tuán)隊(duì)也對 Open-Reasoner-Zero 模型生成的響應(yīng)進(jìn)行了一些定性分析。為了分析模型的反思能力并觀察像 DeepSeek-R1-Zero 這樣的頓悟時(shí)刻,他們遵從之前的方法確定了五種代表性的反思模式(wait、recheck、retry、alternatively、however)。他們將包含任何這些模式的響應(yīng)數(shù)量計(jì)為「反思響應(yīng)」,并確定平均正確反思長度(包含獲得正確答案的反思模式的響應(yīng)的長度)。

如圖 7 所示,在整個(gè)訓(xùn)練過程中,平均正確反思長度始終超過平均響應(yīng)長度,這表明包含反思模式的響應(yīng)利用了更多的「思考時(shí)間」來獲得正確答案,類似于 OpenAI o1 中描述的測試時(shí)間擴(kuò)展。

一個(gè)特別值得注意的現(xiàn)象出現(xiàn)在步驟 680 左右,該團(tuán)隊(duì)觀察到三個(gè)指標(biāo)同時(shí)加速:獎(jiǎng)勵(lì)、平均正確反思長度和平均響應(yīng)長度。通過手動(dòng)檢查步驟 680 之前和之后的模型輸出,該團(tuán)隊(duì)發(fā)現(xiàn)之后的響應(yīng)中有更明顯的反思模式。這種涌現(xiàn)行為值得進(jìn)一步研究,該團(tuán)隊(duì)表示目前正在進(jìn)行詳細(xì)分析,以了解這種現(xiàn)象的潛在機(jī)制。

該團(tuán)隊(duì)也研究了新模型在知識(shí)和指令遵從基準(zhǔn) MMLU_PRO 和 IFEval 上的泛化能力,結(jié)果見表 2。

可以看到,Open-Reasoner-Zero 32B 模型表現(xiàn)出了強(qiáng)大的泛化能力:無需任何額外的指令微調(diào),在 MMLU、MMLU_PRO 基準(zhǔn)上,通過純規(guī)?;瘡?qiáng)化學(xué)習(xí)訓(xùn)練在面向推理的任務(wù)上顯著優(yōu)于 Qwen2.5 Instruct 32B。

該團(tuán)隊(duì)也進(jìn)行了詳細(xì)的消融實(shí)驗(yàn),詳見原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2009-06-06 09:50:03

蘋果收購交易iPhone

2019-12-23 16:57:26

搶票春運(yùn)車次

2015-11-02 17:37:33

GartnerAWS數(shù)據(jù)庫

2025-03-13 11:07:30

2025-03-11 01:00:00

GRPO算法模型

2025-02-19 08:00:00

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2025-02-17 10:40:20

2025-03-11 13:07:58

2022-11-14 10:22:12

訓(xùn)練強(qiáng)化學(xué)習(xí)

2025-04-25 13:34:53

R1DeepSeekAgent

2025-02-03 14:17:27

2025-03-24 10:00:00

2021-06-11 09:28:04

人工智能機(jī)器學(xué)習(xí)技術(shù)

2025-02-20 17:19:08

2025-02-19 08:33:18

2021-11-16 15:26:23

強(qiáng)化學(xué)習(xí)火箭人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)