超越DeepSeek GRPO的關鍵RL算法，字節(jié)、清華AIR開源DAPO

作者：機器之心 2025-03-19 09:15:00

近日，清華 AIR 和字節(jié)聯(lián)合 SIA Lab 發(fā)布了他們的第一項研究成果

DeepSeek 提出的 GRPO 可以極大提升 LLM 的強化學習效率，不過其論文中似乎還缺少一些關鍵細節(jié)，讓人難以復現(xiàn)出大規(guī)模和工業(yè)級的強化學習系統(tǒng)。

近日，清華 AIR 和字節(jié)聯(lián)合 SIA Lab 發(fā)布了他們的第一項研究成果：DAPO，即 Decoupled Clip and Dynamic sAmpling Policy Optimization（解耦剪輯和動態(tài)采樣策略優(yōu)化）。這是一個可實現(xiàn)大規(guī)模 LLM 強化學習的開源 SOTA 系統(tǒng)。此外，使用該算法訓練的模型也將在近期開源發(fā)布。

項目頁面：https://dapo-sia.github.io/
論文地址：https://dapo-sia.github.io/static/pdf/dapo_paper.pdf
代碼地址：https://github.com/volcengine/verl/tree/gm-tyx/puffin/main/recipe/dapo
數據：https://huggingface.co/datasets/BytedTsinghua-SIA/DAPO-Math-17k

使用該算法，該團隊成功讓 Qwen2.5-32B 模型在 AIME 2024 基準上獲得了 50 分，優(yōu)于同等規(guī)模的 DeepSeek-R1-Zero-Qwen-32B，同時 DAPO 版 Qwen2.5-32B 使用的訓練步數還少 50%。

相較之下，如果使用 GRPO，Qwen2.5-32B 模型在 AIME 2024 基準上只能獲得 30 分。

30 分的成績遠低于 DeepSeek 的強化學習（47 分）。該團隊分析發(fā)現(xiàn)，原生版 GRPO 面臨著幾大關鍵問題，比如熵崩潰、獎勵噪音和訓練不穩(wěn)定。事實上，該團隊表示，很多研究團隊在復現(xiàn) DeepSeek 的結果時也遇到了類似的難題。他們表示：「這表明 R1 論文中可能省略了開發(fā)工業(yè)級、大規(guī)模且可重現(xiàn)的強化學習系統(tǒng)所需的關鍵訓練細節(jié)?！?/span>

Allen AI 研究者 Nathan Lambert 總結了 DAPO 對 GRPO 的改進，包括兩個不同的裁剪超參數、動態(tài)采樣、token 層面的策略梯度損失、過長獎勵塑造

下面將從 PPO 到 GRPO 再到 DAPO 逐步介紹，看看這個新的強化學習算法究竟是如何煉成的。

近端策略優(yōu)化（PPO）

PPO 引入了裁剪式替代目標（clipped surrogate objective）來執(zhí)行策略優(yōu)化。通過使用裁剪將策略更新限制在先前策略的近端區(qū)域內，PPO 可以讓訓練穩(wěn)定并提高樣本效率。具體而言，PPO 更新策略的方式是最大化以下目標：

群組相對策略優(yōu)化（GRPO）

與 PPO 相比，GRPO 消除了價值函數并以群組相關的方式來估計優(yōu)勢。對于特定的問答對 (q, a),行為策略 π_θ_old 采樣一組 G 個個體響應。然后，通過對群組級獎勵進行歸一化來計算第 i 個響應的優(yōu)勢：

與 PPO 類似，GRPO 也采用了裁剪目標，同時還有一個直接添加的 KL 懲罰項：

還值得注意的是，GRPO 是在樣本層級計算目標。確切地說，GRPO 首先會計算每個生成序列中的平均損失，然后再對不同樣本的損失進行平均。正如后面會討論的那樣，這種差異可能會對算法的性能產生影響。

另外兩項改進

消除 KL 偏離

KL 懲罰項的作用是調節(jié)在線策略和凍結參考策略之間的偏離情況。在 RLHF 場景中，RL 的目標是在不偏離初始模型太遠的情況下調整模型行為。然而，在訓練長 CoT 推理模型時，模型分布可能會與初始模型有顯著差異，因此這種限制是不必要的。因此，在 DAPO 中，KL 項被排除在外。

基于規(guī)則的獎勵建模

獎勵模型的使用通常會受到獎勵 hacking 問題的影響。作為替代，該團隊直接使用可驗證任務的最終準確率作為結果獎勵，計算規(guī)則如下：

事實證明，這是激活基礎模型推理能力的有效方法，這也在多個領域得到了證明，包括自動定理證明、計算機編程和數學競賽。

DAPO

研究者提出了解耦剪輯（Decouple Clip）和動態(tài)采樣策略優(yōu)化（DAPO）算法。DAPO 對每個問題 q 和答案 a 的一組輸出截屏2025-03-18 09.22.10.png 進行采樣，并通過以下目標優(yōu)化策略：

截屏2025-03-18 09.13.29.png

此處

截屏2025-03-18 09.15.49.png

下面將介紹與 DAPO 相關的關鍵技術。

抬高天花板：Clip-Higher

在使用 PPO 或 GRPO 進行的初步實驗中，研究者觀察到了熵崩潰現(xiàn)象：隨著訓練的進行，策略的熵迅速下降（如圖 2b）。某些組的采樣響應通常幾乎相同。這表明有限的探索和早期的確定性策略會阻礙擴展過程。

截屏2025-03-18 09.25.46.png

針對這一問題，研究者提出了 Clip-Higher 策略。對重要度采樣率進行剪輯是 PPO-Clip 中的一種策略，用于限制信任區(qū)域并增強 RL 的穩(wěn)定性。上剪輯可以限制策略的探索。在這種情況下，提高「利用 token」的概率要比提高不可能的「探索 token」的概率容易得多。

截屏2025-03-18 09.18.38.png

他們還觀察到，被剪輯 token 的最大概率約為截屏2025-03-18 09.54.21.png （圖 3a）。這一發(fā)現(xiàn)支持了他們的分析，即上限剪輯閾值確實限制了低概率 token 的概率增長，從而可能限制了系統(tǒng)的多樣性。

如公式 10 所示，根據 Clip-Higher 策略，研究者將較低和較高的剪輯范圍解耦為 ε_low 和 ε_high：

截屏2025-03-18 09.48.53.png

研究者增加了 ε_high 的值，以便為低概率 token 的增加留出更多空間。如圖 2 所示，這一調整有效地提高了策略的熵，有利于生成更多樣化的樣本。研究者選擇將 ε_low 保持在相對較小的范圍內，因為增大 ε_low 會將這些 token 的概率壓制為 0，從而導致采樣空間的崩潰。

越多越好：動態(tài)采樣

當某些提示的準確度等于 1 時，現(xiàn)有的 RL 算法就會出現(xiàn)梯度遞減問題。根據經驗，準確率等于 1 的樣本數量會繼續(xù)增加，如圖 3b 所示。這意味著每批樣本中的有效提示次數會不斷減少，從而導致梯度方差增大，抑制了模型訓練的梯度信號。

為此，研究者建議進行過度采樣，過濾掉等式 11 中所示精度等于 1 和 0 的提示語，保留批次中所有具有有效梯度的提示語，并保持一致的提示語數量。在訓練之前不斷采樣，直到批次中全部都是準確率既不等于 0 也不等于 1 的樣本。

截屏2025-03-18 09.45.32.png

另外一點發(fā)現(xiàn)如圖 6 所示，在動態(tài)采樣的情況下，實驗能更快地實現(xiàn)相同的性能。

截屏2025-03-18 09.59.33.png

Rebalancing Act：Token 級策略梯度損失

研究者觀察到，由于所有樣本在損失計算中的權重相同，因此長回復中的 token 對總體損失的貢獻可能會不成比例地降低，這可能會導致兩種不利影響。

首先，對于高質量的長樣本來說，這種影響會阻礙模型學習其中與推理相關的模式的能力。其次，過長的樣本往往表現(xiàn)出低質量的模式，如胡言亂語和重復詞語。

如圖 4a 和圖 4b 所示，樣本級損失計算由于無法有效懲罰長樣本中的不良模式，會導致熵和響應長度的不健康增長。

截屏2025-03-18 10.06.12.png

捉迷藏：過長的獎勵塑造

為了研究獎勵噪聲的影響，研究者首先應用了超長過濾策略，以掩蓋截斷樣本的損失。如圖 5 所示，這種方法大大穩(wěn)定了訓練并提高了性能。

截屏2025-03-18 10.10.58.png

此外，他們還提出了「Soft Overlong Punishment」（等式 13），這是一種長度感知懲罰機制，旨在塑造截斷樣本的獎勵。具體來說，當響應長度超過預定義的最大值時，研究者會定義一個懲罰區(qū)間。在這個區(qū)間內，響應越長，受到的懲罰就越大。這種懲罰會添加到基于規(guī)則的原始正確性獎勵中，從而向模型發(fā)出信號，避免過長的響應。

截屏2025-03-18 10.09.10.png

DAPO 的實驗表現(xiàn)

基于 Qwen-32B 基礎模型，該團隊進行了一系列實驗，驗證了新提出的 DAPO 算法的有效性和優(yōu)勢。這里我們略過實驗細節(jié)，重點來看看實驗結果。

整體來看，在 AIME 2024 上，使用 DAPO 訓練的 Qwen-32B 模型成長為了一個強大的推理模型，性能優(yōu)于使用 R1 方法訓練的 Qwen2.5-32B。

如圖 1 所示，可以看到 DAPO 訓練的 Qwen2.5-32B 在 AIME 2024 基準上的性能提升情況。隨著訓練步數增長，模型準確度從 0% 穩(wěn)步升至了 50%。需要重點指出：達成這一性能所使用的步數僅為 DeepSeek-R1-Zero-Qwen-32B 所需步數的一半。

表 1 展示了新方法中每種訓練技術的貢獻?？吹贸鰜?，每種技術都對準確度的增長有所貢獻?？梢钥吹?，原生 GRPO 只能讓 Qwen2.5-32B 基礎模型的準確度達到 30%。

至于 token 級損失，雖然它帶來的性能提升較少，但該團隊發(fā)現(xiàn)它可增強訓練穩(wěn)定性并使長度增加得更健康。

訓練動態(tài)

為了獲得更透徹的分析，該團隊也分析了訓練動態(tài)和中間結果。

生成響應的長度：該指標與訓練穩(wěn)定性和性能密切相關。如圖 7a 所示。長度的增加可為模型提供更大的探索空間，允許采樣更復雜的推理行為并通過訓練逐漸強化。但需要注意的是，長度在訓練過程中并不總是保持持續(xù)的上升趨勢。在一些相當長的時期內，它可以停滯甚至下降。通常的做法是將長度與驗證準確度結合起來作為評估實驗是否正在惡化的指標。

訓練過程中的獎勵動態(tài)：這一直是強化學習中至關重要的監(jiān)測指標之一，如圖 7b 所示。在這里的大多數實驗中，獎勵增加的趨勢相對穩(wěn)定，不會因為實驗設置的調整而出現(xiàn)大幅波動或下降。這表明，在給定可靠獎勵信號的情況下，語言模型可以穩(wěn)健地擬合訓練集的分布。然而，該團隊發(fā)現(xiàn)，在訓練集上的最終獎勵往往與在驗證集上的準確度相關性不大，這表明對訓練集存在過擬合現(xiàn)象。

Actor 模型的熵和生成概率：這與模型的探索能力有關，同時也是實驗中密切監(jiān)控的關鍵指標。直觀地講，模型的熵需要保持在適當的范圍內。過低的熵表示概率分布過于尖銳，這會導致探索能力喪失。相反，過高的熵往往與過度探索的問題有關，例如亂碼和重復生成。對于生成概率，情況恰恰相反。如前所示，通過應用 Clip-Higher 策略，可以有效地解決熵崩潰的問題。在后續(xù)的實驗中，該團隊還發(fā)現(xiàn)保持熵緩慢上升的趨勢有利于模型提升性能，如圖 7c 和圖 7d 所示。

案例研究

在 RL 訓練過程中，研究者觀察到一個有趣的現(xiàn)象：Actor 模型的推理模式會隨著時間的推移而動態(tài)演化。具體來說，算法不僅強化了有助于正確解決問題的現(xiàn)有推理模式，還逐漸產生了最初不存在的全新推理模式。這一發(fā)現(xiàn)揭示了 RL 算法的適應性和探索能力，并為模型的學習機制提供了新的見解。

例如，在模型訓練的早期階段，幾乎不存在對之前推理步驟的檢查和反思。然而，隨著訓練的進行，模型表現(xiàn)出明顯的反思和回溯行為，如表 2 所示。這一觀察結果為進一步探索解釋推理能力在 RL 過程中的出現(xiàn)提供了啟示。

截屏2025-03-18 10.12.40.png

更多研究細節(jié)，可參考原論文。

責任編輯：張燕妮來源：機器之心

AI 算法模型

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

超越DeepSeek GRPO的關鍵RL算法，字節(jié)、清華AIR開源DAPO

近端策略優(yōu)化（PPO）

另外兩項改進

DAPO

DAPO 的實驗表現(xiàn)

超越DeepSeek GRPO的關鍵RL算法，字節(jié)、清華AIR開源DAPO