自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

揭秘DeepSeek R1-Zero訓(xùn)練方式,GRPO還有極簡改進(jìn)方案

人工智能 新聞
其實(shí)大模型在DeepSeek-V3時(shí)期就已經(jīng)「頓悟」了?

DeepSeek-V3-Base 在強(qiáng)化學(xué)習(xí)(RL)調(diào)優(yōu)之前就已經(jīng)展現(xiàn)出「頓悟時(shí)刻」?RL 調(diào)整中不斷增加的輸出長度可能是由于 GRPO 中的 BIAS 造成的?

近日,來自 Sea AI Lab、新加坡國立大學(xué)、新加坡管理大學(xué)的研究人員研究了預(yù)訓(xùn)練特性影響 RL 性能的原理,發(fā)表了一篇名為《Understanding R1-Zero-Like Training: A Critical Perspective》的研究報(bào)告。

分析表明,DeepSeek-V3-Base 已經(jīng)展現(xiàn)出「頓悟時(shí)刻」,而 Qwen2.5 基礎(chǔ)模型即使沒有提示模板也表現(xiàn)出強(qiáng)大的推理能力,這表明存在潛在的預(yù)訓(xùn)練偏差。此外,作者還在群體相對(duì)策略優(yōu)化(GRPO)中發(fā)現(xiàn)了優(yōu)化偏差,它在訓(xùn)練期間人為地增加了響應(yīng)長度(尤其是對(duì)于錯(cuò)誤輸出)。

為解決這個(gè)問題,研究人員引入了 Dr. GRPO,這是一種無偏優(yōu)化方法,可在保持推理性能的同時(shí)提高 token 效率。利用這些見解,作者提出了一種簡化的 R1-Zero 方案,使用 7B 基礎(chǔ)模型在 AIME 2024 上實(shí)現(xiàn)了 43.3% 的準(zhǔn)確率,建立了新的 SOTA 水準(zhǔn)。

paper.png

項(xiàng)目鏈接:https://github.com/sail-sg/understand-r1-zero

介紹

最近一段時(shí)間,人工智能領(lǐng)域正在迎來變革。DeepSeek-R1-Zero 通過引入類似 R1-Zero 的訓(xùn)練范式徹底改變了大語言模型(LLM) 后訓(xùn)練的流程:直接將 RL 應(yīng)用于基礎(chǔ) LLM,而不依賴任何監(jiān)督微調(diào)(SFT) 作為初步步驟。

這種新范式因其簡單性和已證明的 RL 擴(kuò)展現(xiàn)象而具有吸引力:模型推理能力隨著模型響應(yīng)長度的不斷增加而提高。這種現(xiàn)象還伴隨著「頓悟時(shí)刻」(Aha Moment),此時(shí)模型展現(xiàn)出了人類一樣的自我反思等新興技能,讓人們見證了強(qiáng)化學(xué)習(xí)的力量和美感。

在本文中,研究人員旨在通過研究兩個(gè)基本組成部分來理解類似 R1-Zero 的訓(xùn)練:基礎(chǔ)模型和 RL。

在第一部分中,他們研究了基礎(chǔ)模型的各種屬性,重點(diǎn)關(guān)注 Qwen2.5 模型系列 ,該模型最近被用于重現(xiàn) R1-Zero ,以及 DeepSeek-V3-Base,真正的 R1-Zero 模型是從該模型中經(jīng)過 RL 調(diào)整的。

在第二部分中,人們確定了 GRPO 優(yōu)化中的偏差,這可能會(huì)導(dǎo)致錯(cuò)誤響應(yīng)逐漸變長。為此,研究人員提出了一個(gè)簡單的解決方案,可以在保持推理性能的同時(shí)提高 token 效率,稱為 Dr. GRPO(GRPO Done Right)(圖 1 中顯示)。

f1.png

為了理解 R1-Zero 上的訓(xùn)練方式,研究人員仔細(xì)觀察了兩個(gè)核心部分:基礎(chǔ)模型和強(qiáng)化學(xué)習(xí),隨后重點(diǎn)介紹了其發(fā)現(xiàn)。

他們對(duì)基礎(chǔ)模型和強(qiáng)化學(xué)習(xí)的分析表明,實(shí)現(xiàn)類似 R1-Zero 訓(xùn)練可采用極簡方案:利用無偏的 Dr. GRPO 算法,以 Qwen-Math 模板對(duì) Qwen2.5-Math-7B 模型進(jìn)行強(qiáng)化學(xué)習(xí)調(diào)優(yōu),使用 MATH 3-5 級(jí)問題作為訓(xùn)練數(shù)據(jù),僅用 8 塊 A100 GPU 訓(xùn)練 27 小時(shí),就實(shí)現(xiàn)了最先進(jìn)的性能(圖 2 展示)。

image.png

該研究的主要觀點(diǎn)總結(jié)如下:

  • 模板對(duì)于讓基礎(chǔ)模型回答問題(而非完成句子)至關(guān)重要。此外,所有基礎(chǔ)模型在強(qiáng)化學(xué)習(xí)之前都已具備數(shù)學(xué)解題能力;
  • 有趣的是,Qwen-2.5 基礎(chǔ)模型在不使用模板時(shí)立即獲得約 60% 的提升,這讓研究人員假設(shè)它們可能在訓(xùn)練模型時(shí)對(duì)拼接的問答文本進(jìn)行了預(yù)訓(xùn)練;
  • 幾乎所有基礎(chǔ)模型都已表現(xiàn)出「頓悟時(shí)刻」,包括 DeepSeek-V3-Base;
  • 新方法 Dr. GRPO 有效修復(fù)了 GRPO 在優(yōu)化中的偏差,實(shí)現(xiàn)了更好的標(biāo)記效率;
  • 模型與模板不匹配會(huì)在強(qiáng)化學(xué)習(xí)重建之前破壞推理能力;
  • 在 Llama-3.2-3B 上進(jìn)行數(shù)學(xué)預(yù)訓(xùn)練可提高其強(qiáng)化學(xué)習(xí)的上限。

基礎(chǔ)模型分析

研究人員對(duì)廣泛的基礎(chǔ)模型進(jìn)行了審查,包括 Qwen-2.5 系列、Llama-3.1 和 DeepSeek 系列,向它們提出從 MATH 訓(xùn)練集中抽取的 500 個(gè)問題,并分析它們的回答。

R1-Zero 訓(xùn)練能力:模板構(gòu)建探索性基礎(chǔ)策略

由于從基礎(chǔ)模型進(jìn)行訓(xùn)練是 R1-Zero 類范式的基本設(shè)置,研究人員首先研究廣泛使用的開源基礎(chǔ)模型,這些模型通常是為了句子補(bǔ)全而訓(xùn)練的。研究人員探索了是否可以通過適當(dāng)?shù)哪0逵行У丶ぐl(fā)其問答能力,從而作為問答基礎(chǔ)策略 。

在實(shí)驗(yàn)設(shè)置中,研究人員納入了 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-7B、Llama-3.1-8B、DeepSeek-Math-7B 和 DeepSeek-V3-Base-685B 進(jìn)行實(shí)驗(yàn)。

對(duì)于每個(gè)模型,他們首先應(yīng)用無模板來獲取模型回答,然后讓 GPT-4o-mini 判斷模型回答是處于問答格式(無論質(zhì)量如何)還是處于句子補(bǔ)全模式。他們記錄傾向于回答問題的回答百分比作為指標(biāo)。然后,他們分別應(yīng)用 R1 模板和 Qwen-Math 模板來獲取模型回答,并根據(jù)該指標(biāo)確定每個(gè)模型最合適的模板。最后,使用相應(yīng)模板評(píng)估每個(gè)模型的 pass@8 準(zhǔn)確度,以判斷基礎(chǔ)策略是否能夠探索出有益于強(qiáng)化學(xué)習(xí)(RL)改進(jìn)的軌跡。

在結(jié)果呈現(xiàn)中,圖 3 中的左圖顯示了基礎(chǔ)模型(無論是否使用模板)對(duì)所提供問題的回答能力。

f3.png

研究人員觀察到,Llama 和 DeepSeek 模型通過使用適當(dāng)?shù)哪0澹≧1 模板)都提高了回答能力。然而,Qwen2.5 模型在不使用模板時(shí)表現(xiàn)最佳(回答率為 100%)。這一有趣的特性激發(fā)了他們進(jìn)一步研究的動(dòng)力。同時(shí),無模板時(shí)最低的回答率表明 DeepSeek-V3-Base 是一個(gè)幾乎純粹的基礎(chǔ)模型。這一觀察結(jié)果促使他們探討像 DeepSeekV3-Base 這樣的純粹基礎(chǔ)模型是否表現(xiàn)出 「頓悟時(shí)刻」的現(xiàn)象。

圖 3 的中圖顯示了不同基礎(chǔ)模型(使用模板)在不同采樣溫度下的 pass@8 準(zhǔn)確度。該指標(biāo)可以作為基礎(chǔ)策略探索能力的指標(biāo)。例如,如果基礎(chǔ)策略甚至無法采樣出一條通向正確最終答案的軌跡,那么由于沒有獎(jiǎng)勵(lì)信號(hào),強(qiáng)化學(xué)習(xí)就不可能改進(jìn)該策略。他們的結(jié)果表明,所有測試的模型都具有探索性(因此已準(zhǔn)備好進(jìn)行強(qiáng)化學(xué)習(xí)),其中 Qwen2.5 模型表現(xiàn)最佳(甚至超越了 DeekSeek-V3-Base)。這可能部分解釋了為什么大多數(shù) R1-Zero 項(xiàng)目都基于 Qwen2.5 模型。

image.png

基礎(chǔ)模型中已出現(xiàn)「頓悟時(shí)刻」

包括 DeepSeek-V3-Base 模型

DeepSeek-R1-Zero 最令人振奮的成果之一,是通過純粹的強(qiáng)化學(xué)習(xí)訓(xùn)練,模型涌現(xiàn)出了自我反思行為,也就是所謂的 「頓悟時(shí)刻」(Aha moment)。

一些早期研究指出,在開源的 R1 復(fù)現(xiàn)項(xiàng)目中可能不存在「頓悟時(shí)刻」,因?yàn)檫@些項(xiàng)目所使用的基礎(chǔ)模型已經(jīng)表現(xiàn)出自我反思相關(guān)的關(guān)鍵詞。然而,這些研究并未測試過作為真實(shí) R1-Zero 模型強(qiáng)化學(xué)習(xí)微調(diào)基礎(chǔ)的 DeepSeek-V3-Base 模型。研究人員通過自己部署 DeepSeek-V3-Base-685B 模型,并使用 R1 模板對(duì)其回答的 500 道 MATH 題目進(jìn)行分析,填補(bǔ)了這一空白。

從圖 3 的右圖可以看出,DeepSeek-V3-Base 模型也產(chǎn)生了相當(dāng)數(shù)量的自我反思,進(jìn)一步驗(yàn)證了早期研究的主張。此外,該研究人員在圖 4 中展示了 DeepSeek-V3-Base 模型生成諸如 「Aha」「等等」「重新檢查問題」等關(guān)鍵詞的例子。

f4.png

DeepSeek-V3-Base 已經(jīng)展現(xiàn)出了頓悟時(shí)刻。

另一個(gè)重要的問題是,自我反思行為是否在強(qiáng)化學(xué)習(xí)訓(xùn)練后提升了模型性能。為了探究這一點(diǎn),研究人員部署了 DeepSeek-R1-Zero,并分析了它對(duì) MATH 數(shù)據(jù)集中相同問題的回答。他們發(fā)現(xiàn),與基礎(chǔ)模型相比,R1-Zero 中自我反思行為的出現(xiàn)頻率更高。然而,沒有明確的證據(jù)表明這些自我反思行為與更高的準(zhǔn)確率相關(guān)。

看起來,在基礎(chǔ)模型預(yù)訓(xùn)練中存在的偏差,自我反思行為、數(shù)學(xué)解決能力在 RL 通過獎(jiǎng)勵(lì)信號(hào)強(qiáng)化之前就已經(jīng)被注入了。那么越來越長的響應(yīng)是這種 RL 過程的結(jié)果嗎?

強(qiáng)化學(xué)習(xí)分析

在 Deepseek-R1-Zero 的訓(xùn)練和研究過程中,一個(gè)顯著的趨勢是模型在整個(gè)訓(xùn)練中響應(yīng)長度增加,這一趨勢被廣泛解釋為模型正在發(fā)展「自我反思」等高級(jí)推理能力的標(biāo)志,后續(xù)也有很多研究者通過不同的算法和實(shí)現(xiàn)方式復(fù)現(xiàn)了這一趨勢。

然而,有學(xué)者提出,觀察到的響應(yīng)長度增加可能并非完全由高級(jí)推理能力的發(fā)展所驅(qū)動(dòng),而是歸因于 GRPO 目標(biāo)函數(shù)固有的偏差:

image.png

eq3.png

其中,

eq3a.png

R (q, oi) 表示 Deepseek-R1-Zero 中給定問題 q 和采樣響應(yīng) oi 的結(jié)果獎(jiǎng)勵(lì)(該結(jié)論也適用于過程獎(jiǎng)勵(lì)案例)。

與公式(2)中的目標(biāo)函數(shù)相比,GRPO 引入了兩種偏差:

  • 響應(yīng)層面的長度偏差:這種偏差源于對(duì)響應(yīng)長度進(jìn)行歸一化處理。當(dāng)模型生成正確響應(yīng)時(shí)(即優(yōu)勢值為正),較短的響應(yīng)會(huì)獲得更大的梯度更新,從而促使策略傾向于生成簡潔的正確答案。然而,當(dāng)模型生成錯(cuò)誤響應(yīng)時(shí)(即優(yōu)勢值為負(fù)),較長的響應(yīng)由于長度較大而受到的懲罰較輕,導(dǎo)致策略更傾向于生成冗長的錯(cuò)誤答案。這種長度規(guī)范化機(jī)制使得模型在正確時(shí)偏好簡短,而在錯(cuò)誤時(shí)偏好冗長,形成了一種不對(duì)稱的優(yōu)化傾向。
  • 問題層面的難度偏差:這種偏差源于對(duì)問題的獎(jiǎng)勵(lì)進(jìn)行標(biāo)準(zhǔn)差歸一化處理。對(duì)于標(biāo)準(zhǔn)差較低的問題(即問題過于簡單或過于困難),策略更新時(shí)會(huì)賦予更高的權(quán)重。盡管優(yōu)勢值歸一化是強(qiáng)化學(xué)習(xí)中的常見技巧,但 GRPO 將其應(yīng)用于單個(gè)問題層面,而非整個(gè)批次,這導(dǎo)致不同問題在目標(biāo)函數(shù)中的權(quán)重分布不均。這種機(jī)制使得模型更偏好極端簡單或極端困難的問題,而忽視了中等難度的問題,進(jìn)一步影響了策略的優(yōu)化方向。

值得注意的是,長度偏差并不僅限于 GRPO,在開源的標(biāo)準(zhǔn) PPO 算法中也普遍存在。

隨后作者對(duì)多個(gè)流行的開源 PPO 實(shí)現(xiàn)進(jìn)行了分析,發(fā)現(xiàn)這些實(shí)現(xiàn)無一例外地在損失函數(shù)中表現(xiàn)出了基于響應(yīng)長度的偏差(詳見附錄 1 和表 2)。

image.png

image.png

研究者推測,這種逐詞歸一化的設(shè)計(jì)可能源于大語言模型(LLM)的逐詞預(yù)訓(xùn)練機(jī)制,其初衷是讓每個(gè)詞對(duì)目標(biāo)函數(shù)的影響均衡。然而,在強(qiáng)化學(xué)習(xí)的語境下,通過除以響應(yīng)長度 | oi | 進(jìn)行歸一化,卻意外引入了這種偏差。因此這一發(fā)現(xiàn)為優(yōu)化提供了新的思路。

為了優(yōu)化 GRPO 算法并解決其存在的偏差問題,研究針對(duì) GRPO 兩處修改:一是刪除了長度歸一化項(xiàng) ∣oi∣,二是移除了標(biāo)準(zhǔn)差(std)標(biāo)準(zhǔn)化項(xiàng)。

同時(shí),為確保優(yōu)化目標(biāo)的無偏性,研究在 Listing 1 的掩碼均值函數(shù)中將 mask.sum (axis=dim) 替換為一個(gè)固定值 MAX_TOKENS,具體如綠色高亮部分所示。

基于上述改進(jìn),研究者將這一優(yōu)化算法命名為 Dr. GRPO,并通過實(shí)驗(yàn)驗(yàn)證了其在實(shí)際應(yīng)用中的有效性。

image.png

如圖 5 所展示的多項(xiàng)實(shí)驗(yàn)對(duì)比結(jié)果,證明 Dr. GRPO 能夠有效緩解優(yōu)化偏差并顯著減少了錯(cuò)誤回答的長度。

image.png

如果對(duì)詳細(xì)推導(dǎo)過程感興趣,可以參考附錄 A。

此外,由于 Qwen2.5-Math 基礎(chǔ)模型可以在沒有任何提示模板的情況下輕松回答問題并達(dá)到高精度,作者探討了不同模板對(duì) RL 訓(xùn)練的影響。針對(duì)「更大問題覆蓋率提升性能」的普遍觀點(diǎn),作者還研究了不同模板與問題覆蓋率之間的交互作用。(實(shí)驗(yàn)設(shè)置詳見表 3)

image.png

image.png

結(jié)果如圖 6 展示了不同實(shí)驗(yàn)的 RL 訓(xùn)練曲線,揭示了以下結(jié)論:

  • 模板決定了初始策略的性能,但 RL 可以將所有策略提升至約 40% 的相似水平(給定合適的問題集);
  • 使用 R1 模板時(shí),問題集覆蓋率顯著影響 RL 動(dòng)態(tài),覆蓋率不足會(huì)導(dǎo)致性能上限降低。而使用 Qwen-Math 模板時(shí),RL 在 GSM-8K 上取得最佳表現(xiàn),表明在更簡單(且分布外)問題上訓(xùn)練可大幅提升(近乎翻倍)在更難題上的測試準(zhǔn)確率。

進(jìn)一步分析表明:

  • Qwen2.5-Math-1.5B 基礎(chǔ)模型已具備較強(qiáng)的數(shù)學(xué)解題能力(見圖 6 右圖的起點(diǎn)),模板的使用反而會(huì)破壞這一能力,直到 RL 重建。因此這說明在強(qiáng)調(diào)純 RL 帶來的巨大收益時(shí)應(yīng)更加謹(jǐn)慎。
  • 當(dāng)基礎(chǔ)模型與模板存在較大不匹配時(shí)(如 R1 模板與 Qwen2.5-Math-1.5B),策略改進(jìn)主要依賴 RL 調(diào)優(yōu),需問題集具有良好的覆蓋率(見圖 6 左圖)。反之,即使是一個(gè)小型且完全分布外的問題集,也能通過強(qiáng)化正確推理行為而非注入新知識(shí),有效提升推理能力。

領(lǐng)域特定預(yù)訓(xùn)練可提升 RL 上限

最近成功的 R1-Zero 類數(shù)學(xué)推理器復(fù)制大多以 Qwen2.5 基礎(chǔ)模型作為初始策略,這些模型本身已是強(qiáng)大的數(shù)學(xué)解題器,并展現(xiàn)出自我反思的模式。不過,該研究人員希望探討另一方面:R1-Zero 類訓(xùn)練能否在最初數(shù)學(xué)推理能力較弱的基礎(chǔ)模型上取得成功?他們的回答是肯定的,并且觀察到數(shù)學(xué)預(yù)訓(xùn)練能夠提升強(qiáng)化學(xué)習(xí)的上限。

在實(shí)驗(yàn)設(shè)置中,他們以 Llama-3.2-3B 基礎(chǔ)模型為起點(diǎn),采用無偏的 Dr. GRPO 算法進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào),并使用 R1 模板。他們假設(shè)領(lǐng)域特定的預(yù)訓(xùn)練有助于強(qiáng)化學(xué)習(xí),因此選用了在 FineMath 數(shù)據(jù)集上持續(xù)預(yù)訓(xùn)練的 Llama-3.2-3B-FineMath4 模型。此外,正如之前假設(shè)的那樣,Qwen2.5 模型很可能是在拼接的問答文本上進(jìn)行預(yù)訓(xùn)練的,因此他們同樣從 NuminaMath1.5 中準(zhǔn)備了一個(gè)拼接的數(shù)據(jù)集,并用 1e-5 的學(xué)習(xí)率對(duì) Llama-3.2-3B-FineMath 進(jìn)行了 2 輪持續(xù)預(yù)訓(xùn)練。他們將這種拼接持續(xù)預(yù)訓(xùn)練的模型稱為 Llama-3.2-3BNuminaQA。

以下是結(jié)果呈現(xiàn)。圖 7 的左圖中展示了不同基礎(chǔ)模型的強(qiáng)化學(xué)習(xí)曲線。他們觀察到,即使是對(duì)基礎(chǔ)的 Llama 模型,強(qiáng)化學(xué)習(xí)也能提升其性能,但提升幅度很小。在經(jīng)過持續(xù)預(yù)訓(xùn)練(以及拼接持續(xù)預(yù)訓(xùn)練)以融入數(shù)學(xué)領(lǐng)域知識(shí)后,Llama 模型展現(xiàn)出了更強(qiáng)大的強(qiáng)化學(xué)習(xí)性能,驗(yàn)證了他們的假設(shè)。

f7.png

作者還使用 Llama 基礎(chǔ)模型重新審視了 GRPO 的優(yōu)化偏差。圖 7 的右圖比較了使用 GRPO 和 Dr. GRPO 訓(xùn)練的模型性能和回答長度,可以清楚地看到,GRPO 可以產(chǎn)生「雙重增加」現(xiàn)象,可能導(dǎo)致誤解,即在數(shù)學(xué)預(yù)訓(xùn)練后,長思維鏈(long-CoT)也能在 Llama 模型上出現(xiàn)。然而,長度的增加可能是由于優(yōu)化偏差,而這種偏差可以通過他們提出的 Dr. GRPO 有效緩解(圖 7 的右圖)。

結(jié)語

研究人員對(duì)用于 R1-Zero 類似訓(xùn)練的基礎(chǔ)模型以及強(qiáng)化學(xué)習(xí)中所用算法進(jìn)行了批判性審視。通過分析,作者揭示了預(yù)訓(xùn)練偏差如何影響強(qiáng)化學(xué)習(xí)的結(jié)果,以及諸如 GRPO 這樣的優(yōu)化選擇如何無意中改變模型的行為。他們提出的 Dr. GRPO 算法提供了一個(gè)簡單的修正方案,在保持推理性能的同時(shí)提高 token 效率。

最終的研究結(jié)果表明,擴(kuò)大強(qiáng)化學(xué)習(xí)的規(guī)模既能提升效果,又能提高效率 —— 有時(shí),簡單化反而能實(shí)現(xiàn)更優(yōu)的性能。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-03-12 13:55:05

2025-02-07 14:08:45

2025-02-11 16:15:09

2025-04-23 15:23:25

AI模型代碼

2025-02-08 11:31:17

DeepseekR1模型

2025-03-14 11:59:29

訓(xùn)練模型數(shù)據(jù)

2025-03-13 11:07:30

2025-02-24 08:40:00

開源模型訓(xùn)練

2025-03-10 09:10:00

2025-04-07 02:25:00

DeepSeek模型訓(xùn)練GRPO

2025-02-21 12:24:14

2025-02-19 08:00:00

2025-01-27 12:30:07

2025-02-03 14:17:27

2025-03-05 09:10:00

AI生成模型

2025-02-20 15:32:28

2025-04-22 15:32:06

AI模型LLM

2025-02-10 09:31:29

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)