自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

Deepseek-R1,論文番外篇!

發(fā)布于 2025-3-28 00:47
瀏覽
0收藏

一篇對deepseek r1 論文補(bǔ)漏的文章,做了很多額外的實(shí)驗(yàn),內(nèi)容很到位,標(biāo)題:Understanding R1-Zero-Like Training: A Critical Perspective。

論文地址:https://github.com/sail-sg/understand-r1-zero/blob/main/understand-r1-zero.pdf

基礎(chǔ)模型分析

驗(yàn)證模板對幾種基礎(chǔ)模型的影響

Deepseek-R1,論文番外篇!-AI.x社區(qū)

觀察結(jié)果如下:

Deepseek-R1,論文番外篇!-AI.x社區(qū)

  • 模板對模型是回答question,還是補(bǔ)全question很重要
  • 測試的幾個(gè)基礎(chǔ)模型在RL之前已經(jīng)具備數(shù)學(xué)解題能力
  • Llama和DeepSeek模型使用R1模板時(shí)回答能力顯著提升
  • DeepSeek-V3-Base在無模板條件下回答率最低,說明它是相對純粹的基礎(chǔ)模型

特殊的Qwen模型

上面的實(shí)驗(yàn)發(fā)現(xiàn),Qwen在不使用模板可以回答很多問題了。

所以進(jìn)行了一下具體評測

Deepseek-R1,論文番外篇!-AI.x社區(qū)

Qwen2.5-Math不使用任何模板比few-shot的效果更好。

這可能是,這個(gè)模型在預(yù)訓(xùn)練階段使用了 問題-答案 的連接文本訓(xùn)練

這也意味著,使用Qwen 2.5復(fù)現(xiàn)R1-Zero可能比較特別,因?yàn)榛A(chǔ)模型不需要模板已經(jīng)跟SFT模型類似了。

aha moment分析

Deepseek-R1,論文番外篇!-AI.x社區(qū)

觀察發(fā)現(xiàn), R1-Zero訓(xùn)練的基礎(chǔ)的v3模型,已經(jīng)可以生成一些 aha moment的結(jié)果了。

并且,有這種自我反思的結(jié)果跟準(zhǔn)確率之間沒有明顯相關(guān)性。

甚至,沒有反思的結(jié)果比有反思的準(zhǔn)確率更高。

自反思行為與模型準(zhǔn)確率之間沒有明顯相關(guān)性 實(shí)際上,沒有自反思的響應(yīng)通常比有自反思的響應(yīng)準(zhǔn)確率更高

RL分析

GRPO 偏差分析

R1-zero論文中,提到,響應(yīng)長度隨著訓(xùn)練會(huì)出現(xiàn)增長的趨勢。

Deepseek-R1,論文番外篇!-AI.x社區(qū)

分析目標(biāo)函數(shù),存在2種偏差

  • 響應(yīng)級別長度偏差:對于錯(cuò)誤答案會(huì)偏好更長的響應(yīng)
  • 問題級別難度偏差:由標(biāo)準(zhǔn)差歸一化引起

并且許多開源PPO實(shí)現(xiàn)中也存在類似的長度偏差

Deepseek-R1,論文番外篇!-AI.x社區(qū)

Dr. GRPO

移除GRPO中的長度歸一化和標(biāo)準(zhǔn)差歸一化項(xiàng),實(shí)驗(yàn)比較原始GRPO和改進(jìn)的Dr. GRPO

Deepseek-R1,論文番外篇!-AI.x社區(qū)

Dr. GRPO能有效緩解優(yōu)化偏差,可以防止響應(yīng)長度無限增長,并且可以顯著減少錯(cuò)誤響應(yīng)的長度,緩解過度思考問題。效果沒啥太大差別。

模板與問題集覆蓋范圍的交互影響

研究了不同模板和問題集覆蓋范圍如何影響RL訓(xùn)練

Deepseek-R1,論文番外篇!-AI.x社區(qū)

Deepseek-R1,論文番外篇!-AI.x社區(qū)

不同的模板,只決定了初始的分值,RL到底,結(jié)果基本相當(dāng)。

模型與模板不匹配時(shí),數(shù)據(jù)的全面很重要。

模型與模板匹配時(shí),即使數(shù)據(jù)量少,域外數(shù)據(jù)也可以誘導(dǎo)出推理能力。

領(lǐng)域特定預(yù)訓(xùn)練

測試了R1-Zero類訓(xùn)練在數(shù)學(xué)推理能力原本較弱的基礎(chǔ)模型上的效果,使用Llama-3.2-3B及其數(shù)學(xué)預(yù)訓(xùn)練變體

Deepseek-R1,論文番外篇!-AI.x社區(qū)

  • 數(shù)學(xué)領(lǐng)域的預(yù)訓(xùn)練可以顯著提高RL的上限
  • 連續(xù)預(yù)訓(xùn)練后的Llama模型在RL后表現(xiàn)大幅提升
  • Dr. GRPO能有效緩解GRPO導(dǎo)致的響應(yīng)長度和回報(bào)同時(shí)增長現(xiàn)象。

本文轉(zhuǎn)載自??NLP前沿??,作者:NLP前沿


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦