自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sup id="bv1dz"><rt id="bv1dz"></rt></sup>

<sub id="bv1dz"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

Deepseek-R1，論文番外篇!

發(fā)布于 2025-3-28 00:47

瀏覽

0收藏

一篇對deepseek r1 論文補(bǔ)漏的文章，做了很多額外的實(shí)驗(yàn)，內(nèi)容很到位，標(biāo)題：Understanding R1-Zero-Like Training: A Critical Perspective。

論文地址：https://github.com/sail-sg/understand-r1-zero/blob/main/understand-r1-zero.pdf

基礎(chǔ)模型分析

驗(yàn)證模板對幾種基礎(chǔ)模型的影響

Deepseek-R1，論文番外篇!-AI.x社區(qū)

觀察結(jié)果如下：

Deepseek-R1，論文番外篇!-AI.x社區(qū)

模板對模型是回答question，還是補(bǔ)全question很重要
測試的幾個(gè)基礎(chǔ)模型在RL之前已經(jīng)具備數(shù)學(xué)解題能力
Llama和DeepSeek模型使用R1模板時(shí)回答能力顯著提升
DeepSeek-V3-Base在無模板條件下回答率最低，說明它是相對純粹的基礎(chǔ)模型

特殊的Qwen模型

上面的實(shí)驗(yàn)發(fā)現(xiàn)，Qwen在不使用模板可以回答很多問題了。

所以進(jìn)行了一下具體評測

Deepseek-R1，論文番外篇!-AI.x社區(qū)

Qwen2.5-Math不使用任何模板比few-shot的效果更好。

這可能是，這個(gè)模型在預(yù)訓(xùn)練階段使用了問題-答案的連接文本訓(xùn)練

這也意味著，使用Qwen 2.5復(fù)現(xiàn)R1-Zero可能比較特別，因?yàn)榛A(chǔ)模型不需要模板已經(jīng)跟SFT模型類似了。

aha moment分析

Deepseek-R1，論文番外篇!-AI.x社區(qū)

觀察發(fā)現(xiàn)， R1-Zero訓(xùn)練的基礎(chǔ)的v3模型，已經(jīng)可以生成一些 aha moment的結(jié)果了。

并且，有這種自我反思的結(jié)果跟準(zhǔn)確率之間沒有明顯相關(guān)性。

甚至，沒有反思的結(jié)果比有反思的準(zhǔn)確率更高。

自反思行為與模型準(zhǔn)確率之間沒有明顯相關(guān)性實(shí)際上，沒有自反思的響應(yīng)通常比有自反思的響應(yīng)準(zhǔn)確率更高

RL分析

GRPO 偏差分析

R1-zero論文中，提到，響應(yīng)長度隨著訓(xùn)練會(huì)出現(xiàn)增長的趨勢。

Deepseek-R1，論文番外篇!-AI.x社區(qū)

分析目標(biāo)函數(shù)，存在2種偏差

響應(yīng)級別長度偏差：對于錯(cuò)誤答案會(huì)偏好更長的響應(yīng)
問題級別難度偏差：由標(biāo)準(zhǔn)差歸一化引起

并且許多開源PPO實(shí)現(xiàn)中也存在類似的長度偏差

Deepseek-R1，論文番外篇!-AI.x社區(qū)

Dr. GRPO

移除GRPO中的長度歸一化和標(biāo)準(zhǔn)差歸一化項(xiàng)，實(shí)驗(yàn)比較原始GRPO和改進(jìn)的Dr. GRPO

Deepseek-R1，論文番外篇!-AI.x社區(qū)

Dr. GRPO能有效緩解優(yōu)化偏差，可以防止響應(yīng)長度無限增長，并且可以顯著減少錯(cuò)誤響應(yīng)的長度，緩解過度思考問題。效果沒啥太大差別。

模板與問題集覆蓋范圍的交互影響

研究了不同模板和問題集覆蓋范圍如何影響RL訓(xùn)練

Deepseek-R1，論文番外篇!-AI.x社區(qū)

Deepseek-R1，論文番外篇!-AI.x社區(qū)

不同的模板，只決定了初始的分值，RL到底，結(jié)果基本相當(dāng)。

模型與模板不匹配時(shí)，數(shù)據(jù)的全面很重要。

模型與模板匹配時(shí)，即使數(shù)據(jù)量少，域外數(shù)據(jù)也可以誘導(dǎo)出推理能力。

領(lǐng)域特定預(yù)訓(xùn)練

測試了R1-Zero類訓(xùn)練在數(shù)學(xué)推理能力原本較弱的基礎(chǔ)模型上的效果，使用Llama-3.2-3B及其數(shù)學(xué)預(yù)訓(xùn)練變體

Deepseek-R1，論文番外篇!-AI.x社區(qū)

數(shù)學(xué)領(lǐng)域的預(yù)訓(xùn)練可以顯著提高RL的上限
連續(xù)預(yù)訓(xùn)練后的Llama模型在RL后表現(xiàn)大幅提升
Dr. GRPO能有效緩解GRPO導(dǎo)致的響應(yīng)長度和回報(bào)同時(shí)增長現(xiàn)象。

本文轉(zhuǎn)載自??NLP前沿??，作者：NLP前沿

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

大推理模型DeepSeek-R1深度解讀：成本降低95%，推動(dòng)語言模型推理效率新高度

風(fēng)云2002_1 ? 1.1w瀏覽 ? 0回復(fù)
DeepSeek-AI 發(fā)布 DeepSeek-R1-Zero 和 DeepSeek-R1

Halo咯咯 ? 3379瀏覽 ? 0回復(fù)
圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理

Baihai_IDP ? 4382瀏覽 ? 0回復(fù)
帶你一文讀懂爆火的 DeepSeek-R1 新模型技術(shù)，為何震動(dòng)了全球 AI 圈

玄姐聊AGI ? 6525瀏覽 ? 1回復(fù)
Unsloth：僅需7GB顯存就能訓(xùn)練自己的DeepSeek-R1！

PyTorch研習(xí)社 ? 3086瀏覽 ? 0回復(fù)
7G顯存，訓(xùn)練自己的 DeepSeek-R1：GRPO 資源下降80%

鴻煊的學(xué)習(xí)筆記 ? 2548瀏覽 ? 0回復(fù)
Deepseek AI模型本地部署步驟簡記：ollama + deepseek-r1 + 本地AI模型的Web UI

lintoms ? 2449瀏覽 ? 0回復(fù)
DeepSeek-R1技術(shù)大揭秘：論文核心原理拆解與模型性能突破關(guān)鍵

arnoldzhw ? 2713瀏覽 ? 0回復(fù)
滿血DeepSeek-R1免費(fèi)用！附帶數(shù)據(jù)蒸餾的一些想法！

NLP工作站 ? 2553瀏覽 ? 0回復(fù)
Deepseek AI模型本地部署步驟簡記：ollama + deepseek-r1 + 本地AI模型的Web UI

parson2000 ? 1653瀏覽 ? 0回復(fù)
通過LM Studio本地私有化部署DeepSeek-R1模型，無網(wǎng)絡(luò)也能用

與輝鴻蒙 ? 3423瀏覽 ? 0回復(fù)
Grok 3 與 DeepSeek-R1 是怎么學(xué)會(huì)思考的？

機(jī)器學(xué)習(xí)與數(shù)學(xué) ? 2865瀏覽 ? 0回復(fù)
沖，DeepSeek-R1/V3推理系統(tǒng)架構(gòu)設(shè)計(jì)被開源了！

PaperAgent ? 1709瀏覽 ? 0回復(fù)
在消費(fèi)級硬件上微調(diào) DeepSeek-R1

AIGC前沿技術(shù)追蹤 ? 1662瀏覽 ? 0回復(fù)
QwQ-32B 大戰(zhàn) DeepSeek-R1：小參數(shù)量模型能否逆襲？

Halo咯咯 ? 2431瀏覽 ? 0回復(fù)
DeepSeek-R1的方法遷移到多模態(tài)大模型-開源Vision-R1實(shí)現(xiàn)方法思路

大模型自然語言處理 ? 1630瀏覽 ? 0回復(fù)
DeepSeek-R1關(guān)鍵創(chuàng)新技術(shù)再總結(jié)

大模型自然語言處理 ? 1504瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek-R1 的 “最強(qiáng)外掛” GRPO 算法

鴻煊的學(xué)習(xí)筆記 ? 1439瀏覽 ? 0回復(fù)
DianJin-R1：金融領(lǐng)域推理增強(qiáng)大模型，全面超越DeepSeek-R1

靈度智能 ? 271瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

推理大模型并非一定要推理 7天前發(fā)布
llama 4，開源！ 2025-04-10 07:06:26發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： Qwen原生多模態(tài)開源，淺析一下！

下一篇： llama 4，開源！

社區(qū)精華內(nèi)容

目錄

<style id="lahz5"></style>

<cite id="lahz5"><rp id="lahz5"><form id="lahz5"></form></rp></cite>

<legend id="lahz5"><track id="lahz5"></track></legend>

<legend id="lahz5"><track id="lahz5"></track></legend>