自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<blockquote id="uprco"><i id="uprco"><video id="uprco"></video></i></blockquote>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時刻”不可能實驗驗證原創(chuàng)

大模型自然語言處理

發(fā)布于 2025-2-10 09:18

瀏覽

0收藏

最近各種營銷號鼓吹基于qwen的模型幾十塊錢復(fù)現(xiàn)deepseek-R1-zero，坑壞了算法工程師，筆者實驗驗證下這個夸張說法，因為實驗僅僅是快速的實現(xiàn)，無過多的優(yōu)化，下面實驗數(shù)據(jù)僅供參考，歡迎指正。

實驗過程

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時刻”不可能實驗驗證-AI.x社區(qū)

DeepSeek-R1-Zero過程

DeepSeek-R1-Zero是一個純RL（無SFT）來探索模型推理能力的過程（基于GRPO的RL優(yōu)化過程）。Reward Model是基于規(guī)則的獎勵過程（Rule-Base RM），R1-Zero階段只關(guān)注數(shù)學(xué)、程序類推理問題，都是能簡單通過規(guī)則判別答案對錯的，所以獎勵模型采用的是純Rule-Base 的設(shè)計，主要包括2類Reward：

正確性校驗Reward：數(shù)學(xué)問題通過簡單的規(guī)則抽取答案與ground truth對比校驗。對于程序題，通過編譯生成的程序，校驗是否能通過測試用例，產(chǎn)生一致的答案
格式校驗Reward：校驗是否thought內(nèi)容是包含在‘’ 和 ‘’tags之間

模版設(shè)計

遵循論文的方式，如下：

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時刻”不可能實驗驗證-AI.x社區(qū)

DeepSeek-R1-Zero prompt模版

訓(xùn)練目標-產(chǎn)生如“頓悟時刻”的思考過程

“Aha Moment” -頓悟時刻：這個短語中的 “aha” 是一個象聲詞，用來表示突然的領(lǐng)悟或發(fā)現(xiàn)時發(fā)出的驚嘆聲。就像人們在突然想明白一件事情的時候，可能會不自覺地發(fā)出 “啊哈！” 這樣的聲音。

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時刻”不可能實驗驗證-AI.x社區(qū)

DeepSeek-R1-Zero報告中-頓悟時刻

實驗設(shè)計

模型選型：??Qwen2___5-3B-Instruct??和??Qwen2___5-7B-Instruct??，網(wǎng)上有很多實驗已經(jīng)驗證了3B以下的模型沒什么作用，就不浪費時間了。
數(shù)據(jù)集：https://huggingface.co/datasets/Jiayi-Pan/Countdown-Tasks-3to4，使用這個數(shù)據(jù)集的目標是根據(jù)一個數(shù)字列表，組成表達式得到一個數(shù)值的過程：如：給定[1,2,3]組成表達式得到6，即：1+2+3=6。
強化學(xué)習(xí)算法：基于群體相對策略優(yōu)化（Group Relative Policy Optimization，GRPO）
實驗環(huán)境：8 * H100

實驗過程

先說結(jié)論，筆者基于7B以下的模型，尚未復(fù)現(xiàn)出“頓悟時刻”，按照網(wǎng)上一些營銷說法，推理模型在啟動訓(xùn)練后很快就會產(chǎn)生“頓悟時刻”，然而實際卻不是，下面來看兩個基于qwen-7B訓(xùn)練一小時后采樣的例子（例子顯示推理過程太過于線性）：

case1：

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時刻”不可能實驗驗證-AI.x社區(qū)

基于qwen-7B訓(xùn)練一小時后采樣

理論上要產(chǎn)生的“頓悟時刻”效果？

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時刻”不可能實驗驗證-AI.x社區(qū)

case2：

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時刻”不可能實驗驗證-AI.x社區(qū)

基于qwen-7B訓(xùn)練一小時后采樣

理論上要產(chǎn)生的“頓悟時刻”效果？

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時刻”不可能實驗驗證-AI.x社區(qū)

豆包生成

顯存占用情況如下圖：按照5刀一小時的服務(wù)器租用價格，假設(shè)訓(xùn)練24小時，也需要120刀了。

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時刻”不可能實驗驗證-AI.x社區(qū)

幾點猜想

要產(chǎn)生“頓悟時刻”的能力，與基座模型的參數(shù)量強相關(guān)
要產(chǎn)生“頓悟時刻”的能力，基座模型要“語言犀利？”，或者風(fēng)格別那么嚴肅、沉穩(wěn)？

總結(jié)

實踐出真知，本文僅作記錄、參考，簡單的實驗復(fù)現(xiàn)驗證幾十塊復(fù)現(xiàn)一個R1-zero模型的不可能性（如果是純粹的基于qwen2.5-7B以下模型經(jīng)過RL得到一個R1-zero模型），代碼就不整理了，今天看到一個新的實現(xiàn)倉庫供參考：https://github.com/GAIR-NLP/LIMO

本文轉(zhuǎn)載自公眾號大模型自然語言處理作者：余俊暉

原文鏈接：??https://mp.weixin.qq.com/s/5OxrQX6sIjNDMmQMpn-YWA??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標簽

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

大模型嵌入學(xué)習(xí)機，打破教育的“不可能三角”

mb5f8eba9bdb0af ? 2591瀏覽 ? 0回復(fù)
大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度

風(fēng)云2002_1 ? 1.1w瀏覽 ? 0回復(fù)
DeepSeek-AI 發(fā)布 DeepSeek-R1-Zero 和 DeepSeek-R1

Halo咯咯 ? 3390瀏覽 ? 0回復(fù)
圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理

Baihai_IDP ? 4388瀏覽 ? 0回復(fù)
DeepSeek-R1-Zero自我進化的3大特點和3大基石

智駐未來 ? 2191瀏覽 ? 0回復(fù)
帶你一文讀懂爆火的 DeepSeek-R1 新模型技術(shù)，為何震動了全球 AI 圈

玄姐聊AGI ? 6527瀏覽 ? 1回復(fù)
如何利用 DeepSeek-R1 本地部署強大的推理模型：從 ChatGPT 風(fēng)格界面到 API 集成

Halo咯咯 ? 2755瀏覽 ? 0回復(fù)
DeepSeek-R1-Zero激發(fā)了推理Scaling Law

ceesoft ? 1910瀏覽 ? 0回復(fù)
DeepSeek-R1技術(shù)大揭秘：論文核心原理拆解與模型性能突破關(guān)鍵

arnoldzhw ? 2719瀏覽 ? 0回復(fù)
Grok 3 與 DeepSeek-R1 是怎么學(xué)會思考的？

機器學(xué)習(xí)與數(shù)學(xué) ? 2870瀏覽 ? 0回復(fù)
在消費級硬件上微調(diào) DeepSeek-R1

AIGC前沿技術(shù)追蹤 ? 1664瀏覽 ? 0回復(fù)
Vision-R1：多模態(tài)領(lǐng)域的DeepSeek R1-Zero，7B參數(shù)比肩OpenAI O1

Syrupup ? 1703瀏覽 ? 0回復(fù)
QwQ-32B 大戰(zhàn) DeepSeek-R1：小參數(shù)量模型能否逆襲？

Halo咯咯 ? 2431瀏覽 ? 0回復(fù)
DeepSeek-R1的方法遷移到多模態(tài)大模型-開源Vision-R1實現(xiàn)方法思路

大模型自然語言處理 ? 1635瀏覽 ? 0回復(fù)
DeepSeek-R1關(guān)鍵創(chuàng)新技術(shù)再總結(jié)

大模型自然語言處理 ? 1508瀏覽 ? 0回復(fù)
Deepseek-R1，論文番外篇!

NLP前沿1 ? 925瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek-R1 的 “最強外掛” GRPO 算法

鴻煊的學(xué)習(xí)筆記 ? 1445瀏覽 ? 0回復(fù)
全面復(fù)現(xiàn)DeepSeek-R1-Zero 數(shù)學(xué)、代碼能力，訓(xùn)練步數(shù)僅需R1-Zero 1/10

快手技術(shù) ? 586瀏覽 ? 0回復(fù)
DianJin-R1：金融領(lǐng)域推理增強大模型，全面超越DeepSeek-R1

靈度智能 ? 283瀏覽 ? 0回復(fù)

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Kimi-VL開源多模態(tài)大模型結(jié)構(gòu)、訓(xùn)練方法、訓(xùn)練數(shù)據(jù)淺析 2025-04-16 07:08:19發(fā)布
十大PDF解析工具在不同文檔類別中的比較研究 2025-04-07 06:31:37發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： RAG范式演進及Agentic-RAG總結(jié)綜述

下一篇：英偉達ECLAIR-端到端的文檔布局提取，并集成閱讀順序方法

社區(qū)精華內(nèi)容

目錄

<style id="ytp0a"></style>

<sub id="ytp0a"></sub>

<cite id="ytp0a"></cite>

<style id="ytp0a"></style>