自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時刻”不可能實驗驗證 原創(chuàng)

發(fā)布于 2025-2-10 09:18
瀏覽
0收藏

最近各種營銷號鼓吹基于qwen的模型幾十塊錢復(fù)現(xiàn)deepseek-R1-zero,坑壞了算法工程師,筆者實驗驗證下這個夸張說法,因為實驗僅僅是快速的實現(xiàn),無過多的優(yōu)化,下面實驗數(shù)據(jù)僅供參考,歡迎指正。

實驗過程

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時刻”不可能實驗驗證-AI.x社區(qū)

DeepSeek-R1-Zero過程

DeepSeek-R1-Zero是一個純RL(無SFT)來探索模型推理能力的過程(基于GRPO的RL優(yōu)化過程)。Reward Model是基于規(guī)則的獎勵過程(Rule-Base RM),R1-Zero階段只關(guān)注數(shù)學(xué)、程序類推理問題,都是能簡單通過規(guī)則判別答案對錯的,所以獎勵模型采用的是純Rule-Base 的設(shè)計,主要包括2類Reward:

  • 正確性校驗Reward:數(shù)學(xué)問題通過簡單的規(guī)則抽取答案與ground truth對比校驗。對于程序題,通過編譯生成的程序,校驗是否能通過測試用例,產(chǎn)生一致的答案
  • 格式校驗Reward:校驗是否thought內(nèi)容是包含在‘’ 和 ‘’tags之間
模版設(shè)計

遵循論文的方式,如下:

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時刻”不可能實驗驗證-AI.x社區(qū)

DeepSeek-R1-Zero prompt模版

訓(xùn)練目標-產(chǎn)生如“頓悟時刻”的思考過程

“Aha Moment” -頓悟時刻:這個短語中的 “aha” 是一個象聲詞,用來表示突然的領(lǐng)悟或發(fā)現(xiàn)時發(fā)出的驚嘆聲。就像人們在突然想明白一件事情的時候,可能會不自覺地發(fā)出 “啊哈!” 這樣的聲音。

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時刻”不可能實驗驗證-AI.x社區(qū)

DeepSeek-R1-Zero報告中-頓悟時刻

實驗設(shè)計
  • 模型選型:??Qwen2___5-3B-Instruct??和??Qwen2___5-7B-Instruct??,網(wǎng)上有很多實驗已經(jīng)驗證了3B以下的模型沒什么作用,就不浪費時間了。
  • 數(shù)據(jù)集:https://huggingface.co/datasets/Jiayi-Pan/Countdown-Tasks-3to4,使用這個數(shù)據(jù)集的目標是根據(jù)一個數(shù)字列表,組成表達式得到一個數(shù)值的過程:如:給定[1,2,3]組成表達式得到6,即:1+2+3=6。
  • 強化學(xué)習(xí)算法:基于群體相對策略優(yōu)化(Group Relative Policy Optimization,GRPO)
  • 實驗環(huán)境:8 * H100
實驗過程

先說結(jié)論,筆者基于7B以下的模型,尚未復(fù)現(xiàn)出“頓悟時刻”,按照網(wǎng)上一些營銷說法,推理模型在啟動訓(xùn)練后很快就會產(chǎn)生“頓悟時刻”,然而實際卻不是,下面來看兩個基于qwen-7B訓(xùn)練一小時后采樣的例子(例子顯示推理過程太過于線性):

case1:

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時刻”不可能實驗驗證-AI.x社區(qū)

基于qwen-7B訓(xùn)練一小時后采樣

理論上要產(chǎn)生的“頓悟時刻”效果?

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時刻”不可能實驗驗證-AI.x社區(qū)

case2:

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時刻”不可能實驗驗證-AI.x社區(qū)

基于qwen-7B訓(xùn)練一小時后采樣

理論上要產(chǎn)生的“頓悟時刻”效果?

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時刻”不可能實驗驗證-AI.x社區(qū)

豆包生成

顯存占用情況如下圖:按照5刀一小時的服務(wù)器租用價格,假設(shè)訓(xùn)練24小時,也需要120刀了。

“幾十塊”從零復(fù)現(xiàn)deepseek-R1–zero“頓悟時刻”不可能實驗驗證-AI.x社區(qū)

幾點猜想
  • 要產(chǎn)生“頓悟時刻”的能力,與基座模型的參數(shù)量強相關(guān)
  • 要產(chǎn)生“頓悟時刻”的能力,基座模型要“語言犀利?”,或者風(fēng)格別那么嚴肅、沉穩(wěn)?

總結(jié)

實踐出真知,本文僅作記錄、參考,簡單的實驗復(fù)現(xiàn)驗證幾十塊復(fù)現(xiàn)一個R1-zero模型的不可能性(如果是純粹的基于qwen2.5-7B以下模型經(jīng)過RL得到一個R1-zero模型),代碼就不整理了,今天看到一個新的實現(xiàn)倉庫供參考:https://github.com/GAIR-NLP/LIMO


本文轉(zhuǎn)載自公眾號大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/5OxrQX6sIjNDMmQMpn-YWA??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦