自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

李飛飛+50美元+蒸餾 S1=? DeepSeekR1 精華

發(fā)布于 2025-2-11 13:37
瀏覽
0收藏

最近DeepseekR1大火,標題黨紛紛湊熱鬧,s1真的有這么牛嗎?

李飛飛+50美元+蒸餾 S1=? DeepSeekR1-AI.x社區(qū)

李飛飛+50美元+蒸餾 S1=? DeepSeekR1-AI.x社區(qū)

下面,我們來解讀一下S1

S1用了不到50美元,訓練出了媲美Deepseek的原因 

李飛飛+50美元+蒸餾 S1=? DeepSeekR1-AI.x社區(qū)

  • 微調(diào)樣本量小,所需訓練資源少:

構(gòu)造微調(diào)樣本時,精心挑選了1000個問題,通過Gemini Thinking Experimental中提取這些問題的推理軌跡和答案。

實驗中發(fā)現(xiàn),隨機選擇、選擇具有最長推理軌跡的樣本或僅選擇最大多樣性的樣本,都會導致性能顯著下降。

因此,使用59K個示例的完整數(shù)據(jù)池(s1K的超集)進行訓練,并沒有比選擇的1K樣本帶來顯著的提升。

用1K數(shù)據(jù)對現(xiàn)成的預訓練模型進行監(jiān)督微調(diào) (SFT),在小型數(shù)據(jù)集上僅需在16個H100 GPU上進行26分鐘的訓練。

并且不是從0開始訓練一個大模型,當然訓練所需花的錢,不到50美元。

這給了我們的啟示是:在領(lǐng)域微調(diào)時,精心挑選1000條左右的問答數(shù)據(jù)就完全足夠了。

  • 訓練后,使用預算強制(Budget forcing)策略來控制模型測試時的計算量:

李飛飛+50美元+蒸餾 S1=? DeepSeekR1-AI.x社區(qū)

  • 通過強制終止模型的思考過程或在模型試圖結(jié)束時多次附加“等待”來延長其生成過程。
  • 強制終止:如果模型生成的思考符元數(shù)量超過預設(shè)限制,通過附加一個思考結(jié)束分隔符(end-of-thinking token delimiter),作為結(jié)束標記來強制結(jié)束思考過程,并且過渡到生成答案。
  • 延長思考:如果我們希望模型在一個問題上花費更多測試時計算量,我們抑制思考結(jié)束分隔符的生成,而是將“等待”(Wait)字符附加到模型當前的推理軌跡中,以鼓勵更多探索。

李飛飛+50美元+蒸餾 S1=? DeepSeekR1-AI.x社區(qū)

訓練樣本的選擇方法介紹 

訓練樣本的篩選,需要根據(jù)質(zhì)量(Quality)、難度(Difficulty)和多樣性(Diversity)三個標準篩選來篩選

  • 質(zhì)量篩選:通過人工檢查樣本,排除格式錯誤或質(zhì)量低下的數(shù)據(jù);
  • 難度篩選:利用兩個預訓練模型(Qwen2.5-7B-Instruct和Qwen2.5-32B-Instruct)評估問題的難度,選擇模型無法正確解答的問題;
  • 多樣性篩選:根據(jù)數(shù)學主題分類系統(tǒng)(MSC)對問題進行分類,從每個領(lǐng)域中選擇具有較長推理鏈的問題,以確保覆蓋不同類型的推理任務。

本文轉(zhuǎn)載自??CourseAI??,作者: CourseAI ????

收藏
回復
舉報
回復
相關(guān)推薦