李飛飛+50美元+蒸餾 S1=? DeepSeekR1 精華
最近DeepseekR1大火,標題黨紛紛湊熱鬧,s1真的有這么牛嗎?
下面,我們來解讀一下S1
S1用了不到50美元,訓練出了媲美Deepseek的原因
- 微調(diào)樣本量小,所需訓練資源少:
構(gòu)造微調(diào)樣本時,精心挑選了1000個問題,通過Gemini Thinking Experimental中提取這些問題的推理軌跡和答案。
實驗中發(fā)現(xiàn),隨機選擇、選擇具有最長推理軌跡的樣本或僅選擇最大多樣性的樣本,都會導致性能顯著下降。
因此,使用59K個示例的完整數(shù)據(jù)池(s1K的超集)進行訓練,并沒有比選擇的1K樣本帶來顯著的提升。
用1K數(shù)據(jù)對現(xiàn)成的預訓練模型進行監(jiān)督微調(diào) (SFT),在小型數(shù)據(jù)集上僅需在16個H100 GPU上進行26分鐘的訓練。
并且不是從0開始訓練一個大模型,當然訓練所需花的錢,不到50美元。
這給了我們的啟示是:在領(lǐng)域微調(diào)時,精心挑選1000條左右的問答數(shù)據(jù)就完全足夠了。
- 訓練后,使用預算強制(Budget forcing)策略來控制模型測試時的計算量:
- 通過強制終止模型的思考過程或在模型試圖結(jié)束時多次附加“等待”來延長其生成過程。
- 強制終止:如果模型生成的思考符元數(shù)量超過預設(shè)限制,通過附加一個思考結(jié)束分隔符(end-of-thinking token delimiter),作為結(jié)束標記來強制結(jié)束思考過程,并且過渡到生成答案。
- 延長思考:如果我們希望模型在一個問題上花費更多測試時計算量,我們抑制思考結(jié)束分隔符的生成,而是將“等待”(Wait)字符附加到模型當前的推理軌跡中,以鼓勵更多探索。
訓練樣本的選擇方法介紹
訓練樣本的篩選,需要根據(jù)質(zhì)量(Quality)、難度(Difficulty)和多樣性(Diversity)三個標準篩選來篩選
- 質(zhì)量篩選:通過人工檢查樣本,排除格式錯誤或質(zhì)量低下的數(shù)據(jù);
- 難度篩選:利用兩個預訓練模型(Qwen2.5-7B-Instruct和Qwen2.5-32B-Instruct)評估問題的難度,選擇模型無法正確解答的問題;
- 多樣性篩選:根據(jù)數(shù)學主題分類系統(tǒng)(MSC)對問題進行分類,從每個領(lǐng)域中選擇具有較長推理鏈的問題,以確保覆蓋不同類型的推理任務。
本文轉(zhuǎn)載自??CourseAI??,作者: CourseAI ????
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關(guān)推薦