自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

李飛飛+50美元+蒸餾 S1=? DeepSeekR1 精華

發(fā)布于 2025-2-11 13:37

瀏覽

0收藏

最近DeepseekR1大火，標題黨紛紛湊熱鬧，s1真的有這么牛嗎？

李飛飛+50美元+蒸餾 S1=? DeepSeekR1-AI.x社區(qū)

李飛飛+50美元+蒸餾 S1=? DeepSeekR1-AI.x社區(qū)

下面，我們來解讀一下S1

S1用了不到50美元，訓練出了媲美Deepseek的原因

李飛飛+50美元+蒸餾 S1=? DeepSeekR1-AI.x社區(qū)

微調(diào)樣本量小，所需訓練資源少：

構(gòu)造微調(diào)樣本時，精心挑選了1000個問題，通過Gemini Thinking Experimental中提取這些問題的推理軌跡和答案。

實驗中發(fā)現(xiàn)，隨機選擇、選擇具有最長推理軌跡的樣本或僅選擇最大多樣性的樣本，都會導致性能顯著下降。

因此，使用59K個示例的完整數(shù)據(jù)池（s1K的超集）進行訓練，并沒有比選擇的1K樣本帶來顯著的提升。

用1K數(shù)據(jù)對現(xiàn)成的預訓練模型進行監(jiān)督微調(diào) (SFT)，在小型數(shù)據(jù)集上僅需在16個H100 GPU上進行26分鐘的訓練。

并且不是從0開始訓練一個大模型，當然訓練所需花的錢，不到50美元。

這給了我們的啟示是：在領(lǐng)域微調(diào)時，精心挑選1000條左右的問答數(shù)據(jù)就完全足夠了。

訓練后，使用預算強制（Budget forcing）策略來控制模型測試時的計算量：

李飛飛+50美元+蒸餾 S1=? DeepSeekR1-AI.x社區(qū)

通過強制終止模型的思考過程或在模型試圖結(jié)束時多次附加“等待”來延長其生成過程。
強制終止：如果模型生成的思考符元數(shù)量超過預設(shè)限制，通過附加一個思考結(jié)束分隔符（end-of-thinking token delimiter），作為結(jié)束標記來強制結(jié)束思考過程，并且過渡到生成答案。
延長思考：如果我們希望模型在一個問題上花費更多測試時計算量，我們抑制思考結(jié)束分隔符的生成，而是將“等待”（Wait）字符附加到模型當前的推理軌跡中，以鼓勵更多探索。

李飛飛+50美元+蒸餾 S1=? DeepSeekR1-AI.x社區(qū)

訓練樣本的選擇方法介紹

訓練樣本的篩選，需要根據(jù)質(zhì)量（Quality）、難度（Difficulty）和多樣性（Diversity）三個標準篩選來篩選

質(zhì)量篩選：通過人工檢查樣本，排除格式錯誤或質(zhì)量低下的數(shù)據(jù)；
難度篩選：利用兩個預訓練模型（Qwen2.5-7B-Instruct和Qwen2.5-32B-Instruct）評估問題的難度，選擇模型無法正確解答的問題；
多樣性篩選：根據(jù)數(shù)學主題分類系統(tǒng)（MSC）對問題進行分類，從每個領(lǐng)域中選擇具有較長推理鏈的問題，以確保覆蓋不同類型的推理任務。

本文轉(zhuǎn)載自??CourseAI??，作者： CourseAI ????

標簽

贊

收藏

回復

舉報

回復

相關(guān)推薦

李飛飛、Yann LeCun vs Hinton、Ilya Sutskever

Syrupup ? 3364瀏覽 ? 0回復
李飛飛刊文：大模型技術(shù)無法?通向AGI

Syrupup ? 2903瀏覽 ? 0回復
OpenAI今年虧損已達50億美元！看一下收支財務數(shù)據(jù)

51CTO技術(shù)棧 ? 1828瀏覽 ? 0回復
Meta發(fā)表的將系統(tǒng)2模型蒸餾至系統(tǒng)1模型

sbf_2000 ? 2117瀏覽 ? 0回復
AI教母李飛飛：用溫暖的人性之光，照亮AI的未來之路

InfonityAI智推星 ? 2516瀏覽 ? 0回復
李飛飛的“空間魔術(shù)”：一張圖生成可探索的3D世界

云原生AI百寶箱 ? 3328瀏覽 ? 0回復
李飛飛：通過「空間智能」重構(gòu)世界

AIGC前沿技術(shù)追蹤 ? 3177瀏覽 ? 0回復
DeepSeek-R1 + RooCline：極佳的強化學習AI編碼代理！對標o1、蒸餾小模型本地部署

老蛀蟲 ? 3192瀏覽 ? 0回復
李飛飛團隊超低成本復刻DeepSeek R1推理！16張H100只訓練了26分鐘，與R1訓練方法不同！

51CTO技術(shù)棧 ? 2223瀏覽 ? 0回復
只需50美元！最簡單的推理擴展方案，效果媲美o1！

NLP前沿1 ? 1448瀏覽 ? 0回復
s1-32B 模型：超越 o1-preview，一起探索其原因

AI論文解讀 ? 1709瀏覽 ? 0回復
綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論

amei2000go ? 1971瀏覽 ? 0回復
滿血DeepSeek-R1免費用！附帶數(shù)據(jù)蒸餾的一些想法！

NLP工作站 ? 2553瀏覽 ? 0回復
S1：簡單高效的測試時推理能力擴展方法

上堵吟1 ? 1754瀏覽 ? 0回復
DeepSeek R1 全系列模型部署指南

芝士AI吃魚 ? 6920瀏覽 ? 0回復
TinyR1-32B-Preview: 通過全新分支合并蒸餾技術(shù)讓大模型瘦身不掉智商

sbf_2000 ? 1119瀏覽 ? 0回復
剛剛，智譜發(fā)布秒殺DeepSeekR1的“沉思”，基座模型Z1吐字速度高達200token/s，價格只有R1的1/30，下月開源

51CTO技術(shù)棧 ? 1458瀏覽 ? 0回復
微軟開源DeepSeek-R1魔改版：響應99%敏感提示，風險降50%

Aceryt ? 1976瀏覽 ? 0回復
S1-Bench：評估大型推理模型中的系統(tǒng) 1 思維

芝士AI吃魚 ? 478瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

騰訊屠榜MTEB，嵌入模型告別BERT，擁抱LLM 5天前發(fā)布
Adobe首發(fā)多Agent、跨模態(tài)框架MDocAgent：復雜文檔理解性能爆炸12%，錯誤率直降21% 2025-04-14 23:56:55發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：炸裂！Deepseek-Janus-Pro能識別圖片地址、看圖講故事

下一篇： 9.6K Star防翻車指南：Instructor讓AI輸出錯誤率歸零！

社區(qū)精華內(nèi)容

目錄

<p id="djuvn"><li id="djuvn"></li></p>