自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<kbd id="nzbzl"><font id="nzbzl"><meter id="nzbzl"></meter></font></kbd>

<ruby id="nzbzl"><optgroup id="nzbzl"></optgroup></ruby>

<legend id="nzbzl"><track id="nzbzl"></track></legend>

<cite id="nzbzl"></cite>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

不到140塊！李飛飛團(tuán)隊(duì)超低成本復(fù)刻DeepSeek R1推理！16張H100只訓(xùn)練了26分鐘，與R1訓(xùn)練方法不同！

原創(chuàng) 精選

作者：伊風(fēng) 2025-02-06 18:37:46

低到什么程度呢？論文里說，在現(xiàn)成的預(yù)訓(xùn)練模型（用的是阿里系開源的Qwen2.5- 32B-Instruct）進(jìn)行監(jiān)督微調(diào)（SFT），使用構(gòu)建的小規(guī)模數(shù)據(jù)集，僅耗時26分鐘，就在16張 H100 GPU上完成訓(xùn)練。

編輯 | 伊風(fēng)

出品 | 51CTO技術(shù)棧（微信號：blog51cto）

太魔鬼了！上周李飛飛團(tuán)隊(duì)發(fā)了篇新論文，再次降低了復(fù)刻o1能力的成本。

低到什么程度呢？論文里說，在現(xiàn)成的預(yù)訓(xùn)練模型（用的是阿里系開源的Qwen2.5- 32B-Instruct）進(jìn)行監(jiān)督微調(diào)（SFT），使用構(gòu)建的小規(guī)模數(shù)據(jù)集，僅耗時26分鐘，就在16張 H100 GPU上完成訓(xùn)練。

據(jù)研究人員介紹，這樣的算力租賃成本大約在20美元左右！

圖片

這么省時省錢的模型，居然和o1預(yù)覽版性能掰手腕：實(shí)驗(yàn)結(jié)果顯示，在數(shù)學(xué)競賽類問題上，s1-32B的表現(xiàn)超過o1-preview多達(dá)27%（MATH 和 AIME24 數(shù)據(jù)集）。

李飛飛團(tuán)隊(duì)的訓(xùn)練成果已經(jīng)開源了：https: //github.com/simplescaling/s1.

此外，研究團(tuán)隊(duì)還發(fā)現(xiàn)了一種技巧，被稱為預(yù)算控制（budget forcing）策略，即調(diào)整測試時計(jì)算資源。這個方法的具體做法是強(qiáng)制終止模型的推理過程，或在模型嘗試結(jié)束生成時多次附加“Wait”，從而延長其思考時間。這一方法能促使模型自我檢查答案，往往可以糾正錯誤的推理步驟。

論文中用了經(jīng)典的數(shù)R問題做例子，在模型差點(diǎn)要得出錯誤答案“2”時。研究人員打斷了AI的思考，并在其生成內(nèi)容后追加“Wait”，從而促使 s1-32B 自我修正了答案。像極了家長檢查作業(yè)的樣子。

圖片

1.蒸餾：站在大模型巨人的肩膀上

李飛飛團(tuán)隊(duì)的s1可以說是Qwen2.5和Gemini 2.0 Flash Thinking Experimental的孩子。（在谷歌今天更新的Gemini 2.0全家桶中，Gemini 2.0 Flash的推理能力已經(jīng)正式上線，摘掉了“Experimental”的帽子，并擴(kuò)展到谷歌地圖、搜索等應(yīng)用中。）

阿里旗下通義千問（Qwen）的開源小模型，提供了s1的基座。而Gemini 2.0 Flash則是s1在推理方面的“老師”。

研究人員通過精心篩選的1000個問題及其答案，記錄了Gemini 2.0 Flash Thinking Experimental的“思考過程”數(shù)據(jù)，構(gòu)建了訓(xùn)練集。然后使用這一數(shù)據(jù)集對Qwen2.5- 32B-Instruct進(jìn)行了微調(diào)。

有意思的是，這事也違反了谷歌的條款。Gemini的使用條款禁止用戶對其模型進(jìn)行逆向工程，以開發(fā)與Google AI產(chǎn)品競爭的服務(wù)。對此，Google尚未發(fā)表評論。

2.監(jiān)督微調(diào)，比R1的“大規(guī)模強(qiáng)化學(xué)習(xí)”更省錢

在論文中，研究人員提到s1希望找到實(shí)現(xiàn)強(qiáng)推理能力和“測試時擴(kuò)展”（即讓AI在回答問題前思考更久）的最簡單方法。

OpenAI的o1模型在推理方面的突破，引發(fā)了DeepSeek等AI實(shí)驗(yàn)室嘗試通過不同技術(shù)加以復(fù)現(xiàn)。

論文指出，推理模型可以通過“監(jiān)督微調(diào)”（SFT）蒸餾而成，這種方法讓AI模型明確模仿數(shù)據(jù)集中某些行為。SFT的成本通常低于DeepSeek用于訓(xùn)練其R1模型的“大規(guī)模強(qiáng)化學(xué)習(xí)”方法。

因?yàn)镾FT 使用了高質(zhì)量的標(biāo)注數(shù)據(jù)，例如，論文中提到的 s1K 數(shù)據(jù)集，僅包含 1,000 個樣本，但這些樣本是經(jīng)過精心篩選的，具有高難度、多樣性和質(zhì)量。

而純RL 方法通常需要大量的交互數(shù)據(jù)，例如，DeepSeek R1 使用了數(shù)百萬個樣本進(jìn)行訓(xùn)練，這些樣本的生成需要大量的計(jì)算資源和時間。

此外，相對于DeepSeek V3作為R1的底座，s1使用了更小的模型做微調(diào)。研究人員所采用的 Qwen2.5-32B-Instruct 模型進(jìn)行 SFT，僅需調(diào)整少量的超參數(shù)即可獲得較好的性能。由于初始的預(yù)訓(xùn)練模型復(fù)雜度較低，能更好地在有限的計(jì)算資源下進(jìn)行訓(xùn)練和部署。

3.寫在最后

李飛飛團(tuán)隊(duì)的復(fù)刻再次給人帶來億些震撼。

半個小時，20美元的投入，就能比肩OpenAI等美AI公司數(shù)百萬美元所完成的成果。

學(xué)界的研究人員無需投入百萬美元資金也能在AI領(lǐng)域取得創(chuàng)新突破，這無疑令人興奮。但是，推理模型的“商品化”還有未來嗎？

如果有人能用少量資金復(fù)制一個價值數(shù)百萬美元的AI模型，企業(yè)的護(hù)城河還能在哪里？

但是，蒸餾只是一種廉價復(fù)現(xiàn)AI能力的有效方法，并不能創(chuàng)造出遠(yuǎn)超當(dāng)前水平的全新AI模型。因此，我們可能仍然需要志向遠(yuǎn)大的夢想家，需要AI中的巨人。

參考鏈接：https://techcrunch.com/2025/02/05/researchers-created-an-open-rival-to-openais-o1-reasoning-model-for-under-50/

想了解更多AIGC的內(nèi)容，請?jiān)L問：

51CTO AI.x社區(qū)

http://www.scjtxx.cn/aigc/

責(zé)任編輯：武曉燕來源： 51CTO技術(shù)棧

GPU Qwen2.5 模型

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營