自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="zendb"></sub>

<sub id="zendb"></sub>

<sub id="zendb"></sub>

<cite id="zendb"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

歷史分水嶺：DeepSeek GitHub星數(shù)超越OpenAI！大佬揭秘僅用450美元訓(xùn)推理模型

作者：新智元 2025-02-08 09:15:00

人工智能新聞

剛剛，DeepSeek的GitHub星數(shù)，超越了OpenAI！V3的Star數(shù)，如今已經(jīng)碾壓OpenAI最熱門的項目。機器學(xué)習(xí)大神的一篇硬核博文，直接幫我們揭秘了如何僅用450美元，訓(xùn)出一個推理模型。

就在剛剛，歷史性的一刻出現(xiàn)了。

DeepSeek項目在GitHub平臺上的Star數(shù)，已經(jīng)超越了OpenAI。

熱度最高的DeepSeek-V3，Star數(shù)如今已達7.7萬。

做出這一發(fā)現(xiàn)的網(wǎng)友們，第一時間截下了圖

可以說，這是開源AI歷史上的一個里程碑！

而DeepSeek-R1，更是僅用了3周時間，就超越了「openai-cookbook」。

前有App Store登頂，今有GitHub超越，網(wǎng)友們高呼：永遠不要低估開源社區(qū)的力量！

如今，DeepSeek的勢頭越來越猛。

相信大家都發(fā)現(xiàn)，DeepSeek的服務(wù)器簡直要爆了。

甚至就在昨天，DeepSeek還不得不官宣：暫停API充值。

原因當(dāng)然就是因為，用戶的熱情實在太火爆，服務(wù)器真扛不住了。

最近，關(guān)于DeepSeek的一些流傳甚廣的說法，也紛紛有專家辟謠了。

澄清一：DeepSeek繞過了CUDA架構(gòu)

其中一個廣為流傳的說法是DeepSeek繞過了CUDA。

這源于DeepSeek的論文中提到，模型采用了PTX編程，通過這樣的定制優(yōu)化，讓模型能更好地釋放底層硬件的性能。

「我們采用定制的PTX（并行線程執(zhí)行）指令并自動調(diào)整通信塊大小，這大大減少了L2緩存的使用和對其他SM的干擾」

嚴謹來說，DeepSeek通過編寫PTX解決了跨芯片通信瓶頸，雖然復(fù)雜，但降低了開銷、提升了效率。

本質(zhì)上，PTX仍然是位于CUDA驅(qū)動層內(nèi)部的一個組件，是英偉達CUDA編程模型的一部分，能將CUDA源代碼（C/C++）轉(zhuǎn)變?yōu)闄C器指令的一個中間階段。

在運行時，PTX會進一步被編譯成在GPU上運行的最終機器碼（SASS）。

而DeepSeek團隊的聰明之處就在于，用這種方法能更好地實現(xiàn)對底層硬件的編程和調(diào)用。

這種主動優(yōu)化，無論在H800還是H100上都能提高通信互聯(lián)效率。

因此，DeepSeek仍然沒有擺脫CUDA生態(tài)。

澄清二：R1的訓(xùn)練成本，絕不僅僅是600萬美元！

而關(guān)于DeepSeek-R1的另一個謠言，就是R1的訓(xùn)練成本大約是600萬美元。

之所以有這個說法，來源于DeepSeek-V3論文中的相關(guān)論述

開發(fā)者大神Sebastian指出，很多人都混淆了DeepSeek-V3和DeepSeek-R1。（前者要早1個月）

其中，DeepSeek-V3中宣稱的550萬美元，是基于GPU成本、GPU小時數(shù)、數(shù)據(jù)集規(guī)模和模型規(guī)模等估算出來的。

但DeepSeek團隊從沒公開過R1確切的GPU小時數(shù)或開發(fā)成本，目前已有的任何成本估算都只是猜測。

除此之外，Stability AI前研究總監(jiān)Tanishq Mathew Abraham也在最近的博文中指出，R1在V3基礎(chǔ)上進行的強化學(xué)習(xí)，以及最終訓(xùn)練前團隊的大量的小規(guī)模實驗和消融研究都未包含在內(nèi)。

更何況還有研究者的薪資，據(jù)傳已經(jīng)跟OpenAI、Anthropic等頂級機構(gòu)的薪資相當(dāng)（高達100萬美元）。

V3和R1，開啟推理模型大變局

DeepSeek V3和R1發(fā)布后，將怎樣攪動此后的LLM江湖？

預(yù)算緊張的情況下，怎么開發(fā)推理模型？

最近，機器學(xué)習(xí)大神Sebastian Raschka的這篇長篇博文，為我們做出了硬核預(yù)測，并且破除了不少民間對DeepSeek的誤解。

Sebastian表示，很多人都來詢問自己對DeepSeek-R1的看法。

在他看來，這是一項了不起的成就。

作為一名研究工程師，他非常欣賞那份詳細的研究報告，它讓自己對方法論有了更深入的了解。

最令人著迷的收獲之一，就是推理如何從純強化學(xué)習(xí)行為中產(chǎn)生。

甚至，DeepSeek是在MIT許可下開源模型的，比Meta的Llama模型限制更少，令人印象深刻。

在本文中，Sebastian介紹了構(gòu)建推理模型的四種方法，來提升LLM的推理能力。

圖中總結(jié)了DeepSeek R1的訓(xùn)練流程。

（1）DeepSeek-R1-Zero：該模型基于2024年12月發(fā)布的DeepSeek-V3。研究團隊采用RL進行訓(xùn)練，并使用了兩種獎勵類型。這種方式稱為冷啟動訓(xùn)練，因為它沒有采用RLHF中的SFT步驟。

（2）DeepSeek-R1：這是DeepSeek的旗艦推理模型，構(gòu)建于DeepSeek-R1-Zero基礎(chǔ)上。團隊通過額外的SFT階段和進一步的RL訓(xùn)練，對模型進行了優(yōu)化。

（3）DeepSeek-R1-Distill：利用前述步驟中生成的SFT數(shù)據(jù)，團隊對Qwen和Llama模型進行了微調(diào)，以增強它們的推理能力。盡管不是傳統(tǒng)意義上的蒸餾，但該過程是用DeepSeek-R1的輸出，來訓(xùn)練較小的模型（Llama 8B和70B，Qwen 1.5B–30B）。

構(gòu)建推理模型的四種方法

推理時擴展

想要提升LLM的推理能力，或者是其他任何能力，有一種方法叫推理時擴展，就是在推理過程中增加計算資源，讓輸出的結(jié)果質(zhì)量更高。

人類在解決復(fù)雜問題時，如果思考時間更充裕，往往能給出更好的答案。

有一種推理時擴展的簡單方法，是巧妙的運用提示工程。思維鏈（CoT）提示法是一個經(jīng)典例子，在處理復(fù)雜問題時，通常能得到更準(zhǔn)確的結(jié)果。

另一種推理時擴展的方法是使用投票和搜索策略。

一個簡單的例子是多數(shù)投票方法，讓LLM生成多個答案，然后通過投票選出正確答案。

同樣，也可以使用束搜索（beam search）和其他搜索算法來生成更好的響應(yīng)。

推測OpenAI的o1和o3模型使用了推理時擴展。此外，o1和o3可能還運用了與DeepSeek R1類似的RL流程來訓(xùn)練。

純強化學(xué)習(xí)（RL）

DeepSeek R1論文中的一個亮點是，推理行為可以通過純強化學(xué)習(xí)（RL）產(chǎn)生。

通常在RL訓(xùn)練之前，會先進行SFT，但DeepSeek-R1-Zero完全通過RL訓(xùn)練，沒有初始的SFT階段。

DeepSeek-R1-Zero的一個關(guān)鍵區(qū)別是它跳過了SFT階段。

在獎勵機制上，DeepSeek沒有采用基于人類偏好的獎勵模型，而是采用了準(zhǔn)確性獎勵和格式獎勵。

- 準(zhǔn)確性獎勵，是用LeetCode編譯器來驗證編程答案，并用確定性系統(tǒng)評估數(shù)學(xué)回答。

- 格式獎勵，則靠LLM評判器，保證回答符合預(yù)期格式，比如把推理步驟放在標(biāo)簽里。

讓人意外的是，靠這種方法，LLM就能發(fā)展出基本的推理能力。

研究人員觀察到「頓悟時刻」：模型開始在回答中生成推理過程，即使沒有專門訓(xùn)練它這么做。

盡管R1-Zero并不是性能最優(yōu)的推理模型，但它通過生成中間的思考步驟展示了推理能力。這證明用純強化學(xué)習(xí)（RL）開發(fā)推理模型是可行的。

監(jiān)督微調(diào)和強化學(xué)習(xí)（SFT+RL）

旗艦?zāi)Ｐ虳eepSeek-R1通過結(jié)合額外的SFT和RL，提升了模型的推理表現(xiàn)。

在RL之前進行SFT是常見的做法，標(biāo)準(zhǔn)的RLHF流程就是如此。OpenAI的o1模型很可能也是用類似方法開發(fā)的。

如圖所示，團隊用DeepSeek-R1-Zero生成了冷啟動SFT數(shù)據(jù)。通過指令微調(diào)訓(xùn)練模型，接著又進行了一輪RL。

在這一輪RL中，保留了DeepSeek-R1-Zero的準(zhǔn)確性獎勵和格式獎勵，還新增了一致性獎勵，來避免語言混雜。

RL結(jié)束后，又開始新一輪SFT數(shù)據(jù)收集。在這個階段，用最新的模型生成了60萬條CoT SFT示例，同時用DeepSeek-V3基礎(chǔ)模型創(chuàng)建了另外20萬條SFT示例。

上述樣本隨后被用于另一輪RL訓(xùn)練。在這個階段，對于數(shù)學(xué)和編程問題，還是用基于規(guī)則的方法進行準(zhǔn)確性獎勵。對于其他類型的問題，則用人類偏好標(biāo)簽來評判。

經(jīng)過多輪訓(xùn)練，DeepSeek-R1的性能有了顯著提升。

純監(jiān)督微調(diào)（SFT）和蒸餾

到目前為止，已經(jīng)介紹了三種用于改進LLM推理能力的方法，最后是模型「蒸餾」。

這里「蒸餾」是指用較大LLM生成的數(shù)據(jù)集對較小的LLM（如Llama 8B和70B以及Qwen 2.5模型，范圍從0.5B到32B）進行指令微調(diào)。

實際上，這個蒸餾過程中的SFT數(shù)據(jù)集，和之前用來訓(xùn)練DeepSeek-R1的數(shù)據(jù)集是一樣的。

為什么開發(fā)蒸餾模型？可能有兩個關(guān)鍵原因：

1 較小的模型更高效。小模型運行成本更低，還能在配置較低的硬件上運行。對研究人員來說很有吸引力。

2 純SFT的案例研究。這些模型展示了在沒有RL的情況下，單純靠SFT能把模型優(yōu)化到什么程度。

團隊將DeepSeek-R1-Zero中的純RL方法直接應(yīng)用于Qwen-32B。

結(jié)果表明，對于較小的模型，蒸餾遠比純RL更有效。

僅靠RL可能不足以讓小模型具備強大的推理能力，在高質(zhì)量推理數(shù)據(jù)上進行SFT，或許是對小模型更有效的策略。

接下來一個有趣的方向是把RL+SFT和推理時擴展結(jié)合起來，OpenAI的o1很有可能是這樣做的，只不過它可能基于一個比DeepSeek-R1更弱的基礎(chǔ)模型。

R1和o1相比如何？

Sebastian認為，DeepSeek-R1和OpenAI o1大致在同一水平。

不過引人注目的一點是，DeepSeek-R1在推理時間上更高效。

這就揭示了二者的區(qū)別：DeepSeek可能在訓(xùn)練過程中投入了更多，而OpenAI更依賴于o1的推理時擴展。

而很難直接比較兩個模型的難點，就在于OpenAI并沒有披露太多關(guān)于o1的信息。

現(xiàn)在關(guān)于o1，還有很多未解之謎。

比如，o1也是一個MoE嗎？它究竟有多大？

或許，o1只是GPT-4o的一個略微改進版本，加上最小量的強化學(xué)習(xí)和微調(diào)，僅在推理時進行大規(guī)模scaling？

不了解這些細節(jié)，是很難直接比較的。

預(yù)算只有幾十萬美元，能開發(fā)推理模型嗎

不過，想開發(fā)一個DeepSeek-R1這樣的推理模型，哪怕是基于開放權(quán)重的基礎(chǔ)模型，也可能需要幾十萬美元甚至更多資金。

這對預(yù)算有限的研究人員或工程師來說，實在是望而卻步。

好消息是：蒸餾能開辟新路徑！

模型蒸餾提供了一個更具成本效益的替代方案。

DeepSeek團隊的R1蒸餾模型證明了這一點，盡管這些模型比DeepSeek-R1小得多，推理表現(xiàn)卻強得驚人。

不過，這種方法也不是完全沒有成本。他們的蒸餾過程用了80萬條SFT樣本，這需要大量的計算資源。

有趣的是，就在DeepSeek-R1發(fā)布的前幾天，關(guān)于Sky-T1的文章中，一個團隊用1.7萬條SFT樣本，就訓(xùn)練出了一個32B參數(shù)的開放權(quán)重模型。

總成本僅有450美元，甚至比大多數(shù)人AI會議的注冊費還低。

Sky-T1的表現(xiàn)和o1大致相當(dāng)，考慮到它的訓(xùn)練成本，著實令人驚嘆。

項目鏈接：https://novasky-ai.github.io/posts/sky-t1/

預(yù)算有限的純強化學(xué)習(xí)：TinyZero

TinyZero是3B參數(shù)的模型，它借鑒了DeepSeek-R1-Zero的方法，其訓(xùn)練成本不到30美元。

令人意外的是，盡管只有3B參數(shù)，TinyZero仍展現(xiàn)出一些突現(xiàn)的自我驗證能力，這證明了小模型通過純RL也能產(chǎn)生推理能力。

這兩個項目表明，即使預(yù)算有限，也可以進行有趣的推理模型研究。

兩者都借鑒了DeepSeek-R1的方法，一種聚焦于純RL（TinyZero），另一種聚焦于純SFT（Sky-T1）。

超越傳統(tǒng)SFT：旅程學(xué)習(xí)

旅程學(xué)習(xí)被視作捷徑學(xué)習(xí)的替代方案。捷徑學(xué)習(xí)是傳統(tǒng)的指令微調(diào)方法，模型僅通過正確的解題路徑來訓(xùn)練。

旅程學(xué)習(xí)不僅包括正確的解題路徑，還包括錯誤的解題路徑，讓模型從錯誤中學(xué)習(xí)。

這種方法和TinyZero在純RL訓(xùn)練中展現(xiàn)的自我驗證能力有相通之處，不過它完全依靠SFT來優(yōu)化模型。讓模型接觸錯誤推理路徑及修正過程。

旅程學(xué)習(xí)或許有助于加強自我糾錯能力，提升推理模型的可靠性。

論文鏈接：https://arxiv.org/abs/2410.18982

這一方向?qū)τ谖磥淼难芯繕O具吸引力，特別是在低預(yù)算的推理模型開發(fā)場景中，RL方法可能由于計算成本過高而難以落地。

當(dāng)前在推理模型領(lǐng)域正有諸多有趣的研究，Sebastian充滿期待地表示：相信在未來幾個月，還會看到更多令人興奮的成果！

責(zé)任編輯：張燕妮來源：新智元

DeepSeek 機器學(xué)習(xí)模型

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營