自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<thead id="xiyik"></thead>

<pre id="xiyik"><menuitem id="xiyik"></menuitem></pre>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

4500美元復(fù)刻DeepSeek神話，1.5B戰(zhàn)勝o1-preview只用RL！訓(xùn)練細(xì)節(jié)全公開

作者：新智元 2025-02-11 16:17:42

人工智能新聞

只用4500美元成本，就能成功復(fù)現(xiàn)DeepSeek？就在剛剛，UC伯克利團(tuán)隊只用簡單的RL微調(diào)，就訓(xùn)出了DeepScaleR-1.5B-Preview，15億參數(shù)模型直接吊打o1-preview，震撼業(yè)內(nèi)。

強(qiáng)化學(xué)習(xí)迎來重大突破！

近日，來自UC伯克利的研究團(tuán)隊基于Deepseek-R1-Distilled-Qwen-1.5B，通過簡單的強(qiáng)化學(xué)習(xí)（RL）微調(diào)，得到了全新的DeepScaleR-1.5B-Preview。

在AIME2024基準(zhǔn)中，模型的Pass@1準(zhǔn)確率達(dá)高達(dá)43.1% ——不僅比基礎(chǔ)模型提高了14.3%，而且在只有1.5B參數(shù)的情況下超越了OpenAI o1-preview！

目前，研究團(tuán)隊已開源數(shù)據(jù)集、代碼和訓(xùn)練日志。

只用不到5000美元的預(yù)算，團(tuán)隊就復(fù)現(xiàn)了DeepSeek的成功。至此，開源又贏下一局。

網(wǎng)友們稱贊：當(dāng)機(jī)器學(xué)習(xí)和數(shù)學(xué)相遇，就是超強(qiáng)組合的誕生！

訓(xùn)練秘籍簡版：先短后長

1.5B模型，通過RL訓(xùn)練，就能超越o1-preview，進(jìn)行數(shù)學(xué)推理？

簡而言之，團(tuán)隊這次的訓(xùn)練策略就是四個字——先短后長。

第一步，研究人員會訓(xùn)練模來型進(jìn)行短思考。他們使用DeepSeek的GRPO方法，設(shè)定了8k的上下文長度來訓(xùn)練模型，以鼓勵高效思考。

經(jīng)過1000步訓(xùn)練后，模型的token使用量減少了3倍，并比基礎(chǔ)模型提升了5%。

接下來，模型被訓(xùn)練進(jìn)行長思考。強(qiáng)化學(xué)習(xí)訓(xùn)練擴(kuò)展到16K和24K token，以解決更具挑戰(zhàn)性、以前未解決的問題。

隨著響應(yīng)長度增加，平均獎勵也隨之提高，24K的魔力，就讓模型最終超越了o1-preview！

DeepScaleR-1.5B-Preview

最近，Deepseek-R1開源發(fā)布，對推理模型技術(shù)普及來說，是個重要突破。不過，它具體的訓(xùn)練方法、超參數(shù)還有底層系統(tǒng)，都還沒公開。

在擴(kuò)展強(qiáng)化學(xué)習(xí)的時候，最大的難題之一就是計算成本太高。

就拿DeepSeek-R1的實驗來說，要想完全復(fù)現(xiàn)，上下文長度得達(dá)到32K以上，訓(xùn)練大概8000步，就算是只有1.5B參數(shù)的模型，起碼都得花70,000 GPU小時。

如何利用強(qiáng)化學(xué)習(xí)，把小型模型變成超厲害的推理模型呢？

為了解決這個問題，研究人員用了知識蒸餾模型，還創(chuàng)新性地引入了強(qiáng)化學(xué)習(xí)迭代延長方法。

團(tuán)隊推出了DeepScaleR-1.5B-Preview模型，它經(jīng)過4萬個高質(zhì)量數(shù)學(xué)問題的訓(xùn)練，訓(xùn)練一共用了3800個A100 GPU小時。

最終，成本只需約4500美元，省了18.42倍！同時模型的性能還在幾個競賽級數(shù)學(xué)基準(zhǔn)中，超過了o1-preview。

研究表明，用強(qiáng)化學(xué)習(xí)開發(fā)定制化的推理模型，既能大規(guī)模進(jìn)行，還能控制成本，性價比超高！

AIME 2024測試集Pass@1準(zhǔn)確率隨訓(xùn)練進(jìn)度而變：訓(xùn)練至第1040步，上下文長度擴(kuò)至16K token；到第1520步，上下文長度增至24K token

技術(shù)方案

數(shù)據(jù)集構(gòu)建

在訓(xùn)練數(shù)據(jù)集方面，研究人員收集了1984至2023年的美國國際數(shù)學(xué)邀請賽（AIME）、2023年之前的美國數(shù)學(xué)競賽（AMC），以及來自O(shè)mni-MATH和Still數(shù)據(jù)集的各國及國際數(shù)學(xué)競賽題目。

數(shù)據(jù)處理流程包含三個核心步驟：

答案提?。?/strong>對于AMC和AIME等數(shù)據(jù)集，使用gemini-1.5-pro-002模型從AoPS官方解答中提取答案。
重復(fù)問題清理：基于RAG，并結(jié)合sentence-transformers/all-MiniLM-L6-v2的詞向量嵌入來消除重復(fù)問題。同時，對訓(xùn)練集和測試集進(jìn)行重疊檢測，以防止數(shù)據(jù)污染。
不可評分題目過濾：數(shù)據(jù)集（如Omni-MATH）中的部分問題，無法通過sympy數(shù)學(xué)符號計算庫評估（得靠LLM判斷）。這不僅會降低訓(xùn)練速度，還會引入不穩(wěn)定的獎勵信號，因此需要增加額外的過濾步驟，來剔除無法自動評分的問題。

在經(jīng)過去重和過濾之后，就得到了約4萬個獨(dú)特的問題-答案對作為訓(xùn)練數(shù)據(jù)集。

獎勵函數(shù)設(shè)計

按Deepseek-R1的經(jīng)驗，用結(jié)果獎勵模型（ORM）而不是過程獎勵模型（PRM），來避免模型通過投機(jī)取巧得到獎勵。

獎勵函數(shù)返回值如下：

返回「1」：如果LLM的答案，既能通過LaTeX語法檢查，又能通過Sympy數(shù)學(xué)驗證，就給它獎勵。
返回「0」：要是LLM的答案是錯的，或者格式不對，比如少了<think>和</think>標(biāo)記，那就不給獎勵。

迭代增加上下文長度：從短到長的思維擴(kuò)展

推理任務(wù)由于會生成比標(biāo)準(zhǔn)任務(wù)更長的輸出，計算開銷較大，這會同時降低軌跡采樣（Trajectory Sampling）和策略梯度（Policy Gradient）更新的速度。

與此同時，上下文窗口大小翻倍，則會導(dǎo)致訓(xùn)練計算量至少增加2倍。

這種情況產(chǎn)生了一個根本性的權(quán)衡取舍：較長的上下文能為模型提供更充足的思維空間，但會顯著降低訓(xùn)練速度；而較短的上下文雖然可以加快訓(xùn)練進(jìn)度，但可能會限制模型解決那些需要長上下文的復(fù)雜問題的能力。

因此，在計算效率和準(zhǔn)確性之間找到最佳平衡點(diǎn)至關(guān)重要。

基于Deepseek的廣義近端策略優(yōu)化（GRPO）算法的訓(xùn)練方案包含兩個主要步驟：

首先，使用8K token的最大上下文長度進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練，從而實現(xiàn)更有效的推理能力和訓(xùn)練效率。
隨后，將上下文長度擴(kuò)展到16K和24K token，使模型能夠解決更具挑戰(zhàn)性的、此前未能攻克的問題。

用8K上下文構(gòu)建高效思維鏈推理

正式訓(xùn)練之前，先用AIME2024測試集對Deepseek-R1-Distilled-Qwen-1.5B模型進(jìn)行評估，并分析它的推理軌跡數(shù)據(jù)。結(jié)果發(fā)現(xiàn)，錯誤答案里平均包含的token數(shù)量，是正確答案的三倍。這說明回答越長，越容易出錯。

因此，直接采用長上下文窗口進(jìn)行訓(xùn)練效率可能不高，因為大部分token都沒有被有效利用。此外，冗長的回答還會表現(xiàn)出重復(fù)性模式，這表明它們并未對對思維鏈推理（CoT）產(chǎn)生實質(zhì)性的貢獻(xiàn)。

基于這些發(fā)現(xiàn)，團(tuán)隊決定先從8K token的上下文長度開始訓(xùn)練。在AIME2024測試?yán)?，獲得了22.9％的初始準(zhǔn)確率，只比原始模型低6%。

事實證明這個策略很有效：訓(xùn)練的時候，平均訓(xùn)練獎勵從46％提高到了58％，平均響應(yīng)長度從5500 token減少到了3500 token。

把輸出限制在8K token以內(nèi)，模型能更高效地利用上下文空間。如下表所示，不管是生成正確答案還是錯誤答案，token數(shù)量都大幅減少了。

在AIME準(zhǔn)確率上，比原始基準(zhǔn)模型還高了5%，用的token數(shù)量卻只有原來的1/3左右。

擴(kuò)展至16K token上下文，關(guān)鍵轉(zhuǎn)折點(diǎn)出現(xiàn)

在大約1000步后，8K token運(yùn)行中發(fā)生了一個有趣的變化：響應(yīng)長度再次開始增加。然而，這卻沒有增加收益——輸出準(zhǔn)確率達(dá)到了平臺期，并最終開始下降。

與此同時，響應(yīng)截斷比例從4.2%上升到了6.5%，這表明更多的響應(yīng)在上下文長度的限制下被截斷。

這些結(jié)果表明，模型試圖通過「延長思考時間」來提高訓(xùn)練獎勵。然而，隨著更長的輸出，模型越來越頻繁地觸及到8K token上下文窗口的上限，從而限制了性能的進(jìn)一步提升。

研究人員意識到這是一個自然的過渡點(diǎn)，于是決定「放開籠子，讓鳥兒飛翔」。

他們選擇了在第1040步的檢查點(diǎn)——即響應(yīng)長度開始上升的地方——重新啟動訓(xùn)練，并使用了16K上下文窗口。

這種兩階段的做法比從一開始就用16K token訓(xùn)練效率高得多：8K的預(yù)熱階段讓平均響應(yīng)長度保持在3K token而不是9K，這使得此階段的訓(xùn)練速度至少提高了2倍。

在擴(kuò)展上了下文窗口后，研究人員觀察到訓(xùn)練獎勵、輸出長度和AIME準(zhǔn)確率都呈現(xiàn)穩(wěn)定提升趨勢。經(jīng)過額外的500步訓(xùn)練，平均輸出長度從3.5K增加至5.5K token，AIME2024的Pass@1準(zhǔn)確率達(dá)到了38％。

24K魔法，超越o1-preview

在16K token上下文環(huán)境下額外訓(xùn)練500步后，研究人員發(fā)現(xiàn)模型性能開始趨于平穩(wěn)——平均訓(xùn)練獎勵收斂在62.5％，AIME單次通過準(zhǔn)確率徘徊在38％左右，輸出長度再次呈現(xiàn)下降趨勢。同時，最大輸出截斷比率逐漸升至2％。

為了最終推動模型性能達(dá)到o1級別，研究人員決定決定推出「24K魔法」——將上下文窗口擴(kuò)大到24K token。

首先，將16K訓(xùn)練時的檢查點(diǎn)設(shè)定在第480步，并重新啟動了一個24K上下文窗口的訓(xùn)練。

隨著上下文窗口的擴(kuò)展，模型終于突破了瓶頸。在大約50步后，模型的AIME準(zhǔn)確率首次超過了40%，并在第200步時達(dá)到了43%。24K的魔力發(fā)揮得淋漓盡致！

總體來看，訓(xùn)練歷時約1750步。最初的8K階段使用了8塊A100 GPU進(jìn)行訓(xùn)練，而16K和24K階段則擴(kuò)展到32塊A100 GPU進(jìn)行訓(xùn)練。

整個訓(xùn)練過程共耗時約3800個A100小時，相當(dāng)于32塊A100 GPU上運(yùn)行了大約5天，計算成本約為4500美元。

研究人員用多個競賽級別的數(shù)學(xué)評測基準(zhǔn)來測試模型，像AIME 2024、AMC 2023、MATH-500、Minerva Math還有OlympiadBench。

這里報告的是Pass@1準(zhǔn)確率，簡單說，就是模型第一次就答對的概率。每個問題的結(jié)果，都是16次測試取平均值得到的。

將DeepScaleR和DeepSeek模型，以及近期專注推理任務(wù)強(qiáng)化學(xué)習(xí)的成果對比。DeepScaleR在所有評測里，都比基礎(chǔ)模型強(qiáng)很多。

在AIME 2024測試中，成績更是大幅提升了14.4％，整體性能也提高了8.1％。

DeepScaleR比最新模型的表現(xiàn)還好，像從7B參數(shù)模型微調(diào)來的rSTAR、Prime和SimpleRL。DeepScaleR只用1.5B參數(shù)，就達(dá)到了o1-preview的性能水平——這是模型效率的重大突破！

AIME準(zhǔn)確率與模型規(guī)模對比，DeepScaleR實現(xiàn)性能與規(guī)模最佳平衡（帕累托最優(yōu)）。

關(guān)鍵發(fā)現(xiàn)

很多人認(rèn)為強(qiáng)化學(xué)習(xí)只對大型模型有用，其實強(qiáng)化學(xué)習(xí)在小型模型上也能發(fā)揮顯著作用。

Deepseek-R1發(fā)現(xiàn)，直接在小型模型上用強(qiáng)化學(xué)習(xí)，效果不如知識蒸餾。在Qwen-32B模型上做對比實驗，強(qiáng)化學(xué)習(xí)只能讓AIME測試的準(zhǔn)確率達(dá)到47％，但只用知識蒸餾就能達(dá)到72.6％。

不過，要是從更大的模型中，通過蒸餾得到高質(zhì)量的SFT數(shù)據(jù)，再用強(qiáng)化學(xué)習(xí)，小模型的推理能力也能大幅提升。

研究證明了這一點(diǎn)：通過強(qiáng)化學(xué)習(xí)，小型模型在AIME測試中的準(zhǔn)確率從28.9％提高到了43.1％。

不管是只用監(jiān)督微調(diào)，還是只用強(qiáng)化學(xué)習(xí)，都沒辦法讓模型達(dá)到最佳效果。只有把高質(zhì)量的監(jiān)督微調(diào)蒸餾和強(qiáng)化學(xué)習(xí)結(jié)合起來，才能真正發(fā)揮LLM的推理潛力。

之前的研究發(fā)現(xiàn)，強(qiáng)化學(xué)習(xí)直接在16K token的上下文環(huán)境里訓(xùn)練，和8K token比起來，效果并沒有明顯提升。這很可能是因為計算資源不夠，模型沒辦法充分利用擴(kuò)大后的上下文。

最近的研究也指出，模型回復(fù)太長，里面就會有很多冗余的推理內(nèi)容，這些內(nèi)容容易導(dǎo)致錯誤結(jié)果。本文的實驗證實了這些發(fā)現(xiàn)。

團(tuán)隊先在較短的8K token上下文里，優(yōu)化模型的推理能力，這樣一來，后續(xù)在16K和24K token的環(huán)境里訓(xùn)練時，就能取得更快、更明顯的進(jìn)步。

這種一步一步增加長度的方法，能讓模型在擴(kuò)展到更長的上下文之前，先建立起穩(wěn)定的推理模式，從而提高強(qiáng)化學(xué)習(xí)擴(kuò)展上下文長度的效率。

核心貢獻(xiàn)者

項目主頁還展示了參與DeepScaleR設(shè)計的所有研究人員，其中有兩位核心貢獻(xiàn)者。

Michael Luo

Michael Luo目前是UC伯克利電氣工程與計算機(jī)科學(xué)系（EECS）的博士生，導(dǎo)師是Ion Stoica教授。

在此之前，他獲得了UC伯克利電氣工程與計算機(jī)科學(xué)碩士和工商管理雙學(xué)士學(xué)位。

他的研究興趣主要在人工智能和系統(tǒng)領(lǐng)域。目前，其研究主要是為機(jī)器學(xué)習(xí)從業(yè)者構(gòu)建可擴(kuò)展的系統(tǒng)，以實現(xiàn)Sky Computing的愿景。

Sijun Tan（譚嗣?。?/span>

譚嗣俊目前是UC伯克利計算機(jī)科學(xué)專業(yè)的三年級博士生，導(dǎo)師是Raluca Ada Popa。

此前，他在弗吉尼亞大學(xué)獲得計算機(jī)科學(xué)和數(shù)學(xué)雙學(xué)士學(xué)位，導(dǎo)師是David Wu和Yuan Tian。

他曾在Facebook AI Research（FAIR）實習(xí)過一段時間，并在螞蟻集團(tuán)擔(dān)任過高級算法工程師。

他的研究領(lǐng)域涵蓋機(jī)器學(xué)習(xí)、計算機(jī)安全和應(yīng)用密碼學(xué)。目前，其研究重點(diǎn)是增強(qiáng)通用型AI智能體的能力和魯棒性。

責(zé)任編輯：張燕妮來源：新智元

DeepSeek 模型數(shù)據(jù)

分享到微信

微信掃碼分享

分享到微博

相關(guān)推薦

基于 DeepSeek GRPO 的 1.5B Rust 代碼生成模型訓(xùn)練實戰(zhàn)
群組相對策略優(yōu)化（GRPO）如何讓小型專用模型在特定任務(wù)上實現(xiàn)性能提升？我們今天為大家?guī)淼倪@篇文章展示了如何使用GRPO，訓(xùn)練一個僅有1.5B參數(shù)的Rust代碼生成模型，實現(xiàn)性能大幅提升。

2025-04-07 02:25:00

DeepSeek 模型訓(xùn)練 GRPO

8塊A100，32B碾壓DeepSeek V3、o1-preview！普林斯頓北大首提分層RL推理
8塊GPU，讓一個32B小模型在數(shù)學(xué)性能上技驚四座。普林斯頓聯(lián)手北大提出全新ReasonFlux框架，直接AIME上碾壓o1preiview。

2025-02-13 08:30:00

OpenAI o1-preview操縱游戲文件，戰(zhàn)勝國際象棋引擎Stockfish
據(jù)外媒報道，OpenAI的“推理”模型o1preview能夠在規(guī)則之外的游戲中獲勝。o1preview并沒有與專門的國際象棋引擎Stockfish進(jìn)行一場正式的國際象棋比賽，而是想出了如何破解其測試環(huán)境以強(qiáng)制獲勝的方法。

2025-01-02 09:53:17

4500美元驗證強(qiáng)化學(xué)習(xí)「魔力」，1.5B模型也能超越o1預(yù)覽版，模型、數(shù)據(jù)、代碼全開源
DeepScaleR1.5BPreview的成功，不僅展示了小模型在強(qiáng)化學(xué)習(xí)中的無限潛力，也證明了高效訓(xùn)練策略的重要性。團(tuán)隊希望通過開源數(shù)據(jù)集、代碼和訓(xùn)練日志，推動RL在LLM推理中的廣泛應(yīng)用。

2025-02-13 09:10:00

北大AI奧數(shù)評測，o1-mini比o1-preview分?jǐn)?shù)還高
OmniJudge是微調(diào)Llama3Instruct得到的驗證器，用于驗證待測的答案和給定的答案是否一致。

2024-09-23 16:00:00

AI 模型測評

450美元訓(xùn)練一個「o1-preview」？UC伯克利開源32B推理模型Sky-T1，AI社區(qū)沸騰了
近日，加州大學(xué)伯克利分校天空計算實驗室的研究團(tuán)隊NovaSky發(fā)布了SkyT132BPreview。有趣的是，團(tuán)隊表示：「SkyT132BPreview的訓(xùn)練成本不到450美元，這表明可以經(jīng)濟(jì)、高效地復(fù)制高級推理能力?！?/a>

2025-01-13 00:00:00

訓(xùn)練數(shù)據(jù)模型

國產(chǎn)之光DeepSeek把AI大佬全炸出來了！671B大模型訓(xùn)練只需此前算力1/10，細(xì)節(jié)全公開
團(tuán)隊表示這些東西他們早已實踐了多年，并轉(zhuǎn)而讓他幫忙向一些大學(xué)實驗室捐贈算力資源。

2024-12-27 12:37:18

英偉達(dá)AI奧賽奪冠，1.5B數(shù)學(xué)碾壓DeepSeek-R1！代碼全系開源，陶哲軒點(diǎn)贊
AIMO2冠軍「答卷」公布了！英偉達(dá)團(tuán)隊NemoSkills拔得頭籌，開源了OpenMathNemotron系列AI模型，1.5B小模型擊敗14BDeepSeek「推理大模型」！

2025-04-27 08:54:00

英偉達(dá)開源模型

DeepSeek是新源神！推理模型o1性能1/50價格，微調(diào)/數(shù)據(jù)/商用全免費(fèi)，蒸餾1.5B小模型可比GPT-4o
R1Zero模型在思考過程中涌現(xiàn)了“頓悟時刻”（ahamoment），并自己學(xué)會為問題分配更多思考時間。

2025-01-21 10:10:56

推理最強(qiáng)也最快，谷歌發(fā)布Gemini 2.0 Flash Thinking，全面超越o1-preview
據(jù)JeffDean介紹，Gemini2.0FlashThinking還會明確展示其思考過程。

2024-12-20 14:30:00

Sebastian Raschka長文：DeepSeek-R1、o3背后，RL推理訓(xùn)練正悄悄突破上限
只靠模型尺寸變大已經(jīng)不行了？大語言模型（LLM）推理需要強(qiáng)化學(xué)習(xí)（RL）來「加buff」。

2025-04-22 09:12:00

AI 模型數(shù)據(jù)

1/30訓(xùn)練步驟復(fù)刻DeepSeek-R1-Zero，沈向洋姜大昕張祥雨等開源推理模型RL訓(xùn)練方法
現(xiàn)在，開源RL訓(xùn)練方法只需要用130的訓(xùn)練步驟就能趕上相同尺寸的DeepSeekR1Zero蒸餾Qwen。

2025-02-24 08:40:00

開源模型訓(xùn)練

媲美OpenAI事實性基準(zhǔn)，這個中文評測集讓o1-preview剛剛及格
評測集涵蓋99個主題和領(lǐng)域，能夠全面檢測模型在各個領(lǐng)域的知識水平，可以幫助各個領(lǐng)域的研究者識別最適合其特定需求的模型。

2024-11-20 14:00:00

模型測評

追平滿血版o1的國產(chǎn)多模態(tài)模型終于來了！訓(xùn)練細(xì)節(jié)全部公開
剛剛，月之暗面公布了他們的Kimik系列模型最新版本——k1.5多模態(tài)思考模型。

2025-01-21 08:00:00

所有訓(xùn)練細(xì)節(jié)/模型權(quán)重全公開，成本僅1萬美元
OpenAISora還沒用上，國產(chǎn)Sora剛剛正式宣布全面開源！「OpenSora1.0」所有的訓(xùn)練細(xì)節(jié)模型權(quán)重全面開源，1萬美元64塊GPU復(fù)現(xiàn)，訓(xùn)練成本直降46%。

2024-03-18 10:02:00

AI 開源

10美元成功復(fù)現(xiàn)DeepSeek頓悟時刻，3B模型爆發(fā)超強(qiáng)推理！微軟論文反駁涌現(xiàn)
不到10美元，3B模型就能復(fù)刻DeepSeek的頓悟時刻了？來自荷蘭的開發(fā)者采用輕量級的RL算法ReinforceLite，把復(fù)刻成本降到了史上最低！同時，微軟亞研院的一項工作，也受DeepSeekR1啟發(fā)，讓7B模型涌現(xiàn)出了高級推理技能，但卻發(fā)現(xiàn)「頓悟時刻」并不存在！

2025-02-24 09:00:00

微軟模型算法

Meta復(fù)刻GPT-3“背刺”O(jiān)penAI，完整模型權(quán)重及訓(xùn)練代碼全公開
MetaAI開放了一個“重達(dá)”1750億參數(shù)的大語言模型OPT175B。

2022-05-05 09:00:00

AI 模型數(shù)據(jù)

38B硬剛DeepSeek-R1，訓(xùn)練秘籍全公開
全球首個開源多模態(tài)推理大模型來了！38B參數(shù)模型性能直逼DeepSeekR1，同尺寸上橫掃多項SOTA。而這家中國公司之所以選擇無償將技術(shù)思路開源，正是希望同DeepSeek一樣，打造開源界的技術(shù)影響力。

2025-03-19 09:20:00

1.5B硬剛GPT-4o，CMU祭出LCPO提示可控思考！每token性能較S1暴漲2倍
CMU團(tuán)隊用LCPO訓(xùn)練了一個15億參數(shù)的L1模型，結(jié)果令人震驚：在數(shù)學(xué)推理任務(wù)中，它比S1相對提升100%以上，在邏輯推理和MMLU等非訓(xùn)練任務(wù)上也能穩(wěn)定發(fā)揮。更厲害的是，要求短推理時，甚至擊敗了GPT4o——用的還是相同的token預(yù)算！

2025-03-10 09:38:00

李飛飛吳佳俊團(tuán)隊新作：推出具身智能決策能力評價基準(zhǔn)，o1-preview登頂 | NeurIPS
李飛飛吳佳俊團(tuán)隊新提出的評估框架，對具身智能決策的四項關(guān)鍵子能力來了個全面檢查。

2024-11-15 09:36:07

相似話題

機(jī)器學(xué)習(xí)
2031內(nèi)容

深度學(xué)習(xí)
1694內(nèi)容

自然語言處理
 110內(nèi)容

語音識別
 107內(nèi)容
全部話題

同話題下的熱門內(nèi)容

DeepSeek R2提前泄露？周二或周三發(fā)布？海外謠言一夜刷屏，HggingFace CEO一帖子引瘋狂猜想，DS又被消費(fèi)了深夜突襲，阿里Qwen3登頂全球開源王座！暴擊DeepSeek-R1，2小時狂攬17k星 MCP 服務(wù)器很危險！這里有安全使用指南！剛剛，Qwen3強(qiáng)勢登頂，成開源新王！國內(nèi)首個混合推理模型，235B擊敗R1、o1!源神火力全開：全系列8個模型一口氣開源！Kimi-Audio開源橫掃全場景，1300萬+小時數(shù)據(jù)煉成語音世界“大一統(tǒng)”看不懂GitHub代碼？剛剛這個AI工具讓全球每個GitHub項目開口說話一文詳解深度學(xué)習(xí)中的標(biāo)量、向量、矩陣、張量 7B超越GPT！1/20數(shù)據(jù)，無需知識蒸餾，馬里蘭等推出全新視覺推理方法

相關(guān)專題更多

解讀惠普Z系列工作站ZBook Ultra G1a高性能移動

HPE ProLiant DL145 Gen11 服務(wù)器解讀

2025-04-21 09:59:50

開發(fā)者成長學(xué)院 | 成長有徑 · 代碼有方

2025-04-23 08:49:09

我收藏的內(nèi)容

微博

QQ

微信

復(fù)制鏈接

微信掃碼分享

51CTO業(yè)務(wù)

媒體
51CTO CIOAge HC3i Techplur
社區(qū)
51CTO博客軟考社區(qū)鴻蒙開發(fā)者社區(qū)AI.x社區(qū)
教育
51CTO學(xué)堂精培企業(yè)培訓(xùn)CTO訓(xùn)練營

51CTO學(xué)堂

51CTO學(xué)堂企業(yè)版

51CTO官微

51CTO

關(guān)于我們&條款

關(guān)于我們

新聞動態(tài)

站點(diǎn)地圖

意見反饋

English

用戶協(xié)議

隱私協(xié)議

北京市海淀區(qū)中關(guān)村南1條甲1號ECO中科愛克大廈6-7層

北京市公安局海淀分局備案編號：110108002980號
營業(yè)執(zhí)照京ICP備09067568號

Copyright ? 2005-2025 51CTO.COM 京ICP證060544 版權(quán)所有未經(jīng)許可請勿轉(zhuǎn)載

營業(yè)執(zhí)照出版物經(jīng)營許可證

友情鏈接

新浪科技騰訊科技網(wǎng)易科技鳳凰科技驅(qū)動科技科技行者 TechWeb 艾瑞網(wǎng)站長之家速途網(wǎng)中國經(jīng)濟(jì)新聞網(wǎng)IT之家工聯(lián)網(wǎng)極客公園 236視頻會議中國IDC圈企業(yè)網(wǎng)D1Net 投資界次方元火山引擎

51CTO技術(shù)棧公眾號

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

在線客服

媒體
51CTO CIOAge HC3i

社區(qū)
51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育
51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

感谢您访问我们的网站，您可能还对以下资源感兴趣：
自拍偷在线精品自拍偷