自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

4500美元復(fù)刻DeepSeek神話,1.5B戰(zhàn)勝o1-preview只用RL!訓(xùn)練細(xì)節(jié)全公開

人工智能 新聞
只用4500美元成本,就能成功復(fù)現(xiàn)DeepSeek?就在剛剛,UC伯克利團(tuán)隊只用簡單的RL微調(diào),就訓(xùn)出了DeepScaleR-1.5B-Preview,15億參數(shù)模型直接吊打o1-preview,震撼業(yè)內(nèi)。

強(qiáng)化學(xué)習(xí)迎來重大突破!

近日,來自UC伯克利的研究團(tuán)隊基于Deepseek-R1-Distilled-Qwen-1.5B,通過簡單的強(qiáng)化學(xué)習(xí)(RL)微調(diào),得到了全新的DeepScaleR-1.5B-Preview。

在AIME2024基準(zhǔn)中,模型的Pass@1準(zhǔn)確率達(dá)高達(dá)43.1% ——不僅比基礎(chǔ)模型提高了14.3%,而且在只有1.5B參數(shù)的情況下超越了OpenAI o1-preview!

目前,研究團(tuán)隊已開源數(shù)據(jù)集、代碼和訓(xùn)練日志。

只用不到5000美元的預(yù)算,團(tuán)隊就復(fù)現(xiàn)了DeepSeek的成功。至此,開源又贏下一局。

網(wǎng)友們稱贊:當(dāng)機(jī)器學(xué)習(xí)和數(shù)學(xué)相遇,就是超強(qiáng)組合的誕生!

訓(xùn)練秘籍簡版:先短后長

1.5B模型,通過RL訓(xùn)練,就能超越o1-preview,進(jìn)行數(shù)學(xué)推理?

簡而言之,團(tuán)隊這次的訓(xùn)練策略就是四個字——先短后長

第一步,研究人員會訓(xùn)練模來型進(jìn)行短思考。他們使用DeepSeek的GRPO方法,設(shè)定了8k的上下文長度來訓(xùn)練模型,以鼓勵高效思考。

經(jīng)過1000步訓(xùn)練后,模型的token使用量減少了3倍,并比基礎(chǔ)模型提升了5%。

接下來,模型被訓(xùn)練進(jìn)行長思考。強(qiáng)化學(xué)習(xí)訓(xùn)練擴(kuò)展到16K和24K token,以解決更具挑戰(zhàn)性、以前未解決的問題。

隨著響應(yīng)長度增加,平均獎勵也隨之提高,24K的魔力,就讓模型最終超越了o1-preview!

DeepScaleR-1.5B-Preview

最近,Deepseek-R1開源發(fā)布,對推理模型技術(shù)普及來說,是個重要突破。不過,它具體的訓(xùn)練方法、超參數(shù)還有底層系統(tǒng),都還沒公開。

在擴(kuò)展強(qiáng)化學(xué)習(xí)的時候,最大的難題之一就是計算成本太高。

就拿DeepSeek-R1的實驗來說,要想完全復(fù)現(xiàn),上下文長度得達(dá)到32K以上,訓(xùn)練大概8000步,就算是只有1.5B參數(shù)的模型,起碼都得花70,000 GPU小時。

如何利用強(qiáng)化學(xué)習(xí),把小型模型變成超厲害的推理模型呢?

為了解決這個問題,研究人員用了知識蒸餾模型,還創(chuàng)新性地引入了強(qiáng)化學(xué)習(xí)迭代延長方法。

團(tuán)隊推出了DeepScaleR-1.5B-Preview模型,它經(jīng)過4萬個高質(zhì)量數(shù)學(xué)問題的訓(xùn)練,訓(xùn)練一共用了3800個A100 GPU小時。

最終,成本只需約4500美元,省了18.42倍!同時模型的性能還在幾個競賽級數(shù)學(xué)基準(zhǔn)中,超過了o1-preview。

研究表明,用強(qiáng)化學(xué)習(xí)開發(fā)定制化的推理模型,既能大規(guī)模進(jìn)行,還能控制成本,性價比超高!

AIME 2024測試集Pass@1準(zhǔn)確率隨訓(xùn)練進(jìn)度而變:訓(xùn)練至第1040步,上下文長度擴(kuò)至16K token;到第1520步,上下文長度增至24K token

技術(shù)方案

數(shù)據(jù)集構(gòu)建

在訓(xùn)練數(shù)據(jù)集方面,研究人員收集了1984至2023年的美國國際數(shù)學(xué)邀請賽(AIME)、2023年之前的美國數(shù)學(xué)競賽(AMC),以及來自O(shè)mni-MATH和Still數(shù)據(jù)集的各國及國際數(shù)學(xué)競賽題目。

數(shù)據(jù)處理流程包含三個核心步驟:

  1. 答案提?。?/strong>對于AMC和AIME等數(shù)據(jù)集,使用gemini-1.5-pro-002模型從AoPS官方解答中提取答案。
  2. 重復(fù)問題清理:基于RAG,并結(jié)合sentence-transformers/all-MiniLM-L6-v2的詞向量嵌入來消除重復(fù)問題。同時,對訓(xùn)練集和測試集進(jìn)行重疊檢測,以防止數(shù)據(jù)污染。
  3. 不可評分題目過濾:數(shù)據(jù)集(如Omni-MATH)中的部分問題,無法通過sympy數(shù)學(xué)符號計算庫評估(得靠LLM判斷)。這不僅會降低訓(xùn)練速度,還會引入不穩(wěn)定的獎勵信號,因此需要增加額外的過濾步驟,來剔除無法自動評分的問題。

在經(jīng)過去重和過濾之后,就得到了約4萬個獨(dú)特的問題-答案對作為訓(xùn)練數(shù)據(jù)集。

獎勵函數(shù)設(shè)計

按Deepseek-R1的經(jīng)驗,用結(jié)果獎勵模型(ORM)而不是過程獎勵模型(PRM),來避免模型通過投機(jī)取巧得到獎勵。

獎勵函數(shù)返回值如下:

  • 返回「1」:如果LLM的答案,既能通過LaTeX語法檢查,又能通過Sympy數(shù)學(xué)驗證,就給它獎勵。
  • 返回「0」:要是LLM的答案是錯的,或者格式不對,比如少了<think>和</think>標(biāo)記,那就不給獎勵。

迭代增加上下文長度:從短到長的思維擴(kuò)展

推理任務(wù)由于會生成比標(biāo)準(zhǔn)任務(wù)更長的輸出,計算開銷較大,這會同時降低軌跡采樣(Trajectory Sampling)和策略梯度(Policy Gradient)更新的速度。

與此同時,上下文窗口大小翻倍,則會導(dǎo)致訓(xùn)練計算量至少增加2倍。

這種情況產(chǎn)生了一個根本性的權(quán)衡取舍:較長的上下文能為模型提供更充足的思維空間,但會顯著降低訓(xùn)練速度;而較短的上下文雖然可以加快訓(xùn)練進(jìn)度,但可能會限制模型解決那些需要長上下文的復(fù)雜問題的能力。

因此,在計算效率和準(zhǔn)確性之間找到最佳平衡點(diǎn)至關(guān)重要。

基于Deepseek的廣義近端策略優(yōu)化(GRPO)算法的訓(xùn)練方案包含兩個主要步驟:

  • 首先,使用8K token的最大上下文長度進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,從而實現(xiàn)更有效的推理能力和訓(xùn)練效率。
  • 隨后,將上下文長度擴(kuò)展到16K和24K token,使模型能夠解決更具挑戰(zhàn)性的、此前未能攻克的問題。

用8K上下文構(gòu)建高效思維鏈推理

正式訓(xùn)練之前,先用AIME2024測試集對Deepseek-R1-Distilled-Qwen-1.5B模型進(jìn)行評估,并分析它的推理軌跡數(shù)據(jù)。結(jié)果發(fā)現(xiàn),錯誤答案里平均包含的token數(shù)量,是正確答案的三倍。這說明回答越長,越容易出錯。

因此,直接采用長上下文窗口進(jìn)行訓(xùn)練效率可能不高,因為大部分token都沒有被有效利用。此外,冗長的回答還會表現(xiàn)出重復(fù)性模式,這表明它們并未對對思維鏈推理(CoT)產(chǎn)生實質(zhì)性的貢獻(xiàn)。

基于這些發(fā)現(xiàn),團(tuán)隊決定先從8K token的上下文長度開始訓(xùn)練。在AIME2024測試?yán)?,獲得了22.9%的初始準(zhǔn)確率,只比原始模型低6%。

事實證明這個策略很有效:訓(xùn)練的時候,平均訓(xùn)練獎勵從46%提高到了58%,平均響應(yīng)長度從5500 token減少到了3500 token。

把輸出限制在8K token以內(nèi),模型能更高效地利用上下文空間。如下表所示,不管是生成正確答案還是錯誤答案,token數(shù)量都大幅減少了。

在AIME準(zhǔn)確率上,比原始基準(zhǔn)模型還高了5%,用的token數(shù)量卻只有原來的1/3左右。

擴(kuò)展至16K token上下文,關(guān)鍵轉(zhuǎn)折點(diǎn)出現(xiàn)

在大約1000步后,8K token運(yùn)行中發(fā)生了一個有趣的變化:響應(yīng)長度再次開始增加。然而,這卻沒有增加收益——輸出準(zhǔn)確率達(dá)到了平臺期,并最終開始下降。

與此同時,響應(yīng)截斷比例從4.2%上升到了6.5%,這表明更多的響應(yīng)在上下文長度的限制下被截斷。

這些結(jié)果表明,模型試圖通過「延長思考時間」來提高訓(xùn)練獎勵。然而,隨著更長的輸出,模型越來越頻繁地觸及到8K token上下文窗口的上限,從而限制了性能的進(jìn)一步提升。

研究人員意識到這是一個自然的過渡點(diǎn),于是決定「放開籠子,讓鳥兒飛翔」。

他們選擇了在第1040步的檢查點(diǎn)——即響應(yīng)長度開始上升的地方——重新啟動訓(xùn)練,并使用了16K上下文窗口。

這種兩階段的做法比從一開始就用16K token訓(xùn)練效率高得多:8K的預(yù)熱階段讓平均響應(yīng)長度保持在3K token而不是9K,這使得此階段的訓(xùn)練速度至少提高了2倍。

在擴(kuò)展上了下文窗口后,研究人員觀察到訓(xùn)練獎勵、輸出長度和AIME準(zhǔn)確率都呈現(xiàn)穩(wěn)定提升趨勢。經(jīng)過額外的500步訓(xùn)練,平均輸出長度從3.5K增加至5.5K token,AIME2024的Pass@1準(zhǔn)確率達(dá)到了38%。

24K魔法,超越o1-preview

在16K token上下文環(huán)境下額外訓(xùn)練500步后,研究人員發(fā)現(xiàn)模型性能開始趨于平穩(wěn)——平均訓(xùn)練獎勵收斂在62.5%,AIME單次通過準(zhǔn)確率徘徊在38%左右,輸出長度再次呈現(xiàn)下降趨勢。同時,最大輸出截斷比率逐漸升至2%。

為了最終推動模型性能達(dá)到o1級別,研究人員決定決定推出「24K魔法」——將上下文窗口擴(kuò)大到24K token。

首先,將16K訓(xùn)練時的檢查點(diǎn)設(shè)定在第480步,并重新啟動了一個24K上下文窗口的訓(xùn)練。

隨著上下文窗口的擴(kuò)展,模型終于突破了瓶頸。在大約50步后,模型的AIME準(zhǔn)確率首次超過了40%,并在第200步時達(dá)到了43%。24K的魔力發(fā)揮得淋漓盡致!

總體來看,訓(xùn)練歷時約1750步。最初的8K階段使用了8塊A100 GPU進(jìn)行訓(xùn)練,而16K和24K階段則擴(kuò)展到32塊A100 GPU進(jìn)行訓(xùn)練。

整個訓(xùn)練過程共耗時約3800個A100小時,相當(dāng)于32塊A100 GPU上運(yùn)行了大約5天,計算成本約為4500美元。

研究人員用多個競賽級別的數(shù)學(xué)評測基準(zhǔn)來測試模型,像AIME 2024、AMC 2023、MATH-500、Minerva Math還有OlympiadBench。

這里報告的是Pass@1準(zhǔn)確率,簡單說,就是模型第一次就答對的概率。每個問題的結(jié)果,都是16次測試取平均值得到的。

將DeepScaleR和DeepSeek模型,以及近期專注推理任務(wù)強(qiáng)化學(xué)習(xí)的成果對比。DeepScaleR在所有評測里,都比基礎(chǔ)模型強(qiáng)很多。

在AIME 2024測試中,成績更是大幅提升了14.4%,整體性能也提高了8.1%。

DeepScaleR比最新模型的表現(xiàn)還好,像從7B參數(shù)模型微調(diào)來的rSTAR、Prime和SimpleRL。DeepScaleR只用1.5B參數(shù),就達(dá)到了o1-preview的性能水平——這是模型效率的重大突破!

AIME準(zhǔn)確率與模型規(guī)模對比,DeepScaleR實現(xiàn)性能與規(guī)模最佳平衡(帕累托最優(yōu))。

關(guān)鍵發(fā)現(xiàn)

很多人認(rèn)為強(qiáng)化學(xué)習(xí)只對大型模型有用,其實強(qiáng)化學(xué)習(xí)在小型模型上也能發(fā)揮顯著作用。

Deepseek-R1發(fā)現(xiàn),直接在小型模型上用強(qiáng)化學(xué)習(xí),效果不如知識蒸餾。在Qwen-32B模型上做對比實驗,強(qiáng)化學(xué)習(xí)只能讓AIME測試的準(zhǔn)確率達(dá)到47%,但只用知識蒸餾就能達(dá)到72.6%。

不過,要是從更大的模型中,通過蒸餾得到高質(zhì)量的SFT數(shù)據(jù),再用強(qiáng)化學(xué)習(xí),小模型的推理能力也能大幅提升。

研究證明了這一點(diǎn):通過強(qiáng)化學(xué)習(xí),小型模型在AIME測試中的準(zhǔn)確率從28.9%提高到了43.1%。

不管是只用監(jiān)督微調(diào),還是只用強(qiáng)化學(xué)習(xí),都沒辦法讓模型達(dá)到最佳效果。只有把高質(zhì)量的監(jiān)督微調(diào)蒸餾和強(qiáng)化學(xué)習(xí)結(jié)合起來,才能真正發(fā)揮LLM的推理潛力。

之前的研究發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)直接在16K token的上下文環(huán)境里訓(xùn)練,和8K token比起來,效果并沒有明顯提升。這很可能是因為計算資源不夠,模型沒辦法充分利用擴(kuò)大后的上下文。

最近的研究也指出,模型回復(fù)太長,里面就會有很多冗余的推理內(nèi)容,這些內(nèi)容容易導(dǎo)致錯誤結(jié)果。本文的實驗證實了這些發(fā)現(xiàn)。

團(tuán)隊先在較短的8K token上下文里,優(yōu)化模型的推理能力,這樣一來,后續(xù)在16K和24K token的環(huán)境里訓(xùn)練時,就能取得更快、更明顯的進(jìn)步。

這種一步一步增加長度的方法,能讓模型在擴(kuò)展到更長的上下文之前,先建立起穩(wěn)定的推理模式,從而提高強(qiáng)化學(xué)習(xí)擴(kuò)展上下文長度的效率 。

核心貢獻(xiàn)者

項目主頁還展示了參與DeepScaleR設(shè)計的所有研究人員,其中有兩位核心貢獻(xiàn)者。

Michael Luo

Michael Luo目前是UC伯克利電氣工程與計算機(jī)科學(xué)系(EECS)的博士生,導(dǎo)師是Ion Stoica教授。

在此之前,他獲得了UC伯克利電氣工程與計算機(jī)科學(xué)碩士和工商管理雙學(xué)士學(xué)位。

他的研究興趣主要在人工智能和系統(tǒng)領(lǐng)域。目前,其研究主要是為機(jī)器學(xué)習(xí)從業(yè)者構(gòu)建可擴(kuò)展的系統(tǒng),以實現(xiàn)Sky Computing的愿景。

Sijun Tan(譚嗣?。?/span>

譚嗣俊目前是UC伯克利計算機(jī)科學(xué)專業(yè)的三年級博士生,導(dǎo)師是Raluca Ada Popa。

此前,他在弗吉尼亞大學(xué)獲得計算機(jī)科學(xué)和數(shù)學(xué)雙學(xué)士學(xué)位,導(dǎo)師是David Wu和Yuan Tian。

他曾在Facebook AI Research(FAIR)實習(xí)過一段時間,并在螞蟻集團(tuán)擔(dān)任過高級算法工程師。

他的研究領(lǐng)域涵蓋機(jī)器學(xué)習(xí)、計算機(jī)安全和應(yīng)用密碼學(xué)。目前,其研究重點(diǎn)是增強(qiáng)通用型AI智能體的能力和魯棒性。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-04-07 02:25:00

DeepSeek模型訓(xùn)練GRPO

2025-02-13 08:30:00

2025-01-02 09:53:17

2025-02-13 09:10:00

2024-09-23 16:00:00

AI模型測評

2025-01-13 00:00:00

訓(xùn)練數(shù)據(jù)模型

2024-12-27 12:37:18

2025-04-27 08:54:00

英偉達(dá)開源模型

2025-01-21 10:10:56

2024-12-20 14:30:00

2025-04-22 09:12:00

AI模型數(shù)據(jù)

2025-02-24 08:40:00

開源模型訓(xùn)練

2024-11-20 14:00:00

模型測評

2025-01-21 08:00:00

2024-03-18 10:02:00

AI開源

2025-02-24 09:00:00

微軟模型算法

2022-05-05 09:00:00

AI模型數(shù)據(jù)

2025-03-19 09:20:00

2025-03-10 09:38:00

2024-11-15 09:36:07

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號