自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

4500美元驗(yàn)證強(qiáng)化學(xué)習(xí)「魔力」,1.5B模型也能超越o1預(yù)覽版,模型、數(shù)據(jù)、代碼全開(kāi)源

人工智能 新聞
DeepScaleR-1.5B-Preview 的成功,不僅展示了小模型在強(qiáng)化學(xué)習(xí)中的無(wú)限潛力,也證明了高效訓(xùn)練策略的重要性。團(tuán)隊(duì)希望通過(guò)開(kāi)源數(shù)據(jù)集、代碼和訓(xùn)練日志,推動(dòng) RL 在 LLM 推理中的廣泛應(yīng)用。

Deepseek-R1 的卓越表現(xiàn)引發(fā)了廣泛關(guān)注,但其訓(xùn)練方法始終未曾公開(kāi)。雖然 Deepseek 的模型已開(kāi)源,但其訓(xùn)練方法、數(shù)據(jù)和腳本等關(guān)鍵信息仍未對(duì)外披露。

根據(jù) Deepseek 公布的信息,許多人認(rèn)為,只有訓(xùn)練更大規(guī)模的模型,才能真正發(fā)揮強(qiáng)化學(xué)習(xí)(RL)的威力。然而,訓(xùn)練大模型需要龐大的計(jì)算資源,讓開(kāi)源社區(qū)望而卻步。目前的工作(如 TinyZero)僅在簡(jiǎn)單任務(wù)上復(fù)現(xiàn)了所謂的 “Aha moment”,或者僅提供訓(xùn)練基礎(chǔ)設(shè)施和數(shù)據(jù)(如 OpenR)。

一個(gè)由伯克利團(tuán)隊(duì)領(lǐng)銜的研究小組提出了一個(gè)大膽的想法:能否用僅 1.5B 參數(shù)的小模型,以低成本復(fù)現(xiàn) Deepseek 的訓(xùn)練秘方?他們發(fā)現(xiàn),簡(jiǎn)單復(fù)現(xiàn) Deepseek-R1 的訓(xùn)練方法需要巨大成本,即使在最小的模型上也需要數(shù)十萬(wàn)美元。但通過(guò)一系列訓(xùn)練技巧,團(tuán)隊(duì)成功將成本大幅降低,最終僅用 4500 美元,就在一個(gè) 1.5B 參數(shù)的模型上復(fù)現(xiàn)了 Deepseek 的關(guān)鍵訓(xùn)練方法。

他們的成果 ——DeepScaleR-1.5B-Preview,基于 Deepseek-R1-Distilled-Qwen-1.5B 模型,通過(guò)強(qiáng)化學(xué)習(xí)(RL)微調(diào),實(shí)現(xiàn)了驚人的 43.1% Pass@1 準(zhǔn)確率,提升了 14.3%,并在 AIME 2024 競(jìng)賽中超越了 O1-Preview。

這一成果不僅打破了 “大模型才能強(qiáng)大” 的固有認(rèn)知,更展示了 RL 在小型模型中的無(wú)限可能。

更重要的是,伯克利團(tuán)隊(duì)開(kāi)源了所有的訓(xùn)練秘方,包括模型、數(shù)據(jù)、訓(xùn)練代碼和訓(xùn)練日志,為推動(dòng) LLM 強(qiáng)化學(xué)習(xí)訓(xùn)練的普及邁出了重要一步。


  • 博客地址:https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2
  • 項(xiàng)目地址:https://github.com/agentica-project/deepscaler
  • 項(xiàng)目網(wǎng)站:https://agentica-project.com/
  • Hugging Face 模型:https://huggingface.co/agentica-org/DeepScaleR-1.5B-Preview
  • Hugging Face 數(shù)據(jù)集:https://huggingface.co/datasets/agentica-org/DeepScaleR-Preview-Dataset
  • Wandb 訓(xùn)練日志:https://wandb.ai/mluo/deepscaler-1.5b?nw=nwusermluo

這項(xiàng)研究一經(jīng)公布,受到網(wǎng)友廣泛好評(píng),有網(wǎng)友表示:「DeepScaleR-1.5B-Preview 正在撼動(dòng)人工智能領(lǐng)域?!?/span>

「DeepScaleR 開(kāi)創(chuàng)了 AI 擴(kuò)展的新時(shí)代?!?/span>

「開(kāi)源界又贏了一局?!?/span>

還有人盛贊:「這才是研究者想要的東西?!?/span>

1. 小模型的反擊:DeepScaleR 的秘密

挑戰(zhàn) RL 的極限

強(qiáng)化學(xué)習(xí)一直被視為大模型的 “專屬武器”,高昂的計(jì)算成本讓很多人望而卻步。研究團(tuán)隊(duì)發(fā)現(xiàn),假如直接復(fù)現(xiàn) Deepseek-R1 的結(jié)果 (32K 上下文長(zhǎng)度,8000 訓(xùn)練步數(shù)),即使在一個(gè) 1.5B 的小模型上,需要的 A100 GPU 時(shí)長(zhǎng)高達(dá) 70,000 小時(shí)。但研究團(tuán)隊(duì)并未退縮,他們提出了一種巧妙的策略,讓 RL 的訓(xùn)練成本降低至常規(guī)方法的 5%,最終只用了 3800 A100 GPU 小時(shí)和 4500 美元,就在 1.5B 的模型上訓(xùn)練出了一個(gè)超越 OpenAI o1-preview 的模型,DeepScaleR 的秘密,在于提出了一個(gè)迭代式上下文擴(kuò)展的訓(xùn)練策略。

迭代式上下文擴(kuò)展:小步快跑,突破瓶頸

在 RL 訓(xùn)練中,上下文窗口的選擇至關(guān)重要。選擇一個(gè)比較長(zhǎng)的上下文會(huì)導(dǎo)致訓(xùn)練變慢,而選擇一個(gè)短的上下文則可能導(dǎo)致模型沒(méi)有足夠的上下文去思考困難的問(wèn)題。

研究團(tuán)隊(duì)在訓(xùn)練前進(jìn)行了先驗(yàn)測(cè)試,發(fā)現(xiàn)錯(cuò)誤答案的平均長(zhǎng)度是正確答案的 3 倍。這表明,如果直接在大窗口上進(jìn)行訓(xùn)練,不僅訓(xùn)練速度慢,效果也可能受限,因?yàn)橛行в?xùn)練的字符(token) 數(shù)量較少。

基于這個(gè)發(fā)現(xiàn),因此他們采用了迭代式上下文擴(kuò)展策略:

  • 8K 上下文窗口:模型先在較短的上下文中簡(jiǎn)化自己的推理,精進(jìn)推理技巧。
  • 擴(kuò)展至 16K & 24K:逐步加大窗口,讓模型適應(yīng)更復(fù)雜的數(shù)學(xué)推理任務(wù)。

這種策略證明是有效的 —— 在第一輪 8K 上下文訓(xùn)練后,模型的平均回答長(zhǎng)度從 9000 字符降至 3000 字符,而 AIME 測(cè)試集上的正確率提高了 5%。隨著上下文窗口擴(kuò)展至 16K 和 24K,模型更簡(jiǎn)潔的回答方式使訓(xùn)練時(shí)間至少提升了兩倍。

數(shù)據(jù)集:四萬(wàn)道數(shù)學(xué)難題的試煉

團(tuán)隊(duì)精心構(gòu)建了一套高質(zhì)量的數(shù)學(xué)訓(xùn)練集,包括:

  • AIME(1984-2023)
  • AMC(2023 年前)
  • Omni-MATH & Still 數(shù)據(jù)集

數(shù)據(jù)篩選的關(guān)鍵步驟:

  • 答案提?。豪?gemini-1.5-pro-002 自動(dòng)提取標(biāo)準(zhǔn)答案。
  • 去重:采用 sentence-transformers/all-MiniLM-L6-v2 進(jìn)行語(yǔ)義去重,避免數(shù)據(jù)污染。
  • 過(guò)濾不可評(píng)分題目:確保訓(xùn)練數(shù)據(jù)的高質(zhì)量,使模型能夠?qū)W⒂诳沈?yàn)證的答案。

獎(jiǎng)勵(lì)函數(shù):精準(zhǔn)激勵(lì)模型進(jìn)步

傳統(tǒng)的 RL 訓(xùn)練往往使用過(guò)程獎(jiǎng)勵(lì)模型(PRM),但容易導(dǎo)致 “獎(jiǎng)勵(lì)濫用”,即模型學(xué)會(huì)取巧而非真正優(yōu)化推理能力。為了解決這一問(wèn)題,研究團(tuán)隊(duì)選擇了跟 Deepseek-R1 一樣的結(jié)果獎(jiǎng)勵(lì)模型(ORM),嚴(yán)格按照答案正確性和格式進(jìn)行評(píng)分,確保模型真正提升推理能力。

2. 實(shí)驗(yàn)結(jié)果:數(shù)據(jù)不會(huì)說(shuō)謊

在多項(xiàng)數(shù)學(xué)競(jìng)賽基準(zhǔn)測(cè)試中,DeepScaleR-1.5B-Preview 展現(xiàn)了驚人的實(shí)力:

關(guān)鍵突破點(diǎn):

  • DeepScaleR 在 AIME 2024 上超越 O1-Preview,證明了 RL 在小模型上的可行性。
  • 在所有測(cè)試集中,DeepScaleR 的平均表現(xiàn)遠(yuǎn)超基礎(chǔ)模型,展現(xiàn)了強(qiáng)化學(xué)習(xí)的巨大潛力。

3. 關(guān)鍵發(fā)現(xiàn):為什么 DeepScaleR 能成功?

(1)RL 并非大模型專屬,小模型同樣能崛起

DeepScaleR 的成功打破了強(qiáng)化學(xué)習(xí)只能用于大模型的迷思。研究團(tuán)隊(duì)通過(guò)高質(zhì)量的 SFT 數(shù)據(jù),讓 1.5B 小模型的 AIME 準(zhǔn)確率從 28.9% 提升至 43.1%,證明了小模型也能通過(guò) RL 實(shí)現(xiàn)飛躍。

(2)迭代式上下文擴(kuò)展:比暴力訓(xùn)練更高效

直接在 24K 上下文窗口中進(jìn)行強(qiáng)化學(xué)習(xí),效果遠(yuǎn)不如逐步擴(kuò)展。先學(xué)短推理,再擴(kuò)展長(zhǎng)推理,可以讓模型更穩(wěn)定地適應(yīng)復(fù)雜任務(wù),同時(shí)減少訓(xùn)練成本。

4. 結(jié)論:RL 的新紀(jì)元

DeepScaleR-1.5B-Preview 的成功,不僅展示了小模型在強(qiáng)化學(xué)習(xí)中的無(wú)限潛力,也證明了高效訓(xùn)練策略的重要性。團(tuán)隊(duì)希望通過(guò)開(kāi)源數(shù)據(jù)集、代碼和訓(xùn)練日志,推動(dòng) RL 在 LLM 推理中的廣泛應(yīng)用。

下一步,他們計(jì)劃在更大規(guī)模的模型上復(fù)現(xiàn)這一策略,并邀請(qǐng)社區(qū)共同探索 RL 的新可能。

或許,下一個(gè)挑戰(zhàn) OpenAI 的模型,就藏在這樣一個(gè)小小的實(shí)驗(yàn)之中。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-02-11 16:17:42

2024-12-09 12:10:07

2024-09-13 06:32:25

2025-01-21 10:10:56

2025-02-03 14:17:27

2025-04-07 02:25:00

DeepSeek模型訓(xùn)練GRPO

2024-11-05 14:20:00

AI模型

2025-02-12 12:04:54

2024-07-22 07:10:00

小模型機(jī)器學(xué)習(xí)蘋果

2024-09-18 09:17:00

OpenAI模型開(kāi)源

2025-03-05 10:21:04

DeepSeekLVLM

2024-11-19 15:00:00

模型開(kāi)源

2025-04-15 09:19:00

模型AI數(shù)據(jù)

2025-01-06 08:30:00

3D模型數(shù)據(jù)

2025-01-10 12:58:37

2024-09-24 11:01:03

2024-11-25 17:23:10

2025-02-19 13:50:00

明星編程軟件

2025-04-09 09:15:00

數(shù)據(jù)模型AI

2024-09-14 14:00:00

AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)