200美金,人人可手搓QwQ,清華、螞蟻開源極速RL框架AReaL-boba
由于 DeepSeek R1 和 OpenAI o1 等推理模型(LRM,Large Reasoning Model)帶來了新的 post-training scaling law,強化學(xué)習(xí)(RL,Reinforcement Learning)成為了大語言模型能力提升的新引擎。然而,針對大語言模型的大規(guī)模強化學(xué)習(xí)訓(xùn)練門檻一直很高:
- 流程復(fù)雜、涉及模塊多(生成、訓(xùn)練、獎勵判定等),為實現(xiàn)高效穩(wěn)定的分布式訓(xùn)練帶來很多挑戰(zhàn);
- R1/o1 類推理模型的輸出長度很長(超過 10K),并且隨著訓(xùn)練持續(xù)變化,很容易造成顯存和效率瓶頸;
- 開源社區(qū)缺乏高質(zhì)量強化學(xué)習(xí)訓(xùn)練數(shù)據(jù),以及完整可復(fù)現(xiàn)的訓(xùn)練流程。
本周,螞蟻技術(shù)研究院和清華大學(xué)交叉信息院吳翼團隊,聯(lián)合發(fā)布了訓(xùn)練速度最快最穩(wěn)定的開源強化學(xué)習(xí)訓(xùn)練框架 AReaL(Ant Reasoning RL),并公開全部數(shù)據(jù)和完成可復(fù)現(xiàn)的訓(xùn)練腳本。在最新的 AReaL v0.2 版本 AReaL-boba 中,其 7B 模型數(shù)學(xué)推理分?jǐn)?shù)刷新同尺寸模型 AIME 分?jǐn)?shù)紀(jì)錄,并且僅僅使用 200 條數(shù)據(jù)復(fù)刻 QwQ-32B,以不到 200 美金成本實現(xiàn)最強推理訓(xùn)練效果。
- 項目鏈接:https://github.com/inclusionAI/AReaL
- HuggingFace數(shù)據(jù)模型地址:https://huggingface.co/collections/inclusionAI/areal-boba-67e9f3fa5aeb74b76dcf5f0a
關(guān)于 AReaL-boba
AReaL 源自開源項目 ReaLHF,旨在讓每個人都能用強化學(xué)習(xí)輕松訓(xùn)練自己的推理模型和智能體。AReaL 承諾完全開放與可復(fù)現(xiàn),團隊將持續(xù)發(fā)布與訓(xùn)練 LRM 相關(guān)的所有代碼、數(shù)據(jù)集和訓(xùn)練流程。所有核心組件全部開源,開發(fā)者可無阻礙地使用、驗證和改進 AReaL。
本次最新版本「boba」的命名一方面源自團隊對珍珠奶茶的偏愛,另一面也是希望強化學(xué)習(xí)技術(shù)能如奶茶成為大眾飲品一般,滲透至 AI 開發(fā)的每個日常場景,普惠整個社區(qū)。
AReaL-boba 發(fā)布亮點
訓(xùn)練速度最快的開源框架
AReaL-boba 是首個全面擁抱 xAI 公司所采用的 SGLang 推理框架的開源訓(xùn)練系統(tǒng),對比初代 AReaL 訓(xùn)練大幅度提升訓(xùn)練吞吐:通過集成 SGLang 框架及多項工程優(yōu)化,AReaL-boba 可以無縫適配各種計算資源下的強化學(xué)習(xí)訓(xùn)練,實現(xiàn)吞吐在 1.5B 模型尺寸上速度提升 35%,在 7B 模型速度提升 60%,32B 模型速度提升 73%。
圖 1:AreaL-boba 對比初代 AReaL 訓(xùn)練大幅度提升訓(xùn)練吞吐
使用 AReaL-boba 即可以 128 張 H800 規(guī)模在 1 天內(nèi)訓(xùn)練完成 SOTA 1.5B 推理模型,以 256 張 H800 規(guī)模在 2 天內(nèi)完成 SOTA 7B 推理模型訓(xùn)練。
AReaL 希望讓整個社區(qū)不論單機器,還是大規(guī)模分布式訓(xùn)練,都可以輕松高效率駕馭強化學(xué)習(xí)。
7B 模型數(shù)學(xué)推理分?jǐn)?shù)斷崖領(lǐng)先
AReaL 團隊以 Qwen-R1-Distill-7B 模型為基礎(chǔ)模型,通過大規(guī)模強化學(xué)習(xí)訓(xùn)練,即可在 2 天內(nèi)取得領(lǐng)域最佳的數(shù)學(xué)推理能力,實現(xiàn) AIME 2024 61.9 分、AIME 2025 48.3 分,刷新開源社區(qū)記錄,也大幅超越了 OpenAI o1-preview。相比基礎(chǔ)模型,AReaL-boba 通過強化學(xué)習(xí)讓模型能力實現(xiàn)躍升 —— 在 AIME 2024 上提升 6.9 分,在 AIME 2025 提升 8.6 分 —— 再次證明了 RL Scaling 的價值。
表 1: 同類參數(shù)模型的不同基準(zhǔn)測試分?jǐn)?shù)
同時 AReaL-boba 不僅開源了推理模型,也開源所有的訓(xùn)練數(shù)據(jù) AReaL-boba-106k,以及全部的訓(xùn)練腳本和評估腳本,確保人人可復(fù)現(xiàn)。在項目官方倉庫上,AReaL 團隊也放出了極其詳細(xì)的技術(shù)筆記,總結(jié)了大量訓(xùn)練中的關(guān)鍵點,包括 PPO 超參數(shù)、獎勵函數(shù)設(shè)置、正則化設(shè)置、長度上限設(shè)置等等。
通過創(chuàng)新性數(shù)據(jù)蒸餾技術(shù),200 條數(shù)據(jù)復(fù)現(xiàn) QwQ-32B
在 32B 模型尺寸上,AReaL 團隊進一步精簡訓(xùn)練數(shù)據(jù)并發(fā)布數(shù)據(jù)集 AReaL-boba-SFT-200 以及相關(guān)訓(xùn)練腳本?;?R1-Distill-Qwen-32B,AReaL-boba 使用僅僅 200 條數(shù)據(jù)并以輕量級 SFT 的方式,在 AIME 2024 上復(fù)刻了 QwQ-32B 的推理結(jié)果,相當(dāng)于僅僅使用了 200 美金的計算成本,讓所有人都可以以極低的成本實現(xiàn)最強的推理訓(xùn)練效果。
表 2:同類參數(shù)模型的 AIME 2024 分?jǐn)?shù)
結(jié)語
AReaL 團隊的核心成員均來自于螞蟻研究院強化學(xué)習(xí)實驗室以及交叉信息研究院吳翼團隊,項目也借鑒了大量優(yōu)秀的開源項目,比如 DeepScaleR、SGLang、QwQ、Open-Reasoner-Zero、OpenRLHF、veRL、Light-R1 和 DAPO。作為國內(nèi)第一個完整開源(數(shù)據(jù)、代碼、模型、腳本全開源)的強化學(xué)習(xí)項目團隊,AReaL 希望能真正實現(xiàn) AI 訓(xùn)練的普惠。
AReaL 團隊在項目列表中也列出了團隊后續(xù)的開源計劃和目標(biāo),包括異步訓(xùn)練、訓(xùn)練吞吐優(yōu)化、數(shù)據(jù)集和算法升級,以及代碼和 Agent 智能體能力支持。讓我們期待 AReaL 團隊的下一個 release,猜猜是哪一款奶茶呢?