自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

360智腦開源Light-R1！1000美元數(shù)學(xué)上首次從零超越DeepSeek-R1-Distill

作者：機器之心 2025-03-06 10:00:00

人工智能開源

360 智腦聯(lián)合北大開源了 TinyR1-32B-Preview，從 DeepSeek-R1-Distill-Qwen-32B 訓(xùn)練，在數(shù)學(xué)、科學(xué)和代碼上取得了接近 DeepSeek-R1 滿血版的優(yōu)異效果。

2025 年 3 月 4 日，360 智腦開源了 Light-R1-32B 模型，以及全部訓(xùn)練數(shù)據(jù)、代碼。僅需 12 臺 H800 上 6 小時即可訓(xùn)練完成，從沒有長思維鏈的 Qwen2.5-32B-Instruct 出發(fā)，僅使用 7 萬條數(shù)學(xué)數(shù)據(jù)訓(xùn)練，得到 Light-R1-32B，在 AIME24 測試基準(zhǔn)中取得 76.6 分、AIME25 取得 64.6 分，在數(shù)學(xué)評測上開源首次實現(xiàn)從零大幅超越 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分和 54.9 分。

一周前，360 智腦聯(lián)合北大開源了 TinyR1-32B-Preview，從 DeepSeek-R1-Distill-Qwen-32B 訓(xùn)練，在數(shù)學(xué)、科學(xué)和代碼上取得了接近 DeepSeek-R1 滿血版的優(yōu)異效果。Light-R1-32B 則不依賴 DeepSeek-R1-Distill，從沒有長思維鏈的模型出發(fā)，在數(shù)學(xué)上從零復(fù)現(xiàn)并超越了 DeepSeek-R1-Distill-Qwen-32B。360 智腦希望這些工作助力開源社區(qū)發(fā)展。

注：表中為 64 次采樣均分，較 16 次平均更穩(wěn)定；其他開源模型截取開源匯報的結(jié)果，若沒有則測試 64 次取均分。

模型倉庫：https://huggingface.co/qihoo360/Light-R1-32B
項目地址：https://github.com/Qihoo360/Light-R1

低成本從零超越，領(lǐng)域?qū)＞?/span>

DeepSeek-R1 模型發(fā)布以來，盡管許多開源工作試圖在 72B 或更小的模型上復(fù)現(xiàn)長思維鏈的 DeepSeek-R1 的性能，但至今還沒有在 AIME24 等高難度數(shù)學(xué)競賽中達到接近 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分的成績。

360 智腦開源的 Light-R1-32B 實現(xiàn)了突破，從沒有長思維鏈的 Qwen2.5-32B-Instruct 開始訓(xùn)練，它在 AIME24 上取得了 76.6 的高分、在 AIME25 上 64.6 分，均顯著超越 DeepSeek-R1-Distill-Qwen-32B。

Light-R1-32B 的這套從零訓(xùn)練的方案，按 H800 租用價格估算，訓(xùn)練成本僅需 1000 美元左右。僅使用了 7 萬條數(shù)學(xué)數(shù)據(jù)，通過兩階段的課程學(xué)習(xí) SFT 接著 DPO，即可超過 DeepSeek-R1-Distill-Qwen-32B，12 臺 H800 機器的訓(xùn)練時長僅需 6 小時以內(nèi)（約 4+0.5+0.5 小時）。

雖然僅使用數(shù)學(xué)數(shù)據(jù)訓(xùn)練了模型的長思維鏈能力，但在 GPQA Diamond 任務(wù)上的優(yōu)秀結(jié)果，讓我們相信 Light-R1 的訓(xùn)練方案的泛化性及有效性。相比于內(nèi)部目前正在研發(fā)的強化學(xué)習(xí)路線，Light-R1 的課程學(xué)習(xí) SFT+DPO 對整個訓(xùn)練流程更輕便，成本也更友好。隨著訓(xùn)練和推理技術(shù)的不斷發(fā)展，未來長思維鏈模型將更加普及，Light-R1 正為低成本快速訓(xùn)練一個領(lǐng)域?qū)＞评砟Ｐ吞峁┝酥匾獏⒖肌?/span>

全量開源，簡單易用

Light-R1 開源首日即開源全量訓(xùn)練和評測資產(chǎn)：

Light-R1-32B 模型：沿用 Qwen2.5-32B Apache 2.0 License；
課程學(xué)習(xí) SFT+DPO 數(shù)據(jù)集：兩階段課程學(xué)習(xí) SFT 和 DPO 的全部數(shù)據(jù)；
360-LLaMA-Factory 訓(xùn)練框架：在長思維鏈數(shù)據(jù) Post-Training（尤其是 DPO）上解鎖序列并行；
完整評測代碼和結(jié)果：基于 DeepScaleR 的評測工具，Light-R1-32B 的原始采樣結(jié)果也在 Huggingface 模型目錄下。

Fully open at Day 1，確?？尚哦群涂蓮?fù)現(xiàn)性。360 智腦也正在探索強化學(xué)習(xí)續(xù)訓(xùn)，未來性能有望進一步提升。

Light-R1-32B 基于 Qwen tokenizer 增加了個別特殊 token。使用 Light-R1-32B 模型時，因其長思維鏈能力目前僅通過數(shù)學(xué)數(shù)據(jù)訓(xùn)練，故并不會對所有用戶輸入輸出長思維鏈。參照 DeepSeek 的推理建議，我們在聊天模板中硬編碼了 < think> token 強制其思考。建議使用較新版本的 vLLM 或 SGLang 進行推理。

課程 SFT+DPO，穩(wěn)步提升

數(shù)據(jù)準(zhǔn)備

訓(xùn)練用的數(shù)學(xué)題來自 OpenR1-Math-220k、OpenThoughts-114k、Omni-MATH、AIME（截至 2023 年）等多個開源的數(shù)學(xué)數(shù)據(jù)集，并對 AIME、MATH、GPQA 等基準(zhǔn)測試的數(shù)據(jù)泄露去除了污染的題目。

數(shù)學(xué)題的答案抓取了 DeepSeek-R1 的結(jié)果并經(jīng)過驗證過濾。同時使用 DeepScaleR-1.5B-Preview 進行采樣根據(jù)回答正確率估算題目的難度分級。

課程學(xué)習(xí) SFT+DPO

基于 Qwen2.5-32B-Instruct，依次進行 Post-Training：

SFT 階段 1：根據(jù)驗證結(jié)果和難度分級初篩，得到 7 萬條數(shù)據(jù)進行 SFT；
SFT 階段 2：在 SFT 階段 1 之后，篩選出難度最大的 3 千條數(shù)據(jù)，進行 SFT；
DPO 階段：在 SFT 階段 2 之后，在 3 千條數(shù)據(jù)上多次采樣 Light-R1-SFT 階段 2 的回答，根據(jù)驗證結(jié)果和 DeepSeek-R1 的回答構(gòu)建 DPO pair 對，進行 DPO，使用 DPO 原始 loss 或 NCA loss。

模型融合

最終，智腦團隊將 SFT 階段 2、DPO 和另一個 DPO 版本的模型（AIME24 74.7 分）融合，使用 Arcee 團隊的 mergekit 工具，得到 Light-R1-32B。這兩個 DPO 版本在訓(xùn)練數(shù)據(jù)和超參上略有不同。

整個訓(xùn)練流程中，每一步的提升都在前文的表格中體現(xiàn)。在完全沒訓(xùn)練的科學(xué)類題目評測 GPQA 上，數(shù)學(xué)專項訓(xùn)練導(dǎo)致了部分遺忘，但 Light-R1-32B 也體現(xiàn)了較強的泛化性。

數(shù)據(jù)去重，助力開源生態(tài)

基準(zhǔn)測試分?jǐn)?shù)既有其重要性，也有局限性。雖然預(yù)訓(xùn)練階段的個別基準(zhǔn)測試污染難以完全避免，但在后訓(xùn)練階段，應(yīng)當(dāng)嚴(yán)格杜絕數(shù)據(jù)污染，在訓(xùn)練集中對測試數(shù)據(jù)嚴(yán)格去重。360 智腦在研發(fā)過程中發(fā)現(xiàn)，雖然開源數(shù)據(jù)集對 AIME 都沒有污染，但是在 MATH-500 和 GPQA 上都存在一定污染，通過 N-gram 或純字母匹配檢測，可以發(fā)現(xiàn)原題或僅更改數(shù)字的計算題。針對這種情況，Light-R1-32B 在訓(xùn)練過程中做了嚴(yán)格去重。

在開源社區(qū)中，Light-R1-32B 是首個從零訓(xùn)練超越 DeepSeek-R1-Distill-Qwen-32B 的模型。Light-R1-32B 基于開源模型 Qwen2.5-32B-Instruct 和 DeepSeek-R1 和多個開源數(shù)據(jù)，使用開源框架 360-LLaMA-Factory 訓(xùn)練，使用開源項目 DeepScaleR 和 verl 評測。360 希望通過 Light-R1-32B 和上周開源的 TinyR1 等工作助力開源生態(tài)發(fā)展，加速中國 AI。

注：本文 “從零” 表示從沒有長思維鏈的模型開始訓(xùn)練

團隊成員：Liang Wen, Fenrui Xiao, Xin He, Yunke Cai, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang

責(zé)任編輯：張燕妮來源：機器之心

模型開源訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<blockquote id="gijgy"></blockquote>

<cite id="gijgy"><track id="gijgy"></track></cite>