自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

開源22萬條DeepSeek R1的高質量數據!你也能復現DeepSeek了

人工智能 新聞
DeepSeek-R1 雖然開源,但也沒有完全開源,訓練數據、訓練腳本等關鍵信息并未完全公布。

DeepSeek 在海內外攪起的驚濤巨浪,余波仍在洶涌。

當中國大模型撕開硅谷的防線之后,在預設中總是落后半拍的中國 AI 軍團,這次竟完成了一次反向技術輸出,引發(fā)了全球范圍內復現 DeepSeek 的熱潮。

DeepSeek-R1 雖然開源,但也沒有完全開源,訓練數據、訓練腳本等關鍵信息并未完全公布。

不過,有技術報告,相當于擁有著復現 R1 的指導方針,已經有不少執(zhí)行力強的團隊用小模型見證「aha moment」了。在浩浩蕩蕩的復刻大軍中,最令人矚目的,當數 Hugging Face 領銜的 Open R1 項目。

Open R1 宣稱要做到完全開放復現 DeepSeek-R1,補齊 DeepSeek 所有未公開的技術細節(jié)。Open R1 項目剛剛啟動不過幾周,他們已經完成了:

  • GRPO 實現
  • 訓練與評估代碼
  • 用于合成數據的生成器

項目地址:https://github.com/huggingface/open-r1

在開源社區(qū)的眾志成城,Open R1 更是動作迅速。今天,他們發(fā)布了 OpenR1-Math-220k 數據集,又補全了一塊 DeepSeek R1「碎片」—— 合成數據。

OpenR1-Math-220k 數據集概覽

數據集鏈接:https://huggingface.co/datasets/open-r1/OpenR1-Math-220k

DeepSeek R1 的一個重要優(yōu)勢在于它能夠將高級推理能力遷移到較小的模型中。DeepSeek 團隊生成了 60 萬條推理數據,在 Qwen 和 Llama 等開源模型上證明了這種遷移能力。即使不使用強化學習,直接從 R1 模型進行遷移也能實現強大的推理性能。

然而,這些合成數據僅 DeepSeek 可見,未對其他團隊開放閱讀權限。

OpenR1-Math-220k 數據集就是來補上這塊空缺的。具體而言,Open R1 團隊使用 DeepSeek R1 生成了 80 萬條推理軌跡,經過篩選和驗證后得到了 22 萬條高質量數據。

這些數據可以用來支持更小的模型,來達到媲美 DeepSeek R1 的效果。比如在 OpenR1-Math-220k 數據集上訓練出來的 Qwen-7B-Math-Instruct,達到了與 DeepSeek-Distill-Qwen-7B 相當的性能。

下面就讓我們來看看 OpenR1-Math-220k 數據集的特點,以及它是怎么誕生的:

自動過濾正確答案

本地高效生成

目前,開源社區(qū)已經發(fā)布了 OpenThoughts-114k、Bespoke-Stratos-17k、Dolphin-R1 和 LIMO 等多個推理數據集。

然而,為了進行推理公眾公開發(fā)布,這促使社區(qū)獨立重建類似的數據集。另外,社區(qū)已經發(fā)布了多個開放數據集,包括 OpenThoughts-114k、Bespoke-Stratos-17k、Dolphin-R1 和 LIMO。

為了整理 OpenR1-Math-220k,Open R1 還和開發(fā)了廣受歡迎的 NuminaMath-CoT 數據集開發(fā)團隊 Numina 進行了合作。

那么,與現有數據集相比,Open R1 的數據集有什么新特點呢?

  • 80 萬條 R1 推理軌跡:使用 DeepSeek R1 為 40 萬個問題各生成了兩個答案,最終經過篩選后保留了 22 萬個具有正確推理軌跡的問題。
  • 本地運行 512 個 H100:沒有依賴 API,而是在計算集群上利用 vLLM 和 SGLang 本地運行生成任務,每天可以生成 18 萬條推理軌跡。
  • 基于 NuminaMath 1.5:專注于數學推理公式,為 NuminaMath 1.5(NuminaMath-CoT 數據集的改進版本)中的問題生成答案。
  • 自動過濾:Open R1 團隊通過數學驗證,只保留至少有一個正確答案的問題,還讓 Llama3.3-70B-Instruct 作為「判官」,以篩選出更多正確的樣本,特別是那些因格式錯誤而無法通過基于規(guī)則的解析器驗證的答案。
  • 在 OpenR1-Math-220k 訓練出來的 Qwen-7B-Math-Instruct,達到了與 DeepSeek-Distill-Qwen-7B 相當的性能。

數據集分為兩個部分:

  • default(94k 問題):這部分數據在經過監(jiān)督微調(SFT)后表現最佳。
  • extended(131k 問題):這部分數據包含額外的 NuminaMath 1.5 數據源,例如 cn_k12,提供了更多的推理公式。(研究發(fā)現這個子集在經過監(jiān)督微調后的性能低于默認數據集,可能是因為 cn_k12 中的問題相對簡單。)

Open R1 團隊表示,希望這個可擴展的、高質量的推理數據生成過程,能夠啟發(fā)代碼生成等數學之外的領域。

數據生成

為了構建數據集,OpenR1 團隊讓 DeepSeek R1 為來自 NuminaMath 1.5 的 40 萬個問題生成答案。他們遵循了 DeepSeek 技術報告中推薦的參數設置,并在提示詞前添加了以下指令:

Please reason step by step, and put your final answer within \boxed{}.

為了確保生成過程的高效性,團隊將每次生成的 tokens 限制設置為 16k。經過分析發(fā)現,只有 75% 的問題能夠在 8k tokens 內解決,而大多數剩余問題需要完整的 16k tokens。

最初,他們使用 vLLM 進行推理,每個 H100 節(jié)點每秒可以生成 15 個答案,并且相關生成腳本已分享在 OpenR1 倉庫中。最近,他們又開始嘗試使用 SGLang,每個 H100 節(jié)點每秒可以生成 25 個答案(速度提升了近兩倍),這使得 512 個 H100 節(jié)點上每天能生成 30 萬個問題的答案。

為了在后續(xù)的過濾和優(yōu)化過程中提供更大的靈活性,團隊為每個問題生成了兩個答案 —— 有時甚至生成四個。這樣一來,不僅復刻出了類似于 DeepSeek R1 允許進行拒絕采樣的方法,還能使數據集能夠適用于如 DPO 等偏好優(yōu)化方法。

數據生成腳本:https://github.com/huggingface/open-r1/tree/main/slurm。

數據過濾

為了確保數據集中只包含高質量且正確的推理結果,Open R1 團隊設計了一套數學驗證系統,用于自動比對 LLM 生成的復雜數學表達式答案與數據集中的標準答案。

在這個過程中,OpenR1 團隊發(fā)現大約 55% 的問題至少有一個正確答案。然而,NuminaMath 1.5 數據集中有很多答案是空的,或者格式不符合驗證標準,這都給自動驗證帶來了困難。

為了解決這些問題,Open R1 團隊先是對 Math-Verify 工具進行了改進,使其能夠處理更多不常見的答案格式,再使用 Llama-3.3-70B-Instruct 模型進行二次評估。

具體來說,對于那些被 Math-Verify 判定為錯誤的答案,使用 Llama-3.3-70B-Instruct 模型重新評估,識別實際上正確但因格式問題被錯判的答案。最終,他們找回了 2.5 萬條被「誤判」的數據。

優(yōu)化 Math-Verify 工具:對 Math-Verify 工具進行了改進,使其能夠處理更多不常見的答案格式。

讓 Llama-3.3-70B-Instruct 「作判官」的提示詞如下:

You are a mathematical answer validator. You will be provided with a mathematical problem and you need to compare the answer in the reference solution, and the final answer in a model's solution to determine if they are equivalent, even if formatted differently.

PROBLEM:

{problem}

REFERENCE SOLUTION:

{answer}

MODEL'S SOLUTION:

{generation}

Focus ONLY on comparing the final mathematical answer provided by the model while ignoring differences in:

- Formatting (e.g., \\boxed{{}} vs plain text)
- Multiple choice formatting (e.g., "A" vs full solution)
- Order of coordinate pairs or solutions
- Equivalent mathematical expressions or notation variations
- If the model's answer is nonsense, return "Verdict: AMBIGUOUS"

Start with a brief explanation of your comparison (2-3 sentences). Then output your final answer in one of the following formats:

- "Verdict: EQUIVALENT"
- "Verdict: DIFFERENT"
- "Verdict: AMBIGUOUS"

對于那些包含多個正確答案的數據行,團隊嘗試使用獎勵模型(RM)作為最終篩選器來選擇最佳答案。具體操作如下:

首先,從每個包含多個正確答案的數據行中,去掉(<think>…</think>),提取最終答案;第二,將問題和提取的答案輸入到配置了 vLLM 的 Qwen/Qwen2.5-Math-RM-72B 模型中,獲取每個答案的評分;接著,根據模型評分,對每個包含多個正確答案的數據行排名,選擇排名最高的答案納入訓練數據集。

遺憾的是,消融實驗表明,這種方法并沒有比隨機選擇一個正確答案帶來更好的模型性能。Open R1 團隊的判斷是,可能在使用獎勵模型評分時,不僅要考慮最終答案,還要包括推理過程。

Open R1 訓練出來的新模型 VS DeepSeek-Distill-Qwen-7B

Open R1 在 OpenR1-Math-220k 的基礎上,對 Qwen2.5-Math-Instruct 進行了 3 輪微調,學習率為 5e-5。

為了將上下文長度從 4k 擴展到 32k,他們將 RoPE 頻率提高到 300k。訓練遵循線性學習率調度,其中包含 10% 的預熱階段。

下表展示了在 lighteval 上 OpenR1-Qwen-7B、DeepSeek-Distill-Qwen-7B 和 OpenThinker-7B 的性能對比,可以看出在數學成績上,OpenR1-Qwen-7B 和 DeepSeek-Distill-Qwen-7B 差距不是非常明顯。

本周 AIME 2025 開賽,來自蘇黎世聯邦理工學院的研究人員用新題來測評了多款模型,卻發(fā)現各種模型的數學能力下降了 10-20 個百分點之間。有研究者發(fā)現這些「全新」的 AIME 題可能已經在互聯網論壇泄露,這有可能造成意外的過擬合問題,這也凸顯了新鮮測試數據的困境。

同時,開源社區(qū)也從多個角度探索了 GRPO,有多個研究實驗室表明,大約 1000 個高質量的訓練樣本可能就足以在現有的開源模型中引發(fā)推理能力

啟示和新的問題

LLM 是否需要使用自然語言進行推理?

論文鏈接:https://arxiv.org/pdf/2502.05171

馬里蘭大學的一篇論文表明,通過使用循環(huán)語言模型,可以在潛在空間中隱式推理,從而在測試時擴展計算能力,這類似于 Meta 的 Coconut。這些方法的優(yōu)勢在于它們的計算效率更高:通過探索潛在空間,無需生成大量「思考」token 即可獲得高性能。

是否要轉向更小、高質量的推理數據?

盡管 DeepSeek R1 使用了 600k 推理軌跡進行蒸餾,但最新研究表明,復雜的推理能力并非單純通過大規(guī)模訓練在語言模型中實現,而是可以通過少量精心設計的樣本達成

s1K 數據集就是一個很好的例子。它包含 1000 個經過精心挑選的數學問題,以及從 Gemini Flash 蒸餾出的推理軌跡。在選擇問題時,研究者注重難度、多樣性和質量。通過在 s1K 數據集上對 Qwen2.5-32B-Instruct 進行微調,研究者成功使其在競賽數學基準測試中超過了 OpenAI 的 o1-preview,最高提升了 27%。

另一個數據集 LIMO 也進一步驗證了這一理念。它僅使用 817 個訓練樣本,就在 AIME 和 MATH 基準測試中取得了出色的表現。LIMO 的作者推測,當模型在預訓練階段已經積累了豐富的知識后,可能只需要少量結構良好的樣本,就能解鎖高級推理能力。

CoT 長度:預算強制與獎勵塑造

Qwen2.5-32B-Instruct 模型在 s1K 數據集上微調后表現出色,其中一個關鍵因素是采用了「預算強制」。這是一種測試時的計算技術,通過在模型生成中添加「等待」token 來延長推理時間,或者添加「結束思考」的 token 來截斷推理。

這種方法使研究者能夠靈活調整模型的思考時間,并發(fā)現隨著思考時間的增加,模型在不同數學基準測試中的準確性也隨之提高。

同樣,Yeo 等人在研究《Demystifying Long Chain-of-Thought Reasoning in LLMs》中探討了思維鏈(CoT)長度對模型性能的影響。他們引入了一種名為「余弦獎勵」的新獎勵函數,用于在正確生成時激勵較短的 CoT,在錯誤生成時激勵較長的 CoT。這種獎勵機制在模型的最大上下文大小有限且平均響應長度可能失控的情況下,能夠穩(wěn)定強化學習訓練。

論文鏈接:https://arxiv.org/pdf/2502.03373

此外,當模型在處理難題時出現獎勵劫持的跡象(即通過重復而非真正解決問題來增加 CoT 長度),研究者還會采用重復懲罰機制,以避免模型陷入無效的循環(huán)推理。

Open R1 團隊表示,現在 GRPO 已經在 TRL 中順利運行,他們正在開展一系列廣泛的實驗,以了解哪些超參數和獎勵函數對訓練的影響最大。

那就讓我們靜待 Open R1 的好消息吧。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-20 15:32:28

2025-01-27 12:30:07

2025-02-07 13:10:06

2025-02-18 10:54:04

2020-12-01 13:56:56

人工智能AI數據

2025-02-08 11:31:17

DeepseekR1模型

2025-02-25 08:20:50

AI程序員DeepSeek

2025-02-12 12:12:59

2025-02-17 09:33:00

AI算法模型

2025-02-11 08:35:30

2025-01-21 11:53:53

2025-03-05 09:10:00

AI生成模型

2025-02-03 12:38:28

2025-03-13 12:41:37

2023-09-01 14:42:39

數據研究

2025-02-20 11:12:11

2022-11-03 15:10:24

前端數據結構算法

2025-03-11 02:00:00

AI工具Token-AI

2025-02-03 06:00:00

2025-03-04 17:27:05

點贊
收藏

51CTO技術棧公眾號