自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大推理模型DeepSeek-R1深度解讀:成本降低95%,推動(dòng)語言模型推理效率新高度 精華

發(fā)布于 2025-1-24 11:15
瀏覽
0收藏

以開源技術(shù)挑戰(zhàn)領(lǐng)先 AI 供應(yīng)商而聞名的中國 AI 初創(chuàng)公司 DeepSeek 又投下了一顆重磅炸彈:一款名為 DeepSeek - R1 的新型開源推理大語言模型(LLM)。除了在基準(zhǔn)測(cè)試中性能幾乎與 OpenAI 的 o1 相匹配外,新的 DeepSeek - R1 成本也非常低。具體來說,OpenAI o1 每百萬輸入令牌成本為 15 美元,每百萬輸出令牌成本為 60 美元,而基于 R1 模型的 DeepSeek Reasoner 每百萬輸入令牌成本為 0.55 美元,每百萬輸出令牌成本為 2.19 美元。開源 DeepSeek - R1 采用純強(qiáng)化學(xué)習(xí)達(dá)到 OpenAI o1 的水平,成本卻低 95%。

大推理模型DeepSeek-R1深度解讀:成本降低95%,推動(dòng)語言模型推理效率新高度-AI.x社區(qū)

大推理模型DeepSeek-R1深度解讀:成本降低95%,推動(dòng)語言模型推理效率新高度-AI.x社區(qū)

在人工智能領(lǐng)域,大語言模型發(fā)展迅速,但在推理能力方面還有提升空間。之前很多方法都沒能達(dá)到像 OpenAI o1 系列模型那樣的推理水平。本文的研究就是想通過新的強(qiáng)化學(xué)習(xí)和訓(xùn)練方法來提高模型的推理能力,開發(fā)出了 DeepSeek-R1-Zero 和 DeepSeek-R1 模型,并且在很多任務(wù)上取得了很好的成績(jī),還把大模型的能力蒸餾到小模型上,為后續(xù)研究和應(yīng)用提供了新的思路和模型基礎(chǔ),對(duì)推動(dòng)人工智能語言模型的發(fā)展有重要意義。

我們?cè)敿?xì)翻譯解讀最新論文,文末有相關(guān)信息。

本文主要圍繞 DeepSeek 公司開發(fā)的 DeepSeek-R1-Zero 和 DeepSeek-R1 模型展開。首先介紹了研究背景,即大語言模型快速發(fā)展但推理能力提升仍有挑戰(zhàn),現(xiàn)有方法未達(dá) OpenAI o1 系列模型水平。接著闡述模型訓(xùn)練方法,DeepSeek-R1-Zero 基于基礎(chǔ)模型直接用強(qiáng)化學(xué)習(xí)訓(xùn)練,采用 GRPO 算法、規(guī)則獎(jiǎng)勵(lì)系統(tǒng)和特定模板,訓(xùn)練中展現(xiàn)出性能提升、自我進(jìn)化及“頓悟時(shí)刻”,但存在可讀性和語言混合問題;DeepSeek-R1 則先利用冷啟動(dòng)數(shù)據(jù)微調(diào),再進(jìn)行強(qiáng)化學(xué)習(xí),包括推理導(dǎo)向訓(xùn)練、拒絕采樣與監(jiān)督微調(diào)及全場(chǎng)景強(qiáng)化學(xué)習(xí)等階段。還介紹了從 DeepSeek-R1 向小模型蒸餾的方法及效果。實(shí)驗(yàn)部分在多基準(zhǔn)測(cè)試上評(píng)估模型,結(jié)果顯示 DeepSeek-R1 在推理、知識(shí)和其他任務(wù)上表現(xiàn)出色,蒸餾模型也優(yōu)于部分已有模型。最后討論了蒸餾與強(qiáng)化學(xué)習(xí)的對(duì)比及一些不成功嘗試,并指出模型未來研究方向如提升通用能力、解決語言混合等問題。

摘要&&解讀

我們推出了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是通過大規(guī)模強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練而成的模型,無需監(jiān)督微調(diào)(SFT)作為預(yù)備步驟,展現(xiàn)出了卓越的推理能力。通過RL,DeepSeek-R1-Zero自然地呈現(xiàn)出眾多強(qiáng)大且有趣的推理行為。然而,它也面臨著諸如可讀性差和語言混合等挑戰(zhàn)。為了解決這些問題并進(jìn)一步提升推理性能,我們引入了DeepSeek-R1,它在RL之前結(jié)合了多階段訓(xùn)練和冷啟動(dòng)數(shù)據(jù)。DeepSeek-R1在推理任務(wù)上的性能與OpenAI-o1-1217相當(dāng)。為了支持研究社區(qū),我們開源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Qwen和Llama從DeepSeek-R1蒸餾得到的六個(gè)密集模型(1.5B、7B、8B、14B、32B、70B)。

大推理模型DeepSeek-R1深度解讀:成本降低95%,推動(dòng)語言模型推理效率新高度-AI.x社區(qū)

  • 研究背景:近年來大語言模型快速迭代,但在推理能力方面仍有提升空間?,F(xiàn)有方法如基于過程的獎(jiǎng)勵(lì)模型、強(qiáng)化學(xué)習(xí)、搜索算法等在提升推理性能上未達(dá) OpenAI o1 系列模型水平,且在測(cè)試時(shí)縮放等方面存在問題,在此背景下本文展開研究。
  • 研究貢獻(xiàn):

首次驗(yàn)證了可通過純強(qiáng)化學(xué)習(xí)激勵(lì)大語言模型推理能力,無需監(jiān)督微調(diào),開發(fā)出 DeepSeek-R1-Zero 模型。

提出包含冷啟動(dòng)數(shù)據(jù)和多階段訓(xùn)練的 DeepSeek-R1 訓(xùn)練管道,提升模型性能與實(shí)用性。

證明可將大模型推理模式蒸餾到小模型,開源相關(guān)模型及數(shù)據(jù),為研究社區(qū)提供資源。

  • 實(shí)現(xiàn)設(shè)計(jì):

DeepSeek-R1-Zero 采用 GRPO 算法,基于規(guī)則獎(jiǎng)勵(lì)系統(tǒng)(準(zhǔn)確性和格式獎(jiǎng)勵(lì)),用特定模板訓(xùn)練,引導(dǎo)模型生成推理過程和答案。

DeepSeek-R1 先收集冷啟動(dòng)數(shù)據(jù)微調(diào)基礎(chǔ)模型,再進(jìn)行推理導(dǎo)向強(qiáng)化學(xué)習(xí)(引入語言一致性獎(jiǎng)勵(lì)),之后通過拒絕采樣和監(jiān)督微調(diào)擴(kuò)充數(shù)據(jù)并訓(xùn)練模型,最后進(jìn)行全場(chǎng)景強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化。

蒸餾技術(shù)是用 DeepSeek-R1 生成的數(shù)據(jù)對(duì) Qwen 和 Llama 等開源模型進(jìn)行監(jiān)督微調(diào)。

  • 實(shí)驗(yàn)結(jié)果:

DeepSeek-R1 在多個(gè)推理任務(wù)(如 AIME 2024、MATH-500)、知識(shí)基準(zhǔn)測(cè)試(如 MMLU、GPQA Diamond)及其他任務(wù)(如寫作、問答等)上表現(xiàn)優(yōu)異,與 OpenAI-o1-1217 相當(dāng)或更優(yōu)。

蒸餾模型在推理相關(guān)基準(zhǔn)測(cè)試上成績(jī)突出,如 DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 等測(cè)試中優(yōu)于部分已有模型。

  • 關(guān)鍵詞:強(qiáng)化學(xué)習(xí);推理能力;語言模型;蒸餾

一、引言

近年來,大語言模型(LLMs)經(jīng)歷了快速的迭代和演進(jìn)(Anthropic,2024;Google,2024;OpenAI,2024a),逐漸縮小了與通用人工智能(AGI)的差距。

最近,后訓(xùn)練已成為完整訓(xùn)練流程的重要組成部分。它已被證明可以提高推理任務(wù)的準(zhǔn)確性、與社會(huì)價(jià)值觀對(duì)齊并適應(yīng)用戶偏好,而且相對(duì)于預(yù)訓(xùn)練所需的計(jì)算資源相對(duì)較少。在推理能力方面,OpenAI的o1(OpenAI,2024b)系列模型率先通過增加思維鏈(Chain-of-Thought)推理過程的長(zhǎng)度引入了推理時(shí)縮放。這種方法在數(shù)學(xué)、編碼和科學(xué)推理等各種推理任務(wù)中取得了顯著的改進(jìn)。然而,有效的測(cè)試時(shí)縮放的挑戰(zhàn)仍然是研究社區(qū)的一個(gè)開放問題。先前的一些工作探索了各種方法,包括基于過程的獎(jiǎng)勵(lì)模型(Lightman等人,2023;Uesato等人,2022;Wang等人,2023)、強(qiáng)化學(xué)習(xí)(Kumar等人,2024)以及蒙特卡洛樹搜索和束搜索等搜索算法(Feng等人,2024;Trinh等人,2024;Xin等人,2024)。然而,這些方法都沒有達(dá)到與OpenAI的o1系列模型相當(dāng)?shù)耐ㄓ猛评硇阅堋?/p>

在本文中,我們朝著使用純強(qiáng)化學(xué)習(xí)(RL)提高語言模型推理能力邁出了第一步。我們的目標(biāo)是探索LLMs在沒有任何監(jiān)督數(shù)據(jù)的情況下發(fā)展推理能力的潛力,重點(diǎn)關(guān)注它們通過純RL過程的自我進(jìn)化。具體來說,我們使用DeepSeek-V3-Base作為基礎(chǔ)模型,并采用GRPO(Shao等人,2024)作為RL框架來提高模型在推理方面的性能。在訓(xùn)練過程中,DeepSeek-R1-Zero自然地呈現(xiàn)出許多強(qiáng)大而有趣的推理行為。經(jīng)過數(shù)千次RL步驟后,DeepSeek-R1-Zero在推理基準(zhǔn)測(cè)試中表現(xiàn)出色。例如,在AIME 2024上的pass@1分?jǐn)?shù)從15.6%提高到了71.0%,通過多數(shù)投票,分?jǐn)?shù)進(jìn)一步提高到86.7%,與OpenAI-o1-0912的性能相匹配。

然而,DeepSeek-R1-Zero遇到了諸如可讀性差和語言混合等挑戰(zhàn)。為了解決這些問題并進(jìn)一步提高推理性能,我們引入了DeepSeek-R1,它結(jié)合了少量冷啟動(dòng)數(shù)據(jù)和多階段訓(xùn)練管道。具體來說,我們首先收集數(shù)千個(gè)冷啟動(dòng)數(shù)據(jù)來微調(diào)DeepSeek-V3-Base模型。在此之后,我們像訓(xùn)練DeepSeek-R1-Zero一樣進(jìn)行面向推理的RL。在RL過程接近收斂時(shí),我們通過對(duì)RL檢查點(diǎn)進(jìn)行拒絕采樣,并結(jié)合來自DeepSeek-V3在寫作、事實(shí)問答和自我認(rèn)知等領(lǐng)域的監(jiān)督數(shù)據(jù)來創(chuàng)建新的SFT數(shù)據(jù),然后重新訓(xùn)練DeepSeek-V3-Base模型。使用新數(shù)據(jù)進(jìn)行微調(diào)后,檢查點(diǎn)再經(jīng)過一個(gè)RL過程,考慮來自所有場(chǎng)景的提示。經(jīng)過這些步驟,我們獲得了一個(gè)稱為DeepSeek-R1的檢查點(diǎn),其性能與OpenAI-o1-1217相當(dāng)。

我們進(jìn)一步探索了從DeepSeek-R1到較小密集模型的蒸餾。使用Qwen2.5-32B(Qwen,2024b)作為基礎(chǔ)模型,直接從DeepSeek-R1進(jìn)行蒸餾的效果優(yōu)于在其上應(yīng)用RL。這表明較大基礎(chǔ)模型發(fā)現(xiàn)的推理模式對(duì)于提高推理能力至關(guān)重要。我們開源了蒸餾后的Qwen和Llama(Dubey等人,2024)系列。值得注意的是,我們蒸餾得到的14B模型遠(yuǎn)遠(yuǎn)優(yōu)于最先進(jìn)的開源QwQ-32B-Preview(Qwen,2024a),并且蒸餾得到的32B和70B模型在密集模型的推理基準(zhǔn)測(cè)試中創(chuàng)下了新紀(jì)錄。

1.1 貢獻(xiàn)

  • 基礎(chǔ)模型的大規(guī)模強(qiáng)化學(xué)習(xí):我們直接將強(qiáng)化學(xué)習(xí)(RL)應(yīng)用于基礎(chǔ)模型,而無需依賴監(jiān)督微調(diào)(SFT)作為初步步驟。這種方法允許模型探索用于解決復(fù)雜問題的思維鏈(CoT),從而產(chǎn)生了DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了諸如自我驗(yàn)證、反思和生成長(zhǎng)CoT等能力,為研究社區(qū)標(biāo)志著一個(gè)重要的里程碑。值得注意的是,這是首次公開驗(yàn)證LLMs的推理能力可以純粹通過RL激勵(lì),而無需SFT。這一突破為該領(lǐng)域的未來發(fā)展鋪平了道路。
  • DeepSeek-R1的訓(xùn)練管道:我們介紹了開發(fā)DeepSeek-R1的管道。該管道包括兩個(gè)旨在發(fā)現(xiàn)改進(jìn)的推理模式并與人類偏好對(duì)齊的RL階段,以及兩個(gè)作為模型推理和非推理能力種子的SFT階段。我們相信該管道將通過創(chuàng)建更好的模型使行業(yè)受益。
  • 蒸餾:小型模型也可以很強(qiáng)大:我們證明了較大模型的推理模式可以蒸餾到較小模型中,與通過在小型模型上進(jìn)行RL發(fā)現(xiàn)的推理模式相比,性能更好。開源的DeepSeek-R1及其API將有利于研究社區(qū)在未來蒸餾出更好的小型模型。
  • 使用DeepSeek-R1生成的推理數(shù)據(jù)對(duì)多個(gè)密集模型進(jìn)行微調(diào):評(píng)估結(jié)果表明,蒸餾后的較小密集模型在基準(zhǔn)測(cè)試中表現(xiàn)出色。DeepSeek-R1-Distill-Qwen-7B在AIME 2024上達(dá)到55.5%,超過了QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B在AIME 2024上得分為72.6%,在MATH-500上為94.3%,在LiveCodeBench上為57.2%。這些結(jié)果顯著優(yōu)于先前的開源模型,并且與o1-mini相當(dāng)。我們向社區(qū)開源了基于Qwen2.5和Llama3系列的1.5B、7B、8B、14B、32B和70B檢查點(diǎn)。

1.2 評(píng)估結(jié)果總結(jié)

  • 推理任務(wù):(1)DeepSeek-R1在AIME 2024上的Pass@1分?jǐn)?shù)達(dá)到79.8%,略高于OpenAI-o1-1217。在MATH-500上,它獲得了令人印象深刻的97.3%的分?jǐn)?shù),與OpenAI-o1-1217相當(dāng),并且顯著優(yōu)于其他模型。(2)在編碼相關(guān)任務(wù)上,DeepSeek-R1在代碼競(jìng)賽任務(wù)中表現(xiàn)出專家水平,在Codeforces上達(dá)到2029的Elo評(píng)級(jí),超過了比賽中96.3%的人類參與者。在工程相關(guān)任務(wù)上,DeepSeek-R1的表現(xiàn)略優(yōu)于DeepSeek-V3,這可以幫助開發(fā)人員完成實(shí)際任務(wù)。
  • 知識(shí):在MMLU、MMLU-Pro和GPQA Diamond等基準(zhǔn)測(cè)試中,DeepSeek-R1取得了出色的結(jié)果,在MMLU上的得分為90.8%,在MMLU-Pro上為84.0%,在GPQA Diamond上為71.5%,顯著優(yōu)于DeepSeek-V3。雖然在這些基準(zhǔn)測(cè)試上它的性能略低于OpenAI-o1-1217,但DeepSeek-R1超過了其他閉源模型,展示了其在教育任務(wù)中的競(jìng)爭(zhēng)優(yōu)勢(shì)。在事實(shí)基準(zhǔn)測(cè)試SimpleQA上,DeepSeek-R1優(yōu)于DeepSeek-V3,展示了其處理基于事實(shí)的查詢的能力。在這個(gè)基準(zhǔn)測(cè)試上,OpenAI-o1超過GPT-4o也呈現(xiàn)出類似的趨勢(shì)。
  • 其他:DeepSeek-R1在廣泛的任務(wù)中也表現(xiàn)出色,包括創(chuàng)意寫作、一般問答、編輯、總結(jié)等。它在AlpacaEval 2.0上實(shí)現(xiàn)了令人印象深刻的87.6%的長(zhǎng)度控制勝率,在ArenaHard上的勝率為92.3%,展示了其智能處理非考試導(dǎo)向查詢的強(qiáng)大能力。此外,DeepSeek-R1在需要長(zhǎng)上下文理解的任務(wù)中表現(xiàn)出色,在長(zhǎng)上下文基準(zhǔn)測(cè)試上顯著優(yōu)于DeepSeek-V3。

二、方法

2.1 概述

先前的工作在很大程度上依賴于大量的監(jiān)督數(shù)據(jù)來提高模型性能。在本研究中,我們證明了通過大規(guī)模強(qiáng)化學(xué)習(xí)(RL)可以顯著提高推理能力,即使在不使用監(jiān)督微調(diào)(SFT)作為冷啟動(dòng)的情況下也是如此。此外,通過包含少量冷啟動(dòng)數(shù)據(jù)可以進(jìn)一步提高性能。在以下部分中,我們將介紹:(1)DeepSeek-R1-Zero,它直接將RL應(yīng)用于基礎(chǔ)模型而無需任何SFT數(shù)據(jù);(2)DeepSeek-R1,它從使用數(shù)千個(gè)長(zhǎng)思維鏈(CoT)示例微調(diào)的檢查點(diǎn)開始應(yīng)用RL;(3)將DeepSeek-R1的推理能力蒸餾到小型密集模型中。

2.2 DeepSeek-R1-Zero:基礎(chǔ)模型上的強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)在推理任務(wù)中已被證明是非常有效的,正如我們之前的工作所表明的(Shao等人,2024;Wang等人,2023)。然而,這些工作在很大程度上依賴于監(jiān)督數(shù)據(jù),而收集這些數(shù)據(jù)是非常耗時(shí)的。在本節(jié)中,我們探索LLMs在沒有任何監(jiān)督數(shù)據(jù)的情況下發(fā)展推理能力的潛力,重點(diǎn)關(guān)注它們通過純強(qiáng)化學(xué)習(xí)過程的自我進(jìn)化。我們首先簡(jiǎn)要概述我們的強(qiáng)化學(xué)習(xí)算法,然后展示一些令人興奮的結(jié)果,并希望這能為社區(qū)提供有價(jià)值的見解。

2.2.1 強(qiáng)化學(xué)習(xí)算法

大推理模型DeepSeek-R1深度解讀:成本降低95%,推動(dòng)語言模型推理效率新高度-AI.x社區(qū)

用戶和助手之間的對(duì)話。用戶提出問題,助手解決問題。助手首先在腦海中思考推理過程,然后向用戶提供答案。推理過程和答案分別包含在和標(biāo)簽內(nèi),即這里是推理過程這里是答案。

2.2.2 獎(jiǎng)勵(lì)建模

獎(jiǎng)勵(lì)是訓(xùn)練信號(hào)的來源,它決定了RL的優(yōu)化方向。為了訓(xùn)練DeepSeek-R1-Zero,我們采用了基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng),主要包括兩種類型的獎(jiǎng)勵(lì):

  • 準(zhǔn)確性獎(jiǎng)勵(lì):準(zhǔn)確性獎(jiǎng)勵(lì)模型評(píng)估響應(yīng)是否正確。例如,對(duì)于具有確定性結(jié)果的數(shù)學(xué)問題,模型需要以指定的格式(例如,在框內(nèi))提供最終答案,以便能夠基于規(guī)則可靠地驗(yàn)證正確性。同樣,對(duì)于LeetCode問題,可以使用編譯器根據(jù)預(yù)定義的測(cè)試用例生成反饋。
  • 格式獎(jiǎng)勵(lì):除了準(zhǔn)確性獎(jiǎng)勵(lì)模型外,我們還采用了格式獎(jiǎng)勵(lì)模型,強(qiáng)制模型將其思考過程放在和標(biāo)簽之間。

在開發(fā)DeepSeek-R1-Zero時(shí),我們沒有應(yīng)用結(jié)果或過程神經(jīng)獎(jiǎng)勵(lì)模型,因?yàn)槲覀儼l(fā)現(xiàn)神經(jīng)獎(jiǎng)勵(lì)模型在大規(guī)模強(qiáng)化學(xué)習(xí)過程中可能會(huì)遭受獎(jiǎng)勵(lì)破解問題,并且重新訓(xùn)練獎(jiǎng)勵(lì)模型需要額外的訓(xùn)練資源,這會(huì)使整個(gè)訓(xùn)練管道復(fù)雜化。

2.2.3 訓(xùn)練模板

為了訓(xùn)練DeepSeek-R1-Zero,我們?cè)O(shè)計(jì)了一個(gè)簡(jiǎn)單的模板,引導(dǎo)基礎(chǔ)模型遵循我們指定的指令。如表1所示,這個(gè)模板要求DeepSeek-R1-Zero首先生成推理過程,然后是最終答案。我們有意將約束限制在這種結(jié)構(gòu)格式上,避免任何特定內(nèi)容的偏差,例如強(qiáng)制進(jìn)行反思性推理或推廣特定的問題解決策略,以確保我們能夠準(zhǔn)確觀察模型在強(qiáng)化學(xué)習(xí)(RL)過程中的自然進(jìn)展。

大推理模型DeepSeek-R1深度解讀:成本降低95%,推動(dòng)語言模型推理效率新高度-AI.x社區(qū)

2.2.4 DeepSeek-R1-Zero的性能、自我進(jìn)化過程和“頓悟時(shí)刻”DeepSeek-R1-Zero的性能:圖2展示了DeepSeek-R1-Zero在AIME 2024基準(zhǔn)測(cè)試中整個(gè)強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練過程中的性能軌跡。如圖所示,隨著RL訓(xùn)練的推進(jìn),DeepSeek-R1-Zero的性能穩(wěn)步且持續(xù)地提高。值得注意的是,AIME 2024上的平均pass@1分?jǐn)?shù)顯著提高,從最初的15.6%躍升至令人印象深刻的71.0%,達(dá)到了與OpenAI-o1-0912相當(dāng)?shù)男阅芩?。這一顯著的改進(jìn)凸顯了我們的RL算法在隨著時(shí)間優(yōu)化模型性能方面的有效性。

大推理模型DeepSeek-R1深度解讀:成本降低95%,推動(dòng)語言模型推理效率新高度-AI.x社區(qū)

  • 與OpenAI的o1-0912模型的比較:表2提供了DeepSeek-R1-Zero和OpenAI的o1-0912模型在各種推理相關(guān)基準(zhǔn)測(cè)試上的對(duì)比分析。結(jié)果表明,RL使DeepSeek-R1-Zero能夠在無需任何監(jiān)督微調(diào)數(shù)據(jù)的情況下獲得強(qiáng)大的推理能力。這是一項(xiàng)值得注意的成就,因?yàn)樗鼜?qiáng)調(diào)了模型僅通過RL就能有效學(xué)習(xí)和泛化的能力。此外,通過應(yīng)用多數(shù)投票,DeepSeek-R1-Zero的性能可以進(jìn)一步提高。例如,在AIME基準(zhǔn)測(cè)試上應(yīng)用多數(shù)投票時(shí),DeepSeek-R1-Zero的性能從71.0%提升到86.7%,從而超過了OpenAI-o1-0912的性能。DeepSeek-R1-Zero在有和沒有多數(shù)投票的情況下都能達(dá)到如此有競(jìng)爭(zhēng)力的性能,凸顯了其強(qiáng)大的基礎(chǔ)能力以及在推理任務(wù)中進(jìn)一步發(fā)展的潛力。
  • 自我進(jìn)化過程:DeepSeek-R1-Zero的自我進(jìn)化過程是RL如何驅(qū)動(dòng)模型自主提高推理能力的一個(gè)引人入勝的展示。通過直接從基礎(chǔ)模型啟動(dòng)RL,我們可以在不受監(jiān)督微調(diào)階段影響的情況下密切監(jiān)測(cè)模型的進(jìn)展。這種方法清晰地展示了模型如何隨時(shí)間演變,特別是在處理復(fù)雜推理任務(wù)的能力方面。
  • 思考時(shí)間的增加:如圖3所示,DeepSeek-R1-Zero在訓(xùn)練過程中的思考時(shí)間持續(xù)增加。這種改進(jìn)不是外部調(diào)整的結(jié)果,而是模型內(nèi)部的內(nèi)在發(fā)展。DeepSeek-R1-Zero通過利用擴(kuò)展的測(cè)試時(shí)計(jì)算自然地獲得了解決日益復(fù)雜推理任務(wù)的能力。這種計(jì)算從生成數(shù)百到數(shù)千個(gè)推理標(biāo)記不等,使模型能夠更深入地探索和完善其思維過程。大推理模型DeepSeek-R1深度解讀:成本降低95%,推動(dòng)語言模型推理效率新高度-AI.x社區(qū)
  • 復(fù)雜行為的出現(xiàn):這種自我進(jìn)化最顯著的方面之一是隨著測(cè)試時(shí)計(jì)算的增加出現(xiàn)了復(fù)雜的行為。例如,反思行為(模型重新審視和重新評(píng)估其先前步驟)以及探索替代問題解決方法等行為自發(fā)地出現(xiàn)。這些行為不是顯式編程的,而是模型與強(qiáng)化學(xué)習(xí)環(huán)境相互作用的結(jié)果。這種自發(fā)的發(fā)展顯著增強(qiáng)了DeepSeek-R1-Zero的推理能力,使其能夠更高效、更準(zhǔn)確地處理更具挑戰(zhàn)性的任務(wù)。
  • “頓悟時(shí)刻”:在DeepSeek-R1-Zero的訓(xùn)練過程中觀察到的一個(gè)特別有趣的現(xiàn)象是“頓悟時(shí)刻”的出現(xiàn)。如表3所示,這個(gè)時(shí)刻出現(xiàn)在模型的一個(gè)中間版本中。在此階段,DeepSeek - R1 - Zero通過重新評(píng)估其初始方法學(xué)會(huì)為一個(gè)問題分配更多的思考時(shí)間。這種行為不僅證明了模型推理能力的不斷增長(zhǎng),也是強(qiáng)化學(xué)習(xí)如何產(chǎn)生意想不到的復(fù)雜結(jié)果的一個(gè)引人入勝的例子。大推理模型DeepSeek-R1深度解讀:成本降低95%,推動(dòng)語言模型推理效率新高度-AI.x社區(qū)

這個(gè)時(shí)刻不僅是模型的“頓悟時(shí)刻”,也是觀察其行為的研究人員的“頓悟時(shí)刻”。它凸顯了強(qiáng)化學(xué)習(xí)的力量和美妙之處:我們不是明確地教導(dǎo)模型如何解決問題,而只是提供正確的激勵(lì),它就能夠自主地發(fā)展出先進(jìn)的問題解決策略?!邦D悟時(shí)刻”有力地提醒了我們強(qiáng)化學(xué)習(xí)在解鎖人工系統(tǒng)新智能水平方面的潛力,為未來更自主和自適應(yīng)的模型鋪平了道路。

DeepSeek - R1 - Zero的缺點(diǎn):盡管DeepSeek - R1 - Zero表現(xiàn)出強(qiáng)大的推理能力并自主發(fā)展出意想不到的強(qiáng)大推理行為,但它也面臨著一些問題。例如,DeepSeek - R1 - Zero在可讀性差和語言混合等方面存在困難。為了使推理過程更具可讀性并與開放社區(qū)分享,我們探索了DeepSeek - R1,一種利用帶有人類友好冷啟動(dòng)數(shù)據(jù)的強(qiáng)化學(xué)習(xí)的方法。

2.3 DeepSeek - R1:帶有冷啟動(dòng)的強(qiáng)化學(xué)習(xí)

受DeepSeek - R1 - Zero有前景的結(jié)果啟發(fā),出現(xiàn)了兩個(gè)自然的問題:1)通過納入少量高質(zhì)量數(shù)據(jù)作為冷啟動(dòng),推理性能是否可以進(jìn)一步提高或加速收斂?2)我們?nèi)绾斡?xùn)練一個(gè)用戶友好的模型,它不僅能生成清晰連貫的思維鏈(CoT),還能展示出強(qiáng)大的通用能力?為了解決這些問題,我們?cè)O(shè)計(jì)了一個(gè)訓(xùn)練DeepSeek - R1的管道。該管道由四個(gè)階段組成,概述如下。

2.3.1 冷啟動(dòng)

與DeepSeek - R1 - Zero不同,為了防止RL訓(xùn)練從基礎(chǔ)模型開始的早期不穩(wěn)定冷啟動(dòng)階段,對(duì)于DeepSeek - R1,我們構(gòu)建并收集了少量長(zhǎng)CoT數(shù)據(jù)來微調(diào)模型作為初始RL執(zhí)行者。為了收集此類數(shù)據(jù),我們探索了幾種方法:使用帶有長(zhǎng)CoT示例的少樣本提示、直接提示模型生成帶有反思和驗(yàn)證的詳細(xì)答案、收集DeepSeek - R1 - Zero的可讀格式輸出,并通過人工注釋者的后處理來精煉結(jié)果。

在這項(xiàng)工作中,我們收集了數(shù)千個(gè)冷啟動(dòng)數(shù)據(jù)來微調(diào)DeepSeek - V3 - Base作為RL的起點(diǎn)。與DeepSeek - R1 - Zero相比,冷啟動(dòng)數(shù)據(jù)的優(yōu)勢(shì)包括:

  • 可讀性:DeepSeek - R1 - Zero的一個(gè)關(guān)鍵限制是其內(nèi)容通常不適合閱讀。響應(yīng)可能混合多種語言或缺乏用于為用戶突出顯示答案的markdown格式。相比之下,在為DeepSeek - R1創(chuàng)建冷啟動(dòng)數(shù)據(jù)時(shí),我們?cè)O(shè)計(jì)了一種可讀模式,在每個(gè)響應(yīng)的末尾包含一個(gè)總結(jié),并過濾掉對(duì)讀者不友好的響應(yīng)。這里,我們將輸出格式定義為|特殊標(biāo)記|<推理過程>|特殊標(biāo)記|<總結(jié)>,其中推理過程是查詢的CoT,總結(jié)用于總結(jié)推理結(jié)果。
  • 潛力:通過根據(jù)人類先驗(yàn)精心設(shè)計(jì)冷啟動(dòng)數(shù)據(jù)的模式,我們觀察到相對(duì)于DeepSeek - R1 - Zero有更好的性能。我們相信迭代訓(xùn)練是推理模型的更好方法。

2.3.2 面向推理的強(qiáng)化學(xué)習(xí)

在冷啟動(dòng)數(shù)據(jù)上微調(diào)DeepSeek - V3 - Base之后,我們應(yīng)用與DeepSeek - R1 - Zero中相同的大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練過程。這個(gè)階段側(cè)重于提高模型的推理能力,特別是在推理密集型任務(wù)中,如編碼、數(shù)學(xué)、科學(xué)和邏輯推理,這些任務(wù)涉及定義明確且有清晰解決方案的問題。在訓(xùn)練過程中,我們觀察到CoT經(jīng)常出現(xiàn)語言混合的情況,特別是當(dāng)RL提示涉及多種語言時(shí)。為了緩解語言混合的問題,我們?cè)赗L訓(xùn)練期間引入了語言一致性獎(jiǎng)勵(lì),它計(jì)算為CoT中目標(biāo)語言單詞的比例。雖然消融實(shí)驗(yàn)表明這種對(duì)齊會(huì)導(dǎo)致模型性能略有下降,但這種獎(jiǎng)勵(lì)符合人類偏好,使其更具可讀性。最后,我們通過直接將推理任務(wù)的準(zhǔn)確性和語言一致性獎(jiǎng)勵(lì)相加來形成最終獎(jiǎng)勵(lì)。然后,我們對(duì)微調(diào)后的模型應(yīng)用強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,直到它在推理任務(wù)上達(dá)到收斂。

2.3.3 拒絕采樣和監(jiān)督微調(diào)

當(dāng)面向推理的RL收斂時(shí),我們利用得到的檢查點(diǎn)為下一輪收集SFT(監(jiān)督微調(diào))數(shù)據(jù)。與主要關(guān)注推理的初始冷啟動(dòng)數(shù)據(jù)不同,這個(gè)階段納入了來自其他領(lǐng)域的數(shù)據(jù),以增強(qiáng)模型在寫作、角色扮演和其他通用任務(wù)中的能力。具體來說,我們生成數(shù)據(jù)并微調(diào)模型如下:

  • 推理數(shù)據(jù):我們整理推理提示,并通過從上述RL訓(xùn)練的檢查點(diǎn)進(jìn)行拒絕采樣來生成推理軌跡。在先前階段,我們只納入了可以使用基于規(guī)則的獎(jiǎng)勵(lì)進(jìn)行評(píng)估的數(shù)據(jù)。然而,在這個(gè)階段,我們通過納入額外的數(shù)據(jù)擴(kuò)展了數(shù)據(jù)集,其中一些數(shù)據(jù)使用生成式獎(jiǎng)勵(lì)模型,通過將真實(shí)值和模型預(yù)測(cè)輸入到DeepSeek - V3中進(jìn)行判斷。此外,由于模型輸出有時(shí)混亂且難以閱讀,我們過濾掉了混合語言的思維鏈、長(zhǎng)段落和代碼塊。對(duì)于每個(gè)提示,我們采樣多個(gè)響應(yīng)并只保留正確的響應(yīng)??偣?,我們收集了大約60萬個(gè)與推理相關(guān)的訓(xùn)練樣本。
  • 非推理數(shù)據(jù):對(duì)于非推理數(shù)據(jù),如寫作、事實(shí)問答、自我認(rèn)知和翻譯,我們采用DeepSeek - V3管道并重用DeepSeek - V3的部分SFT數(shù)據(jù)集。對(duì)于某些非推理任務(wù),我們?cè)诨卮饐栴}之前通過提示調(diào)用DeepSeek - V3生成潛在的思維鏈。然而,對(duì)于更簡(jiǎn)單的查詢,如“hello”,我們?cè)陧憫?yīng)中不提供CoT。最后,我們總共收集了大約20萬個(gè)與推理無關(guān)的訓(xùn)練樣本。

我們使用上述約80萬個(gè)樣本的精選數(shù)據(jù)集對(duì)DeepSeek - V3 - Base進(jìn)行了兩個(gè)epoch的微調(diào)。

2.3.4 所有場(chǎng)景的強(qiáng)化學(xué)習(xí)

為了進(jìn)一步使模型與人類偏好對(duì)齊,我們實(shí)施了一個(gè)二級(jí)強(qiáng)化學(xué)習(xí)階段,旨在提高模型的幫助性和無害性,同時(shí)完善其推理能力。具體來說,我們使用獎(jiǎng)勵(lì)信號(hào)和多樣化的提示分布組合來訓(xùn)練模型。對(duì)于推理數(shù)據(jù),我們遵循DeepSeek - R1 - Zero中概述的方法,利用基于規(guī)則的獎(jiǎng)勵(lì)來指導(dǎo)數(shù)學(xué)、代碼和邏輯推理領(lǐng)域的學(xué)習(xí)過程。對(duì)于一般數(shù)據(jù),我們借助獎(jiǎng)勵(lì)模型在復(fù)雜和微妙的場(chǎng)景中捕捉人類偏好。我們基于DeepSeek - V3管道并采用類似的偏好對(duì)和訓(xùn)練提示分布。對(duì)于幫助性,我們專注于最終總結(jié),確保評(píng)估強(qiáng)調(diào)響應(yīng)對(duì)用戶的效用和相關(guān)性,同時(shí)盡量減少對(duì)底層推理過程的干擾。對(duì)于無害性,我們?cè)u(píng)估模型的整個(gè)響應(yīng),包括推理過程和總結(jié),以識(shí)別和減輕在生成過程中可能出現(xiàn)的任何潛在風(fēng)險(xiǎn)、偏差或有害內(nèi)容。最終,獎(jiǎng)勵(lì)信號(hào)和多樣化數(shù)據(jù)分布的整合使我們能夠訓(xùn)練出一個(gè)在推理方面表現(xiàn)出色,同時(shí)優(yōu)先考慮幫助性和無害性的模型。

2.4 蒸餾:賦予小型模型推理能力

為了使更高效的小型模型具備像DeepSeek - R1這樣的推理能力,我們使用DeepSeek - R1整理的80萬個(gè)樣本直接對(duì)開源模型如Qwen(Qwen,2024b)和Llama(AI@Meta,2024)進(jìn)行微調(diào),如§2.3.3中所述。我們的研究結(jié)果表明,這種直接蒸餾方法顯著增強(qiáng)了小型模型的推理能力。我們這里使用的基礎(chǔ)模型是Qwen2.5 - Math - 1.5B、Qwen2.5 - Math - 7B、Qwen2.5 - 14B、Qwen2.5 - 32B、Llama - 3.1 - 8B和Llama - 3.3 - 70B - Instruct。我們選擇Llama - 3.3是因?yàn)樗耐评砟芰β詢?yōu)于Llama - 3.1。

對(duì)于蒸餾模型,我們只應(yīng)用SFT,不包括RL階段,盡管納入RL可以顯著提高模型性能。我們的主要目標(biāo)是證明蒸餾技術(shù)的有效性,將RL階段的探索留給更廣泛的研究社區(qū)。

三、實(shí)驗(yàn)

  • 基準(zhǔn)測(cè)試:我們?cè)贛MLU(Hendrycks等人,2020)、MMLU - Redux(Gema等人,2024)、MMLU - Pro(Wang等人,2024)、C - Eval(Huang等人,2023)、CMMLU(Li等人,2023)、IFEval(Zhou等人,2023)、FRAMES(Krishna等人,2024)、GPQA Diamond(Rein等人,2023)、SimpleQA(OpenAI,2024c)、C - SimpleQA(He等人,2024)、SWE - Bench Verified(OpenAI,2024d)、Aider 1、LiveCodeBench(Jain等人,2024)(2024 - 08 – 2025 - 01)、Codeforces 2、中國高中數(shù)學(xué)奧林匹克(CNMO 2024)3和美國數(shù)學(xué)邀請(qǐng)賽2024(AIME 2024)(MAA,2024)等基準(zhǔn)測(cè)試上評(píng)估模型。除了標(biāo)準(zhǔn)基準(zhǔn)測(cè)試外,我們還使用LLMs作為評(píng)委在開放式生成任務(wù)上評(píng)估我們的模型。具體來說,我們遵循AlpacaEval 2.0(Dubois等人,2024)和Arena - Hard(Li等人,2024)的原始配置,它們使用GPT - 4 - Turbo - 1106作為評(píng)委進(jìn)行成對(duì)比較。在這里,我們只將最終總結(jié)輸入到評(píng)估中,以避免長(zhǎng)度偏差。對(duì)于蒸餾模型,我們報(bào)告在AIME 2024、MATH - 500、GPQA Diamond、Codeforces和LiveCodeBench上的代表性結(jié)果。
  • 評(píng)估提示:遵循DeepSeek - V3的設(shè)置,標(biāo)準(zhǔn)基準(zhǔn)測(cè)試如MMLU、DROP、GPQA Diamond和SimpleQA使用來自simpleevals框架的提示進(jìn)行評(píng)估。對(duì)于MMLU - Redux,我們?cè)诹銟颖驹O(shè)置中采用Zero - Eval提示格式(Lin,2024)。對(duì)于MMLU - Pro、C - Eval和CLUE - WSC,由于原始提示是少樣本的,我們將提示稍微修改為零樣本設(shè)置。少樣本中的CoT可能會(huì)損害DeepSeek - R1的性能。其他數(shù)據(jù)集遵循其原始評(píng)估協(xié)議,使用其創(chuàng)建者提供的默認(rèn)提示。對(duì)于代碼和數(shù)學(xué)基準(zhǔn)測(cè)試,HumanEval - Mul數(shù)據(jù)集涵蓋八種主流編程語言(Python、Java、C++、C#、JavaScript、TypeScript、PHP和Bash)。LiveCodeBench上的模型性能使用CoT格式進(jìn)行評(píng)估,數(shù)據(jù)收集時(shí)間為2024年8月至2025年1月。Codeforces數(shù)據(jù)集使用10個(gè)Div.2競(jìng)賽的問題以及專家制作的測(cè)試用例進(jìn)行評(píng)估,然后計(jì)算預(yù)期評(píng)級(jí)和競(jìng)爭(zhēng)對(duì)手的百分比。SWE - Bench驗(yàn)證結(jié)果通過無代理框架(Xia等人,2024)獲得。AIDER相關(guān)基準(zhǔn)測(cè)試使用“diff”格式進(jìn)行測(cè)量。DeepSeek - R1在每個(gè)基準(zhǔn)測(cè)試上的輸出最多限制為32,768個(gè)標(biāo)記。
  • 基線:我們對(duì)幾個(gè)強(qiáng)大的基線進(jìn)行了全面評(píng)估,包括DeepSeek - V3、Claude - Sonnet - 3.5 - 1022、GPT - 4o - 0513、OpenAI - o1 - mini和OpenAI - o1 - 1217。由于在中國大陸訪問OpenAI - o1 - 1217 API具有挑戰(zhàn)性,我們根據(jù)官方報(bào)告報(bào)告其性能。對(duì)于蒸餾模型,我們還比較了開源模型QwQ - 32B - Preview(Qwen,2024a)。
  • 生成設(shè)置:對(duì)于我們所有的模型,最大生成長(zhǎng)度設(shè)置為32,768個(gè)標(biāo)記。對(duì)于需要采樣的基準(zhǔn)測(cè)試,我們使用溫度為0.6、top - p值為0.95,并為每個(gè)查詢生成64個(gè)響應(yīng)來估計(jì)pass@1。

3.1 DeepSeek - R1評(píng)估

對(duì)于以教育為導(dǎo)向的知識(shí)基準(zhǔn)測(cè)試,如MMLU、MMLU - Pro和GPQA Diamond,DeepSeek - R1相對(duì)于DeepSeek - V3表現(xiàn)出更優(yōu)的性能。這種改進(jìn)主要?dú)w因于在STEM相關(guān)問題上的準(zhǔn)確性提高,這是通過大規(guī)模強(qiáng)化學(xué)習(xí)(RL)實(shí)現(xiàn)的顯著增益。此外,DeepSeek - R1在FRAMES上表現(xiàn)出色,這是一個(gè)依賴長(zhǎng)上下文的問答任務(wù),展示了其強(qiáng)大的文檔分析能力。這凸顯了推理模型在人工智能驅(qū)動(dòng)的搜索和數(shù)據(jù)分析任務(wù)中的潛力。在事實(shí)基準(zhǔn)測(cè)試SimpleQA上,DeepSeek - R1優(yōu)于DeepSeek - V3,展示了其處理基于事實(shí)的查詢的能力。在這個(gè)基準(zhǔn)測(cè)試上,OpenAI - o1超過GPT - 4o也呈現(xiàn)出類似的趨勢(shì)。然而,DeepSeek - R1在中文SimpleQA基準(zhǔn)測(cè)試上的表現(xiàn)比DeepSeek - V3差,主要是因?yàn)樵诎踩玆L之后它傾向于拒絕回答某些查詢。如果沒有安全RL,DeepSeek - R1的準(zhǔn)確率可以超過70%。

大推理模型DeepSeek-R1深度解讀:成本降低95%,推動(dòng)語言模型推理效率新高度-AI.x社區(qū)

DeepSeek - R1在IF - Eval上也取得了令人印象深刻的結(jié)果,IF - Eval是一個(gè)旨在評(píng)估模型遵循格式指令能力的基準(zhǔn)測(cè)試。這些改進(jìn)可以與在監(jiān)督微調(diào)(SFT)和RL訓(xùn)練的最后階段納入指令遵循數(shù)據(jù)相關(guān)聯(lián)。此外,在AlpacaEval2.0和ArenaHard上的出色表現(xiàn)表明DeepSeek - R1在寫作任務(wù)和開放域問答方面的優(yōu)勢(shì)。它相對(duì)于DeepSeek - V3的顯著優(yōu)勢(shì)凸顯了大規(guī)模RL的泛化益處,不僅提高了推理能力,還提高了在不同領(lǐng)域的性能。此外,DeepSeek - R1生成的總結(jié)長(zhǎng)度簡(jiǎn)潔,在ArenaHard上平均為689個(gè)標(biāo)記,在AlpacaEval 2.0上為2,218個(gè)字符。這表明DeepSeek - R1在基于GPT的評(píng)估中避免了引入長(zhǎng)度偏差,進(jìn)一步鞏固了其在多個(gè)任務(wù)中的穩(wěn)健性。

在數(shù)學(xué)任務(wù)上,DeepSeek - R1的性能與OpenAI - o1 - 1217相當(dāng),遠(yuǎn)遠(yuǎn)超過其他模型。在編碼算法任務(wù)上,如LiveCodeBench和Codeforces,也觀察到類似的趨勢(shì),其中專注于推理的模型在這些基準(zhǔn)測(cè)試中占主導(dǎo)地位。在面向工程的編碼任務(wù)上,OpenAI - o1 - 1217在Aider上的表現(xiàn)優(yōu)于DeepSeek - R1,但在SWE Verified上的性能相當(dāng)。我們相信DeepSeek - R1的工程性能將在未來版本中得到提高,因?yàn)槟壳跋嚓P(guān)的RL訓(xùn)練數(shù)據(jù)量仍然非常有限。

3.2 蒸餾模型評(píng)估

如表5所示,簡(jiǎn)單地蒸餾DeepSeek - R1的輸出使高效的DeepSeek - R1 - 7B(即DeepSeek - R1 - Distill - Qwen - 7B,以下類似縮寫)在各個(gè)方面都優(yōu)于非推理模型,如GPT - 4o - 0513。DeepSeek - R1 - 14B在所有評(píng)估指標(biāo)上都超過了QwQ - 32B - Preview,而DeepSeek - R1 - 32B和DeepSeek - R1 - 70B在大多數(shù)基準(zhǔn)測(cè)試上顯著超過了o1 - mini。這些結(jié)果展示了蒸餾的強(qiáng)大潛力。此外,我們發(fā)現(xiàn)對(duì)這些蒸餾模型應(yīng)用RL會(huì)帶來進(jìn)一步的顯著收益。我們認(rèn)為這值得進(jìn)一步探索,因此這里只展示簡(jiǎn)單SFT蒸餾模型的結(jié)果。

大推理模型DeepSeek-R1深度解讀:成本降低95%,推動(dòng)語言模型推理效率新高度-AI.x社區(qū)

四、討論

4.1 蒸餾與強(qiáng)化學(xué)習(xí)

在第3.2節(jié)中,我們看到通過蒸餾DeepSeek - R1,小型模型可以取得令人印象深刻的結(jié)果。然而,仍然存在一個(gè)問題:模型是否可以通過本文中討論的大規(guī)模RL訓(xùn)練而不進(jìn)行蒸餾來達(dá)到類似的性能?

大推理模型DeepSeek-R1深度解讀:成本降低95%,推動(dòng)語言模型推理效率新高度-AI.x社區(qū)

為了回答這個(gè)問題,我們使用數(shù)學(xué)、代碼和STEM數(shù)據(jù)對(duì)Qwen - 32B - Base進(jìn)行了大規(guī)模RL訓(xùn)練,訓(xùn)練超過10K步,得到DeepSeek - R1 - Zero - Qwen - 32B。實(shí)驗(yàn)結(jié)果如圖6所示,表明32B基礎(chǔ)模型在經(jīng)過大規(guī)模RL訓(xùn)練后,性能與QwQ - 32B - Preview相當(dāng)。然而,從DeepSeek - R1蒸餾得到的DeepSeek - R1 - Distill - Qwen - 32B在所有基準(zhǔn)測(cè)試上的表現(xiàn)都顯著優(yōu)于DeepSeek - R1 - Zero - Qwen - 32B。因此,我們可以得出兩個(gè)結(jié)論:首先,將更強(qiáng)大的模型蒸餾到較小的模型中會(huì)產(chǎn)生出色的結(jié)果,而依賴于本文中大規(guī)模RL的較小模型需要巨大的計(jì)算能力,甚至可能無法達(dá)到蒸餾的性能。其次,雖然蒸餾策略既經(jīng)濟(jì)又有效,但要超越智能的邊界可能仍然需要更強(qiáng)大的基礎(chǔ)模型和更大規(guī)模的強(qiáng)化學(xué)習(xí)。

4.2 不成功的嘗試

在開發(fā)DeepSeek - R1的早期階段,我們也遇到了失敗和挫折。我們?cè)谶@里分享我們的失敗經(jīng)驗(yàn),以提供見解,但這并不意味著這些方法無法開發(fā)出有效的推理模型。

  • 過程獎(jiǎng)勵(lì)模型(PRM):PRM是一種引導(dǎo)模型采用更好的方法解決推理任務(wù)的合理方法(Lightman等人,2023;Uesato等人,2022;Wang等人,2023)。然而,在實(shí)踐中,PRM有三個(gè)主要限制,可能會(huì)阻礙其最終成功。首先,在一般推理中明確定義精細(xì)步驟是具有挑戰(zhàn)性的。其次,確定當(dāng)前中間步驟是否正確是一項(xiàng)艱巨的任務(wù)。使用模型進(jìn)行自動(dòng)注釋可能無法產(chǎn)生令人滿意的結(jié)果,而手動(dòng)注釋不利于擴(kuò)大規(guī)模。第三,一旦引入基于模型的PRM,它不可避免地會(huì)導(dǎo)致獎(jiǎng)勵(lì)破解(Gao等人,2022),并且重新訓(xùn)練獎(jiǎng)勵(lì)模型需要額外的訓(xùn)練資源,這會(huì)使整個(gè)訓(xùn)練管道復(fù)雜化??傊?,雖然PRM在對(duì)模型生成的前N個(gè)響應(yīng)進(jìn)行重新排名或協(xié)助引導(dǎo)搜索方面表現(xiàn)出良好的能力(Snell等人,2024),但在我們的實(shí)驗(yàn)中,與它在大規(guī)模強(qiáng)化學(xué)習(xí)過程中引入的額外計(jì)算開銷相比,其優(yōu)勢(shì)有限。
  • 蒙特卡洛樹搜索(MCTS):受 AlphaGo(Silver 等人,2017b)和 AlphaZero(Silver 等人,2017a)的啟發(fā),我們探索了使用蒙特卡洛樹搜索(MCTS)來增強(qiáng)測(cè)試時(shí)計(jì)算的可擴(kuò)展性。這種方法涉及將答案分解為更小的部分,以便模型能夠系統(tǒng)地探索解空間。為了便于此操作,我們提示模型生成與搜索所需的特定推理步驟相對(duì)應(yīng)的多個(gè)標(biāo)記。對(duì)于訓(xùn)練,我們首先使用收集的提示通過基于預(yù)訓(xùn)練值模型引導(dǎo)的 MCTS 找到答案。隨后,我們使用得到的問答對(duì)來訓(xùn)練演員模型和值模型,迭代地改進(jìn)這個(gè)過程。

然而,當(dāng)擴(kuò)大訓(xùn)練規(guī)模時(shí),這種方法遇到了幾個(gè)挑戰(zhàn)。首先,與國際象棋不同,在國際象棋中搜索空間相對(duì)明確,而在語言模型中,標(biāo)記生成呈現(xiàn)出指數(shù)級(jí)更大的搜索空間。為了解決這個(gè)問題,我們?yōu)槊總€(gè)節(jié)點(diǎn)設(shè)置了最大擴(kuò)展限制,但這可能導(dǎo)致模型陷入局部最優(yōu)。其次,值模型直接影響生成的質(zhì)量,因?yàn)樗笇?dǎo)搜索過程的每一步。訓(xùn)練一個(gè)精細(xì)粒度的值模型本身就很困難,這使得模型難以迭代地改進(jìn)。雖然 AlphaGo 的核心成功依賴于訓(xùn)練一個(gè)值模型來逐步提高其性能,但由于標(biāo)記生成的復(fù)雜性,在我們的設(shè)置中很難復(fù)制這個(gè)原則。

總之,雖然 MCTS 在與預(yù)訓(xùn)練值模型配對(duì)時(shí)可以在推理期間提高性能,但通過自我搜索迭代地提高模型性能仍然是一個(gè)重大挑戰(zhàn)。

五、結(jié)論、限制和未來工作

在這項(xiàng)工作中,我們分享了通過強(qiáng)化學(xué)習(xí)(RL)提高模型推理能力的歷程。DeepSeek - R1 - Zero 代表了一種純粹的 RL 方法,無需依賴?yán)鋯?dòng)數(shù)據(jù),在各種任務(wù)中都取得了強(qiáng)大的性能。DeepSeek - R1 更強(qiáng)大,它利用冷啟動(dòng)數(shù)據(jù)和迭代的 RL 微調(diào)。最終,DeepSeek - R1 在一系列任務(wù)上的性能與 OpenAI - o1 - 1217 相當(dāng)。

我們進(jìn)一步探索了將推理能力蒸餾到小型密集模型中。我們使用 DeepSeek - R1 作為教師模型生成 800K 數(shù)據(jù),并對(duì)幾個(gè)小型密集模型進(jìn)行微調(diào)。結(jié)果很有前景:DeepSeek - R1 - Distill - Qwen - 1.5B 在數(shù)學(xué)基準(zhǔn)測(cè)試上優(yōu)于 GPT - 4o 和 Claude - 3.5 - Sonnet,在 AIME 上得分為 28.9%,在 MATH 上為 83.9%。其他密集模型也取得了令人印象深刻的結(jié)果,顯著優(yōu)于基于相同底層檢查點(diǎn)的其他指令調(diào)整模型。

在未來,我們計(jì)劃在以下方向?qū)?DeepSeek - R1 進(jìn)行研究:

  • 通用能力:目前,DeepSeek - R1 在函數(shù)調(diào)用、多輪、復(fù)雜角色扮演和 json 輸出等任務(wù)中的能力不如 DeepSeek - V3。未來,我們計(jì)劃探索如何利用長(zhǎng) CoT 來增強(qiáng)這些領(lǐng)域的任務(wù)。
  • 語言混合:DeepSeek - R1 目前針對(duì)中文和英文進(jìn)行了優(yōu)化,在處理其他語言的查詢時(shí)可能會(huì)出現(xiàn)語言混合問題。例如,即使查詢不是英文或中文,DeepSeek - R1 也可能使用英文進(jìn)行推理和響應(yīng)。我們的目標(biāo)是在未來的更新中解決這個(gè)限制。
  • 提示工程:在評(píng)估 DeepSeek - R1 時(shí),我們觀察到它對(duì)提示很敏感。少樣本提示會(huì)持續(xù)降低其性能。因此,我們建議用戶直接描述問題并在零樣本設(shè)置中指定輸出格式以獲得最佳結(jié)果。
  • 軟件工程任務(wù):由于評(píng)估時(shí)間長(zhǎng),影響了 RL 過程的效率,大規(guī)模 RL 尚未在軟件工程任務(wù)中廣泛應(yīng)用。因此,DeepSeek - R1 在軟件工程基準(zhǔn)測(cè)試上相對(duì)于 DeepSeek - V3 沒有顯示出巨大的改進(jìn)。未來版本將通過對(duì)軟件工程數(shù)據(jù)進(jìn)行拒絕采樣或在 RL 過程中納入異步評(píng)估來解決這個(gè)問題,以提高效率。

參考資料

  • 標(biāo)題:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
  • 作者:DeepSeek-AI
  • 標(biāo)簽:人工智能、強(qiáng)化學(xué)習(xí)、大語言模型、推理能力、模型蒸餾
  • 概述: 本文介紹了 DeepSeek-R1-Zero 和 DeepSeek-R1 模型,通過強(qiáng)化學(xué)習(xí)及多階段訓(xùn)練提升推理能力,在多個(gè)任務(wù)上取得優(yōu)異成績(jī),并對(duì)小模型進(jìn)行蒸餾,開源相關(guān)模型及數(shù)據(jù)。
  • 鏈接:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

本文轉(zhuǎn)載自 ??旺知識(shí)??,作者: 旺知識(shí)

已于2025-1-24 11:23:54修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦