自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

圖解系列|DeepSeek-R1的出眾推理能力因何而來?

人工智能
今天這篇深度解析 DeepSeek-R1 訓(xùn)練方法的文章,將展示一個(gè)令人耳目一新的解決方案:如何通過創(chuàng)新的強(qiáng)化學(xué)習(xí)方法,在少量高質(zhì)量人工標(biāo)注數(shù)據(jù)的情況下,打造出一個(gè)推理能力出眾的 AI 模型。

圖片圖片

DeepSeek-R1 代表了人工智能發(fā)展的又一重要里程碑。對(duì)于機(jī)器學(xué)習(xí)領(lǐng)域的研究人員與開發(fā)者群體而言,這次發(fā)布之所以備受關(guān)注,主要有以下兩點(diǎn):

  1. 首先,這是一款開源權(quán)重的模型,并且提供了更小的、經(jīng)過蒸餾的版本;
  2. 其次,它公布并深入探討了訓(xùn)練方法,該方法能夠復(fù)現(xiàn)類似于 OpenAI O1 的推理模型。

本文將帶您了解這一模型的構(gòu)建過程。

目錄

01 回顧:大語言模型(LLMs)的訓(xùn)練方法

02 DeepSeek-R1 的訓(xùn)練步驟

2.1- 長推理鏈的 SFT 數(shù)據(jù)

2.2- 一個(gè)過渡性的、擅長推理的高質(zhì)量大語言模型(但在非推理任務(wù)上表現(xiàn)稍遜)

2.3- 利用大規(guī)模強(qiáng)化學(xué)習(xí)(RL)構(gòu)建推理模型

2.3.1- 以推理為導(dǎo)向的大規(guī)模強(qiáng)化學(xué)習(xí)(R1-Zero)

2.3.2- 利用過渡性推理模型生成 SFT 推理數(shù)據(jù)

2.3.3- 常規(guī)強(qiáng)化學(xué)習(xí)訓(xùn)練階段

03 模型架構(gòu)

1.回顧:大語言模型(LLMs)的訓(xùn)練方法

與大多數(shù)現(xiàn)有的大語言模型一樣,DeepSeek-R1 也是逐個(gè)生成 token,但其獨(dú)特之處在于擅長解決數(shù)學(xué)和推理問題。這是因?yàn)樗軌蛲ㄟ^生成一系列思考 tokens 來詳細(xì)闡述其思考過程,從而更加深入地處理問題。

圖片圖片

下圖摘自書籍《Hands-On Large Language Models》的第 12 章,展示了創(chuàng)建高質(zhì)量大語言模型的三個(gè)主要步驟:

圖片圖片

1)語言建模階段,我們利用海量的網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練模型預(yù)測(cè)下一個(gè)詞匯,從而得到一個(gè)基礎(chǔ)模型。

2)監(jiān)督式微調(diào)階段,這一步驟讓模型在執(zhí)行指令和回答問題時(shí)更加得心應(yīng)手,進(jìn)而得到一個(gè)指令調(diào)優(yōu)的模型或稱為監(jiān)督式微調(diào)/SFT模型。

3)最后是偏好調(diào)優(yōu)階段,這一步驟進(jìn)一步優(yōu)化模型的行為,使其更符合人類偏好,最終形成的是你在各種平臺(tái)和應(yīng)用中使用的偏好調(diào)優(yōu)后的 LLM。

2.DeepSeek-R1 的訓(xùn)練步驟

DeepSeek-R1 遵循了這一通用框架。其第一步的具體內(nèi)容源自于之前關(guān)于 DeepSeek-V3 模型的研究論文[1]。R1 使用的是該論文中的基礎(chǔ)模型(并非最終的 DeepSeek-V3 模型),并且同樣經(jīng)歷了 SFT(監(jiān)督式微調(diào))和偏好調(diào)優(yōu)階段,但它的獨(dú)特之處在于這些階段的具體操作方法。

在 R1 的構(gòu)建過程中,有三個(gè)關(guān)鍵點(diǎn)值得特別關(guān)注。

2.1 長推理鏈的 SFT 數(shù)據(jù)

圖片圖片

這些長思維鏈推理的實(shí)例數(shù)量龐大(總共達(dá)到 60 萬個(gè))。如此大規(guī)模的實(shí)例獲取難度極高,且若要依靠人工標(biāo)注,成本也將極為昂貴。因此,這些實(shí)例的創(chuàng)建過程是我們需要強(qiáng)調(diào)的第二個(gè)獨(dú)特之處。

2.2 一個(gè)過渡性的、擅長推理的高質(zhì)量 LLM(但在非推理任務(wù)上表現(xiàn)稍遜)

這些數(shù)據(jù)是由 R1 的前身,一個(gè)專注于推理但尚未命名的姊妹模型所生成的。這個(gè)姊妹模型受到了另一個(gè)模型 R1-Zero 的啟發(fā)(我們將在稍后討論)。它之所以意義重大,并不是因?yàn)樗且粋€(gè)非常好用的 LLM,而在于在它的創(chuàng)建過程中,幾乎無需依賴標(biāo)注數(shù)據(jù),僅通過大規(guī)模的強(qiáng)化學(xué)習(xí),就能培育出一個(gè)擅長處理推理問題的模型。

接著,這個(gè)未命名的推理專家模型的輸出結(jié)果,可以用來訓(xùn)練一個(gè)更為多能的模型,它不僅能夠處理推理任務(wù),還能應(yīng)對(duì)其他類型的任務(wù),滿足用戶對(duì)大語言模型(LLM)的普遍期待。

圖片圖片

2.3 利用大規(guī)模強(qiáng)化學(xué)習(xí)(RL)構(gòu)建推理模型

此處分為兩個(gè)步驟:

2.3.1- 以推理為導(dǎo)向的大規(guī)模強(qiáng)化學(xué)習(xí)(R1-Zero)

在此過程中,我們利用強(qiáng)化學(xué)習(xí)(RL)來構(gòu)建一個(gè)臨時(shí)的推理模型。隨后,這個(gè)模型被用于生成用于監(jiān)督式微調(diào)(SFT)的推理示例。然而,能夠創(chuàng)建這個(gè)模型的關(guān)鍵,在于之前的一項(xiàng)實(shí)驗(yàn),該實(shí)驗(yàn)成功打造了一個(gè)名為 DeepSeek-R1-Zero 的早期模型。

圖片圖片

R1-Zero 的獨(dú)特之處在于,它能夠在沒有經(jīng)過標(biāo)注的 SFT 訓(xùn)練集的情況下,依然在推理任務(wù)上表現(xiàn)卓越。它的訓(xùn)練過程直接從預(yù)訓(xùn)練的基礎(chǔ)模型出發(fā),通過強(qiáng)化學(xué)習(xí)訓(xùn)練(跳過了 SFT 階段)。它的表現(xiàn)非常出色,能夠與 O1 模型相媲美。

圖片圖片

這一成就重要重大,因?yàn)閿?shù)據(jù)一直是機(jī)器學(xué)習(xí)模型能力的助推器。那么,這個(gè)模型是如何打破這一傳統(tǒng)的呢?這主要?dú)w功于以下兩點(diǎn):

1- 現(xiàn)代基礎(chǔ)模型在質(zhì)量和能力上已經(jīng)達(dá)到了一個(gè)臨界點(diǎn)(這個(gè)基礎(chǔ)模型是在高達(dá) 14.8 萬億的高質(zhì)量 tokens 上訓(xùn)練而成的)。

2- 與通用聊天或?qū)懽髡?qǐng)求不同,推理問題可以實(shí)現(xiàn)自動(dòng)驗(yàn)證或標(biāo)注。可以通過以下這個(gè)示例來說明這一點(diǎn)。

示例:推理問題的自動(dòng)驗(yàn)證

以下是一個(gè)可能出現(xiàn)在 RL 訓(xùn)練步驟中的提示詞/問題:

編寫一段 Python 代碼,獲取一個(gè)數(shù)字列表,返回排序后的列表,并在列表開頭添加數(shù)字 42。

這樣的問題非常適合自動(dòng)驗(yàn)證。假設(shè)我們將這個(gè)問題拋給正在訓(xùn)練的模型,它會(huì)生成:

  • 使用軟件語法檢查器可以驗(yàn)證生成的代碼是否為有效的 Python 代碼。
  • 我們可以運(yùn)行這段 Python 代碼,以檢查其是否能夠成功執(zhí)行。
  • 其他現(xiàn)代代碼生成 LLM 可以創(chuàng)建單元測(cè)試來驗(yàn)證代碼的行為是否符合預(yù)期(它們自身無需具備推理能力)。
  • 我們甚至可以進(jìn)一步,通過測(cè)量代碼的執(zhí)行時(shí)間,讓訓(xùn)練過程偏好那些性能更優(yōu)的解決方案,即使其他解決方案也是正確的 Python 程序。

在訓(xùn)練步驟中,我們可以向模型提出這樣的問題,并生成多種可能的解決方案。

圖片圖片

我們可以不依賴人工干預(yù),自動(dòng)進(jìn)行檢查,發(fā)現(xiàn)第一個(gè)輸出根本不是代碼。第二個(gè)輸出是代碼,但并非 Python 代碼。第三個(gè)輸出看似是一個(gè)解決方案,卻未能通過單元測(cè)試,而第四個(gè)輸出則是正確的解決方案。

圖片圖片

這些反饋都是可以直接用來優(yōu)化模型的信號(hào)。這一過程當(dāng)然是在大量示例(以小批量形式)和連續(xù)的訓(xùn)練步驟中完成的。

圖片圖片

這些獎(jiǎng)勵(lì)信號(hào)和模型更新是模型在強(qiáng)化學(xué)習(xí)訓(xùn)練過程中不斷進(jìn)步的關(guān)鍵,如下圖所示。

圖片圖片

與此能力提升相伴的是,模型生成了更長的響應(yīng),即使用了更多的思考 tokens 來處理問題。

圖片圖片

盡管這個(gè)過程很有價(jià)值,但 R1-Zero 模型在推理問題上的高分表現(xiàn)背后,仍存在一些問題,使其實(shí)際可用性未達(dá)理想狀態(tài)。

雖然 DeepSeek-R1-Zero 展現(xiàn)出了卓越的推理能力,并自主發(fā)展出了出人意料的強(qiáng)大推理行為,但它也遭遇了一些挑戰(zhàn),比如文本可讀性不佳和語言混雜等問題。

R1 模型的設(shè)計(jì)目標(biāo)是提高可用性。因此,它(DeepSeek-R1-Zero)不僅僅完全依賴于強(qiáng)化學(xué)習(xí)過程,而是如前文所述,在以下兩個(gè)方面發(fā)揮作用:

1- 創(chuàng)建一個(gè)過渡性的推理模型,用以生成監(jiān)督式微調(diào)(SFT)的數(shù)據(jù)點(diǎn)。

2- 訓(xùn)練 R1 模型,以在推理和非推理問題上取得進(jìn)步(利用其他類型的驗(yàn)證器)。

圖片圖片

2.3.2- 利用過渡性推理模型生成 SFT 推理數(shù)據(jù)

為了提升過渡性推理模型的實(shí)際效用,我們對(duì)其進(jìn)行了監(jiān)督式微調(diào)(SFT)訓(xùn)練,這一步驟在數(shù)千個(gè)推理問題示例上進(jìn)行(部分示例由 R1-Zero 生成并篩選)。在論文中,這些示例被稱為“冷啟動(dòng)數(shù)據(jù)”。

2.3.1. 冷啟動(dòng)階段

與 DeepSeek-R1-Zero 不同,為了防止基礎(chǔ)模型在強(qiáng)化學(xué)習(xí)訓(xùn)練初期出現(xiàn)不穩(wěn)定的冷啟動(dòng)問題,對(duì)于 DeepSeek-R1,我們構(gòu)建并收集了少量長思維鏈(CoT)數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),將其作為初始的強(qiáng)化學(xué)習(xí)策略模型。為收集這類數(shù)據(jù),我們探索了多種方法:使用帶有長 CoT 示例的小樣本提示技術(shù)、直接提示模型生成帶有反思和驗(yàn)證的詳細(xì)答案、收集 DeepSeek-R1-Zero 生成的易讀格式輸出,并通過人工標(biāo)注員對(duì)結(jié)果進(jìn)行后處理細(xì)化。

但或許你會(huì)問,既然我們已經(jīng)有了這些數(shù)據(jù),為什么還需要依賴強(qiáng)化學(xué)習(xí)過程呢?答案在于數(shù)據(jù)的規(guī)模。我們可以獲取的可能只有 5,000 個(gè)示例的數(shù)據(jù)集,而訓(xùn)練 R1 則需要 600,000 個(gè)示例。這個(gè)過渡性模型幫助我們縮小了這一差距,并使我們能夠合成生成那些極為重要的數(shù)據(jù)。

對(duì)于監(jiān)督式微調(diào)(SFT)這一概念,可能你還不太熟悉,它是一種訓(xùn)練過程,通過向模型展示形式為提示詞和正確補(bǔ)全的訓(xùn)練示例來進(jìn)行。下面這個(gè)圖展示了書籍《Hands-On Large Language Models》第 12 章中的一些 SFT 訓(xùn)練示例:

圖片圖片

2.3.3- 常規(guī)強(qiáng)化學(xué)習(xí)訓(xùn)練階段

這樣,R1 模型不僅在推理任務(wù)上表現(xiàn)卓越,還能有效地應(yīng)對(duì)其他非推理類任務(wù)。這一過程與我們之前提到的強(qiáng)化學(xué)習(xí)過程相似,但因?yàn)樗w了非推理領(lǐng)域的應(yīng)用,所以它還引入了一個(gè)實(shí)用性獎(jiǎng)勵(lì)模型和安全性獎(jiǎng)勵(lì)模型(與 Llama 模型有相似之處),用于處理這些應(yīng)用領(lǐng)域的提示詞。

圖片圖片


03


模型架構(gòu)

與 GPT2[2] 和 GPT3[3] 等同源的早期模型一樣,DeepSeek-R1 也是由 Transformer[4] 解碼器塊堆疊而成,總共包含了 61 個(gè)這樣的塊。其中,前三個(gè)塊是密集層,而后續(xù)的則是采用了混合專家層(MoE)。

圖片圖片

關(guān)于模型的維度大小和其他超參數(shù)配置,具體信息如下:

圖片圖片

有關(guān)模型架構(gòu)的更多詳細(xì)信息,可以在他們之前發(fā)表的兩篇論文中找到:

  • DeepSeek-V3 Technical Report[1]
  • DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models[5]

4.Conclusion

通過上述內(nèi)容,相信你現(xiàn)在應(yīng)該對(duì) DeepSeek-R1 模型有了基本的理解。

如果你覺得需要更多基礎(chǔ)知識(shí)來理解這篇文章,我建議你獲取一本《Hands-On Large Language Models》[6]或者在線在 O’Reilly[7] 上閱讀,并在 Github[8] 上查看相關(guān)內(nèi)容。

Thanks for reading! 

Hope you have enjoyed and learned new things from this blog!

About the author

Jay Alammar

Machine learning R&D. Builder. Writer. Visualizing artificial intelligence & machine learning one concept at a time. @CohereAI.

責(zé)任編輯:武曉燕 來源: Baihai IDP
相關(guān)推薦

2025-02-13 08:51:23

DeepSeek大模型

2025-02-19 08:00:00

2025-03-05 03:00:00

DeepSeek大模型調(diào)優(yōu)

2025-02-19 08:33:18

2025-04-11 14:54:44

2025-02-18 08:15:03

2025-02-13 01:00:00

2025-03-19 10:10:43

2025-03-06 17:29:21

2025-04-22 09:12:00

AI模型數(shù)據(jù)

2025-03-27 09:34:42

2025-02-12 14:09:31

DeepSeekChatGPTAPI

2025-04-21 08:42:00

模型開源AI

2025-02-12 12:45:59

2025-03-10 07:00:00

阿里開源QwQ-32B
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)