自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

圖文詳解:帶你讀懂 DeepSeek-R1 的核心原理 原創(chuàng) 精華

發(fā)布于 2025-2-10 10:21
瀏覽
0收藏

編者按: DeepSeek-R1到底有什么特別之處?它為什么能在推理任務(wù)上取得如此出色的表現(xiàn)?這背后的訓(xùn)練方法又蘊(yùn)含著怎樣的創(chuàng)新?

當(dāng)我們需要模型處理數(shù)學(xué)題、編程任務(wù),或是進(jìn)行邏輯分析時(shí),高質(zhì)量的推理能力顯得尤為重要。然而,傳統(tǒng)的訓(xùn)練方法往往需要耗費(fèi)大量人力物力,這對(duì)許多研究團(tuán)隊(duì)和企業(yè)來(lái)說(shuō)都是不小的負(fù)擔(dān)。

今天這篇深度解析 DeepSeek-R1 訓(xùn)練方法的文章,將展示一個(gè)令人耳目一新的解決方案:如何通過(guò)創(chuàng)新的強(qiáng)化學(xué)習(xí)方法,在少量高質(zhì)量人工標(biāo)注數(shù)據(jù)的情況下,打造出一個(gè)推理能力出眾的 AI 模型。文章詳細(xì)介紹了 DeepSeek 團(tuán)隊(duì)如何通過(guò)"自動(dòng)驗(yàn)證機(jī)制"來(lái)訓(xùn)練模型,這種方法不僅大大降低了對(duì)人工標(biāo)注數(shù)據(jù)的依賴,還能持續(xù)提升模型的推理質(zhì)量。

作者 | Jay Alammar

編譯 | 岳揚(yáng)

圖文詳解:帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

DeepSeek-R1 代表了人工智能發(fā)展的又一重要里程碑。對(duì)于機(jī)器學(xué)習(xí)領(lǐng)域的研究人員與開(kāi)發(fā)者群體而言,這次發(fā)布之所以備受關(guān)注,主要有以下兩點(diǎn):

  1. 首先,這是一款開(kāi)源權(quán)重的模型,并且提供了更小的、經(jīng)過(guò)蒸餾的版本;
  2. 其次,它公布并深入探討了訓(xùn)練方法,該方法能夠復(fù)現(xiàn)類(lèi)似于 OpenAI O1 的推理模型。

本文將帶您了解這一模型的構(gòu)建過(guò)程。

目錄

01 回顧:大語(yǔ)言模型(LLMs)的訓(xùn)練方法

02 DeepSeek-R1 的訓(xùn)練步驟

2.1- 長(zhǎng)推理鏈的 SFT 數(shù)據(jù)

2.2- 一個(gè)過(guò)渡性的、擅長(zhǎng)推理的高質(zhì)量大語(yǔ)言模型(但在非推理任務(wù)上表現(xiàn)稍遜)

2.3- 利用大規(guī)模強(qiáng)化學(xué)習(xí)(RL)構(gòu)建推理模型

2.3.1- 以推理為導(dǎo)向的大規(guī)模強(qiáng)化學(xué)習(xí)(R1-Zero)

2.3.2- 利用過(guò)渡性推理模型生成 SFT 推理數(shù)據(jù)

2.3.3- 常規(guī)強(qiáng)化學(xué)習(xí)訓(xùn)練階段

03 模型架構(gòu)

01 回顧:大語(yǔ)言模型(LLMs)的訓(xùn)練方法

與大多數(shù)現(xiàn)有的大語(yǔ)言模型一樣,DeepSeek-R1 也是逐個(gè)生成 token,但其獨(dú)特之處在于擅長(zhǎng)解決數(shù)學(xué)和推理問(wèn)題。這是因?yàn)樗軌蛲ㄟ^(guò)生成一系列思考 tokens 來(lái)詳細(xì)闡述其思考過(guò)程,從而更加深入地處理問(wèn)題。

圖文詳解:帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

下圖摘自書(shū)籍《Hands-On Large Language Models》的第 12 章,展示了創(chuàng)建高質(zhì)量大語(yǔ)言模型的三個(gè)主要步驟:

圖文詳解:帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

1)語(yǔ)言建模階段,我們利用海量的網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練模型預(yù)測(cè)下一個(gè)詞匯,從而得到一個(gè)基礎(chǔ)模型。

2)監(jiān)督式微調(diào)階段,這一步驟讓模型在執(zhí)行指令和回答問(wèn)題時(shí)更加得心應(yīng)手,進(jìn)而得到一個(gè)指令調(diào)優(yōu)的模型或稱(chēng)為監(jiān)督式微調(diào)/SFT模型。

3)最后是偏好調(diào)優(yōu)階段,這一步驟進(jìn)一步優(yōu)化模型的行為,使其更符合人類(lèi)偏好,最終形成的是你在各種平臺(tái)和應(yīng)用中使用的偏好調(diào)優(yōu)后的 LLM。

02 DeepSeek-R1 的訓(xùn)練步驟

DeepSeek-R1 遵循了這一通用框架。其第一步的具體內(nèi)容源自于之前關(guān)于 DeepSeek-V3 模型的研究論文[1]。R1 使用的是該論文中的基礎(chǔ)模型(并非最終的 DeepSeek-V3 模型),并且同樣經(jīng)歷了 SFT(監(jiān)督式微調(diào))和偏好調(diào)優(yōu)階段,但它的獨(dú)特之處在于這些階段的具體操作方法。

在 R1 的構(gòu)建過(guò)程中,有三個(gè)關(guān)鍵點(diǎn)值得特別關(guān)注。

2.1 長(zhǎng)推理鏈的 SFT 數(shù)據(jù)

圖文詳解:帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

這些長(zhǎng)思維鏈推理的實(shí)例數(shù)量龐大(總共達(dá)到 60 萬(wàn)個(gè))。如此大規(guī)模的實(shí)例獲取難度極高,且若要依靠人工標(biāo)注,成本也將極為昂貴。 因此,這些實(shí)例的創(chuàng)建過(guò)程是我們需要強(qiáng)調(diào)的第二個(gè)獨(dú)特之處。

2.2 一個(gè)過(guò)渡性的、擅長(zhǎng)推理的高質(zhì)量 LLM(但在非推理任務(wù)上表現(xiàn)稍遜)

這些數(shù)據(jù)是由 R1 的前身,一個(gè)專(zhuān)注于推理但尚未命名的姊妹模型所生成的。這個(gè)姊妹模型受到了另一個(gè)模型 R1-Zero 的啟發(fā)(我們將在稍后討論)。它之所以意義重大,并不是因?yàn)樗且粋€(gè)非常好用的 LLM,而在于在它的創(chuàng)建過(guò)程中,幾乎無(wú)需依賴標(biāo)注數(shù)據(jù),僅通過(guò)大規(guī)模的強(qiáng)化學(xué)習(xí),就能培育出一個(gè)擅長(zhǎng)處理推理問(wèn)題的模型。

接著,這個(gè)未命名的推理專(zhuān)家模型的輸出結(jié)果,可以用來(lái)訓(xùn)練一個(gè)更為多能的模型,它不僅能夠處理推理任務(wù),還能應(yīng)對(duì)其他類(lèi)型的任務(wù),滿足用戶對(duì)大語(yǔ)言模型(LLM)的普遍期待。

圖文詳解:帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

2.3 利用大規(guī)模強(qiáng)化學(xué)習(xí)(RL)構(gòu)建推理模型

此處分為兩個(gè)步驟:

2.3.1- 以推理為導(dǎo)向的大規(guī)模強(qiáng)化學(xué)習(xí)(R1-Zero)

在此過(guò)程中,我們利用強(qiáng)化學(xué)習(xí)(RL)來(lái)構(gòu)建一個(gè)臨時(shí)的推理模型。隨后,這個(gè)模型被用于生成用于監(jiān)督式微調(diào)(SFT)的推理示例。然而,能夠創(chuàng)建這個(gè)模型的關(guān)鍵,在于之前的一項(xiàng)實(shí)驗(yàn),該實(shí)驗(yàn)成功打造了一個(gè)名為 DeepSeek-R1-Zero 的早期模型。

圖文詳解:帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

R1-Zero 的獨(dú)特之處在于,它能夠在沒(méi)有經(jīng)過(guò)標(biāo)注的 SFT 訓(xùn)練集的情況下,依然在推理任務(wù)上表現(xiàn)卓越。它的訓(xùn)練過(guò)程直接從預(yù)訓(xùn)練的基礎(chǔ)模型出發(fā),通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練(跳過(guò)了 SFT 階段)。它的表現(xiàn)非常出色,能夠與 O1 模型相媲美。

圖文詳解:帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

這一成就重要重大,因?yàn)閿?shù)據(jù)一直是機(jī)器學(xué)習(xí)模型能力的助推器。那么,這個(gè)模型是如何打破這一傳統(tǒng)的呢?這主要?dú)w功于以下兩點(diǎn):

1- 現(xiàn)代基礎(chǔ)模型在質(zhì)量和能力上已經(jīng)達(dá)到了一個(gè)臨界點(diǎn)(這個(gè)基礎(chǔ)模型是在高達(dá) 14.8 萬(wàn)億的高質(zhì)量 tokens 上訓(xùn)練而成的)。

2- 與通用聊天或?qū)懽髡?qǐng)求不同,推理問(wèn)題可以實(shí)現(xiàn)自動(dòng)驗(yàn)證或標(biāo)注。 可以通過(guò)以下這個(gè)示例來(lái)說(shuō)明這一點(diǎn)。

示例:推理問(wèn)題的自動(dòng)驗(yàn)證

以下是一個(gè)可能出現(xiàn)在 RL 訓(xùn)練步驟中的提示詞/問(wèn)題:

編寫(xiě)一段 Python 代碼,獲取一個(gè)數(shù)字列表,返回排序后的列表,并在列表開(kāi)頭添加數(shù)字 42。

這樣的問(wèn)題非常適合自動(dòng)驗(yàn)證。假設(shè)我們將這個(gè)問(wèn)題拋給正在訓(xùn)練的模型,它會(huì)生成:

  • 使用軟件語(yǔ)法檢查器可以驗(yàn)證生成的代碼是否為有效的 Python 代碼。
  • 我們可以運(yùn)行這段 Python 代碼,以檢查其是否能夠成功執(zhí)行。
  • 其他現(xiàn)代代碼生成 LLM 可以創(chuàng)建單元測(cè)試來(lái)驗(yàn)證代碼的行為是否符合預(yù)期(它們自身無(wú)需具備推理能力)。
  • 我們甚至可以進(jìn)一步,通過(guò)測(cè)量代碼的執(zhí)行時(shí)間,讓訓(xùn)練過(guò)程偏好那些性能更優(yōu)的解決方案,即使其他解決方案也是正確的 Python 程序。

在訓(xùn)練步驟中,我們可以向模型提出這樣的問(wèn)題,并生成多種可能的解決方案。

圖文詳解:帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

我們可以不依賴人工干預(yù),自動(dòng)進(jìn)行檢查,發(fā)現(xiàn)第一個(gè)輸出根本不是代碼。第二個(gè)輸出是代碼,但并非 Python 代碼。第三個(gè)輸出看似是一個(gè)解決方案,卻未能通過(guò)單元測(cè)試,而第四個(gè)輸出則是正確的解決方案。

圖文詳解:帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

這些反饋都是可以直接用來(lái)優(yōu)化模型的信號(hào)。這一過(guò)程當(dāng)然是在大量示例(以小批量形式)和連續(xù)的訓(xùn)練步驟中完成的。

圖文詳解:帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

這些獎(jiǎng)勵(lì)信號(hào)和模型更新是模型在強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中不斷進(jìn)步的關(guān)鍵,如下圖所示。

圖文詳解:帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

與此能力提升相伴的是,模型生成了更長(zhǎng)的響應(yīng),即使用了更多的思考 tokens 來(lái)處理問(wèn)題。

圖文詳解:帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

盡管這個(gè)過(guò)程很有價(jià)值,但 R1-Zero 模型在推理問(wèn)題上的高分表現(xiàn)背后,仍存在一些問(wèn)題,使其實(shí)際可用性未達(dá)理想狀態(tài)。

雖然 DeepSeek-R1-Zero 展現(xiàn)出了卓越的推理能力,并自主發(fā)展出了出人意料的強(qiáng)大推理行為,但它也遭遇了一些挑戰(zhàn),比如文本可讀性不佳和語(yǔ)言混雜等問(wèn)題。

R1 模型的設(shè)計(jì)目標(biāo)是提高可用性。因此,它(DeepSeek-R1-Zero)不僅僅完全依賴于強(qiáng)化學(xué)習(xí)過(guò)程,而是如前文所述,在以下兩個(gè)方面發(fā)揮作用:

1- 創(chuàng)建一個(gè)過(guò)渡性的推理模型,用以生成監(jiān)督式微調(diào)(SFT)的數(shù)據(jù)點(diǎn)。

2- 訓(xùn)練 R1 模型,以在推理和非推理問(wèn)題上取得進(jìn)步(利用其他類(lèi)型的驗(yàn)證器)。

圖文詳解:帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

2.3.2- 利用過(guò)渡性推理模型生成 SFT 推理數(shù)據(jù)

為了提升過(guò)渡性推理模型的實(shí)際效用,我們對(duì)其進(jìn)行了監(jiān)督式微調(diào)(SFT)訓(xùn)練,這一步驟在數(shù)千個(gè)推理問(wèn)題示例上進(jìn)行(部分示例由 R1-Zero 生成并篩選)。在論文中,這些示例被稱(chēng)為“冷啟動(dòng)數(shù)據(jù)”。

2.3.1. 冷啟動(dòng)階段

與 DeepSeek-R1-Zero 不同,為了防止基礎(chǔ)模型在強(qiáng)化學(xué)習(xí)訓(xùn)練初期出現(xiàn)不穩(wěn)定的冷啟動(dòng)問(wèn)題,對(duì)于 DeepSeek-R1,我們構(gòu)建并收集了少量長(zhǎng)思維鏈(CoT)數(shù)據(jù)對(duì)模型進(jìn)行微調(diào),將其作為初始的強(qiáng)化學(xué)習(xí)策略模型。為收集這類(lèi)數(shù)據(jù),我們探索了多種方法:使用帶有長(zhǎng) CoT 示例的小樣本提示技術(shù)、直接提示模型生成帶有反思和驗(yàn)證的詳細(xì)答案、收集 DeepSeek-R1-Zero 生成的易讀格式輸出,并通過(guò)人工標(biāo)注員對(duì)結(jié)果進(jìn)行后處理細(xì)化。

但或許你會(huì)問(wèn),既然我們已經(jīng)有了這些數(shù)據(jù),為什么還需要依賴強(qiáng)化學(xué)習(xí)過(guò)程呢?答案在于數(shù)據(jù)的規(guī)模。我們可以獲取的可能只有 5,000 個(gè)示例的數(shù)據(jù)集,而訓(xùn)練 R1 則需要 600,000 個(gè)示例。 這個(gè)過(guò)渡性模型幫助我們縮小了這一差距,并使我們能夠合成生成那些極為重要的數(shù)據(jù)。

對(duì)于監(jiān)督式微調(diào)(SFT)這一概念,可能你還不太熟悉,它是一種訓(xùn)練過(guò)程,通過(guò)向模型展示形式為提示詞和正確補(bǔ)全的訓(xùn)練示例來(lái)進(jìn)行。下面這個(gè)圖展示了書(shū)籍《Hands-On Large Language Models》第 12 章中的一些 SFT 訓(xùn)練示例:

圖文詳解:帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

2.3.3- 常規(guī)強(qiáng)化學(xué)習(xí)訓(xùn)練階段

這樣,R1 模型不僅在推理任務(wù)上表現(xiàn)卓越,還能有效地應(yīng)對(duì)其他非推理類(lèi)任務(wù)。這一過(guò)程與我們之前提到的強(qiáng)化學(xué)習(xí)過(guò)程相似,但因?yàn)樗w了非推理領(lǐng)域的應(yīng)用,所以它還引入了一個(gè)實(shí)用性獎(jiǎng)勵(lì)模型和安全性獎(jiǎng)勵(lì)模型(與 Llama 模型有相似之處),用于處理這些應(yīng)用領(lǐng)域的提示詞。

圖文詳解:帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

03 模型架構(gòu)

與 GPT2[2] 和 GPT3[3] 等同源的早期模型一樣,DeepSeek-R1 也是由 Transformer[4] 解碼器塊堆疊而成,總共包含了 61 個(gè)這樣的塊。其中,前三個(gè)塊是密集層,而后續(xù)的則是采用了混合專(zhuān)家層(MoE)。

圖文詳解:帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

關(guān)于模型的維度大小和其他超參數(shù)配置,具體信息如下:

圖文詳解:帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

有關(guān)模型架構(gòu)的更多詳細(xì)信息,可以在他們之前發(fā)表的兩篇論文中找到:

  • DeepSeek-V3 Technical Report[1]
  • DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models[5]

04 Conclusion

通過(guò)上述內(nèi)容,相信你現(xiàn)在應(yīng)該對(duì) DeepSeek-R1 模型有了基本的理解。

如果你覺(jué)得需要更多基礎(chǔ)知識(shí)來(lái)理解這篇文章,我建議你獲取一本《Hands-On Large Language Models》[6]或者在線在 O’Reilly[7] 上閱讀,并在 Github[8] 上查看相關(guān)內(nèi)容。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the author

Jay Alammar

Machine learning R&D. Builder. Writer. Visualizing artificial intelligence & machine learning one concept at a time. @CohereAI.

END

本期互動(dòng)內(nèi)容 ??

?你覺(jué)得AI模型最難掌握的是哪種推理能力?歡迎在評(píng)論區(qū)分享你的觀點(diǎn)??

??文中鏈接??

[1]??https://arxiv.org/pdf/2412.19437v1??

[2]??https://jalammar.github.io/illustrated-gpt2/??

[3]??https://jalammar.github.io/how-gpt3-works-visualizations-animations/??

[4]??https://jalammar.github.io/illustrated-transformer/??

[5]??https://arxiv.org/pdf/2401.06066??

[6]??https://www.llm-book.com/??

[7]??https://learning.oreilly.com/library/view/hands-on-large-language/9781098150952/??

[8]??https://github.com/handsOnLLM/Hands-On-Large-Language-Models??

原文鏈接:

??https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦