自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<cite id="my6r6"><rp id="my6r6"></rp></cite>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專(zhuān)業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理原創(chuàng) 精華

發(fā)布于 2025-2-10 10:21

瀏覽

0收藏

編者按： DeepSeek-R1到底有什么特別之處？它為什么能在推理任務(wù)上取得如此出色的表現(xiàn)？這背后的訓(xùn)練方法又蘊(yùn)含著怎樣的創(chuàng)新？
當(dāng)我們需要模型處理數(shù)學(xué)題、編程任務(wù)，或是進(jìn)行邏輯分析時(shí)，高質(zhì)量的推理能力顯得尤為重要。然而，傳統(tǒng)的訓(xùn)練方法往往需要耗費(fèi)大量人力物力，這對(duì)許多研究團(tuán)隊(duì)和企業(yè)來(lái)說(shuō)都是不小的負(fù)擔(dān)。
今天這篇深度解析 DeepSeek-R1 訓(xùn)練方法的文章，將展示一個(gè)令人耳目一新的解決方案：如何通過(guò)創(chuàng)新的強(qiáng)化學(xué)習(xí)方法，在少量高質(zhì)量人工標(biāo)注數(shù)據(jù)的情況下，打造出一個(gè)推理能力出眾的 AI 模型。文章詳細(xì)介紹了 DeepSeek 團(tuán)隊(duì)如何通過(guò)"自動(dòng)驗(yàn)證機(jī)制"來(lái)訓(xùn)練模型，這種方法不僅大大降低了對(duì)人工標(biāo)注數(shù)據(jù)的依賴，還能持續(xù)提升模型的推理質(zhì)量。

作者 | Jay Alammar

編譯 | 岳揚(yáng)

圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

DeepSeek-R1 代表了人工智能發(fā)展的又一重要里程碑。對(duì)于機(jī)器學(xué)習(xí)領(lǐng)域的研究人員與開(kāi)發(fā)者群體而言，這次發(fā)布之所以備受關(guān)注，主要有以下兩點(diǎn)：

首先，這是一款開(kāi)源權(quán)重的模型，并且提供了更小的、經(jīng)過(guò)蒸餾的版本；
其次，它公布并深入探討了訓(xùn)練方法，該方法能夠復(fù)現(xiàn)類(lèi)似于 OpenAI O1 的推理模型。

本文將帶您了解這一模型的構(gòu)建過(guò)程。

目錄

01 回顧：大語(yǔ)言模型（LLMs）的訓(xùn)練方法

02 DeepSeek-R1 的訓(xùn)練步驟

2.1- 長(zhǎng)推理鏈的 SFT 數(shù)據(jù)

2.2- 一個(gè)過(guò)渡性的、擅長(zhǎng)推理的高質(zhì)量大語(yǔ)言模型（但在非推理任務(wù)上表現(xiàn)稍遜）

2.3- 利用大規(guī)模強(qiáng)化學(xué)習(xí)（RL）構(gòu)建推理模型

2.3.1- 以推理為導(dǎo)向的大規(guī)模強(qiáng)化學(xué)習(xí)（R1-Zero）

2.3.2- 利用過(guò)渡性推理模型生成 SFT 推理數(shù)據(jù)

2.3.3- 常規(guī)強(qiáng)化學(xué)習(xí)訓(xùn)練階段

03 模型架構(gòu)

01 回顧：大語(yǔ)言模型（LLMs）的訓(xùn)練方法

與大多數(shù)現(xiàn)有的大語(yǔ)言模型一樣，DeepSeek-R1 也是逐個(gè)生成 token，但其獨(dú)特之處在于擅長(zhǎng)解決數(shù)學(xué)和推理問(wèn)題。這是因?yàn)樗軌蛲ㄟ^(guò)生成一系列思考 tokens 來(lái)詳細(xì)闡述其思考過(guò)程，從而更加深入地處理問(wèn)題。

圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

下圖摘自書(shū)籍《Hands-On Large Language Models》的第 12 章，展示了創(chuàng)建高質(zhì)量大語(yǔ)言模型的三個(gè)主要步驟：

圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

1）語(yǔ)言建模階段，我們利用海量的網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練模型預(yù)測(cè)下一個(gè)詞匯，從而得到一個(gè)基礎(chǔ)模型。

2）監(jiān)督式微調(diào)階段，這一步驟讓模型在執(zhí)行指令和回答問(wèn)題時(shí)更加得心應(yīng)手，進(jìn)而得到一個(gè)指令調(diào)優(yōu)的模型或稱(chēng)為監(jiān)督式微調(diào)/SFT模型。

3）最后是偏好調(diào)優(yōu)階段，這一步驟進(jìn)一步優(yōu)化模型的行為，使其更符合人類(lèi)偏好，最終形成的是你在各種平臺(tái)和應(yīng)用中使用的偏好調(diào)優(yōu)后的 LLM。

02 DeepSeek-R1 的訓(xùn)練步驟

DeepSeek-R1 遵循了這一通用框架。其第一步的具體內(nèi)容源自于之前關(guān)于 DeepSeek-V3 模型的研究論文[1]。R1 使用的是該論文中的基礎(chǔ)模型（并非最終的 DeepSeek-V3 模型），并且同樣經(jīng)歷了 SFT（監(jiān)督式微調(diào)）和偏好調(diào)優(yōu)階段，但它的獨(dú)特之處在于這些階段的具體操作方法。

在 R1 的構(gòu)建過(guò)程中，有三個(gè)關(guān)鍵點(diǎn)值得特別關(guān)注。

2.1 長(zhǎng)推理鏈的 SFT 數(shù)據(jù)

圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

這些長(zhǎng)思維鏈推理的實(shí)例數(shù)量龐大（總共達(dá)到 60 萬(wàn)個(gè)）。如此大規(guī)模的實(shí)例獲取難度極高，且若要依靠人工標(biāo)注，成本也將極為昂貴。因此，這些實(shí)例的創(chuàng)建過(guò)程是我們需要強(qiáng)調(diào)的第二個(gè)獨(dú)特之處。

2.2 一個(gè)過(guò)渡性的、擅長(zhǎng)推理的高質(zhì)量 LLM（但在非推理任務(wù)上表現(xiàn)稍遜）

這些數(shù)據(jù)是由 R1 的前身，一個(gè)專(zhuān)注于推理但尚未命名的姊妹模型所生成的。這個(gè)姊妹模型受到了另一個(gè)模型 R1-Zero 的啟發(fā)（我們將在稍后討論）。它之所以意義重大，并不是因?yàn)樗且粋€(gè)非常好用的 LLM，而在于在它的創(chuàng)建過(guò)程中，幾乎無(wú)需依賴標(biāo)注數(shù)據(jù)，僅通過(guò)大規(guī)模的強(qiáng)化學(xué)習(xí)，就能培育出一個(gè)擅長(zhǎng)處理推理問(wèn)題的模型。

接著，這個(gè)未命名的推理專(zhuān)家模型的輸出結(jié)果，可以用來(lái)訓(xùn)練一個(gè)更為多能的模型，它不僅能夠處理推理任務(wù)，還能應(yīng)對(duì)其他類(lèi)型的任務(wù)，滿足用戶對(duì)大語(yǔ)言模型（LLM）的普遍期待。

圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

2.3 利用大規(guī)模強(qiáng)化學(xué)習(xí)（RL）構(gòu)建推理模型

此處分為兩個(gè)步驟：

2.3.1- 以推理為導(dǎo)向的大規(guī)模強(qiáng)化學(xué)習(xí)（R1-Zero）

在此過(guò)程中，我們利用強(qiáng)化學(xué)習(xí)（RL）來(lái)構(gòu)建一個(gè)臨時(shí)的推理模型。隨后，這個(gè)模型被用于生成用于監(jiān)督式微調(diào)（SFT）的推理示例。然而，能夠創(chuàng)建這個(gè)模型的關(guān)鍵，在于之前的一項(xiàng)實(shí)驗(yàn)，該實(shí)驗(yàn)成功打造了一個(gè)名為 DeepSeek-R1-Zero 的早期模型。

圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

R1-Zero 的獨(dú)特之處在于，它能夠在沒(méi)有經(jīng)過(guò)標(biāo)注的 SFT 訓(xùn)練集的情況下，依然在推理任務(wù)上表現(xiàn)卓越。它的訓(xùn)練過(guò)程直接從預(yù)訓(xùn)練的基礎(chǔ)模型出發(fā)，通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練（跳過(guò)了 SFT 階段）。它的表現(xiàn)非常出色，能夠與 O1 模型相媲美。

圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

這一成就重要重大，因?yàn)閿?shù)據(jù)一直是機(jī)器學(xué)習(xí)模型能力的助推器。那么，這個(gè)模型是如何打破這一傳統(tǒng)的呢？這主要?dú)w功于以下兩點(diǎn)：

1- 現(xiàn)代基礎(chǔ)模型在質(zhì)量和能力上已經(jīng)達(dá)到了一個(gè)臨界點(diǎn)（這個(gè)基礎(chǔ)模型是在高達(dá) 14.8 萬(wàn)億的高質(zhì)量 tokens 上訓(xùn)練而成的）。

2- 與通用聊天或?qū)懽髡?qǐng)求不同，推理問(wèn)題可以實(shí)現(xiàn)自動(dòng)驗(yàn)證或標(biāo)注。 可以通過(guò)以下這個(gè)示例來(lái)說(shuō)明這一點(diǎn)。

示例：推理問(wèn)題的自動(dòng)驗(yàn)證

以下是一個(gè)可能出現(xiàn)在 RL 訓(xùn)練步驟中的提示詞/問(wèn)題：

編寫(xiě)一段 Python 代碼，獲取一個(gè)數(shù)字列表，返回排序后的列表，并在列表開(kāi)頭添加數(shù)字 42。

這樣的問(wèn)題非常適合自動(dòng)驗(yàn)證。假設(shè)我們將這個(gè)問(wèn)題拋給正在訓(xùn)練的模型，它會(huì)生成：

使用軟件語(yǔ)法檢查器可以驗(yàn)證生成的代碼是否為有效的 Python 代碼。
我們可以運(yùn)行這段 Python 代碼，以檢查其是否能夠成功執(zhí)行。
其他現(xiàn)代代碼生成 LLM 可以創(chuàng)建單元測(cè)試來(lái)驗(yàn)證代碼的行為是否符合預(yù)期（它們自身無(wú)需具備推理能力）。
我們甚至可以進(jìn)一步，通過(guò)測(cè)量代碼的執(zhí)行時(shí)間，讓訓(xùn)練過(guò)程偏好那些性能更優(yōu)的解決方案，即使其他解決方案也是正確的 Python 程序。

在訓(xùn)練步驟中，我們可以向模型提出這樣的問(wèn)題，并生成多種可能的解決方案。

圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

我們可以不依賴人工干預(yù)，自動(dòng)進(jìn)行檢查，發(fā)現(xiàn)第一個(gè)輸出根本不是代碼。第二個(gè)輸出是代碼，但并非 Python 代碼。第三個(gè)輸出看似是一個(gè)解決方案，卻未能通過(guò)單元測(cè)試，而第四個(gè)輸出則是正確的解決方案。

圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

這些反饋都是可以直接用來(lái)優(yōu)化模型的信號(hào)。這一過(guò)程當(dāng)然是在大量示例（以小批量形式）和連續(xù)的訓(xùn)練步驟中完成的。

圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

這些獎(jiǎng)勵(lì)信號(hào)和模型更新是模型在強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中不斷進(jìn)步的關(guān)鍵，如下圖所示。

圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

與此能力提升相伴的是，模型生成了更長(zhǎng)的響應(yīng)，即使用了更多的思考 tokens 來(lái)處理問(wèn)題。

圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

盡管這個(gè)過(guò)程很有價(jià)值，但 R1-Zero 模型在推理問(wèn)題上的高分表現(xiàn)背后，仍存在一些問(wèn)題，使其實(shí)際可用性未達(dá)理想狀態(tài)。

雖然 DeepSeek-R1-Zero 展現(xiàn)出了卓越的推理能力，并自主發(fā)展出了出人意料的強(qiáng)大推理行為，但它也遭遇了一些挑戰(zhàn)，比如文本可讀性不佳和語(yǔ)言混雜等問(wèn)題。

R1 模型的設(shè)計(jì)目標(biāo)是提高可用性。因此，它（DeepSeek-R1-Zero）不僅僅完全依賴于強(qiáng)化學(xué)習(xí)過(guò)程，而是如前文所述，在以下兩個(gè)方面發(fā)揮作用：

1- 創(chuàng)建一個(gè)過(guò)渡性的推理模型，用以生成監(jiān)督式微調(diào)（SFT）的數(shù)據(jù)點(diǎn)。

2- 訓(xùn)練 R1 模型，以在推理和非推理問(wèn)題上取得進(jìn)步（利用其他類(lèi)型的驗(yàn)證器）。

圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

2.3.2- 利用過(guò)渡性推理模型生成 SFT 推理數(shù)據(jù)

為了提升過(guò)渡性推理模型的實(shí)際效用，我們對(duì)其進(jìn)行了監(jiān)督式微調(diào)（SFT）訓(xùn)練，這一步驟在數(shù)千個(gè)推理問(wèn)題示例上進(jìn)行（部分示例由 R1-Zero 生成并篩選）。在論文中，這些示例被稱(chēng)為“冷啟動(dòng)數(shù)據(jù)”。

2.3.1. 冷啟動(dòng)階段
與 DeepSeek-R1-Zero 不同，為了防止基礎(chǔ)模型在強(qiáng)化學(xué)習(xí)訓(xùn)練初期出現(xiàn)不穩(wěn)定的冷啟動(dòng)問(wèn)題，對(duì)于 DeepSeek-R1，我們構(gòu)建并收集了少量長(zhǎng)思維鏈（CoT）數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)，將其作為初始的強(qiáng)化學(xué)習(xí)策略模型。為收集這類(lèi)數(shù)據(jù)，我們探索了多種方法：使用帶有長(zhǎng) CoT 示例的小樣本提示技術(shù)、直接提示模型生成帶有反思和驗(yàn)證的詳細(xì)答案、收集 DeepSeek-R1-Zero 生成的易讀格式輸出，并通過(guò)人工標(biāo)注員對(duì)結(jié)果進(jìn)行后處理細(xì)化。

但或許你會(huì)問(wèn)，既然我們已經(jīng)有了這些數(shù)據(jù)，為什么還需要依賴強(qiáng)化學(xué)習(xí)過(guò)程呢？答案在于數(shù)據(jù)的規(guī)模。我們可以獲取的可能只有 5,000 個(gè)示例的數(shù)據(jù)集，而訓(xùn)練 R1 則需要 600,000 個(gè)示例。這個(gè)過(guò)渡性模型幫助我們縮小了這一差距，并使我們能夠合成生成那些極為重要的數(shù)據(jù)。

對(duì)于監(jiān)督式微調(diào)（SFT）這一概念，可能你還不太熟悉，它是一種訓(xùn)練過(guò)程，通過(guò)向模型展示形式為提示詞和正確補(bǔ)全的訓(xùn)練示例來(lái)進(jìn)行。下面這個(gè)圖展示了書(shū)籍《Hands-On Large Language Models》第 12 章中的一些 SFT 訓(xùn)練示例：

圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

2.3.3- 常規(guī)強(qiáng)化學(xué)習(xí)訓(xùn)練階段

這樣，R1 模型不僅在推理任務(wù)上表現(xiàn)卓越，還能有效地應(yīng)對(duì)其他非推理類(lèi)任務(wù)。這一過(guò)程與我們之前提到的強(qiáng)化學(xué)習(xí)過(guò)程相似，但因?yàn)樗w了非推理領(lǐng)域的應(yīng)用，所以它還引入了一個(gè)實(shí)用性獎(jiǎng)勵(lì)模型和安全性獎(jiǎng)勵(lì)模型（與 Llama 模型有相似之處），用于處理這些應(yīng)用領(lǐng)域的提示詞。

圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

03 模型架構(gòu)

與 GPT2[2] 和 GPT3[3] 等同源的早期模型一樣，DeepSeek-R1 也是由 Transformer[4] 解碼器塊堆疊而成，總共包含了 61 個(gè)這樣的塊。其中，前三個(gè)塊是密集層，而后續(xù)的則是采用了混合專(zhuān)家層（MoE）。

圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

關(guān)于模型的維度大小和其他超參數(shù)配置，具體信息如下：

圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理-AI.x社區(qū)

有關(guān)模型架構(gòu)的更多詳細(xì)信息，可以在他們之前發(fā)表的兩篇論文中找到：

DeepSeek-V3 Technical Report[1]
DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models[5]

04 Conclusion

通過(guò)上述內(nèi)容，相信你現(xiàn)在應(yīng)該對(duì) DeepSeek-R1 模型有了基本的理解。

如果你覺(jué)得需要更多基礎(chǔ)知識(shí)來(lái)理解這篇文章，我建議你獲取一本《Hands-On Large Language Models》[6]或者在線在 O’Reilly[7] 上閱讀，并在 Github[8] 上查看相關(guān)內(nèi)容。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the author

Jay Alammar

Machine learning R&D. Builder. Writer. Visualizing artificial intelligence & machine learning one concept at a time. @CohereAI.

END

本期互動(dòng)內(nèi)容 ??

?你覺(jué)得AI模型最難掌握的是哪種推理能力？歡迎在評(píng)論區(qū)分享你的觀點(diǎn)??

??文中鏈接??

[1]??https://arxiv.org/pdf/2412.19437v1??

[2]??https://jalammar.github.io/illustrated-gpt2/??

[3]??https://jalammar.github.io/how-gpt3-works-visualizations-animations/??

[4]??https://jalammar.github.io/illustrated-transformer/??

[5]??https://arxiv.org/pdf/2401.06066??

[6]??https://www.llm-book.com/??

[7]??https://learning.oreilly.com/library/view/hands-on-large-language/9781098150952/??

[8]??https://github.com/handsOnLLM/Hands-On-Large-Language-Models??

原文鏈接：

??https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

社區(qū)頭條

回復(fù)

相關(guān)推薦

大推理模型DeepSeek-R1深度解讀：成本降低95%，推動(dòng)語(yǔ)言模型推理效率新高度

風(fēng)云2002_1 ? 1.1w瀏覽 ? 0回復(fù)
DeepSeek-AI 發(fā)布 DeepSeek-R1-Zero 和 DeepSeek-R1

Halo咯咯 ? 3379瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek-R1：大語(yǔ)言模型推理能力進(jìn)化的秘密武器

十一月雨_55 ? 4878瀏覽 ? 0回復(fù)
帶你一文讀懂爆火的 DeepSeek-R1 新模型技術(shù)，為何震動(dòng)了全球 AI 圈

玄姐聊AGI ? 6525瀏覽 ? 1回復(fù)
Unsloth：僅需7GB顯存就能訓(xùn)練自己的DeepSeek-R1！

PyTorch研習(xí)社 ? 3086瀏覽 ? 0回復(fù)
7G顯存，訓(xùn)練自己的 DeepSeek-R1：GRPO 資源下降80%

鴻煊的學(xué)習(xí)筆記 ? 2548瀏覽 ? 0回復(fù)
DeepSeek-R1技術(shù)大揭秘：論文核心原理拆解與模型性能突破關(guān)鍵

arnoldzhw ? 2713瀏覽 ? 0回復(fù)
滿血DeepSeek-R1免費(fèi)用！附帶數(shù)據(jù)蒸餾的一些想法！

NLP工作站 ? 2553瀏覽 ? 0回復(fù)
Deepseek AI模型本地部署步驟簡(jiǎn)記：ollama + deepseek-r1 + 本地AI模型的Web UI

parson2000 ? 1653瀏覽 ? 0回復(fù)
Grok 3 與 DeepSeek-R1 是怎么學(xué)會(huì)思考的？

機(jī)器學(xué)習(xí)與數(shù)學(xué) ? 2865瀏覽 ? 0回復(fù)
白話DeepSeek R1的GRPO強(qiáng)化學(xué)習(xí)算法：原理、圖解、視頻

后向傳播 ? 2597瀏覽 ? 0回復(fù)
在消費(fèi)級(jí)硬件上微調(diào) DeepSeek-R1

AIGC前沿技術(shù)追蹤 ? 1662瀏覽 ? 0回復(fù)
QwQ-32B 大戰(zhàn) DeepSeek-R1：小參數(shù)量模型能否逆襲？

Halo咯咯 ? 2431瀏覽 ? 0回復(fù)
DeepSeek-R1的方法遷移到多模態(tài)大模型-開(kāi)源Vision-R1實(shí)現(xiàn)方法思路

大模型自然語(yǔ)言處理 ? 1630瀏覽 ? 0回復(fù)
DeepSeek-R1關(guān)鍵創(chuàng)新技術(shù)再總結(jié)

大模型自然語(yǔ)言處理 ? 1504瀏覽 ? 0回復(fù)
DeepSeek R1 & R2 技術(shù)原理

ceesoft ? 1903瀏覽 ? 0回復(fù)
Deepseek-R1，論文番外篇!

NLP前沿1 ? 915瀏覽 ? 0回復(fù)
一文讀懂 DeepSeek-R1 的 “最強(qiáng)外掛” GRPO 算法

鴻煊的學(xué)習(xí)筆記 ? 1434瀏覽 ? 0回復(fù)
DianJin-R1：金融領(lǐng)域推理增強(qiáng)大模型，全面超越DeepSeek-R1

靈度智能 ? 271瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

Google 的 A2A 與 Anthropic 的 MCP 應(yīng)該如何選擇？ 8h前發(fā)布
面對(duì)開(kāi)源大模型浪潮，基礎(chǔ)模型公司如何持續(xù)盈利？ 5天前發(fā)布

熱門(mén)推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣(mài)點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開(kāi)發(fā) 0回復(fù)

Dify從入門(mén)到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫(kù)配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專(zhuān)屬極速開(kāi)源爬蟲(chóng)神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇：為什么大語(yǔ)言模型難以處理長(zhǎng)上下文？從 Transformer 到 Mamba

下一篇：初創(chuàng)公司使用 AI “碼農(nóng)” Devin 一個(gè)月的體驗(yàn)

社區(qū)精華內(nèi)容

目錄

<blockquote id="ll6ec"><p id="ll6ec"></p></blockquote>