自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

外國(guó)專家解讀DeepSeek:預(yù)算有限,如何復(fù)制R1推理模型?純強(qiáng)化學(xué)習(xí)不現(xiàn)實(shí)!不是任何問(wèn)題都得問(wèn)DeepSeek!

原創(chuàng) 精選
人工智能
本文介紹了構(gòu)建推理模型的四種主要方法,或者我們?nèi)绾瓮ㄟ^(guò)推理能力增強(qiáng) LLM。我希望這能提供有價(jià)值的見(jiàn)解,并幫助您駕馭圍繞該主題的快速發(fā)展的文獻(xiàn)和炒作。

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

Sebastian Raschka是一位外國(guó)知名的AI專家。特別在大型語(yǔ)言模型(LLM)研究方面,有著豐富的研究經(jīng)驗(yàn)。近日DeepSeek-R1推理模型的推出,將“任何一款不是o1的模型快速蒸餾成具備強(qiáng)推理能力的o1”成為了可能,而且所需的成本和算力都大大降低。

但爆火有一個(gè)地方不好,就是很容易讓我們迷失在炒作的海洋中,尋找不到有價(jià)值的信息。Raschka非常nice,昨天發(fā)布了一篇有關(guān)DeepSeek推理模型的深度總結(jié)文章,信息密度極高,內(nèi)容來(lái)源包含大量的技術(shù)Paper,圖文并茂,非常適合想了解DeepSeek R1背后真相的朋友們。

話不多說(shuō),這就為諸君奉上。

本文介紹了構(gòu)建推理模型的四種主要方法,或者我們?nèi)绾瓮ㄟ^(guò)推理能力增強(qiáng) LLM。我希望這能提供有價(jià)值的見(jiàn)解,并幫助您駕馭圍繞該主題的快速發(fā)展的文獻(xiàn)和炒作。

2024 年,LLM領(lǐng)域的專業(yè)化程度不斷提高。除了預(yù)訓(xùn)練和微調(diào)之外,我們還見(jiàn)證了從 RAG 到代碼助手等專業(yè)應(yīng)用程序的興起。我預(yù)計(jì)這一趨勢(shì)將在 2025 年加速,并更加注重特定領(lǐng)域和應(yīng)用程序的優(yōu)化(即“專業(yè)化”)。

第 1-3 階段是開(kāi)發(fā) LLM 的常見(jiàn)步驟。 第 4 階段針對(duì)特定用例專門(mén)開(kāi)發(fā) LLM。第 1-3 階段是開(kāi)發(fā) LLM 的常見(jiàn)步驟。 第 4 階段針對(duì)特定用例專門(mén)開(kāi)發(fā) LLM。

推理模型的開(kāi)發(fā)就是這些專業(yè)化之一。這意味著我們改進(jìn) LLM,使其擅長(zhǎng)處理復(fù)雜任務(wù),這些任務(wù)最好通過(guò)中間步驟來(lái)解決,例如謎題、高級(jí)數(shù)學(xué)和編碼挑戰(zhàn)。然而,這種專業(yè)化并不能取代其他 LLM 應(yīng)用程序。因?yàn)?strong>將 LLM 轉(zhuǎn)換為推理模型也會(huì)帶來(lái)某些缺點(diǎn),我將在后面討論。

下面簡(jiǎn)要列出本文主要探討的幾塊內(nèi)容。在本文中,我將:

  1. 解釋“推理模型”的含義
  2. 討論推理模型的優(yōu)點(diǎn)和缺點(diǎn)
  3. 概述 DeepSeek R1 背后的方法
  4. 描述建立和改進(jìn)推理模型的四種主要方法
  5. 分享對(duì) DeepSeek V3 和 R1 發(fā)布后 LLM 前景的看法
  6. 提供在預(yù)算緊張的情況下開(kāi)發(fā)推理模型的技巧

希望這篇文章對(duì)你會(huì)有用,因?yàn)槿斯ぶ悄芙衲暌琅f會(huì)繼續(xù)快速發(fā)展!

我們?nèi)绾味x“推理模型”?

如果你從事人工智能(或一般機(jī)器學(xué)習(xí))工作,可能對(duì)模糊且備受爭(zhēng)議的定義并不陌生。術(shù)語(yǔ)“推理模型”也不例外。最終,有人會(huì)在一篇論文中正式定義它,但在下一篇論文中又會(huì)重新定義它,依此類推。

在本文中,我將“推理”定義為回答需要復(fù)雜、多步驟生成且包含中間步驟的問(wèn)題的過(guò)程。例如,像“法國(guó)首都是哪里?”這樣的事實(shí)性問(wèn)答不需要推理。相比之下,像“如果一列火車以 60 英里/小時(shí)的速度行駛 3 個(gè)小時(shí),它會(huì)行駛多遠(yuǎn)?”這樣的問(wèn)題需要一些簡(jiǎn)單的推理。例如,它需要識(shí)別距離、速度和時(shí)間之間的關(guān)系,然后才能得出答案。

普通的 LLM 可能只提供簡(jiǎn)短的答案(如左圖所示),而推理模型通常包括揭示部分思維過(guò)程的中間步驟。

(注意,許多未專門(mén)為推理任務(wù)開(kāi)發(fā)的 LLM 也可以在其答案中提供中間推理步驟。)

大多數(shù)現(xiàn)代大型語(yǔ)言模型都具備基本的推理能力,能夠回答像“如果一列火車以每小時(shí)60英里的速度行駛了3小時(shí),它走了多遠(yuǎn)?”這樣的問(wèn)題。因此,如今當(dāng)我們提到推理模型時(shí),我們通常指的是那些在更復(fù)雜的推理任務(wù)(如解謎題、猜謎語(yǔ)和數(shù)學(xué)證明)中表現(xiàn)出色的大型語(yǔ)言模型。

此外,如今大多數(shù)被標(biāo)記為推理模型的大型語(yǔ)言模型在其回應(yīng)中都包含一個(gè)“思考”或“思維”過(guò)程。大型語(yǔ)言模型是否以及如何真正“思考”則是另一個(gè)討論話題。

推理模型中的中間步驟可以以兩種方式出現(xiàn)。首先,它們可以明確地包含在回應(yīng)中,如前圖所示。其次,一些推理型大型語(yǔ)言模型(例如OpenAI的o1)會(huì)進(jìn)行多次迭代,其中的中間步驟不會(huì)展示給用戶。

“推理”用于兩個(gè)不同的層面:1)處理輸入并通過(guò)多個(gè)中間步驟生成;2)提供某種推理作為對(duì)用戶的響應(yīng)的一部分。

我們什么時(shí)候應(yīng)該使用推理模型?

現(xiàn)在我們已經(jīng)定義了推理模型,我們可以進(jìn)入更有趣的部分:如何構(gòu)建和改進(jìn)用于推理任務(wù)的 LLM。然而,在深入研究技術(shù)細(xì)節(jié)之前,重要的是要考慮何時(shí)真正需要推理模型。

我們什么時(shí)候需要推理模型?推理模型旨在擅長(zhǎng)解決復(fù)雜任務(wù),例如解決難題、高級(jí)數(shù)學(xué)問(wèn)題和具有挑戰(zhàn)性的編碼任務(wù)。但是,對(duì)于總結(jié)、翻譯或基于知識(shí)的問(wèn)答等簡(jiǎn)單任務(wù),它們并不是必需的。

事實(shí)上,將推理模型用于所有事情可能效率低下且成本高昂。例如,推理模型通常使用起來(lái)更昂貴、更冗長(zhǎng),有時(shí)由于“過(guò)度思考”而更容易出錯(cuò)。這里也適用一條簡(jiǎn)單的規(guī)則:使用正確的工具(或 LLM 類型)來(lái)完成任務(wù)。

下圖總結(jié)了推理模型的主要優(yōu)勢(shì)和局限性。

推理模型的主要優(yōu)勢(shì)和劣勢(shì)推理模型的主要優(yōu)勢(shì)和劣勢(shì)

簡(jiǎn)要介紹一下 DeepSeek 的訓(xùn)練流程

在下一節(jié)討論構(gòu)建和改進(jìn)推理模型的四種主要方法之前,我想簡(jiǎn)要概述一下 DeepSeek R1 流程,如DeepSeek R1 技術(shù)報(bào)告中所述。該報(bào)告既是一個(gè)有趣的案例研究,也是開(kāi)發(fā)推理 LLM 的藍(lán)圖。

請(qǐng)注意,DeepSeek 并沒(méi)有發(fā)布單個(gè) R1 推理模型,而是引入了三種不同的變體:DeepSeek-R1-Zero、DeepSeek-R1 和 DeepSeek-R1-Distill。

根據(jù)技術(shù)報(bào)告中的描述,我在下圖中總結(jié)了這些模型的發(fā)展過(guò)程。

圖片圖片

DeepSeek R1 技術(shù)報(bào)告中討論了 DeepSeeks 的三種不同推理模型的開(kāi)發(fā)過(guò)程。

接下來(lái)我們先簡(jiǎn)單回顧一下上圖所示的流程,下一節(jié)會(huì)詳細(xì)介紹構(gòu)建和改進(jìn)推理模型的四種主要方法。

(1)DeepSeek-R1-Zero:該模型基于 2024 年 12 月發(fā)布的 671B 預(yù)訓(xùn)練 DeepSeek-V3 基礎(chǔ)模型。研究團(tuán)隊(duì)使用強(qiáng)化學(xué)習(xí) (RL) 對(duì)其進(jìn)行訓(xùn)練,并采用兩種類型的獎(jiǎng)勵(lì)。這種方法被稱為“冷啟動(dòng)”訓(xùn)練,因?yàn)樗话ūO(jiān)督微調(diào) (SFT) 步驟,而這通常是帶人工反饋的強(qiáng)化學(xué)習(xí) (RLHF) 的一部分。

(2)DeepSeek-R1:這是 DeepSeek 的旗艦推理模型,基于 DeepSeek-R1-Zero 構(gòu)建。團(tuán)隊(duì)通過(guò)增加 SFT 階段和進(jìn)一步的 RL 訓(xùn)練對(duì)其進(jìn)行了進(jìn)一步完善,從而改進(jìn)了“冷啟動(dòng)”的 R1-Zero 模型。

(3)DeepSeek-R1-Distill*:DeepSeek 團(tuán)隊(duì)利用前面步驟生成的 SFT 數(shù)據(jù)對(duì) Qwen 和 Llama 模型進(jìn)行微調(diào),以增強(qiáng)其推理能力。雖然這不是傳統(tǒng)意義上的蒸餾,但這個(gè)過(guò)程涉及在較大的 DeepSeek-R1 671B 模型的輸出上訓(xùn)練較小的模型(Llama 8B 和 70B,以及 Qwen 1.5B–30B)。

建立和改進(jìn)推理模型的四種主要方法在本節(jié)中,我將概述當(dāng)前用于增強(qiáng) LLM 推理能力和構(gòu)建專門(mén)推理模型(如 DeepSeek-R1、OpenAI 的 o1 和 o3 等)的關(guān)鍵技術(shù)。

注意:o1 和 o3 的具體工作原理在 OpenAI 之外仍不得而知。不過(guò),據(jù)傳它們將同時(shí)利用推理和訓(xùn)練技術(shù)。

1)推理時(shí)間擴(kuò)展

提高 LLM 推理能力(或一般任何能力)的一種方法是推理時(shí)間擴(kuò)展。這個(gè)術(shù)語(yǔ)可能有多種含義,但在這種情況下,它指的是在推理過(guò)程中增加計(jì)算資源以提高輸出質(zhì)量。

粗略地類比一下,當(dāng)人們有更多時(shí)間思考復(fù)雜問(wèn)題時(shí),他們往往會(huì)做出更好的反應(yīng)。同樣,我們可以應(yīng)用一些技巧,鼓勵(lì)LLM在回答問(wèn)題時(shí)更多地“思考”。(不過(guò),LLM是否真的“思考”是另一個(gè)話題。)

推理時(shí)間擴(kuò)展的一個(gè)直接方法是巧妙的提示工程。一個(gè)典型的例子是思路鏈 (CoT) 提示,其中輸入提示中包含“逐步思考”等短語(yǔ)。這鼓勵(lì)模型生成中間推理步驟,而不是直接跳到最終答案,這通常(但并非總是)可以在更復(fù)雜的問(wèn)題上產(chǎn)生更準(zhǔn)確的結(jié)果。(請(qǐng)注意,對(duì)于更簡(jiǎn)單的基于知識(shí)的問(wèn)題,例如“法國(guó)的首都是什么”,采用這種策略是沒(méi)有意義的,這又是一個(gè)很好的經(jīng)驗(yàn)法則,可以找出推理模型是否適合你的輸入查詢。)

2022 年大型語(yǔ)言模型中的經(jīng)典 CoT 提示的一個(gè)示例是零樣本推理器論文 (https://arxiv.org/abs/2205.1191)

上述 CoT 方法可以看作是推理時(shí)間擴(kuò)展,因?yàn)樗ㄟ^(guò)生成更多的輸出標(biāo)記使推理更加昂貴。

另一種推理時(shí)間擴(kuò)展方法是使用投票和搜索策略。一個(gè)簡(jiǎn)單的例子是多數(shù)投票,我們讓 LLM 生成多個(gè)答案,然后我們通過(guò)多數(shù)投票選擇正確的答案。同樣,我們可以使用集束搜索和其他搜索算法來(lái)生成更好的響應(yīng)。

我強(qiáng)烈推薦我在之前的《2024 年值得關(guān)注的 AI 研究論文(第二部分)》文章中描述的《擴(kuò)展 LLM 測(cè)試時(shí)間計(jì)算優(yōu)化比擴(kuò)展模型參數(shù)更有效》論文,以了解有關(guān)這些不同策略的更多詳細(xì)信息。

文章鏈接:https://magazine.sebastianraschka.com/p/ai-research-papers-2024-part-2

不同的基于搜索的方法依賴于基于過(guò)程獎(jiǎng)勵(lì)的模型來(lái)選擇最佳答案。

注釋圖來(lái)自 LLM Test-Time Compute 論文,https://arxiv.org/abs/2408.03314

DeepSeek R1 技術(shù)報(bào)告指出,其模型不使用推理時(shí)間縮放。然而,這種技術(shù)通常在 LLM 之上的應(yīng)用層實(shí)現(xiàn),因此 DeepSeek 有可能在其應(yīng)用程序中應(yīng)用它。

我懷疑 OpenAI 的 o1 和 o3 模型使用了推理時(shí)間縮放,這可以解釋為什么它們與 GPT-4o 等模型相比相對(duì)昂貴。除了推理時(shí)間縮放之外,o1 和 o3 可能使用與 DeepSeek R1 類似的 RL 管道進(jìn)行訓(xùn)練。下面兩節(jié)將詳細(xì)介紹強(qiáng)化學(xué)習(xí)。

2)純強(qiáng)化學(xué)習(xí)(RL)

我個(gè)人對(duì)DeepSeek R1 論文的亮點(diǎn)之一是他們發(fā)現(xiàn)推理是純強(qiáng)化學(xué)習(xí) (RL) 的一種行為。讓我們更詳細(xì)地探討一下這意味著什么。

如前所述,DeepSeek 開(kāi)發(fā)了三種類型的 R1 模型。第一種是DeepSeek-R1-Zero ,它建立在 DeepSeek-V3 基礎(chǔ)模型之上,這是他們于 2024 年 12 月發(fā)布的標(biāo)準(zhǔn)預(yù)訓(xùn)練 LLM。與典型的 RL 流程不同,在 RL 之前應(yīng)用監(jiān)督微調(diào) (SFT),DeepSeek-R1-Zero僅使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,沒(méi)有初始 SFT 階段,如下圖所示。

DeepSeek-R1-Zero模型的開(kāi)發(fā)過(guò)程DeepSeek-R1-Zero模型的開(kāi)發(fā)過(guò)程

不過(guò),這種 RL 過(guò)程類似于常用的 RLHF 方法,后者通常應(yīng)用于偏好調(diào)整 LLM。(我在我的文章《LLM 訓(xùn)練:RLHF 及其替代方案》中更詳細(xì)地介紹了 RLHF 。)

但是,如上所述,DeepSeek-R1-Zero的關(guān)鍵區(qū)別在于它們跳過(guò)了用于指令調(diào)整的監(jiān)督微調(diào) (SFT) 階段。這就是為什么他們將其稱為“純”RL。(盡管 LLM 背景下的 RL 與傳統(tǒng) RL 有很大不同,這是另一個(gè)話題。)

對(duì)于獎(jiǎng)勵(lì),他們沒(méi)有使用根據(jù)人類偏好訓(xùn)練的獎(jiǎng)勵(lì)模型,而是采用了兩種類型的獎(jiǎng)勵(lì):準(zhǔn)確性獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)

  • 準(zhǔn)確性獎(jiǎng)勵(lì)使用LeetCode 編譯器來(lái)驗(yàn)證編碼答案,并使用確定性系統(tǒng)來(lái)評(píng)估數(shù)學(xué)響應(yīng)。
  • 格式獎(jiǎng)勵(lì)依賴于 LLM 評(píng)委來(lái)確保響應(yīng)遵循預(yù)期格式,例如將推理步驟放在 <think> 標(biāo)簽內(nèi)。

令人驚訝的是,這種方法足以讓 LLM 培養(yǎng)基本的推理能力。研究人員觀察到一個(gè)“啊哈!”時(shí)刻,盡管模型沒(méi)有經(jīng)過(guò)明確的訓(xùn)練,但它開(kāi)始在其反應(yīng)中生成推理痕跡,如下圖所示。

DeepSeek R1 技術(shù)報(bào)告 (https://arxiv.org/abs/2501.12948) 中的一張圖展示了“啊哈”時(shí)刻的出現(xiàn)。

雖然 R1-Zero 并不是表現(xiàn)最好的推理模型,但它確實(shí)通過(guò)生成中間“思考”步驟展示了推理能力,如上圖所示。這證實(shí)了使用純 RL 開(kāi)發(fā)推理模型是可能的,而 DeepSeek 團(tuán)隊(duì)是第一個(gè)展示(或至少發(fā)布)這種方法的團(tuán)隊(duì)。

3)監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)(SFT + RL)

接下來(lái)我們來(lái)看看 DeepSeek 的旗艦推理模型 DeepSeek-R1 的開(kāi)發(fā)歷程,它是構(gòu)建推理模型的藍(lán)圖。該模型在 DeepSeek-R1-Zero 的基礎(chǔ)上進(jìn)行了改進(jìn),加入了額外的監(jiān)督微調(diào) (SFT) 和強(qiáng)化學(xué)習(xí) (RL),以提高其推理性能。

請(qǐng)注意,在 RL 之前包含 SFT 階段實(shí)際上很常見(jiàn),如標(biāo)準(zhǔn) RLHF 管道中所示。OpenAI 的 o1 很可能是使用類似的方法開(kāi)發(fā)的。

DeepSeek-R1模型的開(kāi)發(fā)過(guò)程DeepSeek-R1模型的開(kāi)發(fā)過(guò)程

如上圖所示,DeepSeek 團(tuán)隊(duì)使用 DeepSeek-R1-Zero 生成所謂的“冷啟動(dòng)”SFT 數(shù)據(jù)。術(shù)語(yǔ)“冷啟動(dòng)”指的是這些數(shù)據(jù)是由 DeepSeek-R1-Zero 生成的,而 DeepSeek-R1-Zero 本身并未接受過(guò)任何監(jiān)督微調(diào) (SFT) 數(shù)據(jù)的訓(xùn)練。

使用此冷啟動(dòng) SFT 數(shù)據(jù),DeepSeek 隨后通過(guò)指令微調(diào)訓(xùn)練模型,然后進(jìn)行另一個(gè)強(qiáng)化學(xué)習(xí) (RL) 階段。此 RL 階段保留了 DeepSeek-R1-Zero RL 過(guò)程中使用的相同準(zhǔn)確度和格式獎(jiǎng)勵(lì)。但是,他們添加了一致性獎(jiǎng)勵(lì)以防止語(yǔ)言混合,當(dāng)模型在響應(yīng)中在多種語(yǔ)言之間切換時(shí)會(huì)發(fā)生這種情況。

強(qiáng)化學(xué)習(xí)階段之后是另一輪 SFT 數(shù)據(jù)收集。在此階段,使用最新的模型檢查點(diǎn)生成 600K 個(gè)思路鏈 (CoT) SFT 示例,同時(shí)使用 DeepSeek-V3 基礎(chǔ)模型創(chuàng)建另外 200K 個(gè)基于知識(shí)的 SFT 示例。

然后,這 600K + 200K SFT 樣本被用于另一輪強(qiáng)化學(xué)習(xí)。在此階段,他們?cè)俅问褂没谝?guī)則的方法對(duì)數(shù)學(xué)和編碼問(wèn)題進(jìn)行準(zhǔn)確率獎(jiǎng)勵(lì),而對(duì)其他問(wèn)題類型使用人類偏好標(biāo)簽。

最終模型 DeepSeek-R1 由于增加了 SFT 和 RL 階段,性能較 DeepSeek-R1-Zero 有明顯提升,如下表所示。

OpenAI A1 和 DeepSeek R1 模型的基準(zhǔn)比較。注釋圖來(lái)自 DeepSeek-R1 技術(shù)報(bào)告 (https://arxiv.org/abs/2501.12948)。

4)純監(jiān)督微調(diào)(SFT)和蒸餾

到目前為止,我們已經(jīng)介紹了構(gòu)建和改進(jìn)推理模型的三種主要方法:

  • 推理時(shí)間擴(kuò)展,一種無(wú)需訓(xùn)練或以其他方式修改底層模型即可提高推理能力的技術(shù)。
  • 純強(qiáng)化學(xué)習(xí) (RL),如 DeepSeek-R1-Zero,它表明推理可以作為一種學(xué)習(xí)行為出現(xiàn),而無(wú)需監(jiān)督微調(diào)。
  • 監(jiān)督微調(diào)(SFT)加上 RL,這產(chǎn)生了 DeepSeek 的旗艦推理模型 DeepSeek-R1。

那么,還剩下什么呢?模型“蒸餾”。

令人驚訝的是,DeepSeek 還發(fā)布了通過(guò)他們稱之為“蒸餾”的過(guò)程訓(xùn)練的較小模型。然而,在大型語(yǔ)言模型的背景下,蒸餾并不一定遵循深度學(xué)習(xí)中使用的經(jīng)典知識(shí)蒸餾方法。傳統(tǒng)上,在知識(shí)蒸餾中(如我的《機(jī)器學(xué)習(xí)問(wèn)答與人工智能》一書(shū)第 6 章中簡(jiǎn)要描述的那樣),較小的學(xué)生模型在較大的教師模型和目標(biāo)數(shù)據(jù)集的對(duì)數(shù)上進(jìn)行訓(xùn)練。

相反,這里的蒸餾是指在由較大的 LLM 生成的 SFT 數(shù)據(jù)集上對(duì)較小的 LLM(例如 Llama 8B 和 70B 以及 Qwen 2.5 模型(0.5B 到 32B))進(jìn)行指令微調(diào)。具體來(lái)說(shuō),這些較大的 LLM 是 DeepSeek-V3 和 DeepSeek-R1 的中間檢查點(diǎn)。事實(shí)上,用于此蒸餾過(guò)程的 SFT 數(shù)據(jù)與用于訓(xùn)練 DeepSeek-R1 的數(shù)據(jù)集相同,如上一節(jié)所述。

為了闡明這一過(guò)程,我在下圖中突出顯示了蒸餾部分。

DeepSeek-R1-Distill模型的開(kāi)發(fā)過(guò)程。DeepSeek-R1-Distill模型的開(kāi)發(fā)過(guò)程。

他們?yōu)槭裁匆_(kāi)發(fā)這些蒸餾模型?我認(rèn)為有兩個(gè)主要原因:

1. 較小的模型效率更高。這意味著它們運(yùn)行起來(lái)更便宜,但它們也可以在低端硬件上運(yùn)行,這對(duì)許多像我一樣的研究人員和修補(bǔ)匠來(lái)說(shuō)尤其有趣。

2. 純 SFT 案例研究。這些蒸餾模型可作為有趣的基準(zhǔn),展示純監(jiān)督微調(diào) (SFT) 在沒(méi)有強(qiáng)化學(xué)習(xí)的情況下可以讓模型走多遠(yuǎn)。

下表比較了這些蒸餾模型與其他流行模型以及 DeepSeek-R1-Zero 和 DeepSeek-R1 的性能。

蒸餾模型與非蒸餾模型的基準(zhǔn)比較。

注釋圖來(lái)自 DeepSeek-R1 技術(shù)報(bào)告 (https://arxiv.org/abs/2501.12948)。

我們可以看到,精簡(jiǎn)后的模型明顯弱于 DeepSeek-R1,但與 DeepSeek-R1-Zero 相比,它們卻出奇地強(qiáng)大,盡管規(guī)模小了幾個(gè)數(shù)量級(jí)。值得注意的是,這些模型與 o1 mini 相比表現(xiàn)得非常好(我懷疑 o1-mini 本身可能是 o1 的一個(gè)類似的精簡(jiǎn)版本)。

在用結(jié)論結(jié)束本節(jié)之前,還有一個(gè)有趣的比較值得一提。DeepSeek 團(tuán)隊(duì)測(cè)試了 DeepSeek-R1-Zero 中出現(xiàn)的新興推理行為是否也會(huì)出現(xiàn)在較小的模型中。為了研究這一點(diǎn),他們將 DeepSeek-R1-Zero 中相同的純 RL 方法直接應(yīng)用于 Qwen-32B。

下表總結(jié)了本次實(shí)驗(yàn)的結(jié)果,其中 QwQ-32B-Preview 是 Qwen 團(tuán)隊(duì)基于 Qwen 2.5 32B 開(kāi)發(fā)的參考推理模型(我認(rèn)為訓(xùn)練細(xì)節(jié)從未披露過(guò))。此比較提供了一些額外的見(jiàn)解,即純 RL 是否可以在比 DeepSeek-R1-Zero 小得多的模型中誘導(dǎo)推理能力。

在較小的 32B 模型上對(duì)蒸餾和 RL 進(jìn)行基準(zhǔn)比較。

注釋圖來(lái)自 DeepSeek-R1 技術(shù)報(bào)告 (https://arxiv.org/abs/2501.12948)。

有趣的是,結(jié)果表明,對(duì)于較小的模型,蒸餾比純強(qiáng)化學(xué)習(xí)更有效。這與以下觀點(diǎn)一致:單靠強(qiáng)化學(xué)習(xí)可能不足以在這種規(guī)模的模型中產(chǎn)生強(qiáng)大的推理能力,而使用高質(zhì)量推理數(shù)據(jù)進(jìn)行 SFT 在使用小模型時(shí)可能是一種更有效的策略。

為了完整性,查看表格中的其他比較將會(huì)很有用:

1. Qwen-32B 使用 SFT + RL 進(jìn)行訓(xùn)練,類似于 DeepSeek-R1 的開(kāi)發(fā)方式。這將有助于確定當(dāng) RL 與 SFT 結(jié)合時(shí),與純 RL 和純 SFT 相比可以取得多大的改進(jìn)。

2. DeepSeek-V3 使用純 SFT 進(jìn)行訓(xùn)練,與創(chuàng)建蒸餾模型的方式類似。這樣可以直接比較,看看 RL + SFT 相對(duì)于純 SFT 的效果如何。

結(jié)論

在本節(jié)中,我們探討了構(gòu)建和改進(jìn)推理模型的四種不同策略:

1. 推理時(shí)間擴(kuò)展不需要額外的訓(xùn)練,但會(huì)增加推理成本,隨著用戶數(shù)量或查詢量的增加,大規(guī)模部署的成本會(huì)更高。不過(guò),對(duì)于已經(jīng)很強(qiáng)大的模型來(lái)說(shuō),提高性能仍然是明智之舉。我強(qiáng)烈懷疑 o1 利用了推理時(shí)間擴(kuò)展,這有助于解釋為什么與 DeepSeek-R1 相比,它在每 token 基礎(chǔ)上的成本更高。

2. 純 RL 對(duì)于研究目的來(lái)說(shuō)很有趣,因?yàn)樗峁┝藢?duì)推理作為一種新興行為的洞察。然而,在實(shí)際模型開(kāi)發(fā)中,RL + SFT 是首選方法,因?yàn)樗梢援a(chǎn)生更強(qiáng)大的推理模型。我強(qiáng)烈懷疑 o1 也是使用 RL + SFT 進(jìn)行訓(xùn)練的。更準(zhǔn)確地說(shuō),我相信 o1 從比 DeepSeek-R1 更弱、更小的基礎(chǔ)模型開(kāi)始,但通過(guò) RL + SFT 和推理時(shí)間縮放進(jìn)行了補(bǔ)償。

3. 如上所述,RL + SFT 是構(gòu)建高性能推理模型的關(guān)鍵方法。DeepSeek-R1 是一個(gè)很好的藍(lán)圖,展示了如何做到這一點(diǎn)。

4. 蒸餾是一種有吸引力的方法,尤其是用于創(chuàng)建更小、更高效的模型。然而,蒸餾的局限性在于它不會(huì)推動(dòng)創(chuàng)新或產(chǎn)生下一代推理模型。例如,蒸餾總是依賴于現(xiàn)有的、更強(qiáng)大的模型來(lái)生成監(jiān)督微調(diào) (SFT) 數(shù)據(jù)。

我預(yù)計(jì)接下來(lái)會(huì)看到的一個(gè)有趣的方面是將 RL + SFT(方法 3)與推理時(shí)間擴(kuò)展(方法 1)相結(jié)合。這很可能是 OpenAI o1 正在做的事情,只不過(guò)它可能基于比 DeepSeek-R1 更弱的基礎(chǔ)模型,這解釋了為什么 DeepSeek-R1 表現(xiàn)如此出色,同時(shí)在推理時(shí)間上保持相對(duì)便宜。

關(guān)于 DeepSeek R1 的思考

最近幾周,很多人都問(wèn)我對(duì) DeepSeek-R1 模型的看法。簡(jiǎn)而言之,我認(rèn)為它們是一項(xiàng)了不起的成就。作為一名研究工程師,我特別欣賞這份詳細(xì)的技術(shù)報(bào)告,它提供了我可以從中學(xué)習(xí)的方法論見(jiàn)解。

最令人著迷的收獲之一是推理是如何從純強(qiáng)化學(xué)習(xí)中發(fā)展成為一種行為的。令人印象深刻的是,DeepSeek 已根據(jù)寬松的 MIT 開(kāi)源許可證對(duì)其模型進(jìn)行了開(kāi)源,該許可證的限制甚至比 Meta 的 Llama 模型還要少。

與 o1 相比如何?

DeepSeek-R1 比 o1 好嗎?我認(rèn)為兩者大致相同。然而,最突出的是 DeepSeek-R1 在推理時(shí)間上更高效。這表明 DeepSeek 可能在訓(xùn)練過(guò)程中投入了更多,而 OpenAI 可能更多地依賴于 o1 的推理時(shí)間擴(kuò)展。

盡管如此,很難直接比較 o1 和 DeepSeek-R1,因?yàn)?OpenAI 尚未披露有關(guān) o1 的太多信息。例如,我們知道:

  • o1 也是專家混合體 (MoE) 嗎?
  • o1 有多大?
  • o1 可能只是 GPT-4o 的稍微改進(jìn)版本,具有最少的 RL + SFT 和僅廣泛的推理時(shí)間擴(kuò)展嗎?

如果不知道這些細(xì)節(jié),直接的比較就只是蘋(píng)果和橘子之間的比較。

訓(xùn)練 DeepSeek-R1 的成本

另一個(gè)討論點(diǎn)是開(kāi)發(fā) DeepSeek-R1 的成本。有人提到訓(xùn)練成本約為 600 萬(wàn)美元,但他們可能將 DeepSeek-V3(去年 12 月發(fā)布的基礎(chǔ)模型)和 DeepSeek-R1 混為一談。

600 萬(wàn)美元的估算是基于每 GPU 小時(shí) 2 美元的假設(shè)以及 DeepSeek-V3 最終訓(xùn)練運(yùn)行所需的 GPU 小時(shí)數(shù),該估算最初于 2024 年 12 月進(jìn)行討論。

然而,DeepSeek 團(tuán)隊(duì)從未透露 R1 的具體 GPU 小時(shí)數(shù)或開(kāi)發(fā)成本,因此任何成本估算都還只是純粹的猜測(cè)。

無(wú)論如何,最終,DeepSeek-R1 是開(kāi)放權(quán)重推理模型的一個(gè)重要里程碑,并且其推理時(shí)間的效率使其成為 OpenAI o1 的一個(gè)有趣替代品。

在有限的預(yù)算下開(kāi)發(fā)推理模型開(kāi)發(fā) DeepSeek-R1 級(jí)推理模型可能需要數(shù)十萬(wàn)到數(shù)百萬(wàn)美元,即使從像 DeepSeek-V3 這樣的開(kāi)放權(quán)重基礎(chǔ)模型開(kāi)始也是如此。對(duì)于預(yù)算有限的研究人員或工程師來(lái)說(shuō),這可能會(huì)令人沮喪。

好消息:蒸餾可以發(fā)揮很大作用

幸運(yùn)的是,模型蒸餾提供了一種更具成本效益的替代方案。DeepSeek 團(tuán)隊(duì)通過(guò)他們的 R1 蒸餾模型證明了這一點(diǎn),盡管比 DeepSeek-R1 小得多,但其推理性能卻出奇地強(qiáng)大。然而,即使是這種方法也并不完全便宜。他們的蒸餾過(guò)程使用了 800K SFT 樣本,這需要大量計(jì)算。

有趣的是,就在 DeepSeek-R1 發(fā)布前幾天,我偶然看到了一篇關(guān)于 Sky-T1 的文章,這是一個(gè)令人著迷的項(xiàng)目,一個(gè)小團(tuán)隊(duì)僅使用 17K SFT 樣本訓(xùn)練了一個(gè)開(kāi)放權(quán)重 32B 模型。總成本是多少??jī)H需 450 美元,這比大多數(shù) AI 會(huì)議的注冊(cè)費(fèi)還低。

這個(gè)例子表明,盡管大規(guī)模訓(xùn)練仍然昂貴,但較小規(guī)模、有針對(duì)性的微調(diào)工作仍然可以以極低的成本產(chǎn)生令人印象深刻的結(jié)果。

圖源:《Sky-T1:450 美元以內(nèi)訓(xùn)練你自己的 O1 預(yù)覽模型》

https://novasky-ai.github.io/posts/sky-t1/


根據(jù)他們的基準(zhǔn)測(cè)試,Sky-T1 的表現(xiàn)與 o1 大致相當(dāng),考慮到其低訓(xùn)練成本,這令人印象深刻。

預(yù)算內(nèi)的純 RL:TinyZero

雖然 Sky-T1 專注于模型提煉,但我也在“純 RL”領(lǐng)域發(fā)現(xiàn)了一些有趣的工作。一個(gè)值得注意的例子是TinyZero ,這是一個(gè) 3B 參數(shù)模型,它復(fù)制了 DeepSeek-R1-Zero 方法(附注:訓(xùn)練成本不到 30 美元)。

令人驚訝的是,即使只有 3B 參數(shù),TinyZero 也表現(xiàn)出一些突發(fā)的自我驗(yàn)證能力,這支持了推理可以通過(guò)純 RL 出現(xiàn)的想法,即使在小模型中也是如此。

TinyZero 存儲(chǔ)庫(kù)提到研究報(bào)告仍在進(jìn)行中,我一定會(huì)密切關(guān)注更多細(xì)節(jié)。

TinyZero 存儲(chǔ)庫(kù) (https://github.com/Jiayi-Pan/TinyZero) 中的一張圖片顯示該模型能夠進(jìn)行自我驗(yàn)證。(相比之下,看看基礎(chǔ)模型的響應(yīng)會(huì)很有趣。)

上述兩個(gè)項(xiàng)目表明,即使預(yù)算有限,也可以在推理模型上開(kāi)展有趣的工作。雖然這兩種方法都復(fù)制了 DeepSeek-R1 的方法,一種專注于純 RL(TinyZero),另一種專注于純 SFT(Sky-T1),但探索如何進(jìn)一步擴(kuò)展這些想法將非常有趣。

超越傳統(tǒng) SFT:旅程學(xué)習(xí)

去年我偶然發(fā)現(xiàn)一種特別有趣的方法,論文《O1 復(fù)制之旅:戰(zhàn)略進(jìn)展報(bào)告 - 第 1 部分》中對(duì)此進(jìn)行了描述。盡管標(biāo)題如此,但該論文實(shí)際上并沒(méi)有復(fù)制 o1。相反,它介紹了一種改進(jìn)蒸餾(純 SFT)過(guò)程的另一種方法。

論文的核心思想是用“旅程學(xué)習(xí)”(Journey Learning)替代“捷徑學(xué)習(xí)”。

  • 捷徑學(xué)習(xí)是指指令微調(diào)的傳統(tǒng)方法,其中僅使用正確的解決方案路徑來(lái)訓(xùn)練模型。
  • 另一方面,旅程學(xué)習(xí)也包括錯(cuò)誤的解決路徑,讓模型從錯(cuò)誤中學(xué)習(xí)。

這種方法與 TinyZero 的純 RL 訓(xùn)練中觀察到的自我驗(yàn)證能力有點(diǎn)相似,但它專注于完全通過(guò) SFT 改進(jìn)模型。通過(guò)讓模型接觸錯(cuò)誤的推理路徑及其修正,旅程學(xué)習(xí)還可以增強(qiáng)自我修正能力,從而可能通過(guò)這種方式使推理模型更加可靠。

與傳統(tǒng)的捷徑學(xué)習(xí)不同,旅程學(xué)習(xí)在 SFT 數(shù)據(jù)中包含了錯(cuò)誤的解決方案路徑。

注釋圖來(lái)自《O1 復(fù)制之旅:戰(zhàn)略進(jìn)展報(bào)告 - 第 1 部分》(https://arxiv.org/abs/2410.18982)

這可能是未來(lái)工作的一個(gè)令人興奮的方向,特別是對(duì)于低預(yù)算推理模型開(kāi)發(fā),因?yàn)榛?RL 的方法在計(jì)算上可能不切實(shí)際。

無(wú)論如何,推理模型方面目前正在發(fā)生很多有趣的工作,我相信我們將在接下來(lái)的幾個(gè)月里看到更多令人興奮的工作!

參考鏈接:https://magazine.sebastianraschka.com/p/understanding-reasoning-llms

責(zé)任編輯:武曉燕 來(lái)源: 51CTO技術(shù)棧
相關(guān)推薦

2025-03-06 10:14:39

2025-03-06 09:55:49

2025-02-10 06:50:00

AIDeepSeek推理模型

2025-02-25 09:13:16

2025-01-21 11:53:53

2025-02-08 14:03:25

2025-01-27 12:30:07

2025-02-20 15:32:28

2025-02-19 08:00:00

2025-02-20 17:19:08

2025-04-09 09:41:43

2025-04-25 13:34:53

R1DeepSeekAgent

2025-03-05 03:00:00

DeepSeek大模型調(diào)優(yōu)

2025-03-06 17:29:21

2025-02-12 14:09:31

DeepSeekChatGPTAPI

2025-03-05 09:10:00

AI生成模型

2025-02-08 11:31:17

DeepseekR1模型

2025-02-25 08:20:50

AI程序員DeepSeek

2025-02-12 12:12:59

2025-02-13 08:51:23

DeepSeek大模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)