外國專家解讀DeepSeek:預(yù)算有限,如何復(fù)制R1推理模型?純強(qiáng)化學(xué)習(xí)不現(xiàn)實(shí)! 原創(chuàng)
出品 | 51CTO技術(shù)棧(微信號:blog51cto)
?Sebastian Raschka?是一位外國知名的AI專家。特別在大型語言模型(LLM)研究方面,有著豐富的研究經(jīng)驗(yàn)。近日DeepSeek-R1推理模型的推出,將“任何一款不是o1的模型快速蒸餾成具備強(qiáng)推理能力的o1”成為了可能,而且所需的成本和算力都大大降低。
但爆火有一個(gè)地方不好,就是很容易讓我們迷失在炒作的海洋中,尋找不到有價(jià)值的信息。Raschka?非常nice,昨天發(fā)布了一篇有關(guān)DeepSeek推理模型的深度總結(jié)文章,信息密度極高,內(nèi)容來源包含大量的技術(shù)Paper,圖文并茂,非常適合想了解DeepSeek R1背后真相的朋友們。
話不多說,這就為諸君奉上。
本文介紹了構(gòu)建推理模型的四種主要方法,或者我們?nèi)绾瓮ㄟ^推理能力增強(qiáng) LLM。我希望這能提供有價(jià)值的見解,并幫助您駕馭圍繞該主題的快速發(fā)展的文獻(xiàn)和炒作。
2024 年,LLM領(lǐng)域的專業(yè)化程度不斷提高。除了預(yù)訓(xùn)練和微調(diào)之外,我們還見證了從 RAG 到代碼助手等專業(yè)應(yīng)用程序的興起。我預(yù)計(jì)這一趨勢將在 2025 年加速,并更加注重特定領(lǐng)域和應(yīng)用程序的優(yōu)化(即“專業(yè)化”)。
第 1-3 階段是開發(fā) LLM 的常見步驟。 第 4 階段針對特定用例專門開發(fā) LLM。?
推理模型的開發(fā)就是這些專業(yè)化之一。這意味著我們改進(jìn) LLM,使其擅長處理復(fù)雜任務(wù),這些任務(wù)最好通過中間步驟來解決,例如謎題、高級數(shù)學(xué)和編碼挑戰(zhàn)。然而,這種專業(yè)化并不能取代其他 LLM 應(yīng)用程序。因?yàn)?strong>將 LLM 轉(zhuǎn)換為推理模型也會帶來某些缺點(diǎn),我將在后面討論。
下面簡要列出本文主要探討的幾塊內(nèi)容。在本文中,我將:
- 解釋“推理模型”的含義
- 討論推理模型的優(yōu)點(diǎn)和缺點(diǎn)
- 概述 DeepSeek R1 背后的方法
- 描述建立和改進(jìn)推理模型的四種主要方法
- 分享對 DeepSeek V3 和 R1 發(fā)布后 LLM 前景的看法
- 提供在預(yù)算緊張的情況下開發(fā)推理模型的技巧
希望這篇文章對你會有用,因?yàn)槿斯ぶ悄芙衲暌琅f會繼續(xù)快速發(fā)展!
我們?nèi)绾味x“推理模型”?
如果你從事人工智能(或一般機(jī)器學(xué)習(xí))工作,可能對模糊且備受爭議的定義并不陌生。術(shù)語“推理模型”也不例外。最終,有人會在一篇論文中正式定義它,但在下一篇論文中又會重新定義它,依此類推。
在本文中,我將“推理”定義為回答需要復(fù)雜、多步驟生成且包含中間步驟的問題的過程。例如,像“法國首都是哪里?”這樣的事實(shí)性問答不需要推理。相比之下,像“如果一列火車以 60 英里/小時(shí)的速度行駛 3 個(gè)小時(shí),它會行駛多遠(yuǎn)?”這樣的問題需要一些簡單的推理。例如,它需要識別距離、速度和時(shí)間之間的關(guān)系,然后才能得出答案。
普通的 LLM 可能只提供簡短的答案(如左圖所示),而推理模型通常包括揭示部分思維過程的中間步驟。
(注意,許多未專門為推理任務(wù)開發(fā)的 LLM 也可以在其答案中提供中間推理步驟。)
大多數(shù)現(xiàn)代大型語言模型都具備基本的推理能力,能夠回答像“如果一列火車以每小時(shí)60英里的速度行駛了3小時(shí),它走了多遠(yuǎn)?”這樣的問題。因此,如今當(dāng)我們提到推理模型時(shí),我們通常指的是那些在更復(fù)雜的推理任務(wù)(如解謎題、猜謎語和數(shù)學(xué)證明)中表現(xiàn)出色的大型語言模型。
此外,如今大多數(shù)被標(biāo)記為推理模型的大型語言模型在其回應(yīng)中都包含一個(gè)“思考”或“思維”過程。大型語言模型是否以及如何真正“思考”則是另一個(gè)討論話題。
推理模型中的中間步驟可以以兩種方式出現(xiàn)。首先,它們可以明確地包含在回應(yīng)中,如前圖所示。其次,一些推理型大型語言模型(例如OpenAI的o1)會進(jìn)行多次迭代,其中的中間步驟不會展示給用戶。
“推理”用于兩個(gè)不同的層面:1)處理輸入并通過多個(gè)中間步驟生成;2)提供某種推理作為對用戶的響應(yīng)的一部分。
我們什么時(shí)候應(yīng)該使用推理模型?
現(xiàn)在我們已經(jīng)定義了推理模型,我們可以進(jìn)入更有趣的部分:如何構(gòu)建和改進(jìn)用于推理任務(wù)的 LLM。然而,在深入研究技術(shù)細(xì)節(jié)之前,重要的是要考慮何時(shí)真正需要推理模型。
我們什么時(shí)候需要推理模型?推理模型旨在擅長解決復(fù)雜任務(wù),例如解決難題、高級數(shù)學(xué)問題和具有挑戰(zhàn)性的編碼任務(wù)。但是,對于總結(jié)、翻譯或基于知識的問答等簡單任務(wù),它們并不是必需的。
事實(shí)上,將推理模型用于所有事情可能效率低下且成本高昂。例如,推理模型通常使用起來更昂貴、更冗長,有時(shí)由于“過度思考”而更容易出錯(cuò)。這里也適用一條簡單的規(guī)則:使用正確的工具(或 LLM 類型)來完成任務(wù)。
下圖總結(jié)了推理模型的主要優(yōu)勢和局限性。
推理模型的主要優(yōu)勢和劣勢
簡要介紹一下 DeepSeek 的訓(xùn)練流程
在下一節(jié)討論構(gòu)建和改進(jìn)推理模型的四種主要方法之前,我想簡要概述一下 DeepSeek R1 流程,如DeepSeek R1 技術(shù)報(bào)告中所述。該報(bào)告既是一個(gè)有趣的案例研究,也是開發(fā)推理 LLM 的藍(lán)圖。
請注意,DeepSeek 并沒有發(fā)布單個(gè) R1 推理模型,而是引入了三種不同的變體:DeepSeek-R1-Zero、DeepSeek-R1 和 DeepSeek-R1-Distill。
根據(jù)技術(shù)報(bào)告中的描述,我在下圖中總結(jié)了這些模型的發(fā)展過程。
DeepSeek R1 技術(shù)報(bào)告中討論了 DeepSeeks 的三種不同推理模型的開發(fā)過程。
接下來我們先簡單回顧一下上圖所示的流程,下一節(jié)會詳細(xì)介紹構(gòu)建和改進(jìn)推理模型的四種主要方法。
(1)DeepSeek-R1-Zero:該模型基于 2024 年 12 月發(fā)布的 671B 預(yù)訓(xùn)練 DeepSeek-V3 基礎(chǔ)模型。研究團(tuán)隊(duì)使用強(qiáng)化學(xué)習(xí) (RL) 對其進(jìn)行訓(xùn)練,并采用兩種類型的獎(jiǎng)勵(lì)。這種方法被稱為“冷啟動”訓(xùn)練,因?yàn)樗话ūO(jiān)督微調(diào) (SFT) 步驟,而這通常是帶人工反饋的強(qiáng)化學(xué)習(xí) (RLHF) 的一部分。
(2)DeepSeek-R1:這是 DeepSeek 的旗艦推理模型,基于 DeepSeek-R1-Zero 構(gòu)建。團(tuán)隊(duì)通過增加 SFT 階段和進(jìn)一步的 RL 訓(xùn)練對其進(jìn)行了進(jìn)一步完善,從而改進(jìn)了“冷啟動”的 R1-Zero 模型。
(3)DeepSeek-R1-Distill*:DeepSeek 團(tuán)隊(duì)利用前面步驟生成的 SFT 數(shù)據(jù)對 Qwen 和 Llama 模型進(jìn)行微調(diào),以增強(qiáng)其推理能力。雖然這不是傳統(tǒng)意義上的蒸餾,但這個(gè)過程涉及在較大的 DeepSeek-R1 671B 模型的輸出上訓(xùn)練較小的模型(Llama 8B 和 70B,以及 Qwen 1.5B–30B)。
建立和改進(jìn)推理模型的四種主要方法在本節(jié)中,我將概述當(dāng)前用于增強(qiáng) LLM 推理能力和構(gòu)建專門推理模型(如 DeepSeek-R1、OpenAI 的 o1 和 o3 等)的關(guān)鍵技術(shù)。
注意:o1 和 o3 的具體工作原理在 OpenAI 之外仍不得而知。不過,據(jù)傳它們將同時(shí)利用推理和訓(xùn)練技術(shù)。
1)推理時(shí)間擴(kuò)展
提高 LLM 推理能力(或一般任何能力)的一種方法是推理時(shí)間擴(kuò)展。這個(gè)術(shù)語可能有多種含義,但在這種情況下,它指的是在推理過程中增加計(jì)算資源以提高輸出質(zhì)量。
粗略地類比一下,當(dāng)人們有更多時(shí)間思考復(fù)雜問題時(shí),他們往往會做出更好的反應(yīng)。同樣,我們可以應(yīng)用一些技巧,鼓勵(lì)LLM在回答問題時(shí)更多地“思考”。(不過,LLM是否真的“思考”是另一個(gè)話題。)
推理時(shí)間擴(kuò)展的一個(gè)直接方法是巧妙的提示工程。一個(gè)典型的例子是思路鏈 (CoT) 提示,其中輸入提示中包含“逐步思考”等短語。這鼓勵(lì)模型生成中間推理步驟,而不是直接跳到最終答案,這通常(但并非總是)可以在更復(fù)雜的問題上產(chǎn)生更準(zhǔn)確的結(jié)果。(請注意,對于更簡單的基于知識的問題,例如“法國的首都是什么”,采用這種策略是沒有意義的,這又是一個(gè)很好的經(jīng)驗(yàn)法則,可以找出推理模型是否適合你的輸入查詢。)
2022 年大型語言模型中的經(jīng)典 CoT 提示的一個(gè)示例是零樣本推理器論文 (https://arxiv.org/abs/2205.1191)
上述 CoT 方法可以看作是推理時(shí)間擴(kuò)展,因?yàn)樗ㄟ^生成更多的輸出標(biāo)記使推理更加昂貴。
另一種推理時(shí)間擴(kuò)展方法是使用投票和搜索策略。一個(gè)簡單的例子是多數(shù)投票,我們讓 LLM 生成多個(gè)答案,然后我們通過多數(shù)投票選擇正確的答案。同樣,我們可以使用集束搜索和其他搜索算法來生成更好的響應(yīng)。
我強(qiáng)烈推薦我在之前的《2024 年值得關(guān)注的 AI 研究論文(第二部分)》文章中描述的《擴(kuò)展 LLM 測試時(shí)間計(jì)算優(yōu)化比擴(kuò)展模型參數(shù)更有效》論文,以了解有關(guān)這些不同策略的更多詳細(xì)信息。
文章鏈接:??https://magazine.sebastianraschka.com/p/ai-research-papers-2024-part-2??
不同的基于搜索的方法依賴于基于過程獎(jiǎng)勵(lì)的模型來選擇最佳答案。
注釋圖來自 LLM Test-Time Compute 論文,https://arxiv.org/abs/2408.03314
DeepSeek R1 技術(shù)報(bào)告指出,其模型不使用推理時(shí)間縮放。然而,這種技術(shù)通常在 LLM 之上的應(yīng)用層實(shí)現(xiàn),因此 DeepSeek 有可能在其應(yīng)用程序中應(yīng)用它。
我懷疑 OpenAI 的 o1 和 o3 模型使用了推理時(shí)間縮放,這可以解釋為什么它們與 GPT-4o 等模型相比相對昂貴。除了推理時(shí)間縮放之外,o1 和 o3 可能使用與 DeepSeek R1 類似的 RL 管道進(jìn)行訓(xùn)練。下面兩節(jié)將詳細(xì)介紹強(qiáng)化學(xué)習(xí)。
2)純強(qiáng)化學(xué)習(xí)(RL)
我個(gè)人對DeepSeek R1 論文的亮點(diǎn)之一是他們發(fā)現(xiàn)推理是純強(qiáng)化學(xué)習(xí) (RL) 的一種行為。讓我們更詳細(xì)地探討一下這意味著什么。
如前所述,DeepSeek 開發(fā)了三種類型的 R1 模型。第一種是DeepSeek-R1-Zero ,它建立在 DeepSeek-V3 基礎(chǔ)模型之上,這是他們于 2024 年 12 月發(fā)布的標(biāo)準(zhǔn)預(yù)訓(xùn)練 LLM。與典型的 RL 流程不同,在 RL 之前應(yīng)用監(jiān)督微調(diào) (SFT),DeepSeek-R1-Zero僅使用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,沒有初始 SFT 階段,如下圖所示。
DeepSeek-R1-Zero模型的開發(fā)過程
不過,這種 RL 過程類似于常用的 RLHF 方法,后者通常應(yīng)用于偏好調(diào)整 LLM。(我在我的文章《LLM 訓(xùn)練:RLHF 及其替代方案》中更詳細(xì)地介紹了 RLHF 。)
但是,如上所述,DeepSeek-R1-Zero的關(guān)鍵區(qū)別在于它們跳過了用于指令調(diào)整的監(jiān)督微調(diào) (SFT) 階段。這就是為什么他們將其稱為“純”RL。(盡管 LLM 背景下的 RL 與傳統(tǒng) RL 有很大不同,這是另一個(gè)話題。)
對于獎(jiǎng)勵(lì),他們沒有使用根據(jù)人類偏好訓(xùn)練的獎(jiǎng)勵(lì)模型,而是采用了兩種類型的獎(jiǎng)勵(lì):準(zhǔn)確性獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)。
- 準(zhǔn)確性獎(jiǎng)勵(lì)使用LeetCode 編譯器來驗(yàn)證編碼答案,并使用確定性系統(tǒng)來評估數(shù)學(xué)響應(yīng)。
- 格式獎(jiǎng)勵(lì)依賴于 LLM 評委來確保響應(yīng)遵循預(yù)期格式,例如將推理步驟放在 <think> 標(biāo)簽內(nèi)。
令人驚訝的是,這種方法足以讓 LLM 培養(yǎng)基本的推理能力。研究人員觀察到一個(gè)“啊哈!”時(shí)刻,盡管模型沒有經(jīng)過明確的訓(xùn)練,但它開始在其反應(yīng)中生成推理痕跡,如下圖所示。
DeepSeek R1 技術(shù)報(bào)告 (https://arxiv.org/abs/2501.12948) 中的一張圖展示了“啊哈”時(shí)刻的出現(xiàn)。
雖然 R1-Zero 并不是表現(xiàn)最好的推理模型,但它確實(shí)通過生成中間“思考”步驟展示了推理能力,如上圖所示。這證實(shí)了使用純 RL 開發(fā)推理模型是可能的,而 DeepSeek 團(tuán)隊(duì)是第一個(gè)展示(或至少發(fā)布)這種方法的團(tuán)隊(duì)。
3)監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)(SFT + RL)
接下來我們來看看 DeepSeek 的旗艦推理模型 DeepSeek-R1 的開發(fā)歷程,它是構(gòu)建推理模型的藍(lán)圖。該模型在 DeepSeek-R1-Zero 的基礎(chǔ)上進(jìn)行了改進(jìn),加入了額外的監(jiān)督微調(diào) (SFT) 和強(qiáng)化學(xué)習(xí) (RL),以提高其推理性能。
請注意,在 RL 之前包含 SFT 階段實(shí)際上很常見,如標(biāo)準(zhǔn) RLHF 管道中所示。OpenAI 的 o1 很可能是使用類似的方法開發(fā)的。
DeepSeek-R1模型的開發(fā)過程
如上圖所示,DeepSeek 團(tuán)隊(duì)使用 DeepSeek-R1-Zero 生成所謂的“冷啟動”SFT 數(shù)據(jù)。術(shù)語“冷啟動”指的是這些數(shù)據(jù)是由 DeepSeek-R1-Zero 生成的,而 DeepSeek-R1-Zero 本身并未接受過任何監(jiān)督微調(diào) (SFT) 數(shù)據(jù)的訓(xùn)練。
使用此冷啟動 SFT 數(shù)據(jù),DeepSeek 隨后通過指令微調(diào)訓(xùn)練模型,然后進(jìn)行另一個(gè)強(qiáng)化學(xué)習(xí) (RL) 階段。此 RL 階段保留了 DeepSeek-R1-Zero RL 過程中使用的相同準(zhǔn)確度和格式獎(jiǎng)勵(lì)。但是,他們添加了一致性獎(jiǎng)勵(lì)以防止語言混合,當(dāng)模型在響應(yīng)中在多種語言之間切換時(shí)會發(fā)生這種情況。
強(qiáng)化學(xué)習(xí)階段之后是另一輪 SFT 數(shù)據(jù)收集。在此階段,使用最新的模型檢查點(diǎn)生成 600K 個(gè)思路鏈 (CoT) SFT 示例,同時(shí)使用 DeepSeek-V3 基礎(chǔ)模型創(chuàng)建另外 200K 個(gè)基于知識的 SFT 示例。
然后,這 600K + 200K SFT 樣本被用于另一輪強(qiáng)化學(xué)習(xí)。在此階段,他們再次使用基于規(guī)則的方法對數(shù)學(xué)和編碼問題進(jìn)行準(zhǔn)確率獎(jiǎng)勵(lì),而對其他問題類型使用人類偏好標(biāo)簽。
最終模型 DeepSeek-R1 由于增加了 SFT 和 RL 階段,性能較 DeepSeek-R1-Zero 有明顯提升,如下表所示。
OpenAI A1 和 DeepSeek R1 模型的基準(zhǔn)比較。注釋圖來自 DeepSeek-R1 技術(shù)報(bào)告 (https://arxiv.org/abs/2501.12948)。
4)純監(jiān)督微調(diào)(SFT)和蒸餾
到目前為止,我們已經(jīng)介紹了構(gòu)建和改進(jìn)推理模型的三種主要方法:
1. 推理時(shí)間擴(kuò)展,一種無需訓(xùn)練或以其他方式修改底層模型即可提高推理能力的技術(shù)。
2. 純強(qiáng)化學(xué)習(xí) (RL),如 DeepSeek-R1-Zero,它表明推理可以作為一種學(xué)習(xí)行為出現(xiàn),而無需監(jiān)督微調(diào)。
3. 監(jiān)督微調(diào)(SFT)加上 RL,這產(chǎn)生了 DeepSeek 的旗艦推理模型 DeepSeek-R1。
那么,還剩下什么呢?模型“蒸餾”。
令人驚訝的是,DeepSeek 還發(fā)布了通過他們稱之為“蒸餾”的過程訓(xùn)練的較小模型。然而,在大型語言模型的背景下,蒸餾并不一定遵循深度學(xué)習(xí)中使用的經(jīng)典知識蒸餾方法。傳統(tǒng)上,在知識蒸餾中(如我的《機(jī)器學(xué)習(xí)問答與人工智能》一書第 6 章中簡要描述的那樣),較小的學(xué)生模型在較大的教師模型和目標(biāo)數(shù)據(jù)集的對數(shù)上進(jìn)行訓(xùn)練。
相反,這里的蒸餾是指在由較大的 LLM 生成的 SFT 數(shù)據(jù)集上對較小的 LLM(例如 Llama 8B 和 70B 以及 Qwen 2.5 模型(0.5B 到 32B))進(jìn)行指令微調(diào)。具體來說,這些較大的 LLM 是 DeepSeek-V3 和 DeepSeek-R1 的中間檢查點(diǎn)。事實(shí)上,用于此蒸餾過程的 SFT 數(shù)據(jù)與用于訓(xùn)練 DeepSeek-R1 的數(shù)據(jù)集相同,如上一節(jié)所述。
為了闡明這一過程,我在下圖中突出顯示了蒸餾部分。
DeepSeek-R1-Distill模型的開發(fā)過程。
他們?yōu)槭裁匆_發(fā)這些蒸餾模型?我認(rèn)為有兩個(gè)主要原因:
1. 較小的模型效率更高。這意味著它們運(yùn)行起來更便宜,但它們也可以在低端硬件上運(yùn)行,這對許多像我一樣的研究人員和修補(bǔ)匠來說尤其有趣。
2. 純 SFT 案例研究。這些蒸餾模型可作為有趣的基準(zhǔn),展示純監(jiān)督微調(diào) (SFT) 在沒有強(qiáng)化學(xué)習(xí)的情況下可以讓模型走多遠(yuǎn)。
下表比較了這些蒸餾模型與其他流行模型以及 DeepSeek-R1-Zero 和 DeepSeek-R1 的性能。
蒸餾模型與非蒸餾模型的基準(zhǔn)比較。
注釋圖來自 DeepSeek-R1 技術(shù)報(bào)告 (https://arxiv.org/abs/2501.12948)。
我們可以看到,精簡后的模型明顯弱于 DeepSeek-R1,但與 DeepSeek-R1-Zero 相比,它們卻出奇地強(qiáng)大,盡管規(guī)模小了幾個(gè)數(shù)量級。值得注意的是,這些模型與 o1 mini 相比表現(xiàn)得非常好(我懷疑 o1-mini 本身可能是 o1 的一個(gè)類似的精簡版本)。
在用結(jié)論結(jié)束本節(jié)之前,還有一個(gè)有趣的比較值得一提。DeepSeek 團(tuán)隊(duì)測試了 DeepSeek-R1-Zero 中出現(xiàn)的新興推理行為是否也會出現(xiàn)在較小的模型中。為了研究這一點(diǎn),他們將 DeepSeek-R1-Zero 中相同的純 RL 方法直接應(yīng)用于 Qwen-32B。
下表總結(jié)了本次實(shí)驗(yàn)的結(jié)果,其中 QwQ-32B-Preview 是 Qwen 團(tuán)隊(duì)基于 Qwen 2.5 32B 開發(fā)的參考推理模型(我認(rèn)為訓(xùn)練細(xì)節(jié)從未披露過)。此比較提供了一些額外的見解,即純 RL 是否可以在比 DeepSeek-R1-Zero 小得多的模型中誘導(dǎo)推理能力。
在較小的 32B 模型上對蒸餾和 RL 進(jìn)行基準(zhǔn)比較。
注釋圖來自 DeepSeek-R1 技術(shù)報(bào)告 (https://arxiv.org/abs/2501.12948)。
有趣的是,結(jié)果表明,對于較小的模型,蒸餾比純強(qiáng)化學(xué)習(xí)更有效。這與以下觀點(diǎn)一致:單靠強(qiáng)化學(xué)習(xí)可能不足以在這種規(guī)模的模型中產(chǎn)生強(qiáng)大的推理能力,而使用高質(zhì)量推理數(shù)據(jù)進(jìn)行 SFT 在使用小模型時(shí)可能是一種更有效的策略。
為了完整性,查看表格中的其他比較將會很有用:
1. Qwen-32B 使用 SFT + RL 進(jìn)行訓(xùn)練,類似于 DeepSeek-R1 的開發(fā)方式。這將有助于確定當(dāng) RL 與 SFT 結(jié)合時(shí),與純 RL 和純 SFT 相比可以取得多大的改進(jìn)。
2. DeepSeek-V3 使用純 SFT 進(jìn)行訓(xùn)練,與創(chuàng)建蒸餾模型的方式類似。這樣可以直接比較,看看 RL + SFT 相對于純 SFT 的效果如何。
結(jié)論
在本節(jié)中,我們探討了構(gòu)建和改進(jìn)推理模型的四種不同策略:
1. 推理時(shí)間擴(kuò)展不需要額外的訓(xùn)練,但會增加推理成本,隨著用戶數(shù)量或查詢量的增加,大規(guī)模部署的成本會更高。不過,對于已經(jīng)很強(qiáng)大的模型來說,提高性能仍然是明智之舉。我強(qiáng)烈懷疑 o1 利用了推理時(shí)間擴(kuò)展,這有助于解釋為什么與 DeepSeek-R1 相比,它在每 token 基礎(chǔ)上的成本更高。
2. 純 RL 對于研究目的來說很有趣,因?yàn)樗峁┝藢ν评碜鳛橐环N新興行為的洞察。然而,在實(shí)際模型開發(fā)中,RL + SFT 是首選方法,因?yàn)樗梢援a(chǎn)生更強(qiáng)大的推理模型。我強(qiáng)烈懷疑 o1 也是使用 RL + SFT 進(jìn)行訓(xùn)練的。更準(zhǔn)確地說,我相信 o1 從比 DeepSeek-R1 更弱、更小的基礎(chǔ)模型開始,但通過 RL + SFT 和推理時(shí)間縮放進(jìn)行了補(bǔ)償。
3. 如上所述,RL + SFT 是構(gòu)建高性能推理模型的關(guān)鍵方法。DeepSeek-R1 是一個(gè)很好的藍(lán)圖,展示了如何做到這一點(diǎn)。
4. 蒸餾是一種有吸引力的方法,尤其是用于創(chuàng)建更小、更高效的模型。然而,蒸餾的局限性在于它不會推動創(chuàng)新或產(chǎn)生下一代推理模型。例如,蒸餾總是依賴于現(xiàn)有的、更強(qiáng)大的模型來生成監(jiān)督微調(diào) (SFT) 數(shù)據(jù)。
我預(yù)計(jì)接下來會看到的一個(gè)有趣的方面是將 RL + SFT(方法 3)與推理時(shí)間擴(kuò)展(方法 1)相結(jié)合。這很可能是 OpenAI o1 正在做的事情,只不過它可能基于比 DeepSeek-R1 更弱的基礎(chǔ)模型,這解釋了為什么 DeepSeek-R1 表現(xiàn)如此出色,同時(shí)在推理時(shí)間上保持相對便宜。
關(guān)于 DeepSeek R1 的思考
最近幾周,很多人都問我對 DeepSeek-R1 模型的看法。簡而言之,我認(rèn)為它們是一項(xiàng)了不起的成就。作為一名研究工程師,我特別欣賞這份詳細(xì)的技術(shù)報(bào)告,它提供了我可以從中學(xué)習(xí)的方法論見解。
最令人著迷的收獲之一是推理是如何從純強(qiáng)化學(xué)習(xí)中發(fā)展成為一種行為的。令人印象深刻的是,DeepSeek 已根據(jù)寬松的 MIT 開源許可證對其模型進(jìn)行了開源,該許可證的限制甚至比 Meta 的 Llama 模型還要少。
與 o1 相比如何?
DeepSeek-R1 比 o1 好嗎?我認(rèn)為兩者大致相同。然而,最突出的是 DeepSeek-R1 在推理時(shí)間上更高效。這表明 DeepSeek 可能在訓(xùn)練過程中投入了更多,而 OpenAI 可能更多地依賴于 o1 的推理時(shí)間擴(kuò)展。
盡管如此,很難直接比較 o1 和 DeepSeek-R1,因?yàn)?OpenAI 尚未披露有關(guān) o1 的太多信息。例如,我們不知道:
- o1 也是專家混合體 (MoE) 嗎?
- o1 有多大?
- o1 可能只是 GPT-4o 的稍微改進(jìn)版本,具有最少的 RL + SFT 和僅廣泛的推理時(shí)間擴(kuò)展嗎?
如果不知道這些細(xì)節(jié),直接的比較就只是蘋果和橘子之間的比較。
訓(xùn)練 DeepSeek-R1 的成本
另一個(gè)討論點(diǎn)是開發(fā) DeepSeek-R1 的成本。有人提到訓(xùn)練成本約為 600 萬美元,但他們可能將 DeepSeek-V3(去年 12 月發(fā)布的基礎(chǔ)模型)和 DeepSeek-R1 混為一談。
600 萬美元的估算是基于每 GPU 小時(shí) 2 美元的假設(shè)以及 DeepSeek-V3 最終訓(xùn)練運(yùn)行所需的 GPU 小時(shí)數(shù),該估算最初于 2024 年 12 月進(jìn)行討論。
然而,DeepSeek 團(tuán)隊(duì)從未透露 R1 的具體 GPU 小時(shí)數(shù)或開發(fā)成本,因此任何成本估算都還只是純粹的猜測。
無論如何,最終,DeepSeek-R1 是開放權(quán)重推理模型的一個(gè)重要里程碑,并且其推理時(shí)間的效率使其成為 OpenAI o1 的一個(gè)有趣替代品。
在有限的預(yù)算下開發(fā)推理模型開發(fā) DeepSeek-R1 級推理模型可能需要數(shù)十萬到數(shù)百萬美元,即使從像 DeepSeek-V3 這樣的開放權(quán)重基礎(chǔ)模型開始也是如此。對于預(yù)算有限的研究人員或工程師來說,這可能會令人沮喪。
好消息:蒸餾可以發(fā)揮很大作用
幸運(yùn)的是,模型蒸餾提供了一種更具成本效益的替代方案。DeepSeek 團(tuán)隊(duì)通過他們的 R1 蒸餾模型證明了這一點(diǎn),盡管比 DeepSeek-R1 小得多,但其推理性能卻出奇地強(qiáng)大。然而,即使是這種方法也并不完全便宜。他們的蒸餾過程使用了 800K SFT 樣本,這需要大量計(jì)算。
有趣的是,就在 DeepSeek-R1 發(fā)布前幾天,我偶然看到了一篇關(guān)于 Sky-T1 的文章,這是一個(gè)令人著迷的項(xiàng)目,一個(gè)小團(tuán)隊(duì)僅使用 17K SFT 樣本訓(xùn)練了一個(gè)開放權(quán)重 32B 模型??偝杀臼嵌嗌??僅需 450 美元,這比大多數(shù) AI 會議的注冊費(fèi)還低。
這個(gè)例子表明,盡管大規(guī)模訓(xùn)練仍然昂貴,但較小規(guī)模、有針對性的微調(diào)工作仍然可以以極低的成本產(chǎn)生令人印象深刻的結(jié)果。
圖源:《Sky-T1:450 美元以內(nèi)訓(xùn)練你自己的 O1 預(yù)覽模型》
??https://novasky-ai.github.io/posts/sky-t1/??
根據(jù)他們的基準(zhǔn)測試,Sky-T1 的表現(xiàn)與 o1 大致相當(dāng),考慮到其低訓(xùn)練成本,這令人印象深刻。
預(yù)算內(nèi)的純 RL:TinyZero
雖然 Sky-T1 專注于模型提煉,但我也在“純 RL”領(lǐng)域發(fā)現(xiàn)了一些有趣的工作。一個(gè)值得注意的例子是TinyZero ,這是一個(gè) 3B 參數(shù)模型,它復(fù)制了 DeepSeek-R1-Zero 方法(附注:訓(xùn)練成本不到 30 美元)。
令人驚訝的是,即使只有 3B 參數(shù),TinyZero 也表現(xiàn)出一些突發(fā)的自我驗(yàn)證能力,這支持了推理可以通過純 RL 出現(xiàn)的想法,即使在小模型中也是如此。
TinyZero 存儲庫提到研究報(bào)告仍在進(jìn)行中,我一定會密切關(guān)注更多細(xì)節(jié)。
TinyZero 存儲庫 (https://github.com/Jiayi-Pan/TinyZero) 中的一張圖片顯示該模型能夠進(jìn)行自我驗(yàn)證。(相比之下,看看基礎(chǔ)模型的響應(yīng)會很有趣。)
上述兩個(gè)項(xiàng)目表明,即使預(yù)算有限,也可以在推理模型上開展有趣的工作。雖然這兩種方法都復(fù)制了 DeepSeek-R1 的方法,一種專注于純 RL(TinyZero),另一種專注于純 SFT(Sky-T1),但探索如何進(jìn)一步擴(kuò)展這些想法將非常有趣。
超越傳統(tǒng) SFT:旅程學(xué)習(xí)
去年我偶然發(fā)現(xiàn)一種特別有趣的方法,論文《O1 復(fù)制之旅:戰(zhàn)略進(jìn)展報(bào)告 - 第 1 部分》中對此進(jìn)行了描述。盡管標(biāo)題如此,但該論文實(shí)際上并沒有復(fù)制 o1。相反,它介紹了一種改進(jìn)蒸餾(純 SFT)過程的另一種方法。
論文的核心思想是用“旅程學(xué)習(xí)”(Journey Learning)替代“捷徑學(xué)習(xí)”。
- 捷徑學(xué)習(xí)是指指令微調(diào)的傳統(tǒng)方法,其中僅使用正確的解決方案路徑來訓(xùn)練模型。
- 另一方面,旅程學(xué)習(xí)也包括錯(cuò)誤的解決路徑,讓模型從錯(cuò)誤中學(xué)習(xí)。
這種方法與 TinyZero 的純 RL 訓(xùn)練中觀察到的自我驗(yàn)證能力有點(diǎn)相似,但它專注于完全通過 SFT 改進(jìn)模型。通過讓模型接觸錯(cuò)誤的推理路徑及其修正,旅程學(xué)習(xí)還可以增強(qiáng)自我修正能力,從而可能通過這種方式使推理模型更加可靠。
與傳統(tǒng)的捷徑學(xué)習(xí)不同,旅程學(xué)習(xí)在 SFT 數(shù)據(jù)中包含了錯(cuò)誤的解決方案路徑。
注釋圖來自《O1 復(fù)制之旅:戰(zhàn)略進(jìn)展報(bào)告 - 第 1 部分》(https://arxiv.org/abs/2410.18982)
這可能是未來工作的一個(gè)令人興奮的方向,特別是對于低預(yù)算推理模型開發(fā),因?yàn)榛?RL 的方法在計(jì)算上可能不切實(shí)際。
無論如何,推理模型方面目前正在發(fā)生很多有趣的工作,我相信我們將在接下來的幾個(gè)月里看到更多令人興奮的工作!
參考鏈接:??https://magazine.sebastianraschka.com/p/understanding-reasoning-llms??
本文轉(zhuǎn)載自??51CTO技術(shù)棧??
