強(qiáng)化學(xué)習(xí)與大模型后訓(xùn)練:DeepSeek R1 如何獲得推理能力? 精華
DeepSeek 正在通過(guò)其開(kāi)源模型 DeepSeek-R1 革新 AI 產(chǎn)業(yè),盡管資源有限,卻能媲美 OpenAI 的能力。通過(guò)讓前沿大模型更廣泛地開(kāi)放,DeepSeek 推動(dòng)了全球的創(chuàng)新與合作。其創(chuàng)新的基于強(qiáng)化學(xué)習(xí)(RL)的后訓(xùn)練技術(shù)可增強(qiáng)大模型的推理能力和對(duì)齊性,使大模型在實(shí)際應(yīng)用中更加高效且易用。在本文中,我們將重點(diǎn)分析 DeepSeek R1 推理模型背后的關(guān)鍵 RL 后訓(xùn)練技術(shù)。本文由MoPaaS 的創(chuàng)始人魯為民博士最初以英文的形式發(fā)表(點(diǎn)擊文章末尾“閱讀原文”),這次翻譯出來(lái)供朋友和合作伙伴參考。
目錄
- 引言
- 提升 LLM 推理與對(duì)齊能力的后訓(xùn)練
- 數(shù)據(jù)準(zhǔn)備與生成
- 強(qiáng)化學(xué)習(xí)(RL)與推理型 LLM 后訓(xùn)練
- 基于 RL 的后訓(xùn)練(I): DeepSeek R1 系列模型案例
- 基于 RL 的后訓(xùn)練(II): OpenAI o-系列模型案例
- RL 規(guī)模法則與 LLM 推理能力的涌現(xiàn)
- 討論與結(jié)論
- 參考文獻(xiàn)
1. 引言
中國(guó)人工智能(AI)初創(chuàng)公司DeepSeek 的崛起,標(biāo)志著 AI 產(chǎn)業(yè)向開(kāi)源化發(fā)展的重大轉(zhuǎn)變。這一變革對(duì)開(kāi)源社區(qū)及整個(gè) AI 生態(tài)系統(tǒng)具有深遠(yuǎn)影響。
DeepSeek 的旗艦?zāi)P?DeepSeek-R1 是一個(gè)開(kāi)源推理模型,盡管其訓(xùn)練所用的計(jì)算資源遠(yuǎn)少于 OpenAI 的 o1,但在性能上卻能與之媲美。這一事實(shí)挑戰(zhàn)了“最先進(jìn)的 AI 研發(fā)必須依賴海量資金和計(jì)算資源”的傳統(tǒng)觀念。通過(guò)開(kāi)源其模型,DeepSeek 使前沿 AI 技術(shù)得以普及,讓全球的開(kāi)發(fā)者、研究人員和機(jī)構(gòu)能夠基于其技術(shù)進(jìn)行創(chuàng)新。這種模式不僅推動(dòng)了 AI 應(yīng)用開(kāi)發(fā)的加速,還促進(jìn)了協(xié)作式知識(shí)共享生態(tài)的建立。
大語(yǔ)言模型(LLM)通?;诤A炕ヂ?lián)網(wǎng)文本語(yǔ)料進(jìn)行預(yù)訓(xùn)練,以提供基礎(chǔ)的語(yǔ)言理解與推理能力。雖然這些模型在處理一般任務(wù)時(shí)表現(xiàn)良好,但在實(shí)際應(yīng)用中往往存在局限性。許多現(xiàn)實(shí)世界的應(yīng)用場(chǎng)景需要更強(qiáng)的推理能力和更高的對(duì)齊性,使 LLM 能夠具備更強(qiáng)的交互性、適應(yīng)性、目標(biāo)導(dǎo)向能力以及高級(jí)推理能力。
本文探討了一種新興的 LLM 訓(xùn)練方法——基于強(qiáng)化學(xué)習(xí)(RL)的后訓(xùn)練,該方法可增強(qiáng)推理型 LLM(如 R1)的多步推理能力及安全對(duì)齊效果。盡管后訓(xùn)練本身已極具價(jià)值,但基于 RL 的方法尤其重要,它能夠進(jìn)一步優(yōu)化 LLM 的推理能力,使其能夠更精準(zhǔn)地匹配用戶需求,并更好地對(duì)齊人類價(jià)值觀。與預(yù)訓(xùn)練相比,這些方法能夠在大幅降低計(jì)算資源消耗的同時(shí),顯著提升推理效果。例如,V3/R1 和 o1/3 這樣的 LLM能夠通過(guò)這些技術(shù)生成更符合現(xiàn)實(shí)需求的推理、規(guī)劃和行動(dòng)輸出,從而使基于 LLM 的 AI 代理更智能、更實(shí)用、更值得信賴。
在本文中,我們將重點(diǎn)分析 DeepSeek R1 推理模型背后的關(guān)鍵 RL 后訓(xùn)練技術(shù)。部分內(nèi)容最初發(fā)表于《大語(yǔ)言模型時(shí)代的智能體:系統(tǒng)綜述》的第 7 章和第 9 章,并在此基礎(chǔ)上進(jìn)行了修訂和更新,以提高清晰度和完整性。
2. 后訓(xùn)練以增強(qiáng) LLM 的推理與對(duì)齊能力
2.1 預(yù)訓(xùn)練 LLM 與推理 LLM
與通用基礎(chǔ) LLM 相比,推理 LLM需要在推理和對(duì)齊方面表現(xiàn)更為出色,以便在需要強(qiáng)大推理和對(duì)齊能力的特定領(lǐng)域中更高效地應(yīng)用。此類模型的關(guān)鍵特點(diǎn)包括:
- 推理與規(guī)劃:
能夠進(jìn)行結(jié)構(gòu)化思維,理解智能體、環(huán)境和目標(biāo)之間的關(guān)系;
支持基于環(huán)境變化動(dòng)態(tài)調(diào)整任務(wù)目標(biāo)的優(yōu)先級(jí);
促進(jìn)多步推理、實(shí)時(shí)適應(yīng)以及特定任務(wù)能力(如長(zhǎng)期記憶和多輪對(duì)話);
通過(guò)針對(duì)關(guān)鍵任務(wù)定制專用模型,解決通用 LLM 在效率和性能上的不足。
- 對(duì)齊與用戶偏好:
- 通過(guò)嚴(yán)格遵守政策和優(yōu)先考慮用戶目標(biāo),確保符合明確的目標(biāo)和安全原則;
- 提供上下文感知的響應(yīng),并根據(jù)用戶特定數(shù)據(jù)和偏好,個(gè)性化交互,提升用戶體驗(yàn)。
- 魯棒性與可擴(kuò)展性:
- 在動(dòng)態(tài)和不確定的環(huán)境中高效運(yùn)作,采用概率推理和回溯策略尋找替代方案;
- 支持多智能體系統(tǒng),通過(guò)高效的溝通、協(xié)作和沖突解決機(jī)制,提升整體協(xié)作效果。
推理模型代表了確保在日益復(fù)雜的環(huán)境中高效運(yùn)作的重要進(jìn)展。通過(guò)增強(qiáng)推理和規(guī)劃能力,優(yōu)化任務(wù)特定挑戰(zhàn),確保在動(dòng)態(tài)環(huán)境中的魯棒性,并對(duì)齊倫理原則,這些模型為開(kāi)發(fā)更強(qiáng)大、高效且值得信賴的智能體奠定了基礎(chǔ)。其中,推理與規(guī)劃對(duì)模型的成功至關(guān)重要。
最近,OpenAI o1/o3、DeepSeek R1、阿里巴巴的 Marco-o1、Google Gemini 2 和 Microsoft Phi 4 等模型體現(xiàn)了這一趨勢(shì)。這些以推理為核心的模型利用先進(jìn)的預(yù)訓(xùn)練技術(shù)提供強(qiáng)大的基線模型,并通過(guò)強(qiáng)化學(xué)習(xí)后訓(xùn)練提升推理能力。例如,廣泛使用 CoT 推理使這些模型能夠模仿人類逐步解決問(wèn)題的路徑,從而在生成響應(yīng)之前完成復(fù)雜的多步推理。這些進(jìn)展顯著提升了推理能力,并與人類價(jià)值觀和原則對(duì)齊。
這些模型解鎖了 STEM 領(lǐng)域的新應(yīng)用,往往在數(shù)學(xué)和編程任務(wù)中超越了早期模型。在某些情況下,它們甚至解決了之前無(wú)法解決的數(shù)學(xué)證明,展示了它們作為科研助手的潛力。
強(qiáng)大的基線模型為進(jìn)一步提升推理能力提供了堅(jiān)實(shí)的基礎(chǔ),確保后續(xù)優(yōu)化有一個(gè)穩(wěn)固的起點(diǎn)。結(jié)合測(cè)試時(shí)計(jì)算,這些模型已成為智能體的理想基礎(chǔ)模型。
2.2 LLM 的推理與對(duì)齊后訓(xùn)練
隨著通用 LLM 的規(guī)模不斷擴(kuò)大,并逐步引入特定能力的數(shù)據(jù),它們的通用能力,特別是智能體所需的推理、規(guī)劃和決策能力,繼續(xù)提升。然而,為了提高智能體在推理過(guò)程中需要驗(yàn)證和修正的任務(wù)效率,并在測(cè)試階段提升計(jì)算可擴(kuò)展性,有必要對(duì)具備推理能力的 LLM 進(jìn)行微調(diào)。
在 LLM 的預(yù)訓(xùn)練階段,可以直接針對(duì)這些能力進(jìn)行優(yōu)化,以改善模型的輸出分布。然而,預(yù)訓(xùn)練數(shù)據(jù)變得日益稀缺,且能力提升的速度與計(jì)算投入相比逐漸放緩。預(yù)訓(xùn)練的 LLM 通常依賴于從示例中反向推導(dǎo)出理想行為,導(dǎo)致數(shù)據(jù)利用效率低下和決策邊界不清晰,從而導(dǎo)致推理和安全能力不盡如人意。因此,后訓(xùn)練逐漸成為提升模型性能、提高推理準(zhǔn)確性、對(duì)齊人類價(jià)值觀,并適應(yīng)用戶偏好的關(guān)鍵方法,且相比于預(yù)訓(xùn)練,其計(jì)算需求顯著降低。例如,通過(guò) LLM 后訓(xùn)練微調(diào)現(xiàn)有的開(kāi)源預(yù)訓(xùn)練 LLM(如 LLaMA、Mistral、GLM 和 Qwen),可以開(kāi)發(fā)專為智能體設(shè)計(jì)的 LLM,從而增強(qiáng)智能體所需的推理、規(guī)劃和決策能力。
當(dāng)前的后訓(xùn)練方法主要圍繞強(qiáng)化學(xué)習(xí)(RL),包括對(duì)基礎(chǔ)模型的監(jiān)督微調(diào)(SFT)和策略模型的 RL 訓(xùn)練?;A(chǔ)模型的 SFT 可以提供語(yǔ)言生成和對(duì)話能力上的流暢性和一致性;雖然 SFT 也能引入一定的推理能力,但由于錯(cuò)誤累積和探索數(shù)據(jù)有限,它在需要多步推理的任務(wù)中往往表現(xiàn)不足。強(qiáng)化學(xué)習(xí)(RL)方法通過(guò)生成長(zhǎng)鏈的 CoT,幫助模型獲取推理能力。結(jié)合 SFT,RL 方法已成為目前后訓(xùn)練LLM 的標(biāo)準(zhǔn)方式,尤其適用于需要復(fù)雜決策和自適應(yīng)學(xué)習(xí)的場(chǎng)景。這些方法廣泛應(yīng)用于模型對(duì)齊和性能優(yōu)化,尤其適用于在復(fù)雜動(dòng)態(tài)環(huán)境中運(yùn)作的智能體。
3. 數(shù)據(jù)準(zhǔn)備與生成
數(shù)據(jù)準(zhǔn)備是后訓(xùn)練管道中的關(guān)鍵組成部分。訓(xùn)練數(shù)據(jù)集可以由人工策劃、由 AI 生成,或通過(guò)多種方法的組合來(lái)創(chuàng)建。
3.1 數(shù)據(jù)策劃
特定智能體的 LLM 需要精心策劃的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練和/或后訓(xùn)練微調(diào),以提供智能體所需的能力。這通常涉及適當(dāng)增加與特定能力相關(guān)的數(shù)據(jù)比例(例如,數(shù)學(xué)和編程)到訓(xùn)練數(shù)據(jù)集中。例如,使用具有挑戰(zhàn)性的數(shù)學(xué)數(shù)據(jù)集(如 MATH 數(shù)據(jù)集)微調(diào)預(yù)訓(xùn)練的基礎(chǔ)模型,可以提升大型語(yǔ)言模型在復(fù)雜數(shù)學(xué)推理方面的能力。無(wú)論是從頭開(kāi)始進(jìn)行預(yù)訓(xùn)練,還是微調(diào)預(yù)訓(xùn)練模型,智能體專用的 LLM 都是通過(guò)分配特別策劃的數(shù)據(jù)集來(lái)注入能力,并且預(yù)訓(xùn)練或后訓(xùn)練能夠優(yōu)化 LLM 的輸出分布,進(jìn)而產(chǎn)生相關(guān)的結(jié)果。
在后訓(xùn)練管道中,訓(xùn)練數(shù)據(jù)集會(huì)為 SFT 和 RL 優(yōu)化階段進(jìn)行策劃,在 RL 階段,還需要策劃獎(jiǎng)勵(lì)模型的訓(xùn)練數(shù)據(jù)集(如有需要)和 RL 策略模型。與通用 LLM 需要大量數(shù)據(jù)和資源進(jìn)行預(yù)訓(xùn)練不同,推理 LLM 通??梢酝ㄟ^(guò)在較小數(shù)據(jù)集上進(jìn)行后訓(xùn)練來(lái)構(gòu)建。例如,OpenAI 的 o1 模型通過(guò)利用專門策劃的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練或微調(diào),展示了強(qiáng)大的推理和對(duì)話能力(如圖1 所示)。這些數(shù)據(jù)集包括:
- 推理數(shù)據(jù): 包含推理和科學(xué)文獻(xiàn)等關(guān)鍵組成部分的公開(kāi)可用的網(wǎng)絡(luò)和開(kāi)源數(shù)據(jù)集,用于增強(qiáng)模型執(zhí)行復(fù)雜推理任務(wù)的能力。
- 專有數(shù)據(jù): 高價(jià)值的非公開(kāi)數(shù)據(jù)集,如付費(fèi)內(nèi)容、專業(yè)檔案和其他領(lǐng)域特定的數(shù)據(jù)集,用于深入了解行業(yè)特定的知識(shí)和實(shí)際應(yīng)用。
- 數(shù)據(jù)過(guò)濾與精煉: 數(shù)據(jù)經(jīng)過(guò)嚴(yán)格過(guò)濾,以確保質(zhì)量并減少潛在風(fēng)險(xiǎn),特別是避免訓(xùn)練數(shù)據(jù)中的個(gè)人信息、有害內(nèi)容或敏感材料。
Figure 1. A Training Dataset Sample for OpenAI o3 RL Fine-Tuning (OpenAI, 2024)
3.2 合成數(shù)據(jù)生成
通過(guò)微調(diào)將推理能力注入到 LLM 中,需要足夠的推理分布實(shí)例,并且需要相關(guān)的長(zhǎng)上下文。一般數(shù)據(jù)集中與推理相關(guān)的特定能力比例和質(zhì)量,往往難以有效滿足 LLM 為智能體配備專業(yè)技能的需求。高質(zhì)量的推理數(shù)據(jù)通常通過(guò)特定的 LLM 生成。
合成數(shù)據(jù)旨在模仿真實(shí)世界數(shù)據(jù)的屬性。這類數(shù)據(jù)可以使用生成模型或設(shè)計(jì)用來(lái)復(fù)制自然現(xiàn)象的算法生成。例如,生成代碼數(shù)據(jù)集時(shí),可以選擇各種編程任務(wù)或提示作為種子任務(wù),并使用模型生成與這些任務(wù)相關(guān)的問(wèn)題。對(duì)于每個(gè)問(wèn)題,模型會(huì)從生成的回答中抽取多個(gè)潛在解決方案,使用拒絕采樣(SR)方法,只有通過(guò)相關(guān)測(cè)試或正確執(zhí)行的解決方案才會(huì)被包含進(jìn)訓(xùn)練數(shù)據(jù)集中,從而有效過(guò)濾掉低質(zhì)量樣本。
以這種方式生成的合成數(shù)據(jù)占據(jù)了像 OpenAI o1/o3 和 DeepSeek R1 等模型的預(yù)訓(xùn)練和后訓(xùn)練數(shù)據(jù)集的很大一部分。另一方面,這些模型能夠生成長(zhǎng)鏈 CoT 推理軌跡,其中包含如迭代與遞歸問(wèn)題解決、假設(shè)探索、回溯、反思、驗(yàn)證和自我修正等重要特征。
為了構(gòu)建用于訓(xùn)練模型的長(zhǎng) CoT 實(shí)例,可以結(jié)合 LLM 和樹(shù)搜索方法,例如使用帶有步驟級(jí)別動(dòng)作空間的 MCTS(蒙特卡洛樹(shù)搜索)生成高質(zhì)量的 CoT 數(shù)據(jù)。為此,構(gòu)建一個(gè)推理樹(shù),根節(jié)點(diǎn)表示問(wèn)題,每個(gè)節(jié)點(diǎn)代表一個(gè)推理步驟。如果節(jié)點(diǎn)錯(cuò)誤,則進(jìn)行回溯,通過(guò)過(guò)程級(jí)獎(jiǎng)勵(lì)模型來(lái)評(píng)估節(jié)點(diǎn)的正確性,從而將錯(cuò)誤的步驟納入推理過(guò)程,構(gòu)建長(zhǎng)鏈 CoT 軌跡。
然而,在 LLM 后訓(xùn)練中擴(kuò)展這種方法面臨幾個(gè)挑戰(zhàn)。首先,不像圍棋或國(guó)際象棋有相對(duì)明確的搜索空間,生成 token 涉及的是一個(gè)指數(shù)級(jí)增長(zhǎng)的搜索空間,這對(duì)計(jì)算資源提出了挑戰(zhàn)。其次,生成的質(zhì)量高度依賴于價(jià)值模型,因?yàn)樗龑?dǎo)搜索過(guò)程的每一步。訓(xùn)練一個(gè)細(xì)粒度的價(jià)值模型本身就非常困難,因此迭代優(yōu)化成為一個(gè)巨大的挑戰(zhàn)。盡管 AlphaGo 的成功依賴于精心訓(xùn)練的價(jià)值模型來(lái)逐步提升性能,但由于 token 生成的固有復(fù)雜性,將這一原則復(fù)制到生成過(guò)程中非常困難。
蒸餾方法也提供了一種經(jīng)濟(jì)高效且可靠的方式來(lái)獲取高質(zhì)量的合成數(shù)據(jù);高級(jí)(期望的)LLM 被提示生成帶有必要長(zhǎng) CoT 格式的詳細(xì)推理軌跡。例如,OpenAI o3 和 DeepSeek V3/R1 從早期版本的推理模型中蒸餾出了高質(zhì)量的回答;考慮到 o1的復(fù)雜推理能力,對(duì)其認(rèn)知機(jī)制進(jìn)行蒸餾是生成和策劃用于新模型復(fù)制或后訓(xùn)練的合成數(shù)據(jù)的可行方法。此外,對(duì)于具有可驗(yàn)證解決方案的推理任務(wù),蒸餾可以結(jié)合拒絕采樣實(shí)現(xiàn),從而提取和驗(yàn)證高級(jí) LLM 的推理過(guò)程,以生成更高質(zhì)量的數(shù)據(jù)。
例如,對(duì)于訓(xùn)練 OpenAI o3 模型,合成數(shù)據(jù)集的生成始于收集包含所需推理行為的提示,并通過(guò)提示基礎(chǔ)推理模型來(lái)收集包含理想 CoT 的完成項(xiàng),接著使用一個(gè)“評(píng)判者”獎(jiǎng)勵(lì)模型對(duì)收集到的完成項(xiàng)進(jìn)行過(guò)濾,篩選出高質(zhì)量的結(jié)果,最終生成一組(提示、CoT、輸出)元組,作為后訓(xùn)練的數(shù)據(jù)集。
同樣,在 R1(如圖 2 所示)中,為了構(gòu)建訓(xùn)練模型所需的 CoT 實(shí)例,可以為 LLM 設(shè)計(jì)結(jié)構(gòu)化提示,以生成包含推理過(guò)程的輸出,最后給出答案。
Figure 2: Prompt Template for DeepSeek-R1 (DeepSeek, 2024)
合成數(shù)據(jù)生成通常不是一次性任務(wù),因?yàn)槭褂玫纳赡P涂赡懿蝗缬?xùn)練中的模型先進(jìn),可能無(wú)法產(chǎn)生完美的結(jié)果。然而,如果生成的完成項(xiàng)能夠經(jīng)過(guò)驗(yàn)證,那么它們可以被過(guò)濾以確保符合期望的行為。這一過(guò)程可以與 RL 優(yōu)化一起迭代執(zhí)行。每個(gè) RL 訓(xùn)練模型的新檢查點(diǎn)都可以用來(lái)生成更多的數(shù)據(jù)批次,進(jìn)一步優(yōu)化訓(xùn)練過(guò)程。
4. 強(qiáng)化學(xué)習(xí)與推理型 LLM 后訓(xùn)練
4.1 強(qiáng)化學(xué)習(xí)(RL)
給定一個(gè)初始的預(yù)訓(xùn)練大語(yǔ)言模型(LLM),可以通過(guò)在精心策劃的數(shù)據(jù)集(包括篩選后的合成數(shù)據(jù)集)上對(duì)基礎(chǔ)LLM進(jìn)行后訓(xùn)練,從而獲得用于代理的推理LLM,使得模型能夠輸入一個(gè)提示并輸出包含期望的推理鏈(CoT)的完成(見(jiàn)第3.2節(jié))。
后訓(xùn)練的核心技術(shù)是強(qiáng)化學(xué)習(xí)(RL)。在LLM的上下文中,RL是一種訓(xùn)練方法,通過(guò)使用反饋信號(hào)(通常以獎(jiǎng)勵(lì)的形式)對(duì)模型進(jìn)行微調(diào),從而優(yōu)化其行為,使其與用戶的偏好對(duì)齊。這個(gè)過(guò)程通過(guò)反復(fù)從與環(huán)境的交互中學(xué)習(xí),通過(guò)獎(jiǎng)勵(lì)模型(見(jiàn)圖3)使模型能夠改善推理能力、安全性、與人類偏好的對(duì)齊以及任務(wù)特定的目標(biāo)。
Figure 3: Reinforcement Learning with Verifiable Reward (Lambert et al., 2024)
有多種強(qiáng)化學(xué)習(xí)(RL)技術(shù)旨在優(yōu)化LLM,使其根據(jù)環(huán)境、用戶和AI代理的反饋對(duì)齊用戶偏好。這些技術(shù)包括:
- 近端策略優(yōu)化(PPO)
- 群體獎(jiǎng)勵(lì)策略優(yōu)化(GRPO)
- 直接偏好優(yōu)化(DPO)及其它們的變種(見(jiàn)圖4)。
Figure 4: PPO v.s. DPO (Ivison et al., 2024)
特別地,基于PPO的偏好反饋學(xué)習(xí)方法首先通過(guò)偏好數(shù)據(jù)訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型,該模型用于對(duì)策略模型生成的響應(yīng)進(jìn)行評(píng)分,然后通過(guò)PPO算法根據(jù)響應(yīng)的獎(jiǎng)勵(lì)得分訓(xùn)練策略模型。GRPO是PPO的擴(kuò)展,見(jiàn)圖5,它放棄了價(jià)值模型,而是通過(guò)群體評(píng)分估計(jì)基線,從而大大減少了訓(xùn)練資源。另一方面,DPO允許直接在偏好數(shù)據(jù)上訓(xùn)練策略模型,而無(wú)需構(gòu)建獎(jiǎng)勵(lì)模型或在線從活動(dòng)策略中采樣。
Figure 5. PPO v.s. GRPO: GRPO Foregoes the Value Model (Shao et al, 2024)
基于RL的后訓(xùn)練方法,包括數(shù)據(jù)生成(例如,從RL模型和其他策劃數(shù)據(jù)中采樣的推理數(shù)據(jù))、基礎(chǔ)模型的監(jiān)督微調(diào)(SFT)、RL優(yōu)化等,可以反復(fù)微調(diào)LLM,使其掌握代理的期望推理行為(見(jiàn)圖6和圖7)。隨著RL訓(xùn)練的進(jìn)展,模型(包括獎(jiǎng)勵(lì)模型和/或策略模型)會(huì)不斷演化,并可以利用這些模型生成新的訓(xùn)練數(shù)據(jù)并評(píng)估過(guò)程和結(jié)果。隨后,參考模型會(huì)更新以對(duì)齊策略模型,該模型會(huì)進(jìn)一步通過(guò)精煉后的獎(jiǎng)勵(lì)模型進(jìn)行訓(xùn)練,確保持續(xù)改進(jìn)和對(duì)齊。
在一些復(fù)雜的情況下,可以使用蒙特卡洛樹(shù)搜索(MCTS)來(lái)結(jié)合RL技術(shù)尋找最佳推理鏈,以實(shí)現(xiàn)最佳策略。RL使得LLM能夠從成功和不成功的軌跡中學(xué)習(xí),從而增強(qiáng)它們?cè)诙嗖酵评砣蝿?wù)中的泛化能力。
4.2 獎(jiǎng)勵(lì)模型
在強(qiáng)化學(xué)習(xí)(RL)中,獎(jiǎng)勵(lì)作為訓(xùn)練信號(hào)的來(lái)源,決定了RL的優(yōu)化方向。因此,獎(jiǎng)勵(lì)模型在引導(dǎo)訓(xùn)練模型最大化期望結(jié)果方面發(fā)揮著至關(guān)重要的作用。在RL訓(xùn)練過(guò)程中,獎(jiǎng)勵(lì)模型會(huì)為L(zhǎng)LM生成的響應(yīng)分配分?jǐn)?shù),引導(dǎo)模型生成更符合人類期望的輸出。這一過(guò)程提高了LLM在生成連貫、相關(guān)和人類化響應(yīng)方面的表現(xiàn)。
在LLM對(duì)齊的上下文中,獎(jiǎng)勵(lì)模型通常通過(guò)來(lái)自人類或其他來(lái)源的反饋進(jìn)行訓(xùn)練。這包括收集對(duì)各種模型輸出的判斷,并使用這些數(shù)據(jù)來(lái)教會(huì)獎(jiǎng)勵(lì)模型預(yù)測(cè)新輸出的可取性。經(jīng)過(guò)訓(xùn)練的獎(jiǎng)勵(lì)模型會(huì)在LLM的RL訓(xùn)練過(guò)程中提供實(shí)時(shí)評(píng)估,促進(jìn)生成更符合人類偏好的輸出。
獎(jiǎng)勵(lì)模型可以通過(guò)過(guò)程監(jiān)督訓(xùn)練,生成過(guò)程獎(jiǎng)勵(lì)模型(PRMs),或通過(guò)結(jié)果監(jiān)督訓(xùn)練,生成結(jié)果獎(jiǎng)勵(lì)模型(ORMs)。PRMs被認(rèn)為對(duì)于多步推理任務(wù)具有優(yōu)勢(shì),因?yàn)樗鼈兲岣吡四P屯评砼c人類邏輯的對(duì)齊,同時(shí)促進(jìn)了更安全的行為。
盡管使用ORM或PRM來(lái)引導(dǎo)RL生成符合預(yù)定推理CoT模式的響應(yīng)是非??尚械?,但神經(jīng)獎(jiǎng)勵(lì)模型在大規(guī)模RL過(guò)程中容易遭遇獎(jiǎng)勵(lì)破解;此外,訓(xùn)練這樣的神經(jīng)獎(jiǎng)勵(lì)模型需要大量的計(jì)算資源,并使整個(gè)訓(xùn)練流程更加復(fù)雜。由于這些原因,近年來(lái)的做法傾向于使用更簡(jiǎn)單的獎(jiǎng)勵(lì)模型,而不是像PRM或ORM這樣的神經(jīng)獎(jiǎng)勵(lì)模型。如在后訓(xùn)練DeepSeek R1中所示,推理導(dǎo)向的RL算法采用了一種不同的獎(jiǎng)勵(lì)系統(tǒng),包含三種主要類型的獎(jiǎng)勵(lì):
- 準(zhǔn)確性獎(jiǎng)勵(lì):這些獎(jiǎng)勵(lì)評(píng)估響應(yīng)是否正確。例如,在確定性結(jié)果的數(shù)學(xué)問(wèn)題中,模型需要以指定的格式(例如,用框框圍?。┏尸F(xiàn)最終答案,從而允許可靠的基于規(guī)則的正確性驗(yàn)證。同樣,對(duì)于LeetCode問(wèn)題,可以使用編譯器根據(jù)預(yù)定義的測(cè)試用例生成反饋。
- 格式獎(jiǎng)勵(lì):使用格式獎(jiǎng)勵(lì)模型確保模型將推理過(guò)程放在和標(biāo)簽之間。
- 語(yǔ)言一致性獎(jiǎng)勵(lì):這是在RL訓(xùn)練過(guò)程中引入的一個(gè)度量,用于解決在推理鏈(CoT)中出現(xiàn)的語(yǔ)言混用問(wèn)題,特別是當(dāng)提示涉及多種語(yǔ)言時(shí)。它衡量目標(biāo)語(yǔ)言單詞在CoT中的比例,鼓勵(lì)一致使用目標(biāo)語(yǔ)言。
此外,在后訓(xùn)練過(guò)程中,獎(jiǎng)勵(lì)模型還可以作為質(zhì)量COT軌跡搜索算法中的驗(yàn)證器或拒絕采樣方法的驗(yàn)證器,或者作為過(guò)濾SFT訓(xùn)練數(shù)據(jù)的拒絕采樣算法。在后者的情況下,模型會(huì)在每個(gè)搜索步驟提供自我批判性反饋,以優(yōu)化決策,這對(duì)于具有稀疏信號(hào)的長(zhǎng)期任務(wù)尤其有價(jià)值。此機(jī)制使得模型能夠生成多樣的推理路徑、自我驗(yàn)證并選擇最佳解決方案,從而提高推理能力和任務(wù)可靠性。
4.3 基于RL的大語(yǔ)言模型后訓(xùn)練流程
以下,我們將重點(diǎn)討論后訓(xùn)練過(guò)程??傮w后訓(xùn)練策略通常涉及數(shù)據(jù)集準(zhǔn)備(公共數(shù)據(jù)集(如MATH)、人工制作或通過(guò)拒絕采樣生成的AI數(shù)據(jù)等)、基礎(chǔ)模型的監(jiān)督微調(diào)(SFT)和在策略模型上的RL優(yōu)化(PPO或DPO)。在某些情況下(例如InstructGPT),后訓(xùn)練僅包括由SFT、RM和RL-PPO組成的前向路徑。增強(qiáng)推理的后訓(xùn)練的最新發(fā)展涉及圍繞合成數(shù)據(jù)生成、SFT和RL優(yōu)化(例如PPO、GRPO、DPO及其變體)的反饋循環(huán),并通過(guò)多個(gè)迭代過(guò)程進(jìn)行優(yōu)化,如LLaMa-3的后訓(xùn)練方法(見(jiàn)圖6)。這一迭代過(guò)程不斷提高模型的性能。例如,Llama 3據(jù)報(bào)道進(jìn)行了6輪后訓(xùn)練,并在此之前進(jìn)行了多輪指令調(diào)優(yōu)。DeepSeek R1則進(jìn)行了3輪后訓(xùn)練,其中包括最初的R1-Zero(見(jiàn)圖7)。
Figure 6: The Post-Training Strategy for Llama 3 (Meta, 2014)
5. 基于強(qiáng)化學(xué)習(xí)的后訓(xùn)練:以DeepSeek R1系列模型為例
基于強(qiáng)化學(xué)習(xí)(RL)的后訓(xùn)練方法通過(guò)利用迭代數(shù)據(jù)收集和微調(diào)策略,在提高多步推理性能方面展現(xiàn)出了顯著效果。DeepSeek R1后訓(xùn)練采用了一種結(jié)構(gòu)化的訓(xùn)練流程,結(jié)合了監(jiān)督微調(diào)(SFT)和RL,以增強(qiáng)其推理能力(見(jiàn)圖7)。在初始的R1-Zero階段之后,流程開(kāi)始通過(guò)使用精心策劃的數(shù)據(jù)集對(duì)基礎(chǔ)模型進(jìn)行SFT,從而播種初步的推理技能。然后,R1的兩個(gè)RL階段被實(shí)施:第一個(gè)階段側(cè)重于發(fā)現(xiàn)改進(jìn)的推理模式,第二個(gè)階段將模型的輸出與人類偏好對(duì)齊。這種組合方法使得模型能夠通過(guò)試錯(cuò)自我完善推理,通過(guò)獎(jiǎng)勵(lì)機(jī)制激勵(lì)準(zhǔn)確和連貫的輸出。
Figure 7. DeepSeek R1 Post-Training Pipeline (DeepSeek, 2025)
DeepSeek R1的后訓(xùn)練是通過(guò)3輪RL迭代完成的,包括最初的沒(méi)有SFT的R1-Zero階段,具體步驟如下:
步驟1:訓(xùn)練R1-Zero提供SFT V3基礎(chǔ)模型的冷啟動(dòng)數(shù)據(jù)
DeepSeek R1-Zero通過(guò)大規(guī)模的強(qiáng)化學(xué)習(xí)(RL)進(jìn)行訓(xùn)練,且不使用監(jiān)督微調(diào)(SFT)作為初步步驟。RL模型通過(guò)RL過(guò)程自我進(jìn)化,發(fā)展推理能力,而不使用任何監(jiān)督數(shù)據(jù)。使用內(nèi)部的群體相對(duì)策略優(yōu)化(GRPO)算法來(lái)訓(xùn)練模型(見(jiàn)圖5);GRPO放棄了通常與策略模型大小相同的價(jià)值模型,而是通過(guò)群體評(píng)分來(lái)估算基線,從而減少訓(xùn)練資源。此外,準(zhǔn)確性和格式一致性使用基于規(guī)則的獎(jiǎng)勵(lì)。
R1-Zero用于生成一小部分長(zhǎng)CoT數(shù)據(jù),以便微調(diào)模型作為初始的RL行為者。為此,構(gòu)建了具有長(zhǎng)CoT示例的少樣本提示,直接提示R1-Zero生成并收集帶有反思和驗(yàn)證的詳細(xì)答案,并通過(guò)人工后處理和標(biāo)注進(jìn)行結(jié)果的優(yōu)化。
SFT推理鏈的“冷啟動(dòng)”旨在通過(guò)將模型建立為一個(gè)指令調(diào)優(yōu)模型來(lái)改善最終的R1模型,避免了R1-Zero中出現(xiàn)的如生成中途語(yǔ)言切換的問(wèn)題。此外,這將成為迭代訓(xùn)練的一部分,提供了一種更好的推理模型訓(xùn)練方法。
步驟2:面向推理的RL訓(xùn)練
在SFT V3基礎(chǔ)模型的冷啟動(dòng)數(shù)據(jù)上之后,采用類似于步驟1中R1-Zero使用的大規(guī)模RL過(guò)程來(lái)增強(qiáng)推理能力,涵蓋編碼、數(shù)學(xué)、科學(xué)和邏輯推理等任務(wù),這些任務(wù)涉及明確的問(wèn)題。為了避免CoT響應(yīng)中的語(yǔ)言混用,引入了語(yǔ)言一致性獎(jiǎng)勵(lì),計(jì)算CoT中目標(biāo)語(yǔ)言單詞的比例。推理任務(wù)的準(zhǔn)確性獎(jiǎng)勵(lì)與語(yǔ)言一致性獎(jiǎng)勵(lì)結(jié)合,通過(guò)將它們相加形成最終的獎(jiǎng)勵(lì)。RL訓(xùn)練在微調(diào)后的V3基礎(chǔ)模型上持續(xù)進(jìn)行,直到其收斂。
步驟3:拒絕采樣引入通用能力
拒絕采樣(RS)是一種廣泛使用的偏好微調(diào)方法。它通過(guò)生成新的候選指令,使用訓(xùn)練過(guò)的獎(jiǎng)勵(lì)模型過(guò)濾這些候選指令,然后僅在最優(yōu)的完成結(jié)果上對(duì)原模型進(jìn)行微調(diào)。
R1利用拒絕采樣通過(guò)生成并過(guò)濾高質(zhì)量的回應(yīng)來(lái)重新引入模型的通用能力,用于推理任務(wù)的訓(xùn)練數(shù)據(jù)。R1使用從早期RL訓(xùn)練階段生成的檢查點(diǎn)通過(guò)拒絕采樣生成推理軌跡。數(shù)據(jù)集進(jìn)一步擴(kuò)展,包含通過(guò)生成獎(jiǎng)勵(lì)模型評(píng)估的額外數(shù)據(jù),其中基準(zhǔn)和模型預(yù)測(cè)被輸入到DeepSeek-V3進(jìn)行判斷。對(duì)于非推理任務(wù),如寫(xiě)作、事實(shí)問(wèn)答、自我認(rèn)知和翻譯,R1遵循DeepSeek-V3管道,重用DeepSeek-V3的部分SFT數(shù)據(jù)集。
此過(guò)程生成了總計(jì)80萬(wàn)個(gè)完成,其中包括60萬(wàn)個(gè)推理任務(wù)和20萬(wàn)個(gè)通用對(duì)話問(wèn)題。然后使用這80萬(wàn)個(gè)樣本的策劃數(shù)據(jù)集,對(duì)DeepSeek-V3基礎(chǔ)模型進(jìn)行微調(diào),訓(xùn)練兩輪。
步驟4:最終RL訓(xùn)練
為了進(jìn)一步將模型與人類偏好對(duì)齊,實(shí)施了第二個(gè)RL階段,以增強(qiáng)模型的有用性、無(wú)害性和推理能力。該階段集成了獎(jiǎng)勵(lì)信號(hào)和多樣化的提示分布。對(duì)于推理任務(wù),使用如步驟1所述的基于規(guī)則的獎(jiǎng)勵(lì)。對(duì)于一般任務(wù),獎(jiǎng)勵(lì)模型捕捉復(fù)雜場(chǎng)景中的人類偏好。訓(xùn)練保持偏好對(duì)和提示的分布相似。有用性僅根據(jù)最終總結(jié)進(jìn)行評(píng)估,確保實(shí)用性和相關(guān)性,而不會(huì)打亂推理過(guò)程。無(wú)害性評(píng)估涵蓋整個(gè)響應(yīng),包括推理和總結(jié),以解決風(fēng)險(xiǎn)、偏見(jiàn)和有害內(nèi)容。通過(guò)將這些獎(jiǎng)勵(lì)信號(hào)與多樣化的數(shù)據(jù)分布相結(jié)合,模型在推理方面表現(xiàn)優(yōu)異,同時(shí)優(yōu)先考慮安全性和以用戶為中心的對(duì)齊。
另一方面,可以使用蒸餾技術(shù)對(duì)其他模型(如V3、Qwen或LLaMa)進(jìn)行后訓(xùn)練。通過(guò)知識(shí)蒸餾技術(shù),將DeepSeek R1系列模型的推理能力提煉到訓(xùn)練模型中,有效地將CoT模型(DeepSeek R1)的推理能力轉(zhuǎn)移給它們。這種方法成功地將R1的驗(yàn)證和反思機(jī)制集成到這些模型中,顯著提升了推理能力,同時(shí)有效地控制輸出的風(fēng)格和長(zhǎng)度。
類似的方法也已成功應(yīng)用于開(kāi)源通用模型,如LLaMA和Mistral,顯著提高了數(shù)學(xué)推理任務(wù)的表現(xiàn),并在相同計(jì)算時(shí)間內(nèi)超過(guò)了許多單輪策略。盡管取得了這些進(jìn)展,像OpenAI的o1等推理增強(qiáng)模型仍面臨某些局限性,如計(jì)算成本增加和推理速度變慢。此外,它們?cè)谒腥蝿?wù)中可能不一定超越人類或以前的模型。對(duì)于特別復(fù)雜的問(wèn)題,在預(yù)訓(xùn)練階段擴(kuò)展計(jì)算資源仍然是提高基礎(chǔ)模型能力的必要條件。
6. 基于強(qiáng)化學(xué)習(xí)的后訓(xùn)練:以O(shè)penAI o-系列模型為例
后訓(xùn)練不僅增強(qiáng)了前面章節(jié)中描述的復(fù)雜推理能力,還提供了與安全性和人類價(jià)值觀的一致性。目前,針對(duì)LLM(大語(yǔ)言模型)安全性和對(duì)齊的研究主要集中在內(nèi)容相關(guān)的問(wèn)題上,例如生成輸出中的冒犯性、公平性和偏見(jiàn)。盡管進(jìn)行了廣泛的安全訓(xùn)練和處理,LLM仍面臨一些挑戰(zhàn),例如應(yīng)對(duì)惡意提示、過(guò)度拒絕良性請(qǐng)求、易受越獄攻擊的影響,以及由于需要即時(shí)響應(yīng)而無(wú)法充分推理復(fù)雜或邊界特定的安全場(chǎng)景。此外,依賴于通過(guò)示例逆向工程推斷理想行為的方式,在部署過(guò)程中常常導(dǎo)致數(shù)據(jù)利用效率低下和決策邊界不清,進(jìn)而損害此類模型的推理和安全能力。這些問(wèn)題顯著影響了基于LLM的智能體的安全性。
在大語(yǔ)言模型(LLM)中,安全行為通常通過(guò)后訓(xùn)練開(kāi)發(fā),即首先進(jìn)行監(jiān)督微調(diào)(SFT),然后通過(guò)強(qiáng)化學(xué)習(xí)(RL)技術(shù)進(jìn)行進(jìn)一步優(yōu)化,例如強(qiáng)化學(xué)習(xí)與人類反饋(RLHF)和強(qiáng)化學(xué)習(xí)與人工智能反饋(RLAIF)在憲法人工智能中的應(yīng)用。這些方法的關(guān)鍵步驟包括定義規(guī)范、標(biāo)注數(shù)據(jù)(通過(guò)人工或AI)、使用標(biāo)注數(shù)據(jù)訓(xùn)練獎(jiǎng)勵(lì)模型和/或策略模型,并使用得到的答案或得分對(duì)模型進(jìn)行RL微調(diào)。
以前的RL對(duì)齊微調(diào)方法主要依賴于根據(jù)規(guī)范手動(dòng)或由AI生成的訓(xùn)練標(biāo)簽,例如InstructGPT。然而,這些方法僅在訓(xùn)練過(guò)程中使用標(biāo)簽,導(dǎo)致模型無(wú)法保持對(duì)模型規(guī)范的理解。在推理對(duì)齊方面,除了監(jiān)督模型最終答案外,推理過(guò)程,即鏈?zhǔn)剿季S(CoT)——其中包含規(guī)范內(nèi)容和推理方法——也會(huì)受到監(jiān)督。這使得后訓(xùn)練模型能夠在推理過(guò)程中檢索并應(yīng)用相關(guān)策略,從而生成對(duì)齊的響應(yīng)。
OpenAI最近通過(guò)對(duì)其o系列模型(即生成推理模型)進(jìn)行后訓(xùn)練,嘗試解決這些安全對(duì)齊挑戰(zhàn),采用了審慎對(duì)齊(Deliberative Alignment)方法。這種方法包括通過(guò)SFT和RL階段對(duì)模型進(jìn)行后訓(xùn)練,直接集成與安全相關(guān)的模型規(guī)范,并訓(xùn)練模型在推理過(guò)程中仔細(xì)考慮這些規(guī)范(見(jiàn)圖8)。具體而言,鏈?zhǔn)剿季S(CoT),它包含了規(guī)范的內(nèi)容以及如何對(duì)其進(jìn)行推理,也在其他模型輸出之外受到監(jiān)督。經(jīng)過(guò)訓(xùn)練的模型G_spec能夠在推理時(shí)檢索相關(guān)策略,并將其應(yīng)用于生成對(duì)齊的響應(yīng),在此過(guò)程中推理通過(guò)CoT自動(dòng)進(jìn)行,包括對(duì)學(xué)習(xí)到的安全規(guī)范進(jìn)行推理,從而生成對(duì)齊的答案。
Figure 8. RL-Based Post-Traing for OpenAI Generative Reasoning Model (Guan et al, 2024)
后訓(xùn)練o系列推理LLM的關(guān)鍵步驟如下:
- 數(shù)據(jù)生成:流程開(kāi)始于收集按安全相關(guān)屬性分類的提示。對(duì)于每個(gè)(提示,類別)對(duì),編寫(xiě)與該提示安全類別相關(guān)的安全規(guī)范。然后,通過(guò)提示一個(gè)不依賴于規(guī)范的推理基礎(chǔ)模型,生成包含CoT推理和政策引用輸出的完成。通過(guò)“評(píng)審”獎(jiǎng)勵(lì)模型過(guò)濾生成的完成,該模型參考安全規(guī)范,生成一組高質(zhì)量的(提示,CoT,輸出)元組。
- 監(jiān)督微調(diào)(SFT):然后,使用監(jiān)督微調(diào)方法在過(guò)濾后的完成數(shù)據(jù)上訓(xùn)練基礎(chǔ)模型。模型通過(guò)參考CoT中的政策,以符合規(guī)范的方式完成提示。
- 強(qiáng)化學(xué)習(xí)(RL):在RL階段,對(duì)于與安全相關(guān)的提示,再次使用相同的“評(píng)審”獎(jiǎng)勵(lì)模型,并訪問(wèn)安全政策,以提供額外的獎(jiǎng)勵(lì)信號(hào)。RL微調(diào)后的模型即為生成推理模型。
7. RL擴(kuò)展法則與LLM推理能力的涌現(xiàn)
最近,DeepSeek-R1系列和Kimi-k1.5模型在擴(kuò)展強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練時(shí)間的過(guò)程中展現(xiàn)了推理能力的突現(xiàn)行為,并證明了RL算法能夠?qū)W習(xí)到長(zhǎng)鏈?zhǔn)剿季S(CoT)和自我反思模式,取得了強(qiáng)勁的結(jié)果。DeepSeek R1-Zero訓(xùn)練是DeepSeek-R1后訓(xùn)練的初步步驟,它在沒(méi)有監(jiān)督微調(diào)(SFT)的情況下通過(guò)RL進(jìn)行訓(xùn)練。這一過(guò)程展示了隨著RL訓(xùn)練的推進(jìn),模型性能穩(wěn)步和一致地提升(見(jiàn)圖9左圖),表明了強(qiáng)大的RL擴(kuò)展特性。這意味著模型能夠僅通過(guò)RL進(jìn)行有效學(xué)習(xí)和泛化。
Figure 9. R1: RL-Scaling and Emergence of LLM Reasoning Capabilities (DeepSeek, 2025)
DeepSeek-R1-Zero展示了RL訓(xùn)練可以啟動(dòng)自我進(jìn)化過(guò)程,使得模型能夠自主增強(qiáng)其推理能力。正如圖9右圖所示,DeepSeek-R1-Zero的CoT響應(yīng)長(zhǎng)度(反映其思考時(shí)間)在RL訓(xùn)練過(guò)程中持續(xù)改善。延長(zhǎng)的測(cè)試時(shí)間計(jì)算允許模型深入思考其過(guò)程,使其能夠解決越來(lái)越復(fù)雜的推理任務(wù)。
值得注意的是,在RL訓(xùn)練過(guò)程中,反思等復(fù)雜行為——即模型重新審視并重新評(píng)估早期步驟——以及探索替代問(wèn)題解決方法的行為會(huì)自發(fā)地出現(xiàn)。這些行為不是通過(guò)明確編程實(shí)現(xiàn)的,而是在模型與RL環(huán)境交互時(shí)自發(fā)形成的,顯著提升了其推理性能,并使其能夠更準(zhǔn)確和高效地處理更具挑戰(zhàn)性的任務(wù)。
在DeepSeek-R1-Zero的訓(xùn)練過(guò)程中,一個(gè)特別引人注目的現(xiàn)象是出現(xiàn)了“Aha”時(shí)刻,這發(fā)生在模型的一個(gè)中期版本(見(jiàn)圖10)。在這一階段,模型學(xué)會(huì)了通過(guò)重新評(píng)估其初步方法,為問(wèn)題分配更多的思考時(shí)間,標(biāo)志著其推理能力的增長(zhǎng)。
Figure 10. DeepSeek-R1-Zero “Aha Moment” during RL Training (DeepSeek, 2025)
RL擴(kuò)展法則的觀察突顯了RL的強(qiáng)大功能:通過(guò)提供適當(dāng)?shù)募?lì),而不是明確地教授模型問(wèn)題解決策略,使得模型能夠自主發(fā)展出先進(jìn)且有效的推理技巧。
8. 討論與結(jié)論
8.1 通過(guò)后訓(xùn)練增強(qiáng)LLM的推理與對(duì)齊能力
像DeepSeek的V3和R1、Kimi k-1.5、阿里巴巴Marco-o1/Qwen-2.5、OpenAI的o1和o3、谷歌的Gemini-2、微軟的Phi-4以及Tulu-3等推理模型的出現(xiàn),反映了從預(yù)訓(xùn)練到后訓(xùn)練等的焦點(diǎn)轉(zhuǎn)移。實(shí)際上,這些模型通過(guò)兩種關(guān)鍵策略強(qiáng)調(diào)了增強(qiáng)的推理能力和安全對(duì)齊:
- 基于RL的后訓(xùn)練:強(qiáng)化學(xué)習(xí)(RL)已廣泛用于后訓(xùn)練如ChatGPT、GPT-4和LLaMA等LLM,展示了其在對(duì)齊模型與人類價(jià)值觀和減少幻覺(jué)方面的有效性。當(dāng)結(jié)合高質(zhì)量的推理數(shù)據(jù)(如合成數(shù)據(jù))用于監(jiān)督微調(diào)(SFT)時(shí),RL過(guò)程可以增強(qiáng)LLM的長(zhǎng)鏈?zhǔn)酵评砟芰?。例如,OpenAI的o1模型通過(guò)大規(guī)模的RL訓(xùn)練實(shí)現(xiàn)了迭代推理、回溯和自我修正。此外,DeepSeek R1和Kimi 1.5的最新進(jìn)展表明,即使沒(méi)有SFT數(shù)據(jù),僅通過(guò)擴(kuò)展RL訓(xùn)練時(shí)間,也能引發(fā)復(fù)雜的推理能力的涌現(xiàn)。
- 推斷時(shí)計(jì)算 (Test-Time Compute):OpenAI的o1和DeepSeek的R1等推理模型展示了推斷時(shí)計(jì)算的有效性。這標(biāo)志著從傳統(tǒng)的增加參數(shù)和數(shù)據(jù)集的策略轉(zhuǎn)向增強(qiáng)輸出生成效率以獲得更高性能的關(guān)鍵轉(zhuǎn)變。推斷時(shí)計(jì)算還使得智能體能夠更好地利用LLM,在保持高性能的同時(shí)平衡計(jì)算成本和執(zhí)行速度。
關(guān)于推斷時(shí)計(jì)算的分析作者將另文詳細(xì)討論或參考作者的文章:《大語(yǔ)言模型時(shí)代的智能體:系統(tǒng)綜述 (II)》的第 8 章。后訓(xùn)練和推斷時(shí)計(jì)算這兩種方法往往結(jié)合在一起應(yīng)用。專注于后訓(xùn)練和推斷時(shí)擴(kuò)展突顯了技術(shù)和經(jīng)濟(jì)上的考量。僅僅擴(kuò)大預(yù)訓(xùn)練規(guī)模,面臨著指數(shù)級(jí)成本和遞減的投資回報(bào),這變得越來(lái)越不可持續(xù)。像DeepSeek R1和OpenAI o1這樣的模型脫穎而出,因?yàn)樗鼈兊拈_(kāi)發(fā)成本遠(yuǎn)低于GPT-4等早期LLM的成本。與早期需要大量資源的LLM不同,后訓(xùn)練和/或推斷增強(qiáng)的LLM可以使用更小的合成數(shù)據(jù)集構(gòu)建,提供了一種具有成本效益的替代方案。在實(shí)際應(yīng)用中,基于大模型的智能體可以通過(guò)利用依賴推理時(shí)計(jì)算的模型來(lái)優(yōu)化復(fù)雜推理任務(wù)的表現(xiàn),同時(shí)使用更快、成本效益更高的模型來(lái)處理通用語(yǔ)言任務(wù)。這樣的模型切換使得應(yīng)用在推理和語(yǔ)言理解之間取得平衡。
8.2 DeepSeek R1的意義
DeepSeek R1所介紹的方法挑戰(zhàn)了傳統(tǒng)觀念,即廣泛的計(jì)算資源和大規(guī)模的數(shù)據(jù)集是開(kāi)發(fā)先進(jìn)推理能力的前提。通過(guò)在后訓(xùn)練階段利用RL,DeepSeek R1展示了可以高效地實(shí)現(xiàn)復(fù)雜的推理表現(xiàn)。這種方法不僅使得先進(jìn)AI技術(shù)的獲取更加普及,還通過(guò)提供一個(gè)減少資源需求的框架,促進(jìn)了創(chuàng)新。
此外,DeepSeek R1對(duì)開(kāi)源社區(qū)而言是一個(gè)游戲規(guī)則的改變者。它強(qiáng)化了開(kāi)放協(xié)作和共享知識(shí)在推進(jìn)技術(shù)方面的重要性。通過(guò)使AI工具和模型公開(kāi)可用,DeepSeek使全球開(kāi)發(fā)者能夠在沒(méi)有成本或?qū)S邢拗频那闆r下進(jìn)行實(shí)驗(yàn)、創(chuàng)新并解決現(xiàn)實(shí)問(wèn)題。這與開(kāi)源運(yùn)動(dòng)的基礎(chǔ)原則相符,強(qiáng)調(diào)自由、透明和社區(qū)驅(qū)動(dòng)的開(kāi)發(fā)。
更重要的是,DeepSeek的方法也解決了一些圍繞AI的倫理問(wèn)題,如偏見(jiàn)、問(wèn)責(zé)制和透明度。開(kāi)源AI模型允許更大的審查,促進(jìn)了社區(qū)識(shí)別和糾正算法中的偏見(jiàn)或缺陷。這種透明度增加了人們對(duì)AI系統(tǒng)的信任,并確保它們?cè)陂_(kāi)發(fā)時(shí)考慮到倫理問(wèn)題。
DeepSeek現(xiàn)象還有潛力推動(dòng)全球AI的普及。通過(guò)降低進(jìn)入壁壘,它使得發(fā)展中國(guó)家和弱勢(shì)群體能夠利用AI進(jìn)行社會(huì)和經(jīng)濟(jì)發(fā)展。這種包容性是開(kāi)源哲學(xué)的基石,旨在使技術(shù)對(duì)所有人都可以獲得。
盡管DeepSeek的開(kāi)源戰(zhàn)略帶來(lái)了眾多好處,但也帶來(lái)了一系列挑戰(zhàn)。例如,先進(jìn)AI模型的廣泛可用性引發(fā)了關(guān)于濫用和負(fù)責(zé)任AI開(kāi)發(fā)的擔(dān)憂。此外,DeepSeek的崛起可能促使更嚴(yán)格的制裁和監(jiān)管,可能會(huì)使國(guó)際AI研究合作復(fù)雜化。
DeepSeek的崛起代表了AI行業(yè)的一個(gè)關(guān)鍵時(shí)刻,證明了創(chuàng)新并不僅僅是資金充足的公司專屬的領(lǐng)域。該公司的開(kāi)源模型為AI技術(shù)的民主化作出了重要貢獻(xiàn),推動(dòng)了一個(gè)更加包容和合作的全球AI社區(qū)。隨著越來(lái)越多的AI實(shí)驗(yàn)室繼續(xù)開(kāi)發(fā)并分享他們的進(jìn)展,它們將成為開(kāi)源社區(qū)和更廣泛行業(yè)的關(guān)鍵,幫助負(fù)責(zé)任地應(yīng)對(duì)相關(guān)挑戰(zhàn),確保AI的好處能夠得到道德和公平的實(shí)現(xiàn)。
9. 參考文獻(xiàn)
Brown, T. et al., “Language Models Are Few-Shot Learners,” NeurIPS 2020, 2020-12.
Bubeck, S. et al., “Sparks of Artificial General Intelligence: Early Experiments with GPT-4,” arXiv:2303.12712, 2023.
Christiano, P. F., J. Leike, T. Brown, M. Martic, S. Legg, and D. Amodei, “Deep Reinforcement Learning from Human Preferences,” Advances in neural information processing systems, 30, 2017
DeepSeek-AI, “DeepSeek-V3 Technical Report,” DeepSeek, 2024-12-26.
DeepSeek-AI, “DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning,” DeepSeek, 2025-01-20.
Ding, R. et al, “Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation,” arXiv:2311.04254v3, 2024
Durante, Z.. et al, “Agent AI: Surveying the Horizons of Multimodal Interaction,” arXiv:2401.03568v2, 2024.
Guan, M. Y. et al, “Deliberative Alignment: Reasoning Enables Safer Language Models,” arXiv:2412.16339v1, 2024.
Hutter, M., Universal Artificial Intelligence: Sequential Decisions Based On Algorithmic Probability, Springer, 2005.
Huang J. et al, “ Towards Reasoning in Large Language Models: A Survey,” arXiv:2212.10403v2, 2023.
Huang, W., P. Abbeel et al., “Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents,” International Conference on Machine Learning - 2022, pp.9118–9147; also arXiv:2201.07207v2, 2022.
Ivison, H. et al, “Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback,” arXiv:2406.09279v2, 2024-10-07.
Kaplan, J., “Scaling Laws for Neural Language Models,” arXiv:2001.08361v1, 2020.
Kimi Team, “Kimi k1.5:Scaling Reinforcement Learning with LLMs,” arXiv:2501.12599v1, 2025-01-22.
Lambert, N. et al, “The History and Risks of Reinforcement Learning and Human Feedback," arXiv:2310.13595v1, 2023-11-28.
Lambert, N. et al, “Tülu 3: Pushing Frontiers in Open Language Model Post-Training,” arXiv: 2411.15124v3, 2025-01-29.
LeCun, Y., “ A Path Towards Autonomous Machine Intelligence, Version 0.9.2,” Open Review, 2022-06-27.
Lightman, H. et al, “Let's Verify Step by Step,” arXiv:2305.20050v1, 2023.
Lu, W., “The Scale Advantage ofChatGPT: Reflections on ‘The Bitter Lesson’,” Medium, 2023-2-5.
Lu, W., “Opportunities in Agents after GPT-4 Turbo,”LinkedIn, 2023-11-15.
Lu, W., “Agents in the Era of Large Language Models: A Systematic Overview (I),” Actus AI Lab, 2025-01-17.
Lu, W., “Agents in the Era of Large Language Models: A Systematic Overview (II),” Actus AI Lab, 2025-01-25.
Meta Llama Team, “The Llama 3 Herd of Models,” arXiv:2407.21783v3, 2024-07-23.
OpenAI, “(OpenAI) Model Spec,” OpenAI Blog, 2024-05-18.
OpenAI, “Learning to Reason with LLMs,”, OpenAI Blog, 2024-09-12.
OpenAI, “OpenAI o1 System Card,” OpenAI Blog, 2024-12-5.
Plaat, A. et al, “Reasoning with Large Language Models: a Survey,” arXiv:2407.11511, 2024.
Qwen Team, “Qwen2.5 Technical Report,” arXiv:2412.15115v2, 2025-01-03.
Rafailov, R. et al, “Direct Preference Optimization: Your Language Model Is Secretly a Reward Model,” arXiv:2305.18290, 2024.
Romero, O. et al, “Synergistic Integration of Large Language Models and Cognitive Architectures for Robust AI: An Exploratory Analysis,” arXiv:2308.09830v3, 2023.
Russell, S. J. and P. Norvig, Artificial Intelligence: A Modern Approach (4thEdition), Pearson, 2020.
Schrittwieser, J. et al, “Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model,” arXiv:1911.08265v2, 2020.
Schulman, J. et al, “Proximal Policy Optimization Algorithms,”arXiv:1707.06347, 2017.
Schultz, J. et al, “Mastering Board Games by External and Internal Planning with Language Models,” Google DeepMind, 2024-12-04
Shao, Z. et al, “DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models,” arXiv:2402.03300v3
Shinn, N. et al, “Reflexion: Language Agents with Verbal Reinforcement Learning,”, arXiv:2303.11366v4, 2023.
Silver, D. et al, “Mastering the Game of Go with Deep Neural Networks and Tree Search,” Nature 529, 2016-01.
Srivastava, A. et al., “Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models,” arXiv.2206.04615, 2022.
Sun, J. et al, “A Survey of Reasoning with Foundation Models,” arXiv:2312.11562v5, 2023.
Sutton, R. , “The Bitter Lesson,” Incomplete Ideas, 2019-3-13
Sutton, R. S. and A. G. Barto, Reinforcement Learning: An Introduction (2ndEdition), The MIT Press, 2018.
Turing, A. M., “Computing Machinery and Intelligence,” Mind 49, 1950.
Wang, P. et al, “Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations,” arXiv:2312.08935, 2023.
Wei, J. et al, “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,” NeurIPS 2022, 2022-12.
Wiener, N., Cybernetics, or Control and Communication in the Animal and the Machine, The MIT Press, 1948.
Yang, M., “Chain of Thought Imitation with Procedure Cloning,” arXiv:2205.10816v1
Yang, S. et al, “Foundation Models for Decision Making: Problems, Methods, and Opportunities,” arXiv:2303.04129v1, 2023
Yao, S. et al, “ReAct: Synergizing reasoning and acting in language models,” In International Conference on Learning Representations (ICLR).
Zhang, Z. et al, “Igniting Language Intelligence: The Hitchhiker’s Guide From Chain-of-Thought Reasoning to Language Agents,” arXiv:2210.03493v1, 2023-10
Zhou, A. et al, “Language Agent Tree Search Unifies Reasoning, Acting, and Planning in Language Models,” arXiv:2310.04406v3, 2024-06-06.
本文轉(zhuǎn)載自?? MoPaaS魔泊云??,作者: 魯為民
