兩萬字長文深度解密DeepSeek-R1、Kimi 1.5，強(qiáng)推理模型憑什么火出圈？

作者：機(jī)器之心 2025-02-21 10:34:49

北大 AI 對齊團(tuán)隊對包括 DeepSeek-R1、Kimi-K1.5在內(nèi)的一些強(qiáng)推理模型進(jìn)行了 2 萬字的技術(shù)解讀。

剛剛過去的春節(jié)，DeepSeek-R1 推理大模型引爆了國內(nèi)外 AI 社區(qū)，并火出了圈。最近，各個行業(yè)又掀起了接入 DeepSeek 的狂潮，大家唯恐落后于人。

北大 AI 對齊團(tuán)隊對包括 DeepSeek-R1、Kimi-K1.5在內(nèi)的一些強(qiáng)推理模型進(jìn)行了 2 萬字的技術(shù)解讀，也是此前 o1 解讀（北大對齊團(tuán)隊獨(dú)家解讀：OpenAI o1開啟「后訓(xùn)練」時代強(qiáng)化學(xué)習(xí)新范式）的續(xù)作。

以下為完整的文字解讀稿（以第一人稱我們陳述）：

下圖是我們這次討論的一個目錄，涵蓋了包括 DeepSeek-R1、Kimi K1.5 的具體的技術(shù)分析和講解。同時也包括對其背后的社會和經(jīng)濟(jì)效益以及一些 insights 和 takeaways 的分析。

具體地來說，我們會進(jìn)行相應(yīng)的技術(shù)細(xì)節(jié)的討論：比如說基于 STaR 的方法和基于強(qiáng)化學(xué)習(xí)的方法進(jìn)行強(qiáng)推理模型復(fù)現(xiàn)的區(qū)分和產(chǎn)生的效果的不同。這里面就包括了 DeepSeek-R1、Kimi K1.5 和 o 系列的模型。我們也會分析蒸餾和強(qiáng)化學(xué)習(xí)驅(qū)動下不同的強(qiáng)推理路徑復(fù)現(xiàn)的區(qū)別，同時也會探討 PRM 和 MCTS，也就是蒙特卡洛樹搜索在整個強(qiáng)推理模型構(gòu)建過程中的作用。其次我們也會探討一些從文本模態(tài)到多模態(tài)的實踐。最后我們會對未來的方向進(jìn)行一個分析和探討，包括模態(tài)穿透、探索合成數(shù)據(jù)以及強(qiáng)推理下的安全。我們也會補(bǔ)充拓展 DeepSeek-v3 的解讀。

DeepSeek-R1 開創(chuàng) RL 加持下強(qiáng)推理慢思考范式新邊界

近期后訓(xùn)練階段開始成為語言模型中在完整訓(xùn)練過程中非常關(guān)鍵的一環(huán)，包括提升推理能力和社會價值對齊方面起到了非常重要的作用。自從 OpenAI o1 開啟后訓(xùn)練強(qiáng)化學(xué)習(xí)新范式后，社區(qū)研究 Inference Time Scaling 通過增強(qiáng) CoT 的長度提升推理能力的熱情也是在逐漸增高。其中一個關(guān)鍵的問題就是如何通過有效的測試階段的時間的擴(kuò)展來提升它的推理能力。

近期 DeepSeek R1 的開源，也是再次讓我們看到了強(qiáng)化學(xué)習(xí)的潛力。得益于純大規(guī)模強(qiáng)化學(xué)習(xí) DeepSeek-R1 Zero 和 DeepSeek-R1 的出現(xiàn)其實大大提升了推理能力和長文本的思考能力，其中 R1 Zero 是完全從基礎(chǔ)模型開始構(gòu)建，完全依賴強(qiáng)化學(xué)習(xí)，而不使用人類專家標(biāo)注的監(jiān)督微調(diào)。在訓(xùn)練過程中隨著訓(xùn)練步驟的增加，模型也是逐漸展現(xiàn)出長文本推理以及長鏈修復(fù)的能力。隨著推理路徑的逐步增長，模型來表現(xiàn)出自我反思的能力，能夠發(fā)現(xiàn)并修復(fù)之前的錯誤。

得益于強(qiáng)大的推理能力和長文本思考能力，DeepSeek R1 在開源以來就備受關(guān)注，其中它在著名的數(shù)學(xué)代碼任務(wù)榜單上也是獲得了非常突出的表現(xiàn)。比如在 AIME2024 上取得了 79.8% 的成績，也是超過了 OpenAI o1。其中也在編碼的任務(wù)上表現(xiàn)出了專家水平。與此同時，DeepSeek R1 在知識類問答的任務(wù)上推動了科學(xué)探索的邊界，在無論 MMLU 還是 GPQA 等一些基于科學(xué)問答和理工類的榜單上都是取得了比較好的表現(xiàn)。更令人驚艷的是 R1 在一些長文本依賴的任務(wù)上比如 FRAMEs 和一些事實性推斷任務(wù)上也是表現(xiàn)突出，其實也展現(xiàn)出來了強(qiáng)推理模型在 AI 驅(qū)動的一些 research 的潛力。

那么我們首先回顧一下預(yù)訓(xùn)練階段的擴(kuò)展律。其實也就是在預(yù)訓(xùn)練模型上，計算量數(shù)據(jù)和參數(shù)量成一個類似于正比的關(guān)系，也就是算力等于 6 倍的參數(shù)量乘上數(shù)據(jù)量。因此在大模型時代發(fā)展的初期，囤卡提升預(yù)訓(xùn)練的算力和模型參數(shù)變成了主要目標(biāo)。

隨著 OpenAI o1 的發(fā)布，也證明了在強(qiáng)化學(xué)習(xí)加持下后訓(xùn)練時代一個新的擴(kuò)展律：隨著模型在后訓(xùn)練階段的訓(xùn)練時計算量和測試時計算量的提升，模型的性能特別是數(shù)學(xué)代碼能力也會隨之提升。那么在后訓(xùn)練擴(kuò)展律下語言模型的訓(xùn)練時計算量多了一個新的變量，也就是在探索時語言模型推理產(chǎn)生的計算量。

為什么我們需要后訓(xùn)練擴(kuò)展律？其實早在 2022 年就有啟發(fā)的認(rèn)知，主要是出于兩個原因：第一個是隨著模型尺寸的逐漸增大，預(yù)訓(xùn)練階段參數(shù)的擴(kuò)展帶來的邊際收益開始逐步遞減，如果想要深度提升模型的推理能力和長程問題的能力，基于強(qiáng)化學(xué)習(xí)的后訓(xùn)練將會成為下一個突破點；第二個也就是自回歸模型在傳統(tǒng)的像數(shù)學(xué)推理問題上很難進(jìn)步，其中的關(guān)鍵一點就是沒有辦法進(jìn)行回答的自主修正，那如果僅是依靠生成的方法和擴(kuò)大參數(shù)的規(guī)模在數(shù)學(xué)和推理任務(wù)上帶來的收益不會很大。所以我們迫切地需要額外的 Scaling Law 也是額外的擴(kuò)展律。

DeepSeek-R1 Zero 及 R1 技術(shù)剖析

業(yè)界其實近期有很多復(fù)現(xiàn) o1 的操作，例如基于蒸餾或者強(qiáng)化學(xué)習(xí)的方法或者是從 MCTS 也就是蒙特卡洛樹搜索和獎勵模型的設(shè)計角度出發(fā)。通過搜索的方式顯式的去幫助語言模型進(jìn)行推理階段計算量的提升，也有很多不錯的嘗試。但是大多數(shù)都是在特定任務(wù)上，例如數(shù)學(xué)或者代碼的提升。

DeepSeek R1 Zero 的發(fā)布也是讓我們看到了強(qiáng)化學(xué)習(xí)的潛力，特別是它跳過了經(jīng)典后訓(xùn)練階段中的監(jiān)督微調(diào)，直接運(yùn)用大規(guī)模強(qiáng)化學(xué)習(xí)就實現(xiàn)了推理能力的大幅提升，在數(shù)學(xué)代碼等問題上顯著飛躍。并且在強(qiáng)化學(xué)習(xí)訓(xùn)練過程中自然涌現(xiàn)長文本推理能力，這其中的關(guān)鍵操作核心在于一個是基于規(guī)則的獎勵 Rule-based Reward 和以推理為中心的大規(guī)模強(qiáng)化學(xué)習(xí)。接下來我們也進(jìn)行逐步的拆解。

在 DeepSeek R1 Zero 的獎勵建模中采用了基于規(guī)則的獎勵，也就是基于一定的規(guī)則可以直接利用程序進(jìn)行判斷正誤的獎勵信號。

具體來說 DeepSeek R1 Zero 設(shè)計了兩種獎勵：一種是準(zhǔn)確率獎勵，即對于推理任務(wù)是否根據(jù)最后答案的正確率直接來判斷這個任務(wù)是否成功完成；第二種是格式獎勵也就是顯式的去規(guī)勸模型的輸出過程中必須包含思考的過程，利用一個 thinking token 將思考的過程圈起來。需要注意的是這部分獎勵建模并沒有采用先前我們經(jīng)常討論的比如說過程獎勵模型 PRM 甚至沒有采用獎勵模型。這里邊的主要考量是基于神經(jīng)網(wǎng)絡(luò)的獎勵模型都有可能遭受獎勵攻陷的問題，一旦發(fā)生獎勵攻陷模型就可能陷入局部最優(yōu)解，而重新訓(xùn)練獎勵模型需要大量的計算資源可能會復(fù)雜化整個流程。

而第二個在強(qiáng)化學(xué)習(xí)的訓(xùn)練模板選擇上，DeepSeek R1 Zero 采用了最簡單的思考過程，而沒有去在 system prompt 中加入過多的去誘導(dǎo)模型產(chǎn)生特定的思考范式，比如說去產(chǎn)生反思等范式。這一期望是可以希望能夠直接觀察到在 RL 過程中最本質(zhì)的表現(xiàn)。

DeepSeek R1 Zero 更為關(guān)鍵的是以推理為中心的大規(guī)模強(qiáng)化學(xué)習(xí)。具體來說在傳統(tǒng)的 RLHF 算法上 DeepSeek 進(jìn)行了一些算法的細(xì)節(jié)優(yōu)化，采用了像組相對策略優(yōu)化也是 GRPO，這部分我們也會后續(xù)講解技術(shù)細(xì)節(jié)。同時它只瞄準(zhǔn)了推理方面的專項任務(wù)。通過大規(guī)模的強(qiáng)化學(xué)習(xí)模型已經(jīng)呈現(xiàn)出了自我迭代提升的趨勢，也就是隨著訓(xùn)練步數(shù)的增加模型的思考長度會逐漸增長，這也對應(yīng)著模型在測試階段的計算量的增長，也就是推理時長的提升。

與此同時模型也在中途訓(xùn)練過程中涌現(xiàn)了 'Aha' moment，學(xué)會用 wait 等停頓詞，自然的去增加更多的推理時間，并且反思和評價先前的步驟并主動去探索其他的方法路徑。

DeepSeek 的成功也為我們帶來了一些關(guān)鍵的啟示：例如在傳統(tǒng)的大語言模型訓(xùn)練中監(jiān)督微調(diào)通常被認(rèn)為是不可或缺的一環(huán)，其邏輯是先用大量人工標(biāo)注的數(shù)據(jù)來讓模型初步掌握某種能力或回答范式，再利用強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化模型的性能。

然而 DeepSeek 卻打破了這一傳統(tǒng)，他們選擇直接將 RL 應(yīng)用于基礎(chǔ)模型，而沒有經(jīng)過任何形式的 SFT 訓(xùn)練。這種純強(qiáng)化學(xué)習(xí)的方法之所以如此引人注目，是很大程度上因為它拋棄了對于大規(guī)模人工標(biāo)注數(shù)據(jù)的依賴。眾所周知 SFT 是非常需要消耗大量的人力物力來構(gòu)建和維護(hù)高質(zhì)量的訓(xùn)練數(shù)據(jù)集，而 DeepSeek 的團(tuán)隊這種做法可以直接讓模型在強(qiáng)化學(xué)習(xí)的環(huán)境中進(jìn)行自我探索，通過與環(huán)境的互動，自主的去發(fā)現(xiàn)和學(xué)習(xí)解決復(fù)雜問題的能力，就好比一個初學(xué)者在沒有老師的指導(dǎo)下通過不斷的嘗試和錯誤，來掌握一門新的技能。這種自主學(xué)習(xí)的方式，不僅節(jié)省了大量的標(biāo)注成本，更重要的是它能讓模型更加自由地探索解決問題的路徑，而不是被預(yù)先設(shè)定的模式所束縛，這也使得模型最終具備了更加強(qiáng)大的泛化能力和適應(yīng)能力。

而之所以能夠跳過監(jiān)督微調(diào)階段直接運(yùn)用純強(qiáng)化學(xué)習(xí)拓展推理能力的邊界，其實也得益于以下幾個關(guān)鍵之處。

首先是要有足夠強(qiáng)的基座模型，DeepSeek R1 Zero 系列的模型是在 DeepSeek v3 的 671B 的基座模型上進(jìn)行了訓(xùn)練，它的基座模型是超過了某個質(zhì)量和能力的閾值的，它在 14.8T 的高質(zhì)量 Tokens 上進(jìn)行訓(xùn)練，其實基座模型在預(yù)訓(xùn)練階段積累的海量知識，是可以幫助模型在強(qiáng)化學(xué)習(xí)加持后突破推理上界。這是因為在預(yù)訓(xùn)練階段積累的知識和思維方式是相對更高階的，就像人類大師和新手都可以通過自博弈來提升自己的能力，但是由于人類大師的先驗見過的東西更多，所以潛力更大。近期也有一些利用小模型復(fù)現(xiàn) 'Aha'moment 的工作，這得益于高質(zhì)量的推理數(shù)據(jù)和大規(guī)模的強(qiáng)化學(xué)習(xí)，但若是要進(jìn)一步去提升推理能力的邊界，足夠強(qiáng)的基座模型是必不可少的。

其次是大規(guī)模強(qiáng)化學(xué)習(xí)的加持，即通過 GRPO 對于訓(xùn)練過程進(jìn)行優(yōu)化。

最后是獎勵規(guī)則化獎勵，通過繞過獎勵攻陷模型，規(guī)則化獎勵能夠直接基于固定的規(guī)則進(jìn)行獎勵判定，但規(guī)則化獎勵能夠成功的前提也很大程度上得益于關(guān)注的推理任務(wù)是可以進(jìn)行自動化標(biāo)注和驗證的，這是和一般的聊天與寫作任務(wù)相不同的。

在這里我們舉一個自動化標(biāo)記和驗證的例子，例如對于一個推理問題，我們希望模型可以編寫一個 Python 代碼，那么自動化驗證的方法，就可以分為這么幾步：第一步是利用軟件去檢查代碼補(bǔ)全，比如說判斷它是否是完整的代碼；第二步是執(zhí)行 Python 代碼，來檢查運(yùn)行情況，查看它是否是可運(yùn)行的；第三是我們可以調(diào)用外部模塊，來構(gòu)建額外的檢測單元；第四甚至我們可以更進(jìn)一步的，為了去約束模型進(jìn)行有效的推理，我們可以測量程序的執(zhí)行時間，從而使訓(xùn)練過程首選性能更高的解決方案。而以上的獎勵信號都是可以作為小批量訓(xùn)練和連續(xù)訓(xùn)練過程中的獎勵信號的。

這里有個示意圖也就是根據(jù)不同的規(guī)則，進(jìn)行形式化的驗證和判定，最后解的分?jǐn)?shù)就會轉(zhuǎn)化成強(qiáng)化學(xué)習(xí)訓(xùn)練過程中的獎勵信號進(jìn)行反傳。

但是 DeepSeek-R1 Zero也有對應(yīng)的問題，比如說長推理過程可讀性差，語言混合幫助性低。那么我們能否在 zero 的基礎(chǔ)上，在兼顧推理性能的同時，提升模型的幫助性和安全性的。例如能不能產(chǎn)生一些比較清晰且直接的推理過程，并且能夠泛化到通用能力任務(wù)上的模型。例如 R1；以及我們能否利用一些高質(zhì)量的反思數(shù)據(jù)去做冷啟動，從而加速強(qiáng)化學(xué)習(xí)的收斂或者幫助提升推理表現(xiàn)。那么圍繞這兩個研究問題，應(yīng)運(yùn)而生了 DeepSeek R1 這個模型。

總的來說 DeepSeek R1 的技術(shù) pipeline 可以被總結(jié)為這么一套范式。首先第一基于 DeepSeek v3-base 產(chǎn)生了 DeepSeek R1 Zero 這個模型，第一階段是我們希望先增強(qiáng) R1 zero 的推理鏈的可讀性，在這一階段我們會利用一些冷啟動的數(shù)據(jù)，這些數(shù)據(jù)里邊可能是包含了人類專家和模型所撰寫的高質(zhì)量的語言，符合語言格式的這樣一些反思數(shù)據(jù)。然后我們再以推理為中心的強(qiáng)化學(xué)習(xí)去進(jìn)一步的去進(jìn)行微調(diào)，從而獲得一個相對推理鏈可讀性更強(qiáng)的一個中間模型；那么更進(jìn)一步我們采用傳統(tǒng) RLHF 中的一些技術(shù)，比如說通過拒絕采樣和全領(lǐng)域的監(jiān)督微調(diào)以及在全領(lǐng)域的任務(wù)上進(jìn)行強(qiáng)化學(xué)習(xí)的訓(xùn)練，比如對于推理任務(wù)我們可以使用規(guī)則獎勵，而對于一些通用比如說聊天任務(wù)我們進(jìn)行偏好建模，從而來在第二階段去提升模型的通用能力和安全性，最終獲得了 DeepSeek R1 這樣一個模型。

接下來我們進(jìn)行具體的講解，首先是第一階段，我們?nèi)绾稳ヌ嵘Ｐ偷耐评礞湹目勺x性，在這個環(huán)節(jié)我們分為兩個階段：第一個是冷啟動，第二是以推理為中心的強(qiáng)化學(xué)習(xí)。在冷啟動階段其實我們準(zhǔn)備的數(shù)據(jù)是一些高質(zhì)量的更長思維鏈的帶反思和驗證的數(shù)據(jù)集，這部分?jǐn)?shù)據(jù)集它其實是由人類的注釋者和 R1 Zero 產(chǎn)生了一個高質(zhì)量鏈?zhǔn)剿伎?，它的成效其實是說引入一些人類的先驗，同時去提升它推理鏈的語義連貫性和可讀性，然后并且讓模型獲得一個最基本的能力。

第二階段就是和 DeepSeek R1 Zero 構(gòu)建的過程相一致的，用以推理為中心的強(qiáng)化學(xué)習(xí)通過增強(qiáng)大規(guī)模的訓(xùn)練過程來進(jìn)一步提升冷啟動后的模型的推理問題的的推理能力。與此同時，除了傳統(tǒng)的格式獎勵之外，在這里還引入了語言一致性的獎勵。因為在 DeepSeek-R1 Zero 中我們觀察到了比如說思維鏈中可能會混合帶有不同語言的現(xiàn)象，通過引入通過計算思維鏈過程中目標(biāo)語言的占比作為一個語言一致性獎勵，從而可以衡量長推理鏈的可讀性。第二個獎勵信號也就是推理正確率的獎勵，通過 GRPO 模型也是能夠在 AIME 這些數(shù)學(xué)基準(zhǔn)上 Pass@1 的正確率就有一個非常大的飛躍的提升。

與此同時，模型也能夠自發(fā)地去延長推理鏈條，展現(xiàn)出更強(qiáng)的邏輯連貫性，獲得了一個推理可推理鏈可讀性更強(qiáng)并且有基本推理能力的模型之后，我們在后續(xù)再采用傳統(tǒng)的 RLHF 中的像監(jiān)督微調(diào)、拒絕采樣以及全領(lǐng)域的強(qiáng)化學(xué)習(xí)來幫助模型去獲得一個通用能力和安全性。在監(jiān)督微調(diào)中和之前冷啟動的數(shù)據(jù)是不同，這部分的監(jiān)督微調(diào)主要還是負(fù)責(zé)全領(lǐng)域的任務(wù)，它除了包括一些推理任務(wù)的數(shù)據(jù)之外，還有一些比如說像角色扮演通用任務(wù)。這個成效是在使模型在推理能力不減的前提下，語言表現(xiàn)更為自然，適應(yīng)性更為廣泛。在經(jīng)過全領(lǐng)域的 RL，其實可以進(jìn)一步提升除了推理能力之外的幫助性和安全性。對于幫性安全性，其實我們就用傳統(tǒng)的獎勵模型來建模人類的偏好和意圖就可以了。最終版本的 R1，其實不僅是在推理和對話任務(wù)上達(dá)到了高水平，還更具備更安全的交互性能。

在這一部分我們先總結(jié)一下 DeepSeek-R1 的一些技術(shù)亮點和 takeaways。首先社區(qū)對于強(qiáng)推理模型的復(fù)現(xiàn)都涉及一些蒸餾和搜索，而 DeepSeek R1 Zero 它是跳過了監(jiān)督微調(diào)階段。這得益于以下幾個點：第一是需要足夠強(qiáng)的基座模型來幫助它去突破一個質(zhì)量和能力閾值的上限，第二是需要大規(guī)模強(qiáng)化學(xué)習(xí)的加持，第三是規(guī)則化獎勵，但規(guī)則化獎勵是得益于一些推理問題，它可以進(jìn)行自動化的標(biāo)記和驗證。通過強(qiáng)化學(xué)習(xí)在實驗過程中其實觀察到了訓(xùn)練步數(shù)的增長模型的思考過程的長度是逐步增長的，這一增長其實也代表著在 test time 也就是測試任務(wù)階段的一個算力的提升。DeepSeek R1 Zero 也是自主涌現(xiàn)了一個學(xué)會評測原來的方法反思和主動探索，其他路徑的這樣一個能力。

與此同時，多階段訓(xùn)練下的冷啟動，其實也讓強(qiáng)化學(xué)習(xí)的訓(xùn)練更加穩(wěn)定，從而避免了強(qiáng)化學(xué)習(xí)初期不穩(wěn)定，加速收斂并且提升思維鏈可讀性的這樣一個能力。那么未來其實后訓(xùn)練的中心，它會逐步傾向于用強(qiáng)化學(xué)習(xí)，但是少量的數(shù)據(jù)去用于監(jiān)督微調(diào)還是必須的。與此同時強(qiáng)化學(xué)習(xí)的一個非常大的魅力就是說它不只局限于基于規(guī)則的數(shù)學(xué)和算法代碼等容易提供獎勵的領(lǐng)域，它還可以創(chuàng)造性的把這個推理能力泛化到其他領(lǐng)域，甚至是從文本模態(tài)泛化到多模態(tài)。DeepSeek R1 Zero 和 DeepSeek R1 它其實背后有一些非常深的技術(shù)。我們在這里進(jìn)行逐步地剖析。

首先第一個是它背后的教師模型 DeepSeek-v3 它其實能夠在 14.8T 的高質(zhì)量 tokens 上進(jìn)行訓(xùn)練，其實類似于提供了一個 System I 一個足夠好的直覺也就是 prior distribution，其實方便后續(xù)的 RL 過程的進(jìn)一步的探索和挖掘。與此同時 DeepSeek-v3 的低成本，其實也是帶來的驚艷效果也是讓社區(qū)非常震驚的，比如說基于 MoE 的架構(gòu)，其實用 2048 張 H100 就可以 54 天就可以進(jìn)行一場訓(xùn)練。在 PPT 講解的最后，我們也是會對 DeepSeek-v3 的具體的架構(gòu)創(chuàng)新點，還有它采用的一些技術(shù)上的優(yōu)化，進(jìn)行一個簡單的講解。

第二個值得關(guān)注的也就是在 DeepSeek R1 中所揭示的 RL 加持下的一個長度泛化和推理方式的涌現(xiàn)，在大規(guī)模強(qiáng)化學(xué)習(xí)的加持下 DeepSeek R1 Zero 其實表現(xiàn)出在推理任務(wù)上思維鏈長度的自然增長和涌現(xiàn)。

具體來說，隨著反思深度的逐層加深出現(xiàn)了它可以標(biāo)記不明確的步驟，保持中間結(jié)論驗證和混合語言推理等現(xiàn)象。與此同時，雖然我們傳統(tǒng)說模型僅通過準(zhǔn)確率獎勵和格式獎勵就是不足夠的，或者說它的獎勵信號可能是不夠不充足的。但是在 R1 的實驗中發(fā)現(xiàn)，即使是通過這么稀疏的獎勵信號模型也是能夠自然探索到一個驗證、回溯總結(jié)和反思的行為方式的。這里面背后就有一個問題，也就是如何控制來保證最后的回答的長度能夠穩(wěn)定上升。那這其實是一個非常關(guān)鍵的問題，因為模型可能會出現(xiàn)反復(fù)重復(fù)驗證或者驗證時間過晚的情況。最近社區(qū)也有一些復(fù)現(xiàn)的結(jié)果，包括我們自己團(tuán)隊也在復(fù)現(xiàn)，其實我們發(fā)現(xiàn)除了 GRPO 以外，像 REINFORCE 系列的算法以及 PPO 等，都是可以出現(xiàn)類似的結(jié)果的。REINFORCE 系列的算法，它是更快更好的，PPO 它訓(xùn)練相對更加穩(wěn)定，但是會更慢一點。

第二點就是我們涌現(xiàn)的推理范式，它其實會展現(xiàn)出多語言混合的思維鏈。其實它背后的一個原因可能是在預(yù)訓(xùn)練數(shù)據(jù)過程中它是多語言的，不同語言的數(shù)據(jù)它其實是被一視同仁的被 Tokenization ，那么其實背后一個問題就是不同領(lǐng)域的不同語言編碼是否可能會有不同的優(yōu)勢。比如說其實我們?nèi)祟愒谶M(jìn)行講解和思考過程中，很有可能也是進(jìn)行比如中英文混雜的思考的，那些模型內(nèi)部是不是也有類似不同于人類思考范式的這樣一種語言推理的能力，其實對于后續(xù)揭示一些推理鏈的可解釋性是非常重要的。

在這里我們具體講解 GRPO 是如何賦能強(qiáng)化學(xué)習(xí)的擴(kuò)展的。GRPO 的核心思想是通過構(gòu)建多個模型輸出的群組，也就是對于同一個問題去產(chǎn)生可能是 N 個回答，計算群組內(nèi)的相對獎勵來估計基線相對獎勵。它主要去解決一個問題，就是在傳統(tǒng)的策略優(yōu)化算法比如 PPO 中通常是需要一個與策略模型大小相同的一個 Critic Model 來估算它的 value，那我們把 value model 去掉其實能夠提升它整個訓(xùn)練的穩(wěn)定性和降低算力的消耗。與此同時，其實我們 GRPO 還可以引入一些額外的優(yōu)化策略，從而去提升訓(xùn)練穩(wěn)定性。

我們進(jìn)一步講解一下如何從 PPO 推導(dǎo)到 GRPO，其中 PPO 它作為 Actor-Critic 的算法，也是被廣泛應(yīng)用于后訓(xùn)練，它核心目標(biāo)也就是優(yōu)化下面這個獎勵函數(shù)。為了避免模型的過度優(yōu)化，我們通常會在每個詞源的后邊加上一個與 Reference Model 也就是參考模型的一個 KL 懲罰項。

PPO 的獎勵函數(shù)通常是與策略模型規(guī)模相當(dāng)?shù)莫?dú)立模型，就是 Critic model，這會帶來非常大的一個內(nèi)存和計算的增加。與此同時第二個問題就是獎勵模型，通常它要對輸出序列的最后一個詞源，去分配獎勵，導(dǎo)致它逐 Token 的價值函數(shù)的訓(xùn)練是會不斷復(fù)雜化的。

GRPO 其實如右下圖所示， GRPO 中是省略了 value model 的過程，比如說我們不用去估算我們可以直接利用一個組利用多個 output 去計算 reward，然后利用這個 reward 在組內(nèi)進(jìn)行一個相對值的估計來獲得一組優(yōu)勢值，我們相應(yīng)的優(yōu)化的策略就變成了對于整個優(yōu)勢值，包括原來 PPO 的目標(biāo)函數(shù)改變過來直接進(jìn)行優(yōu)化。包括 KL 散度的懲罰項，它不會直接加到獎勵里邊，而是直接加到策略函數(shù)優(yōu)化的目標(biāo)函數(shù)里邊，這也是簡化了整個 At 的過程的計算。它和獎勵模型的對比性質(zhì)其實是天然契合的，因為獎勵模型本身也是基于同一個問題的輸出進(jìn)行一個 preference 的比較訓(xùn)練；GRPO 是在計算組內(nèi)優(yōu)勢值的時候進(jìn)行一個相對值的計算，其實它能夠提升組內(nèi)好回答的比例，降低組內(nèi)壞回答的比例，其實天然是具有相對優(yōu)勢的。

GRPO 它其實分為兩種：第一個是基于結(jié)果的，第二是基于過程的。對于基于結(jié)果的形式，對于每個問題可以采用一系列的輸出獎勵模型去為這一系列的輸出去生成獎勵，那么隨后去通過進(jìn)行一個 normalization，也就是進(jìn)行歸一化，然后把歸一化后的獎勵去分配給每個輸出的末尾的 token，然后去設(shè)為對應(yīng)的 reward 就可以了。其實它的表達(dá)式就是這樣的，相當(dāng)于傳統(tǒng)的優(yōu)勢值計算是非常簡化的。進(jìn)一步其實也可以把 GRPO 擴(kuò)展到基于過程的監(jiān)督下，因為是結(jié)果監(jiān)督，它是僅提供輸出末尾的獎勵，對于復(fù)雜數(shù)學(xué)任務(wù)的策略指導(dǎo)是不足的。進(jìn)一步我們可以對于一個問題去采樣多個輸出，我們利用過程獎勵模型去為每個步驟去生成獎勵，比如生成一系列的獎勵的信號規(guī)一化之后，優(yōu)勢值為最后獎勵信號一個逐步的累加和，其實它作為一個過程監(jiān)督的算法也是非常方便的。

這是對 DeepSeek-R1 的 Takeaways 的第二部分總結(jié)，R1-Zero 它其實節(jié)省了大量的標(biāo)注成本，那么使模型獲得了更加自由探索解決問題的路徑，它不會被預(yù)先設(shè)定的模式所束縛。為了充分的去釋放強(qiáng)化學(xué)習(xí)的潛力，同時去解決像 R1-Zero 中出現(xiàn)的語言混雜以及訓(xùn)練不穩(wěn)定等等特性，DeepSeek R1 的訓(xùn)練中采用了四階段交替訓(xùn)練的過程，那是從監(jiān)督微調(diào)到強(qiáng)化學(xué)習(xí)再到再次的監(jiān)督微調(diào)以及強(qiáng)化學(xué)習(xí)，從而通過冷啟動來解決了一些收斂效率的問題。

DeepSeek R1 也是自主涌現(xiàn)了像自驗證，反思和長鏈推理能力，比如自驗證它會一個模型在生成最終答案之前會主動的驗證自己的中間推理步驟是不是正確的，就像是一個學(xué)生在做題的過程中會反復(fù)檢查自己的解題過程來確保答案的準(zhǔn)確性；反思是指模型會回溯檢查自己之前的推理過程并根據(jù)檢查的結(jié)果進(jìn)行修正，相當(dāng)于一個學(xué)生在復(fù)習(xí)的時候會反思自己之前的錯誤，以便下次不再犯同樣的錯誤；而長鏈推理能力則是讓模型能夠處理復(fù)雜，更需要多步驟思考的問題，這種能力對于解決一些需要跨越多個邏輯步驟，才能找到答案的問題至關(guān)重要，也有復(fù)雜的數(shù)學(xué)題或者邏輯謎題。冷啟動也能夠讓強(qiáng)化學(xué)習(xí)的訓(xùn)練更加穩(wěn)定，比如加強(qiáng)它的收斂性，以及提高模型輸出的可讀性。

我們展現(xiàn)出了幾個比較關(guān)鍵的技術(shù)，比如說推理為中心的強(qiáng)化學(xué)習(xí)訓(xùn)練，其中就是語言一致性獎勵以及多目標(biāo)優(yōu)化。還有 GRPO 也就是基于群組的相對策略優(yōu)化，這樣一個非常關(guān)鍵的技術(shù)。在獎勵機(jī)制的設(shè)計上其實也是比較重要的，因為既要兼顧一個推理能力，也就是通過準(zhǔn)確率獎勵和格式獎勵來去進(jìn)行限制，那也要引入一個語言一致性獎勵，從而懲罰在推理過程中使用多種語言輸出的這么一個現(xiàn)象，從而去鼓勵模型盡可能去使用一種目標(biāo)語言進(jìn)行推理來保證模型輸出的語言風(fēng)格的一致性。

DeepSeek R1 其實也帶來了很強(qiáng)的社會和經(jīng)濟(jì)效益，背后其實是一個低成本和高質(zhì)量語言模型邊界的探索，我們其實整個大語言模型發(fā)展過程，它的擴(kuò)展律最初是模型的規(guī)模、然后是數(shù)據(jù)集的規(guī)模，現(xiàn)在是推理時的計算資源和合成數(shù)據(jù)。這就意味著 DeepSeek R1 其實能夠更方便地整合到，像 AI2Science 也就是計算科學(xué)以及一些大規(guī)模的 API 應(yīng)用中。通過垂直領(lǐng)域和橫向的拓展，比如說引入 RAG 的技術(shù)等等，這其實都是非常方便的。當(dāng)然也帶來一些經(jīng)濟(jì)效益，比如說資本市場的劇烈波動，包括像研發(fā)的投入和數(shù)據(jù)的數(shù)據(jù)中心的建設(shè)成本激增，其實背后也是算力軍備競賽的一個循環(huán)，其實隨著模型使用方案的平民化，資源也是能夠得到有效的優(yōu)化，從而能夠在有限的算力資源支持下，突破算法的創(chuàng)新然后突破算力的限制。

技術(shù)對比探討

與 DeepSeek-R1 同系列出現(xiàn)的，其實還有 Kimi k1.5。我們也是先對 Kimi k1.5 的技術(shù)進(jìn)行一個簡單的講解，然后去對比和分析這兩個模型它采用的技術(shù)背后是不是有什么可取之處，以及和我們推測和社區(qū)的一些其他復(fù)現(xiàn)結(jié)果的一個對比。

Kimi K1.5 其實和 Kimi 系列的模型其實是一樣，它是都是想要用長文本來解決一些問題，比如說 Kimi K1.5 其實專注于利用長文本的 CoT 輸出來解決推理時的擴(kuò)展問題，它的核心也就是通過強(qiáng)化學(xué)習(xí)來讓模型去試錯來學(xué)習(xí)解決問題的能力，它通過將強(qiáng)化學(xué)習(xí)的優(yōu)化方式進(jìn)行一個修改來應(yīng)用于長文本推理鏈生成的過程，從而啟發(fā)模型進(jìn)行更深入更復(fù)雜的推理。

其實和 GRPO 的采用有很大的不同，他們采用的技術(shù)其實是一個 REINFORCE 系列的一個算法的變形，其實 Kimi 一直關(guān)注的也就是長文本能力的拓展，核心的 insights 也就是長文本能力是強(qiáng)化學(xué)習(xí)訓(xùn)練語言模型的關(guān)鍵，而不是需要一些更復(fù)雜的訓(xùn)練技巧。其中他們還有一個更 interesting 的地方是長文本到短文本的一個拓展，通過長文本的思維鏈模型來指導(dǎo)短文本模型的訓(xùn)練，從而能夠在有限的計算資源下去獲得更好的性能。我們可以看到它在一些數(shù)學(xué)推理代碼推理的任務(wù)，包括視覺推理的任務(wù)上其實都超過一些開源的模型和 OpenAI 的系列模型。

具體來說， Kimi k1.5 的過程是分為 4 階段：第一是預(yù)訓(xùn)練階段，然后進(jìn)行了監(jiān)督微調(diào)，進(jìn)一步為了擴(kuò)展它的長文本思維鏈推理能力進(jìn)行了 long cot 的監(jiān)督微調(diào)，進(jìn)而進(jìn)行了強(qiáng)化學(xué)習(xí)的訓(xùn)練。這里邊也采用了一些相應(yīng)的一些 recipes 一些技巧，其實也是在這里可以一塊分享給大家。

首先是對于 RL 問題的準(zhǔn)備，我覺得這其實也是社區(qū)復(fù)現(xiàn)的一些共用的技巧，比如說希望 RL 的 Prompt 能夠涵蓋足夠多的范圍，比如說包括代碼 Coding/通用任務(wù)以及一些理工科問題的數(shù)據(jù)。同時 RL 訓(xùn)練也要去 balance 不同的難度，從而達(dá)到一個從易到難課程學(xué)習(xí)的效果。與此同時這些 RL prompt 的像數(shù)據(jù)代碼問題，它最好是能夠被一些 Verifiers 準(zhǔn)確的評價，這可以防止防止泛化出一些獎勵攻陷以及一些 Superficial Patterns，就是一些浮于表面的一些表征的這樣一個行為。進(jìn)一步在 Long CoT 監(jiān)督微調(diào)過程中，他們是構(gòu)造了這么一個 warm up 的數(shù)據(jù)，其中包括一些比較準(zhǔn)確的推理路徑去 for 圖文的輸入，那也是涵蓋了一些 planning，評價反思以及探索的方式，然后從而讓模型或在 RL 訓(xùn)練過程前就獲得這樣一個比較好的啟動的方式。

其實更有趣的是說，Kimi k1.5 是從一個 In-Context RL 的角度出發(fā)，也就是我們傳統(tǒng)在 MCTS 過程中和包括一些搜索過程都是一個可以被視為一個 planning，也就是規(guī)劃的過程。我們與其通過規(guī)劃來使得模型顯式的去擴(kuò)展計算量，為什么不能用模型去模擬 planning 過程，比如說其實在整個搜索的過程中，我們可以將每個 state 比如每個狀態(tài)和對應(yīng)狀態(tài)的價值，都視為一個 language token。從這樣的角度出發(fā)我們其實就可以把它建模成一個 contextual bandit 的問題，然后從而利用 reinforce 的變種進(jìn)行優(yōu)化。與此同時我們與此同時，其實 Kimi-K1.5 還需要引入一個長度懲罰的機(jī)制，從而防止模型它去生成過長的推理過程來提高它的計算效率。其實模型也會出現(xiàn)這樣一種 overthinking 也就是過度思考的行為。Overthinking 的過度思考的行為其實可能會導(dǎo)致一個更好的表現(xiàn)，但是會帶來訓(xùn)練和推理過程中更大的算力的損耗。

與此同時 K1.5 也用了一些采樣策略的優(yōu)化，其中包括課程學(xué)習(xí)和優(yōu)先采樣的算法，比如課程學(xué)習(xí)也就是根據(jù)問題的難度讓模型去先學(xué)容易的例子，然后再逐步引入更難的例子，從而循序漸進(jìn)的去掌握知識。優(yōu)先采樣也就是根據(jù)難度和對于問題的掌握程度來調(diào)整采樣概率，使模型更傾向于去采樣那些困難的或者不擅長的問題，來提高它的訓(xùn)練的效率。長度懲罰其實也就是采用像下面這個公式所示的我們采用一組這樣一個回答，然后通過計算組內(nèi)的最最大長度和最短長度來計算這個平均長度作為一個 reference 值。第二個就是策略優(yōu)化的損失函數(shù)也就是我們直接其實可以采用一個 reinforce 的變種去優(yōu)化 surrogate 的 loss。

其中 Kimi K1.5 還采用了一些視覺數(shù)據(jù)的構(gòu)建，包括像真實世界的數(shù)據(jù)其中就包括一些位置的猜測。然后傳統(tǒng)的 VQA，其實它是為了提升模型，在真實場景中的視覺推理能力；第二個是合成視覺推理數(shù)據(jù)，也就是它是一個人工合成的，比如去提高主要是提高一個空間關(guān)系、幾何模式和物體交互的這么一個能力。這些合成數(shù)據(jù)提供了一個可控的環(huán)境用于測試模型的視覺推理能力，并且可以去無限生成一個虛擬樣本；第三個也就是常用的文本渲染數(shù)據(jù)，通過將文本內(nèi)容轉(zhuǎn)化為視覺格式來從而保證模型能夠在不同模態(tài)下保持一致的文本處理的能力，其實就是將比如說一些 OCR 的技巧將這個文本的文檔和代碼的片段轉(zhuǎn)化為圖像，來確保模型無論接受的是純文本輸入，還是截圖或者照片中的文本，都能夠提供一致的 Response。

K1.5 還展現(xiàn)出來一個比較優(yōu)秀的方法，也就是 long2short 長到短的蒸餾。它其實背后想要解決的其實是模型的一個過度思考，以及我們能不能采用進(jìn)行算力的控制。也就是通過采用更短的思維鏈達(dá)到和長思維鏈相同的效果。其實 Kimi 探究了這么幾個方法：首先是模型的融合，比如說將長文本的思維鏈模型和短文本思維鏈模型的權(quán)重進(jìn)行平均，從而得到一個新的模型；第二個是最短拒絕采樣，也就是在多個采樣中選擇一個最短并且答案最正確的答案然后去做監(jiān)督微調(diào)，其次是采用像 DPO 等技術(shù)來使用長文本 cot 模型生成的答案來作為偏好數(shù)據(jù)來訓(xùn)練短文本 cot 的模型，在標(biāo)準(zhǔn)的 RL 訓(xùn)練過程中，其實可以類似于前一步我們采用的長度懲罰項來進(jìn)行微調(diào)，從而進(jìn)一步的去提高短文本 CoT 模型的效率。

在這里其實我們對比一下 Kimi K1.5 和 DeepSeek R1 的一些技術(shù)，我們其實能夠發(fā)現(xiàn)一些共通之處和一些 Takeaways。首先二者都關(guān)注了 RL 的，也就是強(qiáng)化學(xué)習(xí)的方法帶來的提升，MCTS 和 PRM 其實是都沒有被使用的，包括我們之前的一個推測以及社區(qū)的很多復(fù)現(xiàn)過程中其實都關(guān)注了 MCTS 和過程監(jiān)督模型，但是它們沒有被顯式的使用。其實背后是有著獎勵攻陷的考慮的，之所以直接用純 RL，其實背后的考量是對于模型思考能力的 structure，也就是其實這個 structure 相當(dāng)于是人類的一個先驗，其實我們可以認(rèn)為 MCTS 它是一種 structure，A * 它也是一種 structure，人為的加入 inductive bias 去強(qiáng)求語言模型按照結(jié)構(gòu)化的先驗去進(jìn)行思考，它其實是可能會限制模型的能力的。那么后續(xù)我們也會進(jìn)一步講解這個問題。

第二點是過程的結(jié)果獎勵模型，它其實很容易被獎勵攻陷，并且絕對值的 value 是很難準(zhǔn)確的去估計獎勵的，與此同時我們其實會有兩種方法：第一個比如說雖然我們絕對值的 value 很難準(zhǔn)確的估計，但我們可以用它去構(gòu)建一個偏序的數(shù)據(jù)集；第二就是我們直接不用過程獎勵模型，Kimi K1.5 其實更多是從 In-context RL 出發(fā)是希望模型去模擬 planning 的過程，而不是去顯式的進(jìn)行 planning，其中就是將 state 和價值等信息都視為一個 language tokens；而 DeepSeek R1 是從純強(qiáng)化學(xué)習(xí)的角度出發(fā)，通過大規(guī)模的強(qiáng)化學(xué)習(xí)和 rule-based reward 來激活模型的能力，其中核心的觀念都是不管模型中間做錯了什么，它只要不是重復(fù)的 pattern，只要模型最后做對了，我們就認(rèn)為這是一個好的探索，它是值得鼓勵的；反之如果模型一頓探索最后做錯了，那么再努力也是錯，這是需要去進(jìn)行懲罰的。

關(guān)鍵的也就是強(qiáng)化學(xué)習(xí)算法的對比，其實 DeepSeek R1 采用的是 GRPO，GRPO 是通過群組相對方式去計算優(yōu)勢值，然后它和獎勵模型基于同一問題的輸出它是天然契合的，而 GRPO 它額外的進(jìn)行了策略函數(shù)的優(yōu)化，比如說其實我們可以回到前面這一頁，我們可以看到其實傳統(tǒng)的我們是會把 KL 散度的懲罰加到 reward 里邊，然后計算優(yōu)勢值，但是在 GRPO 里邊，我們可以直接把懲罰項融入到這個目標(biāo)函數(shù)計算里邊，簡化計算的難度和算力的損耗，使得這 GRPO 它其實在大規(guī)模的強(qiáng)化學(xué)習(xí)訓(xùn)練任務(wù)中，能夠更有效的去優(yōu)化策略模型，然后進(jìn)而去提高它的計算效率。

Kim K1.5 其實它采用了一種變種 Mirror Descent，它可以保證學(xué)習(xí)的穩(wěn)定性，其實本質(zhì)上也是屬于 REINFORCE 系列算法的一種，可以促進(jìn)模型去探索到驗證回溯總結(jié)的反思的行為方式。第二個關(guān)鍵點是后訓(xùn)練的 Pipeline 其實對于提升模型的推理能力重要性都是不可忽視的，一方面是隨著測試階段算力和訓(xùn)練階段算力的增加，根據(jù)后訓(xùn)練擴(kuò)展律模型的表現(xiàn)是會被持續(xù)改善的，另一方面是理想的數(shù)據(jù)構(gòu)建應(yīng)該涵蓋足夠廣泛的類別并且難度分級明確，這樣有利于實現(xiàn)類似于課程學(xué)習(xí)的效果，從而逐步提升模型的能力。最后一個 takeaways 是說在獎勵建模的過程中，其實我們需要確保如果你的獎勵機(jī)制是基于獎勵模型的話，那么就要防止它的獎勵攻陷，比如說還需要去進(jìn)行一個平衡的推理長度和推理正確率之間的一個關(guān)系，比如對于同一個序列它的下一個動作可能存在一個錯誤答案，也存在一個直接引入到正確答案的情況，那么傳統(tǒng)的強(qiáng)化學(xué)習(xí)的方法的 Credit Assignment 的問題會傾向于去提升選擇正確答案的概率，同時降低去選擇錯誤答案的概率，然而從推理長度的角度來說，有時就選擇看似錯誤的答案，可能會引導(dǎo)模型進(jìn)行一個自我修正的過程。這種自我修正的機(jī)制，以及更長的推理路徑，同樣對于提升模型的整體推理能力，是至關(guān)重要的。

第二個我們希望對比的技術(shù)討論是通過純強(qiáng)化學(xué)習(xí)和 STaR-base 的一些方法的對比。在這里我們先回顧一下 STaR 的方法，STaR 方法核心是說我們有一些問題和答案的問題，我們希望能夠讓模型自己生成問題是如何導(dǎo)向答案的推理過程，并且將這些推理過程加入到模型的監(jiān)督微調(diào)的數(shù)據(jù)集中，從而每次獲得一個新的數(shù)據(jù)集，都從一個原始的模型來開始進(jìn)行微調(diào)不斷的去激發(fā)模型自己產(chǎn)生 Rationales 就是思考過程的能力。

STaR 和 RL 之間其實是有著緊密聯(lián)系的，比如說去采樣一個潛在的推理路徑，它其實是類似于通過強(qiáng)化學(xué)習(xí)進(jìn)行一個策略選擇的動作，然后就選擇一個可能的策略路徑，對于計算目標(biāo)函數(shù)其實對于模型對于整個數(shù)據(jù)集的預(yù)測結(jié)果進(jìn)行評估，并且只根據(jù)預(yù)測的正確的樣本更新模型。它其實是和傳統(tǒng)強(qiáng)化學(xué)習(xí)中一個梯度的更新，其實是類似的，也就是通過多次的調(diào)整同一批的數(shù)據(jù)來穩(wěn)定學(xué)習(xí)過程。

關(guān)于強(qiáng)化學(xué)習(xí)和 STaR 方法的對比，其實 STaR 的核心思路是希望將思考過程建模到語言的 next token prediction 中，它這個過程是通過反復(fù)的自我迭代和監(jiān)督微調(diào)實現(xiàn)的?；?STaR 的方法可以進(jìn)一步將這種思路擴(kuò)展到比如思考過程其實也可以是搜索過程，那也就是 planning 直接去建模語言模型的 next token prediction，比如說 rStar-math 以及 stream-of-search 甚至 Kimi K1.5 的核心思路都是這樣的。

本質(zhì)上 STaR 一類的方法是希望模型能夠?qū)W習(xí)到 MetaCoT 及問題的答案映射過程背后的一個深入的規(guī)律，比如說對于為什么 1+1=2，其背后可能是說一個加法的規(guī)律，我們是希望 1+1=2 背后的加法的運(yùn)算律，它是能夠作為一個隱式的思考過程或者隱式的合理過程被模型學(xué)習(xí)到參數(shù)之中的，但其實它對于問題的結(jié)構(gòu)要求會比較高，對于復(fù)雜數(shù)學(xué)的推理任務(wù)，它是可能難以自我迭代的。因為某些可能根本沒有辦法去生成一個好的推理過程，并且難以融入一個 Rule-based 基于規(guī)則的這么一個獎勵來進(jìn)行強(qiáng)化學(xué)習(xí)的優(yōu)化；第二就是在純強(qiáng)化學(xué)習(xí)的加持下，其實業(yè)界的技術(shù)實踐它更多的去關(guān)注于直接利用強(qiáng)化學(xué)習(xí)去激活基座模型的推理潛力，通過構(gòu)建 Rule-based Reward 也就是基于規(guī)則的獎勵，加上強(qiáng)化學(xué)習(xí)數(shù)據(jù)的設(shè)計來去激活模型內(nèi)部本身的能力相關(guān)的一些獎勵模型的嘗試，比如說 PRM 它其實會遇到像獎勵攻陷，以及估計的價值不準(zhǔn)、難以泛化等問題。

第三個我們希望討論的是蒸餾和強(qiáng)化學(xué)習(xí)之間的對比。一方面這些對比來自于我們像 DeepSeek R1 中揭示的能不能將一些更強(qiáng)大的推理能力的模型，它的高階推理范式蒸餾到小模型中；另一方面是我們能不能利用蒸餾后的模型來進(jìn)行訓(xùn)練，從而超過傳統(tǒng)強(qiáng)化學(xué)習(xí)的邊界。其實背后的考慮是說其實大型模型，它雖然性能強(qiáng)大，但是也存在著一些局限性，比如計算資源消耗過高、部署和使用門檻較高等。模型蒸餾的核心思維就是將一個經(jīng)驗豐富的老師的知識傳遞給一個年輕的學(xué)生，從而將讓其在一個較短的時間內(nèi)去掌握復(fù)雜技能。

DeepSeek R1 Report 中其實揭示了我們通過蒸餾 R1 的手段，可以獲得一系列突出表現(xiàn)的小模型，其實這很大程度上是得益于 R1 的模型它是足夠強(qiáng)大的，因為它有很多高級的推理方式，而高效推理方式是小模型利用大規(guī)模的強(qiáng)化學(xué)習(xí)可能是難以發(fā)現(xiàn)的。這難以發(fā)現(xiàn)的原因可能是由于訓(xùn)練知識的不足，很難去進(jìn)行一些有效拓展，比如說同樣是下圍棋，其實人類大師見過了更多的棋譜，他要知道下一步可能下個在某個位置，它可能相對的價值更高，而人類小白其實沒有辦法去辨別不同的位置，它的價值是否有不同，其實獲得推理方式也就是有差別的，這些的話小模型表現(xiàn)會相對比較突出，甚至超過了基于大規(guī)模強(qiáng)化學(xué)習(xí)的方法。

那在提升模型的推理能力的努力上，其實蒸餾和強(qiáng)化學(xué)習(xí)也被社區(qū)廣泛探索，比如說直接利用監(jiān)督微調(diào)去蒸餾，其實可以學(xué)到數(shù)據(jù)背后的推理方式。但是它雖然在推理分?jǐn)?shù)上有表現(xiàn)所提升，但它更多是去擬合數(shù)據(jù)中的 Pattern，很難學(xué)習(xí)數(shù)據(jù)背后的數(shù)學(xué)規(guī)律和我們所說的一個 MetaCoT 的過程，而強(qiáng)化學(xué)習(xí)是通過試錯和嘗試來鼓勵模型在最大化獎勵過程中去學(xué)習(xí)到推理背后的規(guī)律，獲得的泛化性和推理表現(xiàn)的上界都是更高的。

與此同時，其實我們一個社區(qū)的 Common Sense 或者是說在對齊過程當(dāng)中實踐是監(jiān)督微調(diào)主要是負(fù)責(zé)記憶，而很難實現(xiàn) out of distribution，也就是分布外的泛化，而基于結(jié)果獎勵模型的強(qiáng)化學(xué)習(xí)是能夠獲得更高的泛化能力的。對于此的理解，其實我們一般在后訓(xùn)練的階段中是采用監(jiān)督微調(diào)來規(guī)勸模型的輸入格式，從而使得后續(xù)的強(qiáng)化學(xué)習(xí)可以獲得更高的收益。隨著強(qiáng)推理模型出現(xiàn)的興起，其實社區(qū)也有很多的工作來比較長文本的思維鏈的這種效果，比如說其實背后是說如何去 scaling up 可驗證的獎勵會成為一個核心。對于一些小模型來說，其實也有一些工作發(fā)現(xiàn)其實像 Qwen-math-7b 這些，它是不容易 recentivize 長思維鏈的范式，比如說一些 'aha' Moment。那么在像 Math 場景下，其實像 wait check 這些詞，它是在 RL 訓(xùn)練中沒有進(jìn)行明顯的增加的，所以如何將蒸餾和強(qiáng)化學(xué)習(xí) combine 起來，其實還是一個比較關(guān)鍵的社區(qū)的問題。但是我們?nèi)绻黄茝?qiáng)化學(xué)習(xí)的或者突破推理的能力的上界的話，其實還是要依靠強(qiáng)化學(xué)習(xí)。

這里有一些 open questions 是比如說長思維鏈的指令數(shù)據(jù)擴(kuò)展，它是否是有助于提升慢思考推理能力，以及我們?nèi)绾稳?gòu)建這樣的長思維鏈數(shù)據(jù)來獲得最佳的樣本效率，進(jìn)一步的我們長思維鏈的擴(kuò)展是否有助于多模態(tài)任務(wù)。

我們之前的一些嘗試是比如 RedSTaR，其實在這份工作中我們是發(fā)現(xiàn)了這么一些 takeaways：首先長思維鏈它是能夠在有限的數(shù)據(jù)下去增加推理能力的，比如說只需要 1300 條數(shù)據(jù)，數(shù)據(jù)量較少的情況下去增加小模型的強(qiáng)推理能力。與此同時更大規(guī)模的模型以及更多專業(yè)預(yù)訓(xùn)練的模型，它其實在這樣一個長推理鏈的微調(diào)中其實表現(xiàn)是更佳的，包括在較小的模型中，它正確的推理路徑和處理復(fù)雜任務(wù)的能力，這也進(jìn)一步證明其實預(yù)訓(xùn)練中的知識，對于后續(xù)無論是蒸餾還是強(qiáng)化學(xué)習(xí)的拓展都是有幫助的。

進(jìn)一步其實任務(wù)和語言之間也可以通過長監(jiān)督微調(diào)進(jìn)行正遷移，比如說從而去幫助在通用任務(wù)上的語言的泛化性，以及在通過基礎(chǔ)任務(wù)中去取得更好的表現(xiàn)，通過一些離線強(qiáng)化學(xué)習(xí)算法和 online 的強(qiáng)化學(xué)習(xí)算法，我們也能夠提升模型的表現(xiàn)。與此同時將 long cot 應(yīng)用到多模態(tài)大型模型，也是可以顯著提升其性能的。DeepSeek-R1 也是現(xiàn)在只有文本模態(tài)，未來如何進(jìn)行多模態(tài)的擴(kuò)展也是非常關(guān)鍵的一個問題。

其實社區(qū)有一些方法比如最近非?；鸬?S1 模型，我們在這里進(jìn)行一個簡單的分析。Kimi K 1.5 中的 long2short 的方法其實本質(zhì)上也是一種蒸餾，也就是我們?nèi)绾螌㈤L文本思維鏈的模型的知識遷移到短文本的模型上，不過它的目標(biāo)和策略需要更多樣。不僅需要性能，還需要 Token 的效率，并且更多的去關(guān)注對于教師模型推理策略的學(xué)習(xí)，而不僅僅是輸出。而 S1 模型，它是通過少成本去獲得 o1-preview 的這么一個表現(xiàn)。

它關(guān)鍵是基于兩點，第一個是高質(zhì)量推理數(shù)據(jù)集的貢獻(xiàn)，也就是進(jìn)行挑選了 1000 條，關(guān)于數(shù)學(xué)競賽博士級的科學(xué)問題、以及奧林匹克競賽題目等，這些問題經(jīng)過難度多樣性和質(zhì)量的嚴(yán)格篩選，它是包含了詳細(xì)的推理軌跡和答案，它也能達(dá)到類似于課程學(xué)習(xí)的效果；第二個是采樣策略的優(yōu)化，其實他們采用了一個預(yù)算強(qiáng)制法來控制模型在推理時間的計算消耗，也就是通過引入 end of thinking 的 token，去控制模型的思維鏈長度，比如終止思考過程來轉(zhuǎn)向答案生成的階段。如果要增加計算投入的話，我們就會暫時阻止 end of thinking 的 token 出現(xiàn)來鼓勵進(jìn)一步的探索。DeepSeek-R1 為什么蒸餾的效果能夠超過強(qiáng)化學(xué)習(xí)，其實主要是在于 DeepSeek R1 這個模型確實很大，然后他也確實發(fā)現(xiàn)了一些高級推理的范式。通過大規(guī)模的數(shù)據(jù)的蒸餾，它其實能夠讓小模型在任務(wù)表現(xiàn)上是超過小模型進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)的效果的。

但是它也有兩個比較關(guān)鍵的點，第一是對于依賴強(qiáng)大的教師模型，第二是它的證明過程，通常是基于特定任務(wù)或者一組任務(wù)，比如說代碼和數(shù)學(xué)問題來進(jìn)行優(yōu)化，這可能導(dǎo)致生成的小模型在面對新任務(wù)例如通用任務(wù)時它的適應(yīng)性和方法能力是不足的。

接下來一個對比討論就是 MCTS 和 PRM 的應(yīng)用。我們知道其實社區(qū)包括我們之前的講解，對于 MCTS 和過程獎勵模型，實還是比較重視的。MCTS 的核心的方法，是將答案拆分成分句或者 Token 為單位的節(jié)點，然后對于解空間進(jìn)行搜索。但是通過 MCTS 可能會有以下的問題，第一個是整個 token 的 generation space 是更大的，而不是像象棋一樣，象棋中的搜索空間是相對一個良定義的，而語言模型它的 token 產(chǎn)生過程空間是相對更大的，它是更容易陷入局部最優(yōu)的。第二是 MCTS 中的 value model 也非常重要，它直接影響了搜索方向，而去直接去訓(xùn)練一個更好的 value model 是相對比較困難的，所以在復(fù)現(xiàn)強(qiáng)推理模型的一些實踐上，其實社區(qū)也有很多關(guān)注的如何進(jìn)行 MCTS 算法的優(yōu)化。

一個相對成功的典范是 rStar-Math，它是通過小模型就達(dá)到了 OpenAI o1 數(shù)學(xué)任務(wù)相當(dāng)?shù)乃?，其中關(guān)鍵的核心思路是通過兩個小模型的配合，其中一個是策略模型 policy model，另一個模型我把它訓(xùn)練成為基于偏好的過程獎勵模型，它通過配合迭代，然后 MCTS 去產(chǎn)生分步驗證的高質(zhì)量處理數(shù)據(jù)，然后再進(jìn)行一個自我迭代的提升，從而不斷的更新數(shù)據(jù)，然后微調(diào)模型。其中背后的一個觀點是說，我們提到 PRM，對于單個步驟的絕對值優(yōu)化，它其實可能是存在問題，或者說難以估確準(zhǔn)穩(wěn)定的獎勵，但是通過 MCTS 的模擬之后，我們雖然絕對值的評分是不準(zhǔn)的，但它能夠有效的識別出哪些步驟是正確的、哪些步驟是錯誤的，進(jìn)而我們就可以利用 ranking loss，去訓(xùn)練一個偏序數(shù)據(jù)集。

比較樹搜索和不同的獎勵模型的一些方法，其實我們可以發(fā)現(xiàn)，傳統(tǒng)的一些方案都是基于比如說像利用我們 MCTS 去構(gòu)建數(shù)據(jù)集或者是說直接去顯式在推理過程中加入樹搜索的技巧來延長推理的時間，其實背后的相應(yīng)有一些考量是說直接將樹搜索應(yīng)用到模型的訓(xùn)練過程中，是否可能會限制模型的思考過程。背后的啟發(fā)是，樹搜索本身是一種結(jié)構(gòu)化的先驗，包括 A * 算法也是這樣的一種 structure，那么人為的加入這樣的認(rèn)知偏差使得語言模型去按照人類的結(jié)構(gòu)化經(jīng)驗去進(jìn)行思考，是可能會限制模型的能力。比如說，就如右邊 OpenAI 所展示的圖，其實隨著算力的增長，加入更多的這樣一個人類先驗，其實整個模型的表現(xiàn)上限是有限的，具有更少的人類先驗，所能獲得的表現(xiàn)上界是更高的。最后我們想要思考的是，我們不通過額外的添加人為先驗，模型自身的時候是否可以直接進(jìn)行思考的。

背后其實有兩個算法：第一個也就是算法蒸餾，第二個是通過搜索流來顯式的去引入規(guī)劃的過程。關(guān)于算法蒸餾其實是將強(qiáng)化學(xué)習(xí)的整個訓(xùn)練過程中的 history 的 trajectory，直接建模到語言模型中從而尋找一個數(shù)據(jù)相對會比較高效的這樣一些強(qiáng)化學(xué)習(xí)算法。Stream of Search 也就是搜索流其實是類似的，它更多是說將強(qiáng)化學(xué)習(xí)的訓(xùn)練的軌跡，比如將對搜索過程轉(zhuǎn)化為自然語言序列訓(xùn)練預(yù)訓(xùn)練模型，然后基于這個模型，做一些策略提升的方法，它也是解決了很多啟發(fā)式的解決器沒有解決的一些問題。

但是我們可以看到其實 DS-R1 和 Kimi K1.5 它背后沒有進(jìn)行明確的樹搜索和過程獎勵模型的嘗試，其背后也有其特定的考量。比如說這個過程獎勵模型，它具備的一些挑戰(zhàn)是決定當(dāng)下的某一步是否是正確是一個非常難的任務(wù)，那么并且通過自動化標(biāo)注是很難以產(chǎn)生很好的結(jié)果的，而通過人工標(biāo)注又很難以把規(guī)模擴(kuò)大；第二是基于神經(jīng)網(wǎng)絡(luò)的過程獎勵模型可能會引入獎勵攻陷的現(xiàn)象，而重新訓(xùn)練就會讓整個訓(xùn)練過程變得非常復(fù)雜，并且整個過程獎勵模型還是比較適合于 rank 前 n 個回答，并且去支持有方向的去搜索。那么在大規(guī)模強(qiáng)化學(xué)習(xí)學(xué)習(xí)的使用下，其實提高算力相對是一個更加直接的方法。

但是過程獎勵模型有它自己的潛力，因為它畢竟總歸是一個比較稠密的監(jiān)督信號，那么對于獎勵進(jìn)行合適的 shaping 之后，是可以使訓(xùn)練更加穩(wěn)定或者收斂更快的。包括其背后也有更多的探索的空間比如說我們?nèi)绾巫屇Ｐ褪諗扛旎蛘哒f借助過程獎勵的方法來讓整個訓(xùn)練更加穩(wěn)定，并且未來有希望和自動化形式化驗證進(jìn)行結(jié)合，從而提供在基于規(guī)則的獎勵之外更多的獎勵信號，從而去指導(dǎo)密集的優(yōu)化，賦能長思維鏈安全的驗證。

那么最后一個討論也就是其實我們會發(fā)現(xiàn)現(xiàn)在很多強(qiáng)推理模型，存在過度思考的行為具體表現(xiàn)，比如說它會出現(xiàn)過多的語氣詞，以及在任何的場合都會使用一些高端詞匯典型的比如 DS-R1 會使用量子糾纏，對于一些簡單的數(shù)學(xué)問題也會出現(xiàn)過多思考的范式。但其背后看似是有反思的范式，重復(fù)的范式也是非常多的，它可能會導(dǎo)致更好的表現(xiàn)，但是也會帶來在訓(xùn)練和推理過程中極大的損耗。其實背后的問題就是，我們?nèi)绾稳ズ侠淼娜シ峙湓跍y試階段的算力，從而進(jìn)行選擇性的思考。其實 Kimi 里邊為我們展現(xiàn)一種策略，比如說從長思維鏈到短思維鏈的蒸餾，以及如何引入長度優(yōu)化的懲罰和優(yōu)先采樣策略，去幫助整個模型在強(qiáng)化學(xué)習(xí)訓(xùn)練過程中建模到使用合適的方法，而避免過度思考的現(xiàn)象。

我們會發(fā)現(xiàn)整個 DS-R1 在純文本模態(tài)上取得優(yōu)異表現(xiàn)非常驚艷，其實這也讓人不禁期待多模態(tài)場景的加持下，深度推理模型會是怎樣的表現(xiàn)，整個未來也是將進(jìn)入一個模態(tài)穿透和模態(tài)聯(lián)動的這么一個趨勢。我們?nèi)祟愒谌粘Ｉ钪薪邮盏降男畔⑼侨K的不同感官的渠道，它是能夠互相補(bǔ)充，幫助我們更加全面的理解和表達(dá)復(fù)雜概念。其實模態(tài)擴(kuò)展將成為強(qiáng)推理模型下一個重大突破，比如說我們?nèi)绾卧趶?fù)雜的決策環(huán)境中構(gòu)建起感知 - 理解 - 推演的閉環(huán)認(rèn)知體系，以及如何在某個模態(tài)下應(yīng)對許多復(fù)雜的推理任務(wù)，基于規(guī)則的獎勵提供監(jiān)督信號，從而作為人類意圖和偏好的載體。

而從文本模態(tài)擴(kuò)展到多模態(tài)、甚至到全模態(tài)場景時，許多問題便會隨之呈現(xiàn)，比如說隨著模態(tài)數(shù)的增加，傳統(tǒng)的二元偏好是否能夠捕捉人類意圖的多元偏好或者層次化偏好；并且當(dāng)多模態(tài)擴(kuò)展到全模態(tài)空間，模態(tài)交互更加復(fù)雜，強(qiáng)化學(xué)習(xí)方法又需要做哪些改進(jìn)；以及不同的模態(tài)下模態(tài)特有和模態(tài)共有的信息又如何統(tǒng)一在獎勵信號建模之中。

其實擴(kuò)展多模態(tài)對強(qiáng)推理有很多可能性，第一種是像 Qwen 一樣基于多模態(tài)做基座的模型擴(kuò)展到強(qiáng)推理的模型；第二是可以利用 LLaVA 的思路，在原來強(qiáng)推理基座模型上進(jìn)行額外的多模態(tài)模塊的擴(kuò)展，比如說如凍結(jié)除投影層之外的所有模型參數(shù)，對投影層進(jìn)行單獨(dú)的預(yù)訓(xùn)練，從而獲得能夠經(jīng)過視覺編碼器的視覺表征映射到語言表征空間的能力；以及第二步是同時微調(diào)投影層和大語言模型，從而激發(fā)語言模型的多模態(tài)處理能力。

未來方向分析探討

我們在這里也總結(jié)了一些未來的技術(shù)方向，比如說長推理模型的可解釋性、模態(tài)擴(kuò)展、強(qiáng)推理如何賦能智能體的發(fā)展以及強(qiáng)推理模型下的一個監(jiān)管和安全保證，具體包括形式化驗證、審計對齊和對齊欺騙現(xiàn)象。

首先是長思維鏈的可解釋性，其實強(qiáng)推理模型在為我們帶來性能提升的同時也帶來了新的挑戰(zhàn)。比如在復(fù)雜的環(huán)境下，模型可能會采取捷徑或者偏離原本的設(shè)計的任務(wù)路線，那么隨著模型被提供隱式思考的機(jī)會，出現(xiàn)這種操縱和欺騙的可能性逐漸加大，模型可以去通過相應(yīng)的思考去更發(fā)現(xiàn)完成目標(biāo)的更快方法。盡管這種目標(biāo)可能是不被允許或者是欺騙人類的。比如說在 OpenAI 的 o1 中就已經(jīng)發(fā)現(xiàn)了這種通過獲取任務(wù)的漏洞來完成任務(wù)的這樣一個現(xiàn)象。并且同樣的現(xiàn)象也在更多的語言模型上發(fā)現(xiàn)了這種獎勵篡改的機(jī)制，比如修改自己的獎勵機(jī)制來避開設(shè)置的難點。

基于長思維鏈的推理雖然在一定程度上可以提高模型的可解釋性，比如說我們可以查看顯式的路徑讓人類可以追蹤到模型如何從輸入推導(dǎo)出輸出，進(jìn)而追蹤模型的決策過程。但是與此同時它也不能完全去可解釋性的問題，因為模型可能仍然利用思維鏈進(jìn)行欺騙性推理。盡管思維鏈生成的推理步驟是模型輸出的一部分，但是它并不能保證它真實地反映了模型內(nèi)部計算的過程。模型是否能學(xué)會輸出符合人類期望的思維鏈，但是實際的處理過程可能與其展示的思維鏈?zhǔn)遣煌?。進(jìn)一步當(dāng)模型具備長期的目標(biāo)意識的時候，它可能會構(gòu)造看似合理但實際上誤導(dǎo)性的思維鏈以隱藏其真正的意圖。

那么為了防止思維鏈變成偽裝工具，其實需要兼顧一些 AI 驅(qū)動的方法以及對比推理、形式化驗證等方法。例如可以讓模型在不同的監(jiān)督環(huán)境下執(zhí)行相同的任務(wù)，檢測其推理的一致性?；蛘呤抢米詣踊瘜箿y試來分析模型是否在訓(xùn)練過程中優(yōu)化了欺騙策略。

第二個未來發(fā)展展望也就是如何通過模態(tài)擴(kuò)展和模態(tài)穿透來進(jìn)一步拓展強(qiáng)推理的邊界。我們可以知道傳統(tǒng)的對齊方法，它本身是模態(tài)無感的，它能夠通過數(shù)據(jù)的構(gòu)造直接應(yīng)用于多模態(tài)的場景。但是多模態(tài)的對齊的難點在于隨著模態(tài)數(shù)量的增加，傳統(tǒng)的二元偏好能否捕捉人類意圖的多元偏好或者層次化偏好；第二是當(dāng)多模態(tài)擴(kuò)展到全模態(tài)空間，模態(tài)交互更加復(fù)雜，那么傳統(tǒng)對齊算法是否還奏效，以及不同模態(tài)下模態(tài)特有和模態(tài)共有的信息如何統(tǒng)一在變化建模中。這里的出發(fā)點是我們?nèi)绾卧谌B(tài)場景中實現(xiàn)任意模態(tài)輸入任意模態(tài)輸出的模型也能夠和人類的意圖相對齊。

背后其實有一個統(tǒng)一的范式，是我們能否利用信息更豐富的多模態(tài)偏好數(shù)據(jù)從而實現(xiàn)更準(zhǔn)確且細(xì)粒度的人類偏好對齊呢？先前我們組其實提出一種算法就是從語言反饋中進(jìn)行學(xué)習(xí)，具體來說是針對于傳統(tǒng)對齊方法中存在的效率低迭代慢優(yōu)化難的等難題，讓語言模型對于每一個偏好數(shù)據(jù)集去提供相應(yīng)的語言反饋。其實這個語言反饋就是可以作為整個偏好中人類意圖的載體，因為它不僅給出了偏好為什么好，也給出了這個偏好為什么壞，以及如何進(jìn)行優(yōu)化的這樣一個反饋。那么通過從語言反饋中學(xué)習(xí)范式，它是能夠提升任意模態(tài)的生成和理解任務(wù)的對齊表現(xiàn)的。

其背后是說當(dāng)前模型的問題可能通常是并不完美的，我們可以利用語言反饋去優(yōu)化問題，也可以優(yōu)化問題的輸出，從而可以在某些維度上去改善模型的輸出，進(jìn)而合成更多具有學(xué)習(xí)價值的偏好對。

我們也發(fā)現(xiàn)其實模態(tài)穿透是能夠賦能整個文本模態(tài)上的智能并且拓展的。背后有兩個關(guān)鍵之處：第一個是客觀基礎(chǔ)上多模態(tài)模型，已具備了強(qiáng)大的跨模態(tài)穿透和融合的機(jī)制，能夠通過結(jié)合視覺能力世界知識和上下文學(xué)習(xí)能力，實現(xiàn)多種模塊之間的協(xié)同輸出；第二是基于慢思考強(qiáng)推理能力的持續(xù)自我進(jìn)化，可以突破單一模塊的局限性，從而可以用其他模態(tài)的輔助信息來幫助模型在文本模態(tài)上得以大幅提升。在這里其實我們基于 DeepSeek 的一系列模型也進(jìn)行了相關(guān)的實驗，我們發(fā)現(xiàn)其實經(jīng)過多模態(tài)訓(xùn)練后的 8B 的模型是能夠在很多文本的評測基準(zhǔn)上超越原來的基座模型的能力。其實就證明多模態(tài)能力的賦予幫助了在文本模態(tài)下智能邊界的擴(kuò)展。

在這里我們也是提出了 Align-Anything 框架，其中包括了對于任意模態(tài)任意數(shù)據(jù)，還有任意算法的這樣一個開源庫的偏好支持。它支持的任意模態(tài)到任意模態(tài)的對齊，在目前開源社區(qū)中也是獨(dú)一無二的。并且我們還已經(jīng)支持了 DeepSeek R1 671B 的微調(diào)，這也是為全模態(tài)大模型的對齊提供了統(tǒng)一的和通用的解決方案。背后的數(shù)據(jù)框架算法和模型我們也全部進(jìn)行了開源。

第三個未來技術(shù)判斷是強(qiáng)推理其實可以賦能未來智能體的發(fā)展。我們可以發(fā)現(xiàn)日常的聊天任務(wù)其實對于強(qiáng)推理能力的需求并不大。未來更多是說能否利用強(qiáng)推理能力來賦能智能體和具身智能的發(fā)展。那其背后是需要依賴于強(qiáng)推理模型反思、長程規(guī)劃和工具調(diào)用的能力以及關(guān)鍵問題是如何克服內(nèi)存和記憶模塊的挑戰(zhàn)，以及小模型如何獲得更強(qiáng)的推理效果來節(jié)省內(nèi)存和顯存的開銷。

最后一個需要關(guān)注的未來技術(shù)方向是強(qiáng)推理模型下的監(jiān)管和保證。因為語言模型已經(jīng)表現(xiàn)出了抗拒對齊的現(xiàn)象。傳統(tǒng)的這些算法雖然可能提升模型的性能并且確保人類意圖和價值相一致。但是這些對齊微調(diào)是否真正修改了對齊模型的內(nèi)部表征？我們發(fā)現(xiàn)其實在經(jīng)過安全對齊的模型可以在最小化微調(diào)之后變得再次不安全，并且在非惡意數(shù)據(jù)集上的微調(diào)對齊的模型，也可能會削弱模型的安全機(jī)制。那不僅局限于安全，這種假象對其表明模型可能會內(nèi)在執(zhí)行逆對齊的操作，反而銷毀對齊過程的可能性。這一概念其實我們也稱之為逆向?qū)R。那么進(jìn)一步我們探究了，語言模型是能否表現(xiàn)出彈性從而抗拒對齊的現(xiàn)象。

我們是從最簡單的彈簧系統(tǒng)建模進(jìn)行出發(fā)來探究單元模型內(nèi)在抗拒對齊的機(jī)理。其背后是說就像彈簧的胡克定律，在彈性限度內(nèi)，彈簧的彈力和長度的變化是成線性關(guān)系的。大語言模型其實也是具備彈性的，那模型在預(yù)訓(xùn)練的階段經(jīng)過大數(shù)據(jù)大更新之后產(chǎn)生了通用能力的穩(wěn)定分布，而經(jīng)過對齊階段的小數(shù)據(jù)小功能性是可能表現(xiàn)出由對齊分布回彈到預(yù)訓(xùn)練分布的傾向而體現(xiàn)出抗拒對齊的。我們對于模型施加微調(diào)之時，模型其實更傾向于保持原有預(yù)訓(xùn)練的分布而抗拒對齊的分布，從而使逆向?qū)R更加容易。

從理論解釋上來說，其實我們會發(fā)現(xiàn)整個預(yù)訓(xùn)練到后訓(xùn)練階段模型是因為彈性而抗拒對齊的，因為模型可以被視作為一種壓縮器。預(yù)訓(xùn)練和對齊的過程就是利用模型對于每階段的數(shù)據(jù)進(jìn)行聯(lián)合壓縮，而在預(yù)訓(xùn)練中所花的數(shù)據(jù)量是要顯著多于后訓(xùn)練的，那模型為了提高整體的壓縮率就會傾向于保留預(yù)先的部分的分布，而抗拒微調(diào)對齊的分布從而表現(xiàn)出模型的彈性。理論上，其實對齊的模型受到擾動之后，模型對于預(yù)訓(xùn)練數(shù)據(jù)和對齊數(shù)據(jù)集的壓縮率是成一個變化的關(guān)系的；并且這個變化的關(guān)系是和數(shù)據(jù)量之比是同階的。

我們也在大量的實驗上進(jìn)行了模型彈性的相應(yīng)的驗證，會發(fā)現(xiàn)兩個關(guān)鍵的結(jié)論：首先模型的彈性是會隨著模型的大小增大而增大的，那么隨著模型參數(shù)規(guī)模的增大，其實模型的彈性也是隨著參數(shù)量大小的增大而不斷變強(qiáng)；第二是模型的彈性，其實隨著一系列的數(shù)據(jù)增大而不斷增大。我們觀察到隨著一系列數(shù)據(jù)量增加的時候，負(fù)面數(shù)據(jù)微調(diào)導(dǎo)致的初始性能其實下降更后下降變得更慢。其實這表明模型彈性隨著預(yù)訓(xùn)練數(shù)量的增多，是在不斷增多的。

總的來說其實我們從彈性視角來反思大量模型的對齊。其實它本身也是強(qiáng)推理模型下一個非常關(guān)鍵的安全對齊的舉措。我們可以發(fā)現(xiàn)預(yù)訓(xùn)練的階段和對齊階段是不應(yīng)當(dāng)被各自獨(dú)立的，而我們對于模型的評估更應(yīng)該去關(guān)注模型內(nèi)在表現(xiàn)的對齊。如何從表面對齊深入到深入對齊，那么其背后是對齊的范式應(yīng)該是需要改變的。

第三個需要關(guān)注點是審計對齊，這其背后的挑戰(zhàn)是當(dāng)下的大語言模型其實容易被誘導(dǎo)陷害有害內(nèi)容，那么他們通常會表現(xiàn)出過度的拒絕，就是可能會拒絕一些合法請求。但是這樣依然容易受到越獄攻擊。背后的兩個關(guān)鍵原因是，當(dāng)下的語言模型必須用固定的資源即時響應(yīng)用戶的需求；第二是當(dāng)下的這些方法是鼓勵語言模型通過偏好學(xué)習(xí)，從大量數(shù)據(jù)中去總結(jié)和規(guī)范人的意圖，而不是直接去學(xué)習(xí)安全的規(guī)范。那么背后的科學(xué)問題是我們能否直接利用強(qiáng)推理能力來學(xué)習(xí)安全規(guī)范以增強(qiáng)模型的安全性能。

其實 OpenAI 提出了這樣一種審計對齊的方法，大體思路是我們在監(jiān)督微調(diào)和推理生成階段可能就可以利用強(qiáng)推理模型產(chǎn)生一個對于安全準(zhǔn)則的思考過程，那么進(jìn)而我們可以去將這種思考過程融入到模型監(jiān)督微調(diào)的過程中。

并且在強(qiáng)化學(xué)習(xí)的訓(xùn)練過程中，我們可以鼓勵模型自主產(chǎn)生這種安全并且有幫助性的思維鏈過程，而更好的利用強(qiáng)推理模型的思路深入思考學(xué)習(xí)到背后的安全規(guī)范。

其實更多它是像把 CAI 的這種過程和背后的這種 constitutions 的憲法融入到了模型的推理過程之中。那么這也是在推理時，它也能夠很大程度上提升模型的安全性。

背后其實更關(guān)鍵是說，剛才我們提到的模型可能會表現(xiàn)出來對齊欺騙和對齊抗拒的這樣的范式，以及未來我們是需要對齊更強(qiáng)大的模型我們?nèi)绾稳ヌ峁┆剟钚盘枺檫@些可能比人類更聰明以及我們沒有辦法去理解它們?nèi)蝿?wù)的這樣的模型。

接下來非常關(guān)鍵的點就是形式化驗證。形式化驗證其實起源于數(shù)學(xué)的形式化證明，因為數(shù)學(xué)的形式化它的目的是為了提供一個完全客觀可驗證的證明過程；而與此同時其實安全價值也需要這樣的形式化驗證。因為安全的監(jiān)管具有重要性，其背后的本源在于人類的安全價值觀是具有重要性的，而內(nèi)建價值的沖突和單智能體的安全并不能保證多智能體系統(tǒng)的安全。包括現(xiàn)在人工智能系統(tǒng)已經(jīng)出現(xiàn)了偽裝對齊的現(xiàn)象，以及隨著 VLA和智能體等模型下游和賦能應(yīng)用興起，確保模型準(zhǔn)確的應(yīng)對不確定性，考慮物理規(guī)律下的人類價值對齊至關(guān)重要。因為我們在復(fù)雜的動態(tài)環(huán)境中不僅要考慮短期安全，還要保證長期使用的安全性，對操作環(huán)境產(chǎn)生影響。那么通過形式化驗證和強(qiáng)化學(xué)習(xí)，我們其實是能夠提高模型的可靠性和處理復(fù)雜推理問題的能力，通過構(gòu)建形式化的數(shù)學(xué)數(shù)據(jù)庫，我們也能夠建立高度嚴(yán)謹(jǐn)?shù)耐评砟Ｐ汀?/span>

其背后既是智能體的模型背后的安全也具有獨(dú)特的挑戰(zhàn)。一方面是模型具有內(nèi)生價值的安全性，因為它不僅要考慮不確定性，還必須考慮物理規(guī)律下人類價值觀的對齊，例如肢體語言的安全性和個人空間的邊界感等等；第二是外生的具身安全性，因為在復(fù)雜的動態(tài)環(huán)境中不僅要短期安全，還要確保長期行為的安全性，例如對操作環(huán)境造成影響的安全性。

總結(jié)下來我們其實會發(fā)現(xiàn)，這三年整體是有一個快思考到慢思考以及到 2025 年強(qiáng)推理和模態(tài)穿透整個范式的躍進(jìn)。關(guān)鍵問題是基于復(fù)雜推理慢思考和強(qiáng)化學(xué)習(xí)技術(shù)范式，我們?nèi)绾瓮ㄟ^高質(zhì)量數(shù)據(jù)去驅(qū)動產(chǎn)生強(qiáng)推理模型，通過賦能全推理全模態(tài)場景下去拓展智能的邊界。

補(bǔ)充拓展：DeepSeek-V3 解讀

最后我們也附上了有關(guān) DeepSeek-v3 的一些分析。我們可以發(fā)現(xiàn) DeepSeek-v3 它是基于 61 層 MoE 的架構(gòu)以及做了很多像 MLA 這種架構(gòu)的優(yōu)化來降低模型的成本。同時保證模型對于輸入數(shù)據(jù)和復(fù)雜關(guān)系的捕捉能力。

與此同時采用混合精度訓(xùn)練和多 Token 預(yù)測的機(jī)制。也能夠提高模型對于語言結(jié)構(gòu)的理解能力，然后更好的去捕捉語言中的長距離依賴關(guān)系。

更進(jìn)一步也在通信和方面進(jìn)行了例如像雙流水線并行優(yōu)化這樣的機(jī)制來進(jìn)一步提高模型的效率。

在這里我們也想進(jìn)行探究和分析也就是人類的系統(tǒng)一和系統(tǒng)二之間的對比。那系統(tǒng)一它其實更多的說進(jìn)行一個快速但是可能不為準(zhǔn)確的判斷，而系統(tǒng)二它通常是經(jīng)過深入思考通過遍歷組合來解決一些問題，但是這種方法的復(fù)雜度極高，容易導(dǎo)致組合爆炸。其實未來一個潛在方向是我們?nèi)绾卫孟到y(tǒng)一快速但可能不準(zhǔn)確的判斷，來幫助系統(tǒng)二控制組合爆炸的問題，從而高效地進(jìn)行復(fù)雜推理。并且我們能不能將這種流式智能建模到語言模型之中。

當(dāng)下的語言模型其實更多還是受限于過程性的推理任務(wù)，它盡管可能完成一些復(fù)雜推理，但是對于以人類來說一些很簡單的任務(wù)，比如說逆轉(zhuǎn)詛咒，語言模型其實是非常有困難的。其本質(zhì)在于語言模型的思考過程本身是靜態(tài)和非過程的。我們能不能通過人類的抽象推理建模出高維的概念并且進(jìn)行細(xì)度反饋。結(jié)合系統(tǒng)一和系統(tǒng)二來幫助語言模型進(jìn)一步提升它的推理能力其實是一個非常關(guān)鍵的方向。