自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論

發(fā)布于 2025-2-14 14:07
瀏覽
0收藏

一、背景

上一篇文章中我們具體介紹了 DeepSeek R1 系列模型的構(gòu)建流程和關(guān)鍵技術(shù)點(diǎn),考慮到最近出現(xiàn)了許多相關(guān)工作,也分別得出了各種不同的結(jié)論,與此同時(shí)還出現(xiàn)了大量的誤解。本文中,我們整理了 DeepSeek R1 等 6 篇 Reasoning 相關(guān)文章的關(guān)鍵結(jié)論,以便相互驗(yàn)證和對(duì)比。

如下圖所示為這些文章中的一些關(guān)鍵指標(biāo):

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

相關(guān)工作可以參考我們之前的文章:

二、引言

2.1 頓悟時(shí)刻(Aha Moment)和長(zhǎng)思維鏈(Long CoT)

頓悟時(shí)刻:通常指模型的自我反思和策略調(diào)整能力;表現(xiàn)為非線性的認(rèn)知跳躍,通過(guò)模式識(shí)別或啟發(fā)式策略突然抓住問(wèn)題關(guān)鍵,類似于人類的“靈光乍現(xiàn)”。

如下圖 Table 3 所示,DeepSeek-R1-Zero 訓(xùn)練中出現(xiàn)的 Aha Moment(“Wait, wait. Wait. That’s an aha moment I can flag here.”)。兩個(gè)框之間的位置,模型進(jìn)行反思,并在藍(lán)色框的位置重新評(píng)估其初始方法,學(xué)會(huì)為問(wèn)題分配更多的思考時(shí)間:

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

長(zhǎng)思維鏈:通常指模型在解決復(fù)雜問(wèn)題時(shí),能夠生成一系列中間推理步驟,展現(xiàn)出的更深層次的思考能力;強(qiáng)調(diào)線性、逐步的推理過(guò)程,類似于人類在思考時(shí)的推理過(guò)程;通過(guò)顯式中間結(jié)果可以降低錯(cuò)誤傳播風(fēng)險(xiǎn),但計(jì)算成本較高。

如下圖 Figure 5 所示,其中紅框?yàn)閱?wèn)題,綠框?yàn)殚L(zhǎng)思維鏈,橙框?yàn)榻Y(jié)果:

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

三、DeepSeek R1

3.1 引言

我們之前的文章中詳細(xì)介紹過(guò) DeepSeek R1 論文,這里簡(jiǎn)單匯總一下,以便引出后續(xù)文章。

對(duì)應(yīng)的論文為:[2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [1]

3.2 DeepSeek R1-Zero

即便不采用 SFT 作為冷啟動(dòng),通過(guò)大規(guī)模 RL 也能顯著增強(qiáng)模型的 Reasoning 能力。缺陷是可能存在可讀性差和語(yǔ)言混雜等問(wèn)題。

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

如下圖 Figure 3 所示,DeepSeek-R1-Zero 的思考時(shí)間在整個(gè)訓(xùn)練過(guò)程中持續(xù)提升(生成長(zhǎng)度逐漸變長(zhǎng))。如下圖 Figure 2 所示,AIME Accuracy 指標(biāo)也逐漸提升。DeepSeek-R1-Zero 通過(guò)利用更長(zhǎng)的測(cè)試時(shí)間計(jì)算,自然而然地獲得了解決日益復(fù)雜 Reasoning 任務(wù)的能力,比如反思的能力。(PS:后面的文章也表明基礎(chǔ)模型也具備一定的反思能力)

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

Aha Moment:DeepSeek-R1-Zero 在訓(xùn)練中出現(xiàn)了 “aha moment”。如下圖 Table 3 所示,這一時(shí)刻出現(xiàn)在模型的中間版本階段。在此階段,DeepSeek-R1-Zero 學(xué)會(huì)通過(guò)重新評(píng)估其初始方法,為問(wèn)題分配更多的思考時(shí)間。(PS:后面文章表明,基礎(chǔ)模型也有 Aha Moment)

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

多數(shù)投票:通過(guò)應(yīng)用多數(shù)投票法,DeepSeek-R1-Zero 的表現(xiàn)可得到進(jìn)一步提升。例如,如下圖 Table 2 所示,在 AIME 基準(zhǔn)測(cè)試中采用多數(shù)投票后,其性能從 71.0% 躍升至 86.7%,從而超越 OpenAI-o1-0912。

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

3.3 DeepSeek R1

DeepSeek R1 經(jīng)歷了兩輪的 SFT+RL。其中第一輪主要聚焦在提升 Reasoning 能力,特別是在編程、數(shù)學(xué)、科學(xué)及邏輯推理等具有明確解決方案的問(wèn)題上。此外,在 RL 訓(xùn)練中引入了語(yǔ)言一致性獎(jiǎng)勵(lì),以便解決 CoT 常出現(xiàn)語(yǔ)言混雜現(xiàn)象(尤其是在 RL 提示涉及多種語(yǔ)言時(shí))。

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

除了更好的 Reasoning 數(shù)據(jù)外,此階段還整合了來(lái)自其他領(lǐng)域的非 Reasoning 數(shù)據(jù),以增強(qiáng)模型在寫作、角色扮演及其他通用任務(wù)上的能力。此外,進(jìn)一步提升模型的有益性與無(wú)害性,同時(shí)精進(jìn)其 Reasoning 能力。

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

3.4 DeepSeek R1-Distill-xx

直接蒸餾的方法(包含大模型生成的數(shù)據(jù)進(jìn)行 SFT)也可以顯著提升了小型模型的 Reasoning 能力。

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

如下圖 Table 5 所示,蒸餾的 Qwen-32B 在 Reasoning 能力上優(yōu)于 Qwen 官方的 QwQ-32B-Preview(圖中紅色數(shù)字是與 QwQ-32B-Preview Blog 未對(duì)齊的數(shù)據(jù),參考 QwQ: Reflect Deeply on the Boundaries of the Unknown | Qwen [2])。

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

3.5 蒸餾(Distill)與強(qiáng)化學(xué)習(xí)(RL)

上面提到,僅通過(guò)蒸餾 DeepSeek-R1 或者 RL 都可以使模型取得不錯(cuò)的 Reasoning 能力,那么這兩者孰優(yōu)孰劣呢?如下圖 Table 6 所示,作者基于 Qwen-32B-Base 進(jìn)行了實(shí)驗(yàn),可以看出,僅通過(guò) RL 使得 Qwen-32B-Base 獲得了與 QwQ-32B-Preview 相當(dāng)?shù)?Reasoning 能力,但依舊遠(yuǎn)差于蒸餾的方案。可以得出兩點(diǎn)結(jié)論:

  • 將更強(qiáng)大的模型蒸餾至較小規(guī)模能帶來(lái)卓越效果,而依賴本文所述大規(guī)模 RL 的小型模型不僅需耗費(fèi)巨大計(jì)算資源,且可能無(wú)法企及蒸餾所達(dá)到的性能水平。
  • 盡管蒸餾策略兼具經(jīng)濟(jì)性與高效性,但欲突破智能邊界,仍需依賴更強(qiáng)大的基礎(chǔ)模型與更大規(guī)模的 RL 訓(xùn)練。?

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

四、LIMO:Less is More for Reasoning

4.1 引言

從 DeepSeek-R1 結(jié)論可知,要想提升小規(guī)模模型的 Reasoning 能力,使用強(qiáng)大的模型進(jìn)行蒸餾是最簡(jiǎn)單和經(jīng)濟(jì)的方案。這里的 LIMO 和后面的 S1 都屬于這個(gè)范疇,只不過(guò)是聚焦在怎樣使用更少的數(shù)據(jù)進(jìn)行蒸餾。

LIMO 對(duì)應(yīng)的論文為:[2502.03387] LIMO: Less is More for Reasoning [3]

LIMO 對(duì)應(yīng)的代碼庫(kù)為:GAIR-NLP/LIMO: LIMO: Less is More for Reasoning [4]

4.2 數(shù)據(jù)規(guī)模&質(zhì)量

作者通過(guò)多個(gè)步驟精心設(shè)計(jì)了高質(zhì)量的 Reasoning 數(shù)據(jù),具體包括:

  • 從 NuminaMath-CoT(專注于數(shù)學(xué)推理的思維鏈數(shù)據(jù)集)、AIME(跨多個(gè)數(shù)學(xué)領(lǐng)域的極高難度和綜合性)、MATH(各類數(shù)學(xué)競(jìng)賽題)等多個(gè)權(quán)威數(shù)據(jù)集匯集成數(shù)千萬(wàn)候選題庫(kù)(PS:不確定是怎么從這些數(shù)據(jù)源匯集出數(shù)千萬(wàn)個(gè)問(wèn)題的?)。
  • 使用 Qwen2.5-Math-7B Instruct 進(jìn)行基礎(chǔ)難度篩選,排除幾次嘗試就能解答的問(wèn)題。
  • 使用 R1、DeepSeek-R1-Distill-Qwen32B 等模型,僅保留多次嘗試成功率低于閾值的問(wèn)題。
  • 抽樣,確保題庫(kù)多樣性。平衡各數(shù)學(xué)領(lǐng)域、復(fù)雜度,同時(shí)避免概念上的重復(fù)。最終得到 817 個(gè)問(wèn)題(僅包含英文)。

僅用這 817 個(gè)精心挑選的高質(zhì)量數(shù)據(jù),通過(guò) SFT 就可以激發(fā)模型的 Reasoning 能力,超越使用 10 萬(wàn)條非精心挑選數(shù)據(jù)訓(xùn)練的模型。(這里是對(duì) Qwen2.5-32B-Instruct 模型進(jìn)行的 SFT)

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

如下圖 Figure 3 所示,作者也進(jìn)一步探索了不同難度等級(jí)數(shù)據(jù)對(duì) Reasoning 能力的影響,可以看出,數(shù)據(jù)難度越高,對(duì)模型的提升越明顯。

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

其中 Simple-500 來(lái)自 MATH 中的 Level 1 和 Level 2;Complex-500 來(lái)自 MATH 的 Level 3、4、5;Advanced-500 來(lái)自 AIME 的數(shù)據(jù)。

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

這也說(shuō)明,如果基礎(chǔ)模型已經(jīng)壓縮了足夠的知識(shí),那么只需少量高質(zhì)量 Reasoning 數(shù)據(jù)就可以激活模型的 Reasoning 能力。這也是論文摘要中“挑戰(zhàn)了海量數(shù)據(jù)要求的假設(shè)”的來(lái)源。

4.3 泛化能力

LIMO 模型在多個(gè)不同的基準(zhǔn)測(cè)試中表現(xiàn)出色,涵蓋了數(shù)學(xué)和多學(xué)科 Reasoning 任務(wù),這些測(cè)試任務(wù)在問(wèn)題類型、難度和領(lǐng)域上都有顯著差異,例如:

  • AIME24 和 MATH 是競(jìng)賽級(jí)別的數(shù)學(xué) Reasoning 任務(wù)。
  • OlympiadBench 是奧林匹克數(shù)學(xué)測(cè)試,具有更高的難度和復(fù)雜性。
  • CHMath 是中文數(shù)學(xué)測(cè)試,Gaokao 和 Kaoyan 是大學(xué)、研究生入學(xué)考試,涉及不同的語(yǔ)言和文化背景。
  • GradeSchool 是小學(xué)數(shù)學(xué) Reasoning 任務(wù),難度較低但需要模型具備基礎(chǔ)的 Reasoning 能力。
  • Minerva 和 GPQA 是多學(xué)科 Reasoning 任務(wù),涉及 STEM 等多個(gè)領(lǐng)域的知識(shí)。

其中 AIME24、MATH500、AMC23 都屬于 In-Domain 任務(wù),其他任務(wù)屬于 Out-of-Domain 任務(wù);此外 817 訓(xùn)練集都是英文數(shù)據(jù),這些基準(zhǔn)測(cè)試中也有中文數(shù)據(jù)。這也是摘要中“挑戰(zhàn)了 SFT 主要導(dǎo)致記憶而不是泛化”的來(lái)源。

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

PS:如果從任務(wù)的角度考慮,確實(shí)能證明 SFT 具備一定的泛化能力;但是,如果從能力的角度考慮,這些任務(wù)的提升還都和 Long CoT Reasoning 密切相關(guān),并不能表明 SFT 激發(fā)了其他新的能力。因此對(duì)于 “挑戰(zhàn)了 SFT 主導(dǎo)記憶而不是泛化” 這一結(jié)論仍需更多的探討。

4.4 基礎(chǔ)模型選擇

如下圖 Figure 3 所示,作者也進(jìn)一步通過(guò)實(shí)驗(yàn)表明,基于 Qwen2.5-32B-Instruct 構(gòu)建的 LIMO 在兩個(gè)基準(zhǔn)測(cè)試中均顯著超越 Qwen1.5-32B-Chat。這也表明,基礎(chǔ)模型的選擇至關(guān)重要,模型的 Reasoning 能力很大程度上依賴基礎(chǔ)模型參數(shù)空間中所擁有的預(yù)訓(xùn)練知識(shí)。

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

五、S1:Simple test-time scaling

5.1 引言

這篇論文受到廣泛關(guān)注和討論,更多是因?yàn)楹芏嗝襟w的標(biāo)題(“李飛飛團(tuán)隊(duì) 50 美元煉出 DeepSeek R1”)很容易引起誤解。這其實(shí)和之前大家對(duì) “550 萬(wàn)美金訓(xùn)練 DeepSeek V3” 的誤解類似。實(shí)際上這些成本說(shuō)的都是發(fā)布的模型真實(shí)訓(xùn)練的 GPU 小時(shí)數(shù) * 每 GPU 每小時(shí)的租賃成本。這一數(shù)據(jù)并不包含集群購(gòu)買和建設(shè)以及模型的探索和試錯(cuò)成本。

S1 對(duì)應(yīng)的論文為:[2501.19393] s1: Simple test-time scaling [5]

S1 對(duì)應(yīng)的代碼庫(kù)為:GitHub - simplescaling/s1: s1: Simple test-time scaling [6]

5.2 數(shù)據(jù)規(guī)模和質(zhì)量

作者同樣是首先從如下 Table 6 所示的 16 個(gè)多樣化數(shù)據(jù)源收集了 59,029 個(gè)問(wèn)題:

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

針對(duì)每個(gè)問(wèn)題,都使用 Google Gemini Flash Thinking API 生成 Reasoning 軌跡與答案,提取其推理過(guò)程和響應(yīng)。之后,作者對(duì)上述 59K 數(shù)據(jù)從質(zhì)量(Quality)、難度(Dificulty)、多樣性(Diversity)三個(gè)維度進(jìn)行篩選,最終挑選出 1000 個(gè)樣本,構(gòu)成 s1K,具體分布如下圖 Table 5 所示,可以看出,平均每個(gè)問(wèn)題的 Token 數(shù)達(dá)到 4K 以上:

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

如下圖 Table 1 所示,使用上述數(shù)據(jù)對(duì) Qwen2.5-32B-Instruct 進(jìn)行 SFT,可以大幅提升模型的 Reasoning 能力,甚至超越 OpenAI o1-Preview:

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

從我們收集匯總的數(shù)據(jù)也可以看出,本文的 s1-32B 離 DeepSeek R1、OpenAI o1 都還有較大差于,甚至與同樣是蒸餾 SFT 的模型 DeepSeek-R1-Distill-Qwen-32B 和 DeepSeek-R1-Distill-LLama-70B 也有一定差距:

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

基于此再去看如下圖所示這種宣傳 “訓(xùn)練 1000 樣本就能超越o1”、“媲美 o1 和 R1” 是多么的離譜: 

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

5.3 測(cè)試時(shí)擴(kuò)展(Test-time Scaling)

本文中,作者也提出了預(yù)算強(qiáng)制(Budget Forcing)來(lái)控制 Test-time 計(jì)算(序列長(zhǎng)度)的方案,具體來(lái)說(shuō):在模型試圖結(jié)束時(shí)引入 “Wait” 來(lái)延長(zhǎng)模型的思考時(shí)間,或者思考太多時(shí)強(qiáng)制終止思考過(guò)程。除此之外,作者還探索了兩種不同擴(kuò)展方案的影響:

  • Sequential Scaling:在一次生成中擴(kuò)展思考過(guò)程、序列長(zhǎng)度。
  • Parallel Scaling:同一樣本多次生成,投票選舉。

結(jié)果如下圖 Figure 4所示:

  • (a)Sequential Scaling:Budget Forcing 顯示出清晰的擴(kuò)展趨勢(shì),通過(guò)擴(kuò)展 Test-time 預(yù)算,可以有效提升在 AIME24 基準(zhǔn)上的精度。
  • (b)Parallel Scaling:對(duì)于 Qwen2.5-32B-Instruct,通過(guò)多數(shù)投票同樣可以提升在 GPQA Diamond 基準(zhǔn)上的精度,但是依然無(wú)法超過(guò)使用Budget Forcing 的 S1 模型。這也驗(yàn)證了作者的直覺,即Sequential Scaling 比 Parallel Scaling 更為有效。?

?

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

六、Oat-Zero

6.1 引言

Sea AI Lab 團(tuán)隊(duì)在一篇 Blog 中研究了 DeepSeek R1 中提到的頓悟時(shí)刻。

對(duì)應(yīng)的 Blog 為:https://oatllm.notion.site/oat-zero [7]

對(duì)應(yīng)的代碼庫(kù)為:https://github.com/sail-sg/oat-zero [8]

6.2 頓悟時(shí)刻出現(xiàn)在預(yù)訓(xùn)練中

作者使用如下兩個(gè)模板,并使用 MATH 訓(xùn)練集中的 500 個(gè)問(wèn)題填充模板,然后使用填充后的 Prompt 直接輸入基礎(chǔ)模型,并根據(jù)不同的關(guān)鍵字提取頓悟時(shí)刻:

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

如下所示為針對(duì)不同基礎(chǔ)模型的 Response 中提取到的自我反思關(guān)鍵詞,可以看出,除了 LLaMA-3.1-8B 模型,其他基礎(chǔ)模型(Epoch 0 )均表現(xiàn)出了自我反思:

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

如下圖 Fig 1a 所示,在不同的 Temperature 下均能發(fā)現(xiàn)自我反思現(xiàn)象,趨勢(shì)是 Temperature 越高,自我反思數(shù)量越多。如下圖 Fig 1b 所示,Qwen 系列模型產(chǎn)生自我反思的數(shù)量最多,這也驗(yàn)證了開源 R1-Zero 復(fù)現(xiàn)都采用 Qwen2.5 模型的合理性。

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

如下圖 Fig 2 所示為其中自我反思的示例:

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

6.3 淺層的自我反思(Superficial Self-Reflection,SSR)

SSR 定義:指模型 Response 中缺乏建設(shè)性修正或改進(jìn)的再評(píng)估模式。與未進(jìn)行自我反思的 Response 相比,SSR 未必能產(chǎn)生更優(yōu)的答案。

作者探究了 Qwen-2.5-Math-7B 中的 4 種自我反思模式:

  • 模式 1:自我反思——反復(fù)檢查以確定正確答案。
  • 模式 2:自我反思——修正最初錯(cuò)誤的思路。
  • 模式 3:自我反思——在原本正確的答案中引入錯(cuò)誤。(Fig 3c)
  • 模式 4:反復(fù)自我反思——最終未能得出正確答案。(Fig 3d)

如上的模式 3(如圖 Fig 3c) 和 模式 4(如圖 Fig 3d)最終都未得到正確答案,屬于 SSR:

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

如下圖 Fig 4 所示,作者進(jìn)一步分析了 Qwen-2.5-Math-1.5B 中正確和錯(cuò)誤答案中自我反思關(guān)鍵詞出現(xiàn)的數(shù)量??梢钥闯觯诓煌?Temperature 下,大部分自我反思都沒(méi)有得到正確答案,表明基礎(chǔ)模型容易產(chǎn)生 SSR。

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

6.4 類 R1-Zero 訓(xùn)練

作者使用 Oat 框架,用 GRPO 算法在 Countdown(給定 3 到 4 個(gè)數(shù)字,要求使用算法運(yùn)算 +、-、x、÷ 來(lái)生成目標(biāo)等式,如下圖所示,其需要模型具備自我反思,不斷嘗試以得到答案) 任務(wù)上對(duì) Qwen-2.5-3B 基礎(chǔ)模型進(jìn)行 RL 訓(xùn)練。

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

如下圖 Figure 5 右圖所示,Reward 持續(xù)增加,而生成長(zhǎng)度先減少后增加。此外,作者根據(jù) Reward 將模型 Response 分為 3 個(gè)不同的組,如下圖 Figure 5 左圖所示:

  • 88 Step 之前主要以 Format Reward(r=0.1)為主。
  • 88 Step 之后,模型開始使用更多的重試,朝著更高 Reward(r=1)演進(jìn),相應(yīng)的 Response 也開始激增。
  • 實(shí)驗(yàn)表明:整個(gè) RL 過(guò)程的目標(biāo)是將原來(lái)淺層的自我反思轉(zhuǎn)換為有效的自我反思,并最大化預(yù)期 Reward,從而提升 Reasoning 能力?

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

此外,作者也通過(guò)實(shí)驗(yàn)表明,僅憑輸出長(zhǎng)度可能不足以作為模型自我反思能力的可靠指標(biāo)。

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

七、Demystifying Long CoT Reasoning

7.1 引言

本文作者聚焦于 Long CoT Reasoning 能力的機(jī)制,并探索了 SFT 和 RL 對(duì) Long CoT 的影響。

對(duì)應(yīng)的論文為:[2502.03373] Demystifying Long Chain-of-Thought Reasoning in LLMs [9]

7.2 SFT 和 RL 對(duì) Long CoT Reasoning 的影響

如下圖 Figure 1 所示,實(shí)驗(yàn)結(jié)果表明:

  • Long CoT SFT 可以顯著提升模型的 Reasoning 能力,并且隨著 SFT 數(shù)據(jù)量的增加,性能逐漸提升。(PS:對(duì)應(yīng)藍(lán)色線
  • Shot CoT SFT 也可以提升模型的 Reasoning 能力,但是很容易達(dá)到飽和。(PS:對(duì)應(yīng)橙色線
  • 使用Long CoT SFT 初始化的模型可以進(jìn)一步提升 RL 訓(xùn)練的表現(xiàn);而Short CoT SFT初始化的模型對(duì) RL 訓(xùn)練幾乎沒(méi)有幫助。(PS:對(duì)應(yīng)實(shí)線和虛線的間隔)?

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

如下圖 Table 4 表明:

  • SFT 和 RL 都能提升 Reasoning 能力。
  • 使用 QwQ-32B-Preview 中蒸餾出來(lái)的 Long CoT 進(jìn)行 SFT 獲得了優(yōu)于直接 RL 的性能。
  • 對(duì)SFT 的模型進(jìn)行 RL 能進(jìn)一步提升性能。?

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

7.3 長(zhǎng)度獎(jiǎng)勵(lì)的濫用

近期關(guān)于 Long CoT 的研究表明,隨著思考時(shí)間的增加,模型在 Reasoning 任務(wù)中的性能自然提升,并且在 RL 訓(xùn)練下傾向于延長(zhǎng) CoT 的長(zhǎng)度,但這一過(guò)程并不穩(wěn)定,通過(guò)采用基于長(zhǎng)度和重復(fù)懲罰的技術(shù)得以解決,從而穩(wěn)定訓(xùn)練過(guò)程。

作者也觀察到,在足夠的訓(xùn)練計(jì)算資源下,模型開始出現(xiàn) Reward Hacking 的跡象,即通過(guò)重復(fù)而非真正學(xué)會(huì)解決問(wèn)題來(lái)增加其 CoT 的長(zhǎng)度。通過(guò)實(shí)施簡(jiǎn)單的 N-gram 重復(fù)懲罰(Repetition Penality)機(jī)制,可以緩解這一現(xiàn)象。如下圖 Figure 5 所示,通過(guò)添加重復(fù)懲罰(橙色),相比未添加(藍(lán)色),模型在多個(gè)基準(zhǔn)上都獲得了更高的精度:

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

PS:上述結(jié)論也與 Oat-Zero 的結(jié)論相符:僅憑輸出長(zhǎng)度可能不足以作為模型自我反思能力的可靠指標(biāo)。

7.4 可驗(yàn)證獎(jiǎng)勵(lì)對(duì) SFT 和 RL 的影響

如下圖 Table 2 所示實(shí)驗(yàn)表明:

  • 加入噪聲數(shù)據(jù)(WebIT)可以提高模型在不同任務(wù)上的平均性能。
  • 混合 MATH 和 WebIT 數(shù)據(jù)在 SFT 中表現(xiàn)最佳,但不同任務(wù)上表現(xiàn)可能不太一致。?

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

如下圖 Table 3 所示實(shí)驗(yàn)表明:

  • 使用基于規(guī)則的驗(yàn)證器在過(guò)濾后的數(shù)據(jù)集上進(jìn)行 RL 訓(xùn)練效果最好,顯著提高了模型在 OOD 任務(wù)上的性能。
  • 未過(guò)濾數(shù)據(jù)上使用基于規(guī)則的驗(yàn)證器效果最差,可能是因?yàn)閿?shù)據(jù)中包含大量無(wú)法有效處理的自由形式答案。
  • 基于模型的驗(yàn)證器在未過(guò)濾數(shù)據(jù)上的表現(xiàn)優(yōu)于基于規(guī)則的驗(yàn)證器,但在過(guò)濾數(shù)據(jù)上的表現(xiàn)與基于規(guī)則的驗(yàn)證器相當(dāng)。?

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

7.5 RL 對(duì)基礎(chǔ)模型自我反思的影響

如下圖 Figure 7 的實(shí)驗(yàn)表明,從基礎(chǔ)模型開始的 RL 訓(xùn)練可以提高模型的 Reasoning 能力,但并不一定能激發(fā)自我反思模式(對(duì)應(yīng)自我反思關(guān)鍵詞)。(PS:也與上述 Oat-Zero 結(jié)論類似,RL 只是將淺層的自我反思轉(zhuǎn)化為有效的自我反思,而不是激發(fā)自我反思?)

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

八、Google SFT Memorizes,RL Generalizes

8.1 引言

Google 的作者在本文中探討了 SFT 和 RL 是否主導(dǎo)訓(xùn)練數(shù)據(jù)的記憶,并驗(yàn)證了其對(duì)模型泛化能力的影響。

對(duì)應(yīng)的論文:[2501.17161] SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training [10]

8.2 評(píng)估基準(zhǔn)

為了評(píng)估 SFT 和 RL 的效果,作者設(shè)計(jì)了兩種基準(zhǔn)測(cè)試。

24 點(diǎn)紙牌基準(zhǔn)(GeneralPoints):如下圖 Figure 2 所示,給模型展示 4 張紙牌(文字描述或圖像),模型需要用這 4 張牌上的數(shù)字,通過(guò) +、-、x、/,湊出目標(biāo)數(shù)字 24,并且每張牌只能使用一次。

  • 規(guī)則變化:J、Q、K 都代表 10;或者 J、Q、K 分別代表 11、12、13??梢栽u(píng)估模型是僅僅記住了 JQK=10 還是理解了算術(shù) Reasoning 的原理。
  • 視覺變化:也可以將牌的顏色作為變體。訓(xùn)練中使用一種顏色,評(píng)估中使用其他顏色做 OOD 測(cè)試。?

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

虛擬城市導(dǎo)航(V-IRL):如下圖 Figure 4 所示,在虛擬城市中,模型需要根據(jù)街景圖像和文字指令導(dǎo)航到目的地。

  • 規(guī)則變化:一種是絕對(duì)空間方向('north', 'northeast', 'east', 'southeast', 'south', 'southwest', 'west', 'northwest');另一種是相對(duì)空間方向('left', 'right', 'slightly left', 'slightly right')。以便評(píng)估模型是記住了訓(xùn)練數(shù)據(jù),還是理解了空間知識(shí)。
  • 視覺變化:主要是不同城市的街景圖片,訓(xùn)練和評(píng)估中提供不同城市的圖片,來(lái)評(píng)估模型的視覺泛化能力。?

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)


8.3 SFT 主導(dǎo)記憶、RL 主導(dǎo)泛化

如下圖 Figure 5 所示,在兩個(gè)基準(zhǔn)上的實(shí)驗(yàn)表明(左側(cè)兩列為純語(yǔ)言評(píng)測(cè),右側(cè)兩列包含視覺輸入)。其中 GP 的分布內(nèi)(ID)表示都把 JQK 當(dāng)做 10,分布外(OOD)表示評(píng)測(cè)時(shí)將 JQK 當(dāng)做 11、12、13;V-ITL 的 ID 表示都是用絕對(duì)位置,OOD 表示評(píng)估時(shí)使用相對(duì)位置:

  • 第一行所示:SFT 和 RL 均能提升在分布內(nèi)的性能。
  • 第二行所示:RL 可以提升在分布外(OOD)的性能,但SFT 在分布外(OOD)上表現(xiàn)不佳。?

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

如下圖 Figure 6 所示,RL 在所有 OOD 任務(wù)上均有提升,而 SFT 在所有 OOD 任務(wù)上均有下降。表明 SFT 更傾向于記憶,而非泛化。

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

8.4 SFT 在 RL 訓(xùn)練中的作用

作者也進(jìn)一步探索了 SFT 對(duì) RL 的影響,如下圖 Figure 9 所示,在不具備指令遵循能力的基礎(chǔ)模型上進(jìn)行端到端 RL 訓(xùn)練,發(fā)現(xiàn)性能無(wú)法提升,此時(shí)通過(guò) SFT 增強(qiáng)基礎(chǔ)模型的指令遵循能力是必須的。

綜述 DeepSeek R1、LIMO、S1 等 6 篇文章的關(guān)鍵結(jié)論-AI.x社區(qū)

九、參考鏈接

  1. ???https://arxiv.org/abs/2501.12948???
  2. ???https://qwenlm.github.io/blog/qwq-32b-preview/???
  3. ???https://arxiv.org/abs/2502.03387???
  4. ???https://github.com/GAIR-NLP/LIMO???
  5. ???https://arxiv.org/abs/2501.19393???
  6. ???https://github.com/simplescaling/s1???
  7. ???https://oatllm.notion.site/oat-zero???
  8. ???https://github.com/sail-sg/oat-zero???
  9. ???https://arxiv.org/abs/2502.03373???
  10. ???https://arxiv.org/abs/2501.17161????

本文轉(zhuǎn)載自??AI閑談??,作者: AI閑談 ????

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦