自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

RL真讓大模型更會推理?清華新研究:其能力邊界或仍被基座「鎖死」

人工智能 新聞
清華大學(xué)LeapLab團(tuán)隊聯(lián)合上海交通大學(xué)開展的最新實證研究,通過實驗現(xiàn)象揭示了一個值得關(guān)注的問題:當(dāng)前的 RLVR 方法似乎尚未突破基座模型的能力上限。

近年來,RLVR(可驗證獎勵的強化學(xué)習(xí))訓(xùn)練大模型在數(shù)學(xué)、代碼等各項任務(wù)中表現(xiàn)驚艷,大模型的推理能力快速提升,強化學(xué)習(xí)因而被視為重要的推手。然而,其中直指核心的重要問題卻懸而未決:強化學(xué)習(xí)真的能讓大模型獲得超越基礎(chǔ)模型的新推理能力嗎?

清華大學(xué)LeapLab團(tuán)隊聯(lián)合上海交通大學(xué)開展的最新實證研究,通過實驗現(xiàn)象揭示了一個值得關(guān)注的問題:當(dāng)前的 RLVR 方法似乎尚未突破基座模型的能力上限。

圖片

通過數(shù)學(xué)、代碼、視覺推理三大領(lǐng)域的系統(tǒng)性實驗,他們發(fā)現(xiàn)了這一出人意料的現(xiàn)象 —— 引入強化學(xué)習(xí)的模型在某些任務(wù)中的表現(xiàn),竟然不如未使用強化學(xué)習(xí)的基座模型。RLVR 只是將采樣做得更有效率,而其輸出的正確答案,早已藏在基座模型的「基因」里。  

圖片

  • 論文標(biāo)題:Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
  • 論文鏈接:https://arxiv.org/abs/2504.13837
  • 展示頁面:https://limit-of-RLVR.github.io

圖片

針對給定問題,通過從基礎(chǔ)模型和 RLVR 訓(xùn)練模型中重復(fù)采樣生成搜索樹。灰色表示模型不太可能采樣的路徑,黑色表示模型更可能采樣的路徑,綠色表示能獲得正向獎勵的正確路徑。

論文的核心發(fā)現(xiàn)是:RLVR 模型中的所有推理路徑均已存在于基礎(chǔ)模型中。

對于某些問題(如問題 A),RLVR 訓(xùn)練會偏向獎勵路徑的分布,從而提升采樣效率;但代價是推理范圍的縮減:對于其他問題(如問題 B),基礎(chǔ)模型包含正確路徑,而 RLVR 模型卻可能丟失該路徑。)

這篇工作刷新了 AI 圈里的「普遍認(rèn)知」:此前各類基于 RLVR 做后訓(xùn)練的大模型,如 OpenAI 的 o1、DeepSeek-R1 等,在各項評測中成績顯著,似乎它就能讓大模型實現(xiàn)「自我進(jìn)化」,賦予模型超越其基座模型的能力。然而,此項研究指出,RLVR 的潛力并不像之前認(rèn)為的那樣強大 —— 它并不能使模型解決基礎(chǔ)模型無法解決的問題。論文一經(jīng)發(fā)出,就獲得國內(nèi)外學(xué)者的廣泛關(guān)注,發(fā)布首日即登頂 Hugging Face 日榜和 alphaxiv 榜首,在 Twitter 上累計接近 30 萬次瀏覽,引起大量討論。

圖片


當(dāng)技術(shù)社區(qū)關(guān)注于 RL 帶來的短期收益時,或許需要此類研究提醒我們:大模型的真正突破,永遠(yuǎn)始于對本質(zhì)問題的追問。

實驗設(shè)計:用 pass@k 揭開模型的「能力邊界」

一個很重要的問題是:如何界定模型所能觸及的能力邊界?

傳統(tǒng)評測聚焦單次回答準(zhǔn)確率(pass@1)或多次回答平均準(zhǔn)確率。然而,模型在幾次采樣下未能解決問題、采樣更多次后最終成功解決的現(xiàn)象并非個例,對這種情況的忽視將會極大低估模型的真實潛力。因而,它們都不適合作為所謂「能力邊界」的參照指標(biāo)。

為找到更合適的指標(biāo),研究團(tuán)隊提出了一個更本質(zhì)的問題:當(dāng)允許多次嘗試時,模型究竟能解決多少問題? 為此,他們引入 pass@k 指標(biāo):若模型在 k 次采樣中至少生成一次正確答案,則認(rèn)為其具備解決該問題的能力。若 RL 訓(xùn)練真能擴展推理能力,我們應(yīng)看到 RL 模型比基座模型解決更多此類問題。為減小直接采樣計算 pass@k 值可能導(dǎo)致的高方差,他們采用無偏估計的方法,使用嚴(yán)格定義來確保 pass@k 的可靠性。

圖片

多個數(shù)學(xué)基準(zhǔn)測試中的基礎(chǔ)模型及其經(jīng)強化學(xué)習(xí)訓(xùn)練的對應(yīng)模型的 pass@k 曲線,橫軸為采樣次數(shù) k,縱軸為 pass@k 準(zhǔn)確率

研究團(tuán)隊強調(diào),使用 pass@k 而非大多數(shù)研究采用的多數(shù)表決(majority voting)—— 這并不會導(dǎo)致結(jié)果無效。他們使用 pass@k 并非為了衡量實際效率,而是為了探索大語言模型的推理能力邊界。

所謂「能力邊界」是指模型是否具有正確解決某類問題的潛質(zhì),而「效率」是在給定時間和資源成本下模型的表現(xiàn),因而不能將大模型的「能力邊界」和「效率」混為一談。這項研究從未否定 RL 帶來的「效率」上的提升,而是更深入地發(fā)起對其能力邊界的探討。

跨領(lǐng)域的一致性:與 RL 相比,基座模型表現(xiàn)出更廣泛的覆蓋能力

實驗中,研究團(tuán)隊在三個具有代表性的領(lǐng)域進(jìn)行實驗,對比評估 RLVR 模型和基座模型的能力邊界。在所有的實驗中,都獲得了以下的核心發(fā)現(xiàn):

  1. RL 模型在小 k 時占優(yōu),然而基座模型在大 k 時逆襲:在數(shù)學(xué)題、代碼生成和視覺推理等任務(wù)中,RL 模型在 pass@1 上的表現(xiàn)顯著優(yōu)于基座模型。而當(dāng)采樣次數(shù)增至數(shù)十或數(shù)百時,在所有基準(zhǔn)測試和 LLM 模型家族中,基礎(chǔ)模型的表現(xiàn)會無一例外地逐漸追平強化學(xué)習(xí)訓(xùn)練的模型,并最終實現(xiàn)反超。
  2. 答案同源性:驗證 RL 模型的正確答案均存在于基座模型的輸出分布中,RL 僅通過調(diào)整概率分布「篩選」高獎勵路徑。 

數(shù)學(xué)推理

在數(shù)學(xué)推理任務(wù)中,研究團(tuán)隊在 AIME24、AMC23、MATH500 等多個基準(zhǔn)上評估多個 LLM 系列(如 Qwen-2.5 和 LLaMA-3.1)及其經(jīng)過 RL 后訓(xùn)練的變體。

圖片

實驗結(jié)果顯示,在兩大 LLM 系列、6 個數(shù)據(jù)集的總共 24 個對比實驗中,基礎(chǔ)模型的能力表現(xiàn)均在采樣次數(shù)增大后追平并反超對應(yīng)的 RL 模型。

人工檢查推理鏈。數(shù)學(xué)解題,存在著「蒙對」的可能。為此,研究團(tuán)隊人工檢查了基座模型正確答案的 CoT 推理過程,發(fā)現(xiàn)對于大部分題目,基座模型在多次采樣中至少存在一個 CoT 推理過程是正確的,從而確認(rèn)了答案的得出符合邏輯而非隨機蒙對。同時團(tuán)隊觀察到,基座模型輸出的 CoT 也能很復(fù)雜但邏輯完整,例如通過多次試錯調(diào)整解題方法和方程參數(shù),說明基座模型也有輸出長 CoT 和自我反思的能力。

此外,團(tuán)隊還研究了另一款在 AIME24 上表現(xiàn)優(yōu)異的 RL 模型 Oat-zero。結(jié)果同樣表明,盡管 RL 在初始階段提高了準(zhǔn)確性,但基礎(chǔ)模型仍保持更廣泛的推理覆蓋能力。

代碼生成

圖片

值得注意的是,生成的代碼必須通過所有測試樣例,幾乎不可能蒙對正確答案,模型必須真正寫出符合邏輯的代碼才能得分。代碼生成任務(wù)的實驗結(jié)果同樣支持前述的核心發(fā)現(xiàn):RLVR 強化學(xué)習(xí)模型 CodeR1-Zero-Qwen2.5-7B 提升了單樣本 pass@1 得分,但在更高采樣次數(shù)(k=128)時降低了覆蓋范圍。原始模型在更大的 k 值下仍展現(xiàn)出持續(xù)改進(jìn)的潛力,而 RLVR 的性能則趨于穩(wěn)定。

視覺推理

圖片

在視覺數(shù)學(xué)推理數(shù)據(jù)集 MathVista 中,RL 訓(xùn)練后的模型在單次回答準(zhǔn)確率上提升顯著,但當(dāng) k 增至 64 次時,基座模型仍展現(xiàn)出更廣的問題覆蓋能力。RLVR 在視覺推理上的改進(jìn)與數(shù)學(xué)和代碼基準(zhǔn)中的表現(xiàn)一致,表明原始模型已涵蓋廣泛的可解決問題范圍,即使在多模態(tài)任務(wù)中也是如此。

以上跨領(lǐng)域的一致性表明,與 RL 相比,基座模型表現(xiàn)出更廣泛的覆蓋能力。RLVR 并未從根本上改變模型的問題解決方式。  

深度探索:RL 無法突破基座天花板

通過以上的實驗,研究團(tuán)隊發(fā)現(xiàn),強化學(xué)習(xí)提高了采樣效率,但縮小了推理能力邊界。

圖片

更進(jìn)一步的困惑度(perplexity)分析表明,RLVR 訓(xùn)練模型生成的推理路徑本就存在于基礎(chǔ)模型的輸出分布中,這意味著 RLVR 只是讓模型更偏向高獎勵解決方案,而非創(chuàng)造新的推理能力。然而,這種對獎勵路徑的聚焦削弱了模型的探索能力,限制了其在大規(guī)模采樣時對可解問題的覆蓋范圍。這些發(fā)現(xiàn)說明 RLVR 并未從根本上突破基礎(chǔ)模型的推理能力,而是以犧牲解決問題的多樣性為代價來優(yōu)化現(xiàn)有路徑。

那么,不同的 RLVR 算法在此問題上是否表現(xiàn)出差異?對比實驗發(fā)現(xiàn),各 RLVR 算法表現(xiàn)相似且均遠(yuǎn)未達(dá)最優(yōu)。

圖片

研究比較了多種 RL 算法(PPO、GRPO、Reinforce++,RLOO,DAPO, ReMax),發(fā)現(xiàn)它們的采樣效率差距(?SE)衡量的性能差異很小。盡管算法間?SE 存在細(xì)微差別,但所有方法都與最優(yōu)效率存在顯著差距。這表明當(dāng)前以提高采樣效率為目標(biāo)的 RL 方法仍遠(yuǎn)未達(dá)到最優(yōu)性能。

圖片

研究團(tuán)隊還發(fā)現(xiàn),RLVR 與蒸餾訓(xùn)練存在本質(zhì)區(qū)別。RL 僅能提升采樣效率,而蒸餾訓(xùn)練能真正為模型注入新知識。因此蒸餾模型通過學(xué)習(xí)蒸餾數(shù)據(jù)往往能拓展基礎(chǔ)模型的推理能力邊界,這與能力始終受限于基礎(chǔ)模型的 RLVR 訓(xùn)練模型形成鮮明對比。

作者答疑

針對 AI 圈對這項工作的廣泛關(guān)注和困惑,研究團(tuán)隊在論文網(wǎng)站上精選具有代表性的問題并給出答復(fù),希望能夠更好地闡釋他們的工作。

Q1: 既然隨機采樣在 k 極大時也能命中答案,你們關(guān)于「RL 提升 pass@k」的結(jié)論豈非毫無意義?  

A1:  并非如此?!噶孔円l(fā)質(zhì)變」。理論上隨機打字確實有非零概率生成正確答案(約 1/V^L,V 為詞表大小約 3 萬,L 為輸出長度超 200),但實際搜索空間堪比天文數(shù)字。關(guān)鍵在于概率量級:若基座模型正確概率為 1/10?-10?,RL 或需百萬次采樣才能找到;但若概率低于 1/101?,RL 幾乎無法突破局部最優(yōu)。我們的實驗顯示,多數(shù)問題在 k=128 或 1024 時就能觀測到正確輸出(當(dāng)代算力可及),因此 pass@k 恰恰證明基座模型已具備必要推理路徑。  

Q2: RL 將 pass@k 提升為 pass@1 不是常識嗎? 

A2:  RLVR 將 pass@k 轉(zhuǎn)為 pass@1 并不意外 —— 這本就是 RL 的設(shè)計目標(biāo)。但更值得關(guān)注的是:RLVR 在實驗中并未展現(xiàn)出超越性。若基座模型無法解決的問題,RL 訓(xùn)練后依然無解。這清晰揭示了 RL 在推理任務(wù)中的能力上限。此現(xiàn)象與傳統(tǒng) RL(如 Atari 或圍棋)形成鮮明對比 —— 傳統(tǒng) RL 能通過自我對弈不斷發(fā)現(xiàn)新策略,而 LLM 的 RL 微調(diào)卻受限于基座模型原有能力。實際上,RL 微調(diào)模型在 pass@k 上表現(xiàn)反而不如基座模型,這一現(xiàn)象令許多研究者驚訝。 

Q3: 論文是否宣稱 RL 完全無法激勵超越基座模型的推理?

A3:不,我們并未做出如此絕對論斷。本研究旨在通過系統(tǒng)實驗探討「RL 能否真正擴展 LLM 的推理能力」,并為學(xué)界提供新視角。

我們不排除模型規(guī)模與訓(xùn)練數(shù)據(jù)擴展可能改變結(jié)果的可能性。事實上,我們正在基于 DeepSeek-V3-base 與 R1-zero 開展進(jìn)一步研究。

Q4: DeepSeek-Math 已報道類似結(jié)果,你們的工作有何不同?  

A4:  DS-Math 確實觀察到相似趨勢,但其研究僅針對單一指令微調(diào)模型和兩個數(shù)學(xué)基準(zhǔn)。我們的工作系統(tǒng)性地考察了零 RL 設(shè)置的純基座模型,覆蓋更多 LLM 家族和多樣化基準(zhǔn)測試。我們還通過人工分析思維鏈、困惑度分析、不同 RL 算法對比、蒸餾模型評估等提供了更全面的 RLVR 能力邊界分析。我們認(rèn)為「RLVR 的推理范圍受限于基座模型」這一現(xiàn)象值得研究社區(qū)深入關(guān)注。  

結(jié)語:超越「精耕細(xì)作」,探索「開疆拓土」

清華和上交的這項研究為當(dāng)前火熱的 RL 訓(xùn)練熱潮提供了冷思考:若將 base 模型比作一棵樹,RLVR 只能修剪枝葉使其更整齊,卻無法讓樹長出新的枝干。RLVR 在實現(xiàn)大模型能力提升的進(jìn)程中究竟能夠扮演怎樣的角色,是我們不得不思考的問題。

該研究可能暗示著,可驗證獎勵的強化學(xué)習(xí)更像是一位精于調(diào)律的樂師,而非譜寫新曲的作曲家。它能將模型已有的潛能雕琢得更加純熟,卻難以賦予其全新的能力維度。能否將當(dāng)前的 RLVR 視作開啟通用智能的萬能密鑰需要我們重新思考。

未來的探索之路,或許更需聚焦于基礎(chǔ)模型自身的架構(gòu)革新 —— 在知識表征的廣度、認(rèn)知結(jié)構(gòu)的深度以及推理脈絡(luò)的構(gòu)建等方面潛心耕耘,而非僅僅寄望于下游策略的微調(diào)潤色?;P偷摹冈贾腔邸购芸赡鼙坏凸?,知識蒸餾的思路很可能有更大的用武之地。

真正的「進(jìn)化」,或許需要更根本的范式變革 —— 讓模型不僅能高效利用既有知識,更能主動跳出先驗去探索未知領(lǐng)域。

作者信息

該論文的一作是清華大學(xué)自動化系三年級博士生 Yue Yang(樂洋),他專注于強化學(xué)習(xí)、世界模型、多模態(tài)大模型和具身智能的研究。他的導(dǎo)師是黃高教授。此前他作為兩位一作之一的論文《How Far is Video Generation from World Model: A Physical Law Perspective》被國內(nèi)外眾多大佬 Yan Lecun,Xie Saining,Kevin Murphy 等轉(zhuǎn)發(fā)。此外他也是 DeeR-VLA 的一作。

另一位一作是清華大學(xué)自動化系本科生 Chen Zhiqi(陳之琪),目前在黃高教授團(tuán)隊 LeapLab 實習(xí)。 

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-04-23 12:09:25

RL大模型進(jìn)化

2025-04-27 09:23:00

模型訓(xùn)練AI

2025-02-10 09:35:00

2023-06-20 13:44:49

清華推理

2025-04-08 00:40:00

谷歌合成數(shù)據(jù)大模型

2023-09-05 14:43:15

2024-06-17 13:34:54

2024-11-11 11:05:00

大語言模型系統(tǒng)

2023-05-05 13:29:04

模型推理

2023-02-08 08:00:00

算法人工智能大數(shù)據(jù)

2023-05-30 14:17:00

模型推理

2024-11-01 20:25:28

2023-06-12 12:21:27

研究框架

2023-03-15 09:36:14

模型

2025-04-02 09:00:00

模型開源AI

2023-11-15 15:37:21

大模型人工智能

2024-04-11 11:35:03

大語言模型LLMs

2024-10-21 12:30:52

2011-02-22 14:49:23

vsftpdsubsys

2025-04-24 08:52:34

點贊
收藏

51CTO技術(shù)棧公眾號