自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

強(qiáng)化學(xué)習(xí)被高估!清華上交:RL不能提升推理能力,新知識(shí)得靠蒸餾

人工智能 新聞
一項(xiàng)來(lái)自清華大學(xué)和上海交通大學(xué)的研究顛覆了對(duì)可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)的認(rèn)知。RLVR被認(rèn)為是打造自我進(jìn)化大模型的關(guān)鍵,但實(shí)驗(yàn)表明,它可能只是提高了采樣效率,而非真正賦予模型全新推理能力。

最近,以推理能力為核心的大語(yǔ)言模型已然成為了主流,比如OpenAI o系列模型、DeepSeek-R1等等。

推理模型在處理數(shù)學(xué)和編程等復(fù)雜邏輯問(wèn)題方面取得了顯著突破。

相比于之前依賴人工標(biāo)注進(jìn)行指令微調(diào)的方法,這一突破的關(guān)鍵在于可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)(RLVR)。

RLVR從預(yù)訓(xùn)練模型或經(jīng)過(guò)長(zhǎng)思維鏈(CoT)微調(diào)的模型出發(fā),利用簡(jiǎn)單、自動(dòng)的獎(jiǎng)勵(lì)信號(hào)通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行優(yōu)化。

在數(shù)學(xué)問(wèn)題中,如果模型給出的答案和正確答案一致,或者編程任務(wù)里,代碼能通過(guò)單元測(cè)試,模型就能得到獎(jiǎng)勵(lì)。這擺脫了對(duì)大量人工標(biāo)注數(shù)據(jù)的依賴,具備很好的可擴(kuò)展性。

RLVR被認(rèn)為能激發(fā)模型進(jìn)行自主推理,比如枚舉、反思和優(yōu)化,這些能力恰恰是基礎(chǔ)模型所欠缺的。

因此,RLVR被視為是打造自我進(jìn)化大模型的路徑,可持續(xù)提升模型推理能力,甚至接近AGI。

然而,盡管RLVR在經(jīng)驗(yàn)上取得了成功,但在追求不斷自我進(jìn)化的推理能力過(guò)程中,一個(gè)關(guān)鍵問(wèn)題仍然存在:RLVR真的帶來(lái)了全新的推理能力嗎?如果有,模型到底從RLVR訓(xùn)練中學(xué)到了什么?

為了嚴(yán)謹(jǐn)?shù)鼗卮疬@個(gè)問(wèn)題,來(lái)自清華大學(xué)和上海交通大學(xué)的團(tuán)隊(duì)對(duì)此進(jìn)行了深入的研究。

圖片

論文地址:https://arxiv.org/pdf/2504.13837

他們采用了簡(jiǎn)單的pass@k指標(biāo),即只要k次采樣中任意一次正確,問(wèn)題就算解決。

核心思想是:如果我們?yōu)榛A(chǔ)模型投入大量采樣(超大k值),它的表現(xiàn)能否匹敵RLVR訓(xùn)練的模型?

通過(guò)給予模型大量嘗試機(jī)會(huì),能夠評(píng)估基礎(chǔ)模型和RL訓(xùn)練模型的推理能力邊界。

這為檢驗(yàn)RLVR訓(xùn)練是否能帶來(lái)根本性的超越能力提供了關(guān)鍵且嚴(yán)謹(jǐn)?shù)臏y(cè)試,即是否讓模型能解決基礎(chǔ)模型無(wú)法解決的問(wèn)題。

結(jié)果,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些可能顛覆傳統(tǒng)認(rèn)知的意外結(jié)果:

1. 在超大k值下,RLVR訓(xùn)練模型的表現(xiàn)不如基礎(chǔ)模型

雖然小k值下RL訓(xùn)練模型通常優(yōu)于基礎(chǔ)模型,但當(dāng)k值變大時(shí),基礎(chǔ)模型在所有測(cè)試中都表現(xiàn)更好。令人驚訝的是,在足夠大的k值下,基礎(chǔ)模型的pass@k分?jǐn)?shù)甚至超過(guò)RL訓(xùn)練模型。這表明,未經(jīng)RL訓(xùn)練的基礎(chǔ)模型通過(guò)多樣化采樣,就能生成原本以為只有RL模型才能解決的正確答案。

2. RLVR提升采樣效率,但縮小推理能力范圍

RLVR訓(xùn)練模型生成的推理路徑在基礎(chǔ)模型的輸出分布中已有相當(dāng)?shù)母怕拭芏?,表明這些推理模式和CoT對(duì)基礎(chǔ)模型而言并非完全陌生或不可實(shí)現(xiàn)。RLVR訓(xùn)練提升了采樣效率,但同時(shí)降低了模型的探索能力,導(dǎo)致在大k值下可解決問(wèn)題的覆蓋范圍變小(見(jiàn)圖1右)。這挑戰(zhàn)了RLVR 能激發(fā)推理能力的普遍看法。相反,RLVR訓(xùn)練模型的推理能力邊界可能受限于基礎(chǔ)模型的能力。RLVR對(duì)LLM推理能力的影響如圖1左所示。

3. 不同RLVR算法表現(xiàn)相似,且遠(yuǎn)未達(dá)到最優(yōu)

盡管不同RL算法(如PPO、GRPO、Reinforce++)在性能上略有差異,但并無(wú)本質(zhì)區(qū)別。這表明,當(dāng)前主要通過(guò)提升采樣效率的RL方法仍遠(yuǎn)未達(dá)到最優(yōu)。

4. RLVR與蒸餾有根本區(qū)別

RL提升的是采樣效率,而蒸餾能真正為模型引入新知識(shí)。因此,蒸餾模型通常通過(guò)學(xué)習(xí)蒸餾數(shù)據(jù),展現(xiàn)出超越基礎(chǔ)模型的推理能力范圍,而RLVR訓(xùn)練模型的能力始終受限于基礎(chǔ)模型。

圖片

圖1:(左)灰色表示模型不太可能采樣的路徑,黑色表示大概率采樣的路徑,綠色表示正確的路徑(帶有正向獎(jiǎng)勵(lì))。(右)隨著RLVR訓(xùn)練的進(jìn)行,模型的平均性能(即pass@1)有所提升,但可解決問(wèn)題的覆蓋率(即pass@256)下降,表明模型推理能力的上限在降低

大佬紛紛入局討論

大模型的「推理能力」究竟來(lái)自于哪里?概率機(jī)器真的能「涌現(xiàn)」推理能力嗎?

強(qiáng)化學(xué)習(xí),特別是可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)是否真正從基礎(chǔ)模型中「引導(dǎo)」或「發(fā)掘」出推理能力?

關(guān)于模型中「涌現(xiàn)」出推理能力這個(gè)話題還得說(shuō)回DeepSeek-R1開(kāi)源他們的論文而引發(fā)那波熱潮。

雖然OpenAI-o1是第一個(gè)發(fā)布的推理模型,但是他們「猶抱琵琶半遮面」的遮掩態(tài)度,讓DeepSeek摘了推理模型的桃子。

在DeepSeek-R1的訓(xùn)練過(guò)程中,第一步就是通過(guò)基于GRPO的純強(qiáng)化學(xué)習(xí),訓(xùn)練出了DeepSeek-R1-Zero,后續(xù)的訓(xùn)練過(guò)程都涉及到強(qiáng)化學(xué)習(xí)。

圖片

低成本的訓(xùn)練方式得到媲美千萬(wàn)資金的訓(xùn)練結(jié)果,這讓基于強(qiáng)化學(xué)習(xí)的訓(xùn)練范式與Scaling Law正面相撞。

這個(gè)論文發(fā)布后,大佬們紛紛表示對(duì)這個(gè)話題有話要說(shuō)。

Nathan Lambert是一名電氣工程與計(jì)算機(jī)科學(xué)博士,畢業(yè)于加利福尼亞大學(xué)伯克利分校,他率先轉(zhuǎn)發(fā)了這篇論文,并表示

「也許關(guān)于強(qiáng)化學(xué)習(xí)是否激勵(lì)了推理能力并不是一個(gè)直覺(jué),而是一組有依據(jù)的新成果」。

圖片

本文作者Yang Yue也表示實(shí)驗(yàn)結(jié)果表明,RLVR除此之外并沒(méi)有做太多其他的事情。

圖片

如果基礎(chǔ)模型無(wú)法解決問(wèn)題,經(jīng)過(guò)強(qiáng)化學(xué)習(xí)后的模型依然無(wú)法解決。

這似乎說(shuō)明強(qiáng)化學(xué)習(xí)并不是萬(wàn)能的,有它的局限性。

圖片

也有網(wǎng)友表示,RL本質(zhì)是改變了概率分布,增加了原本不太常見(jiàn)的,很可能是正確答案軌跡的概率。

也就是說(shuō),能力依然來(lái)自于基礎(chǔ)模型,RL只是讓正確答案更好的「涌現(xiàn)」出來(lái)。

圖片

當(dāng)然,從另外一方面Nathan Lambert也表示,這些結(jié)果都是來(lái)自類似R1-Zero的訓(xùn)練風(fēng)格,即僅僅通過(guò)了單純的強(qiáng)化學(xué)習(xí)。

在R1的訓(xùn)練過(guò)程中,還有很多「熱身」的過(guò)程,比如對(duì)冷啟動(dòng)數(shù)據(jù)后的SFT,這些在強(qiáng)化學(xué)習(xí)訓(xùn)練開(kāi)始前的「熱身」過(guò)程可以給模型帶來(lái)更強(qiáng)大的能力。

圖片

這從另一個(gè)方面說(shuō)明,強(qiáng)化學(xué)習(xí)依然有效,只不過(guò)RL和蒸餾有本質(zhì)的區(qū)別。

正如上述論文中所描述,強(qiáng)化學(xué)習(xí)提升了模型涌現(xiàn)「正確」的概率,而蒸餾則是為模型引入了全新的能力。

論文的作者Yang Yue也表示「熱身」是一個(gè)不錯(cuò)的提升性能的方式。

以蒸餾為例,一些開(kāi)源的基礎(chǔ)模型,比如Qwen或者Llama,通過(guò)蒸餾后,可以從教師模型引入基礎(chǔ)模型之外的新推理模式。

圖片

Autodesk首席AI研究科學(xué)家Mehdi Ataei同樣表示,以他的經(jīng)驗(yàn)來(lái)看,如果沒(méi)有一個(gè)很好的基礎(chǔ)模型,RL根本無(wú)法工作。

圖片

大佬的討論很精彩,其實(shí)也和幾個(gè)月前DeepSeek-R1爆火后,經(jīng)過(guò)大佬們討論后的結(jié)論一樣,「厲害的不是DeepSeek-R1,而是DeepSeek-V3」。

圖片

找到Karpathy在V3發(fā)布時(shí)的態(tài)度就能看出來(lái),結(jié)合這篇論文,決定模型推理能力上限的大概率就是基礎(chǔ)模型本身。

圖片

正如這篇論文的結(jié)論,RLVR縮小了模型的探索范圍,傾向于選擇已知的高回報(bào)路徑,而不是發(fā)現(xiàn)新的推理策略。

圖片

關(guān)鍵的是,所有來(lái)自RL訓(xùn)練模型的正確解其實(shí)早就已經(jīng)存在于基礎(chǔ)模型的分布中。

RLVR只是提高了采樣效率,而不是「推理能力」,但同時(shí)無(wú)意中也縮小了解空間。

所以,似乎Scaling Law并沒(méi)有失效,一個(gè)足夠好的基礎(chǔ)模型,它的解空間包含正確答案的概率依然要高于那些不夠好的模型。

只不過(guò),可能需要多給大模型一些機(jī)會(huì)。

實(shí)驗(yàn)發(fā)現(xiàn)驚人

研究人員在數(shù)學(xué)、編程、視覺(jué)推理等領(lǐng)域展開(kāi)了大量實(shí)驗(yàn),涵蓋了不同模型(像Qwen-2.5系列、LLaMA-3.1-8B)和多種RL算法。

圖片

圖片

研究人員在多個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試中比較了基礎(chǔ)模型和RLVR訓(xùn)練后的模型。

結(jié)果發(fā)現(xiàn),當(dāng)k值較小時(shí)(比如k=1),經(jīng)過(guò)RL訓(xùn)練的模型確實(shí)表現(xiàn)更優(yōu),說(shuō)明RLVR能讓模型在單次嘗試時(shí)更有可能得出正確答案。

但隨著k值不斷增大,情況發(fā)生了反轉(zhuǎn),基礎(chǔ)模型逐漸趕上并超過(guò)了經(jīng)過(guò)RL訓(xùn)練的模型。

就拿Minerva基準(zhǔn)測(cè)試來(lái)說(shuō),用32B大小的模型時(shí),當(dāng)k=128,基礎(chǔ)模型的表現(xiàn)比RL訓(xùn)練的模型高出近9%。

在AIME24這種極具挑戰(zhàn)性的測(cè)試中,一開(kāi)始,基于Qwen-2.5-7B-Base訓(xùn)練的RL模型Oat-Zero-7B表現(xiàn)很不錯(cuò),比基礎(chǔ)模型高出近30%,可最后還是被基礎(chǔ)模型超越了。

在此過(guò)程中,基礎(chǔ)模型展現(xiàn)出強(qiáng)大的潛力,通過(guò)大量采樣,能找到有效的推理路徑。

圖片

研究人員手動(dòng)檢查了最難問(wèn)題的思維鏈(CoT),發(fā)現(xiàn)就算是最難的問(wèn)題上,無(wú)論是原始模型還是RL模型,大多是通過(guò)有效的推理路徑得出正確答案的,而不是運(yùn)氣。

為了避免模型作弊,也就是通過(guò)錯(cuò)誤的推理過(guò)程偶然得出正確答案,研究人員還專門(mén)過(guò)濾掉了容易被猜中的問(wèn)題,再次驗(yàn)證后發(fā)現(xiàn),基礎(chǔ)模型依舊能憑借有效的推理路徑解決難題。

代碼生成實(shí)驗(yàn)也呈現(xiàn)出類似的趨勢(shì)。

研究人員選用了開(kāi)源的Code-R1模型及其經(jīng)過(guò)RLVR訓(xùn)練的版本CodeR1-Zero-Qwen2.5-7B,在LiveCodeBench v5、HumanEval+和MBPP+這些基準(zhǔn)測(cè)試中評(píng)估。

當(dāng)k值較小時(shí),RLVR訓(xùn)練的模型單樣本性能更好,但隨著k值增大,基礎(chǔ)模型可解決問(wèn)題的覆蓋范圍更廣。

例如,在LiveCodeBench上,原始模型pass@1得分是23.8%,RLVR訓(xùn)練的模型為28.1%,可當(dāng)采樣128次時(shí),原始模型能解決約50%的編程問(wèn)題,而RLVR模型只能解決42.8%。

圖片

視覺(jué)推理實(shí)驗(yàn)中,研究人員選擇視覺(jué)背景下的數(shù)學(xué)推理任務(wù),用EasyR1框架訓(xùn)練Qwen-2.5-VL-7B,并在經(jīng)過(guò)濾的MathVista-TestMini和MathVision-TestMini等基準(zhǔn)測(cè)試中評(píng)估。

圖片

基礎(chǔ)模型在可解決問(wèn)題的覆蓋范圍上更具優(yōu)勢(shì),RLVR并沒(méi)有讓模型獲得超越基礎(chǔ)模型的推理能力。

基礎(chǔ)模型已經(jīng)包含推理模式

實(shí)驗(yàn)表明,基礎(chǔ)模型能解決的問(wèn)題范圍竟然比經(jīng)過(guò)RLVR訓(xùn)練的模型更大。

RL訓(xùn)練模型解決的問(wèn)題幾乎是基礎(chǔ)模型可解決問(wèn)題的一個(gè)子集。在編程任務(wù)中也觀察到類似趨勢(shì)。

這引出了一個(gè)問(wèn)題:RL訓(xùn)練模型生成的所有推理路徑,是不是早已存在于基礎(chǔ)模型的輸出分布中?

困惑度分析

為了回答這個(gè)問(wèn)題,研究人員使用了困惑度(Perplexity)指標(biāo)。

困惑度反映了模型在給定問(wèn)題x下預(yù)測(cè)某個(gè)回答Y的難易程度。困惑度越低,說(shuō)明模型越可能生成這個(gè)回答。

他們從AIME24中隨機(jī)抽取兩個(gè)問(wèn)題,用Qwen-7B-Base和SimpleRL-Qwen-7B-Base生成16個(gè)回答(分別記為Ybase和YRL),并讓OpenAI-o1生成8個(gè)回答(記為YGT)。

結(jié)果顯示(圖6左),RL訓(xùn)練模型的回答困惑度分布與基礎(chǔ)模型生成回答的低困惑度部分高度重合,這說(shuō)明RL訓(xùn)練模型的回答很可能是基礎(chǔ)模型本身就能生成的。

圖片

由此得出以下結(jié)論:

  • RLVR沒(méi)有帶來(lái)新的推理能力:通過(guò)pass@k(k較大時(shí))和困惑度分布分析,RL模型的推理能力完全在基礎(chǔ)模型的范圍內(nèi),RL模型利用的推理路徑早已存在于基礎(chǔ)模型中。
  • RLVR提升了采樣效率:盡管RL模型的推理路徑存在于基礎(chǔ)模型中,但RL訓(xùn)練提升了pass@1的表現(xiàn)。
  • RLVR縮小了推理邊界:RLVR的效率提升以覆蓋范圍為代價(jià),pass@k在k較大時(shí)低于基礎(chǔ)模型。

蒸餾拓展了推理邊界

除了直接進(jìn)行RL訓(xùn)練,另一種提升小型基礎(chǔ)模型推理能力的有效方法是從強(qiáng)大的推理模型(如DeepSeek-R1)進(jìn)行蒸餾。

這類似于后訓(xùn)練中的指令微調(diào),將基礎(chǔ)模型轉(zhuǎn)化為指令模型。

但訓(xùn)練數(shù)據(jù)不是短指令-回答對(duì),而是DeepSeek-R1生成的長(zhǎng)思維鏈(CoT)軌跡。

研究團(tuán)隊(duì)以DeepSeek-R1-Distill-Qwen-7B為例,比較了它與基礎(chǔ)模型Qwen-2.5-Math-7B、RL訓(xùn)練模型Qwen-2.5-Math-7B-Oat-Zero以及指令微調(diào)模型Qwen-2.5-Math-7B-Instruct的表現(xiàn)。

結(jié)果顯示(圖6右),蒸餾模型的pass@k曲線始終顯著高于基礎(chǔ)模型,表明與RL不同,蒸餾通過(guò)學(xué)習(xí)更強(qiáng)教師模型的推理模式,突破了基礎(chǔ)模型的推理邊界。

不同RL算法的效果

RL的主要作用是提升采樣效率,而非擴(kuò)展推理能力。

為了量化這一點(diǎn),研究團(tuán)隊(duì)提出了采樣效率差距(?SE),定義為RL訓(xùn)練模型的pass@1與基礎(chǔ)模型的pass@k(k=256)的差值,?SE越低越好。

結(jié)果顯示(圖7上),不同RL算法在pass@1和pass@256上的表現(xiàn)略有差異,但無(wú)根本性區(qū)別。

研究團(tuán)隊(duì)研究了訓(xùn)練步數(shù)對(duì)模型漸進(jìn)性能的影響。結(jié)果顯示(圖7下),隨著RL訓(xùn)練的進(jìn)行,訓(xùn)練集上的pass@1穩(wěn)步提升,但觀察表明,延長(zhǎng)訓(xùn)練可能收益有限。

圖片

作者介紹

樂(lè)洋

圖片

清華大學(xué)自動(dòng)化系的三年級(jí)博士生,導(dǎo)師是黃高教授。

于2022年獲得計(jì)算機(jī)科學(xué)學(xué)士學(xué)位,在本科期間還學(xué)習(xí)了電氣工程。此前,在Sea AI Lab新加坡實(shí)習(xí)了一年多,在顏水成教授的指導(dǎo)下工作。還曾在字節(jié)跳動(dòng)Seed實(shí)習(xí)。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2024-11-01 13:30:56

2025-04-11 12:10:33

2025-02-17 10:40:20

2019-07-02 13:37:23

神經(jīng)網(wǎng)絡(luò)運(yùn)算Python

2025-04-18 10:01:41

2022-06-23 12:12:31

達(dá)摩院自動(dòng)駕駛

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2025-04-25 09:22:44

2020-12-23 06:07:54

人工智能AI深度學(xué)習(xí)

2024-03-19 00:15:00

機(jī)器學(xué)習(xí)強(qiáng)化學(xué)習(xí)人工智能

2015-10-22 09:05:12

2023-04-23 10:12:14

算法強(qiáng)化學(xué)習(xí)

2020-01-06 10:36:52

程序員人生第一份工作技術(shù)

2025-04-25 09:20:00

數(shù)據(jù)模型AI

2022-12-01 08:00:00

2025-01-21 09:36:51

2025-02-18 15:02:13

2025-04-22 09:12:00

AI模型數(shù)據(jù)

2025-01-08 09:00:00

訓(xùn)練數(shù)據(jù)研究

2024-03-13 11:58:00

自動(dòng)化數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)