自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大模型靠強(qiáng)化學(xué)習(xí)就能無(wú)限變強(qiáng)?清華潑了一盆冷水

發(fā)布于 2025-4-30 06:31
瀏覽
0收藏

近一階段,強(qiáng)化學(xué)習(xí)成為進(jìn)一步提升大模型能力的共識(shí)路徑,這時(shí)候,你是不是也覺(jué)得,給大模型套上強(qiáng)化學(xué)習(xí)(RL)的韁繩,再用上那些能自動(dòng)驗(yàn)證對(duì)錯(cuò)的獎(jiǎng)勵(lì)機(jī)制(RLVR),就能讓它們像打了雞血一樣,推理能力蹭蹭往上漲,實(shí)現(xiàn)模型自我進(jìn)化,“左腳踩右腳”不斷飛升。

然而,清華大學(xué)近期的一項(xiàng)研究《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?(強(qiáng)化學(xué)習(xí)真的會(huì)激勵(lì) LLMs 基模型之外的推理能力嗎?)》為這一樂(lè)觀預(yù)期潑了一盆冷水。該研究通過(guò)深入分析指出,盡管RL訓(xùn)練能夠顯著提升模型在特定基準(zhǔn)(如pass@1)上的表現(xiàn),但可能并未從根本上拓展模型推理能力的邊界。

大模型靠強(qiáng)化學(xué)習(xí)就能無(wú)限變強(qiáng)?清華潑了一盆冷水-AI.x社區(qū)

研究采用了??pass@k??(模型在k次嘗試內(nèi)解決問(wèn)題的成功率)作為核心評(píng)估指標(biāo)。結(jié)果顯示,雖然經(jīng)過(guò)RL訓(xùn)練的模型在少量嘗試(低k值)下表現(xiàn)優(yōu)于基礎(chǔ)模型,但當(dāng)給予充足的嘗試機(jī)會(huì)(高k值)后,未經(jīng)RL訓(xùn)練的基礎(chǔ)模型不僅能夠追趕上來(lái),解決同樣的問(wèn)題,甚至在某些任務(wù)中展現(xiàn)出相當(dāng)乃至更高的潛力上限。

大模型靠強(qiáng)化學(xué)習(xí)就能無(wú)限變強(qiáng)?清華潑了一盆冷水-AI.x社區(qū)

這一發(fā)現(xiàn)表明,當(dāng)前RLVR技術(shù)的核心作用可能更多體現(xiàn)在提升“采樣效率”,即更快速、更穩(wěn)定地找到模型知識(shí)體系中已經(jīng)存在的、能夠獲得獎(jiǎng)勵(lì)的正確推理路徑。這類似于提高了模型針對(duì)已知類型問(wèn)題的“應(yīng)試技巧”。

但效率的提升可能伴隨著代價(jià)。研究觀察到,RL訓(xùn)練在強(qiáng)化特定路徑的同時(shí),可能限制了模型的探索性,降低了其生成不常見(jiàn)或全新正確解法的概率,從而可能導(dǎo)致整體推理能力的“覆蓋范圍”收縮。這意味著,模型的世界觀非但沒(méi)有拓寬,反而可能在某種程度上變窄了。

因此,該研究對(duì)“LLM通過(guò)RL實(shí)現(xiàn)持續(xù)自我進(jìn)化”的普遍觀點(diǎn)構(gòu)成了挑戰(zhàn)。RLVR當(dāng)前的作用,或許更接近于一種高效的優(yōu)化或壓縮機(jī)制,而非真正意義上的“認(rèn)知能力催化劑”。它擅長(zhǎng)挖掘和鞏固基礎(chǔ)模型已有的潛能,但在激發(fā)全新推理范式方面可能存在局限。值得注意的是,研究也對(duì)比指出,知識(shí)蒸餾等其他技術(shù),通過(guò)學(xué)習(xí)更強(qiáng)教師模型的模式,反而能夠有效地為模型引入新知識(shí),拓展其能力邊界。

這篇論文讓我們不得不反思,讓大模型真正實(shí)現(xiàn)推理能力的飛躍,光靠現(xiàn)在的RL“鞭策”可能還不夠,需要認(rèn)識(shí)到它的固有局限。要實(shí)現(xiàn)推理能力的根本性突破,還是需要進(jìn)一步探索新方法,這樣才有可能有更大的突破。

本文轉(zhuǎn)載自??AI工程化???,作者:ully

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦