清華大學 | 強化學習是否激勵LLM中超越基本模型的推理能力?
論文DoesReinforcementLearningReallyIncentivizeReasoningCapacityinLLMsBeyondtheBaseModel2504.13837TL;DR:雖然強化學習(RL)訓練的模型在較小的k值(例如,k1)下優(yōu)于其基本模型,但基本模型可以在較大的k值下獲得與RL對應(yīng)物相比的可比甚至更高的passk分數(shù)。進一步分析表明,RL訓練模型生成的推理路徑已經(jīng)包含在基礎(chǔ)模型的抽樣分布中,表明RL訓練模型中表現(xiàn)出的大部分推理能力已經(jīng)由基礎(chǔ)模型獲得。RL訓練通過將模型的輸出...