無需數(shù)據(jù)標注!測試時強化學(xué)習(xí),模型數(shù)學(xué)能力暴增 | 清華&上海AI Lab
無需數(shù)據(jù)標注,在測試時做強化學(xué)習(xí),模型數(shù)學(xué)能力暴增159%!
清華和上海AI Lab周伯文團隊用這樣的方法,對模型進行了強化——
結(jié)果模型在多個數(shù)據(jù)集上的成績均大幅提升,尤其是Qwen-2.5-Math-7B,它做AIME 2024競賽題的成績直接提高了159%。
實驗過程中,強化學(xué)習(xí)的數(shù)據(jù)均由被訓(xùn)練的模型自身生成。
作者還發(fā)現(xiàn),訓(xùn)練后的模型性能,準確性已經(jīng)超過了用于訓(xùn)練它的偽標簽(測試時強化學(xué)習(xí)過程中產(chǎn)生)。
DeepMind工程師評價,這種測試時強化學(xué)習(xí)的方式將改變LLM的格局:
它利用預(yù)訓(xùn)練模型和特定任務(wù)的提示進行實時自適應(yīng),而無需大量帶標簽的數(shù)據(jù)集,這是向前邁出的重要一步。
模型自己生成強化學(xué)習(xí)數(shù)據(jù)
作者提出的測試時強化學(xué)習(xí)(TTRL)過程是測試時擴展和測試時訓(xùn)練的結(jié)合,具體可以分為“生成、投票、強化”三個大步驟。
第一步生成的目的,是讓模型針對每個輸入的prompt,生成盡可能多樣化的候選答案,該過程通過測試時推理來實現(xiàn)。
其思路是在推理階段增加計算資源以獲得更好的性能,具體到TTRL采用的是增加采樣數(shù)量的方式,即對每個prompt,讓模型采樣生成N個不同的答案,而不是只生成一個確定性最高的輸出。
作者的實驗中,當(dāng)在AIME 2024數(shù)據(jù)集上應(yīng)用TTRL訓(xùn)練Qwen2.5-Math-7B模型時,每個prompt采樣64次(N=64),溫度系數(shù)設(shè)為1.0,以鼓勵模型生成多樣化的答案。
投票過程從上一步生成的N個候選答案出發(fā),通過多數(shù)投票的方式來估計正確答案,并將其作為偽標簽。
TTRL在實際應(yīng)用投票機制時還引入了一個參數(shù) Maj@N,表示多數(shù)投票的估計準確率。
它衡量的是偽標簽與真實標簽的一致性。通過控制Maj@N,可以權(quán)衡偽標簽的質(zhì)量和數(shù)量。
最后一步利用強化學(xué)習(xí),基于上一步估計出的偽標簽,來優(yōu)化語言模型的策略,使其傾向于給出正確答案。
TTRL采用GRPO算法,還加入了重要性采樣和蒙特卡洛估計等技術(shù),以提高訓(xùn)練效率和穩(wěn)定性。
模型數(shù)學(xué)能力大幅提升
為了評估TTRL的效果,作者在AIME 2024、AMC和MATH-500三個數(shù)據(jù)集上對調(diào)整前后的三款模型進行了測試。
- 在AIME 2024數(shù)據(jù)集上,對于Qwen2.5-Math-7B基礎(chǔ)模型,TTRL將其準確率從16.7%提高到43.3%,提升幅度高達159.3%,超越了所有在大規(guī)模標注數(shù)據(jù)上訓(xùn)練的模型。
- 在AMC數(shù)據(jù)集上,Qwen2.5-Math-7B、Qwen2.5-Math-1.5B和LLaMA模型的準確率分別獲得了74.9%、63.1%和68.4%的大幅提高。
- MATH-500數(shù)據(jù)集上的表現(xiàn)更為突出,Qwen2.5-Math-7B和Qwen2.5-Math-1.5B分別實現(xiàn)了66.4%和142.4%的驚人提升,LLaMA模型的準確率也提高了29.3%。
平均而言,TTRL使Qwen2.5-Math-7B模型在三個數(shù)據(jù)集上的性能提高了84.1%。
進一步的泛化性實驗表明,在一個數(shù)據(jù)集上應(yīng)用TTRL后,性能的提高可以自然遷移到其他數(shù)據(jù)集,甚至是從未參與訓(xùn)練的任務(wù)。
為了分析TTRL方法有效的原因,作者比較了TTRL訓(xùn)練前后模型的多數(shù)投票性能。
結(jié)果,應(yīng)用TTRL后,模型的多數(shù)投票準確率(Maj@64)顯著高于原始的Qwen模型,說明通過多數(shù)投票得到的偽標簽質(zhì)量優(yōu)于單個模型輸出。
并且強化學(xué)習(xí)具備糾錯能力。即使偽標簽并非完全準確,強化學(xué)習(xí)也可以通過獎懲機制引導(dǎo)模型朝著正確方向優(yōu)化。
從AIME 2024上標簽準確率和獎勵準確率的變化曲線中可以看到,即使在標簽準確率較低的階段,獎勵準確率也能維持在90%以上。
作者簡介
這項研究的領(lǐng)導(dǎo)者是清華大學(xué)C3I課題組博士生張開顏和上海AI實驗室青年研究員崔淦渠。
張開顏的導(dǎo)師是上海人工智能實驗室主任、首席科學(xué)家周伯文教授;崔淦渠則畢業(yè)于清華NLP實驗室,讀博期間導(dǎo)師是劉知遠副教授。
本文共同一作是張開顏和同樣來自清華的Yuxin Zuo,周伯文和C3I課題組博士后丁寧是本文的通訊作者。