TTS和TTT已過時(shí)?TTRL橫空出世,推理模型擺脫「標(biāo)注數(shù)據(jù)」依賴,性能暴漲
在大語言模型(LLMs)競爭日趨白熱化的今天,「推理能力」已成為評(píng)判模型優(yōu)劣的關(guān)鍵指標(biāo)。OpenAI 的 o 系列、Anthropic 的 Claude 和 DeepSeek-R1 等模型的驚艷表現(xiàn)背后,測(cè)試時(shí)縮放(TTS)技術(shù)功不可沒。
測(cè)試時(shí)縮放(TTS,Test-Time Scaling)是一種提升大語言模型推理能力的新興策略,通過在測(cè)試階段優(yōu)化推理過程(如多數(shù)投票、蒙特卡洛樹搜索等)提升大型語言模型(LLMs)的性能,而無需修改模型參數(shù)。
研究表明,TTS 在計(jì)算效率上優(yōu)于預(yù)訓(xùn)練階段擴(kuò)大模型規(guī)模,能以更低資源成本實(shí)現(xiàn)更好表現(xiàn)。然而,TTS 依賴預(yù)訓(xùn)練知識(shí),在面對(duì)未標(biāo)注新數(shù)據(jù)或輸入分布變化時(shí),泛化能力受限。如 OpenAI o3 在某基準(zhǔn)任務(wù)上達(dá)到 75.7% 的成功率,對(duì)更復(fù)雜的新任務(wù)卻僅能解決 4% 的問題。
為克服 TTS 的局限,測(cè)試時(shí)訓(xùn)練(TTT,Test-Time Training)一度受到廣泛關(guān)注。TTT 通過在測(cè)試階段利用 RL 等技術(shù)動(dòng)態(tài)更新模型參數(shù),使模型適應(yīng)新數(shù)據(jù)或任務(wù),彌補(bǔ)了 TTS 在泛化能力上的不足。但 TTT 同樣面臨自身的挑戰(zhàn):測(cè)試階段缺乏獎(jiǎng)勵(lì)函數(shù)或驗(yàn)證信號(hào),而人工標(biāo)注數(shù)據(jù)的高成本使得無監(jiān)督環(huán)境下的 RL 應(yīng)用受限。
在最新的一篇論文中,清華大學(xué)和上海人工智能實(shí)驗(yàn)室提出了一種新方法 —— 測(cè)試時(shí)強(qiáng)化學(xué)習(xí)(Test-Time Reinforcement Learning,TTRL),該方法能夠在無標(biāo)注數(shù)據(jù)上對(duì) LLM 進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。
- 論文標(biāo)題:TTRL: Test-Time Reinforcement Learning
- 論文地址:https://arxiv.org/abs/2504.16084
- GitHub:https://github.com/PRIME-RL/TTRL
- HuggingFace:https://huggingface.co/papers/2504.16084
TTRL 通過利用預(yù)訓(xùn)練模型中的先驗(yàn)知識(shí),使 LLM 具備自我演化的能力。實(shí)驗(yàn)證明,TTRL 在多種任務(wù)和模型上都能持續(xù)提升性能:在僅使用未標(biāo)注測(cè)試數(shù)據(jù)的情況下,TTRL 將 Qwen-2.5-Math-7B 在 AIME 2024 任務(wù)中的 pass@1 指標(biāo)提升了約 159%。
值得注意的是,雖然 TTRL 僅依靠 Maj@N 指標(biāo)進(jìn)行監(jiān)督,但其表現(xiàn)不僅能持續(xù)超越初始模型的性能上限,更能接近于那些直接在有標(biāo)注測(cè)試數(shù)據(jù)上進(jìn)行監(jiān)督訓(xùn)練的模型性能。實(shí)驗(yàn)結(jié)果驗(yàn)證了 TTRL 在多種任務(wù)中的廣泛有效性,充分展示了該方法在更廣闊領(lǐng)域中的應(yīng)用潛力。
方法
圖 2 展示了研究者提出的 TTRL 方法如何應(yīng)對(duì)此類挑戰(zhàn)。給定狀態(tài)表示為輸入提示 x(prompt x),模型依據(jù)參數(shù)化策略 π_θ(y | x) 生成輸出 y。為了在無真實(shí)標(biāo)簽的條件下構(gòu)造獎(jiǎng)勵(lì)信號(hào),研究者通過重復(fù)采樣的方法,從模型中生成多個(gè)候選輸出 {y?, y?, ..., y_N}。接著,使用多數(shù)投票(majority voting)或其他聚合方法從這些候選中推導(dǎo)出共識(shí)輸出 y*,作為近似的最優(yōu)動(dòng)作(optimal action)的替代。
環(huán)境反饋的獎(jiǎng)勵(lì) r (y, y*) 則根據(jù)當(dāng)前動(dòng)作 y 與共識(shí)輸出 y* 之間的一致性進(jìn)行設(shè)定。模型的 RL 目標(biāo)是最大化期望獎(jiǎng)勵(lì):
通過梯度上升(gradient ascent)更新參數(shù) θ:
該方法能夠在推理階段實(shí)現(xiàn)模型的動(dòng)態(tài)適應(yīng),無需標(biāo)注數(shù)據(jù)即可提升模型應(yīng)對(duì)分布變化輸入時(shí)的性能。
多數(shù)投票獎(jiǎng)勵(lì)函數(shù)(Majority Voting Reward Function)
多數(shù)投票獎(jiǎng)勵(lì)機(jī)制的核心在于:首先借助多數(shù)投票策略估算一個(gè)偽標(biāo)簽(pseudo-label),再基于該估計(jì)標(biāo)簽計(jì)算規(guī)則驅(qū)動(dòng)的獎(jiǎng)勵(lì)(rule-based rewards),并作為最終用于 RL 訓(xùn)練的獎(jiǎng)勵(lì)信號(hào)。
在具體操作上,給定一個(gè)輸入問題 x,研究者對(duì)其輸入到大型語言模型中,并生成一組輸出結(jié)果。隨后,答案抽取器(answer extractor)對(duì)這些輸出進(jìn)行處理,提取對(duì)應(yīng)的預(yù)測(cè)答案,記為 P = {??}?_{i=1}。接著,研究者在集合 P 上應(yīng)用第 4 節(jié)定義的多數(shù)投票策略函數(shù) s (y, x),選出出現(xiàn)頻次最高的預(yù)測(cè) y,作為估計(jì)標(biāo)簽。
隨后,該多數(shù)投票結(jié)果 y 被用作標(biāo)簽估計(jì),用于計(jì)算基于規(guī)則的獎(jiǎng)勵(lì)信號(hào):
實(shí)驗(yàn)
TTRL 在大多數(shù)任務(wù)和模型上都表現(xiàn)出色。盡管 TTRL 完全依賴于使用無標(biāo)注測(cè)試數(shù)據(jù)的自我進(jìn)化,但其性能卻可媲美基于大規(guī)模標(biāo)注數(shù)據(jù)集訓(xùn)練的現(xiàn)有 RL 模型。如表 1 所示,在 AIME 2024 上,TTRL 實(shí)現(xiàn)了 159.3% 的大幅提升,超過了所有在大規(guī)模數(shù)據(jù)集上訓(xùn)練的模型。此外,當(dāng)應(yīng)用于 Qwen2.5-Math-7B 時(shí),TTRL 在三個(gè)基準(zhǔn)測(cè)試中平均提高了 84.1%。
TTRL 自然擴(kuò)展。另一個(gè)值得注意的現(xiàn)象是,隨著模型大小的增加(從 1.5B 到 7B),其在 AIME 2024 和 AMC 上的性能提升也在增加,這凸顯了 TTRL 的自然擴(kuò)展行為:更大的模型可以在自我改進(jìn)過程中產(chǎn)生更準(zhǔn)確的多數(shù)投票獎(jiǎng)勵(lì),從而更有效地學(xué)習(xí)新數(shù)據(jù)。不過,LLaMA-3.1-8B-Instruct 和 Qwen2.5-Math-1.5B 可能由于容量有限,未能通過 TTRL 在 AIME 2024 上取得有意義的進(jìn)展。相比之下,Qwen2.5-Math-7B 的模型容量更大,知識(shí)更充分,因此可以從自我改進(jìn)中獲益,從而取得明顯的性能提升(第 4.3 節(jié)會(huì)詳細(xì)討論這一點(diǎn))。
TTRL 在目標(biāo)任務(wù)之外也有很好的通用性。研究者以 Qwen2.5-Math-7B 為骨干,在每個(gè)基準(zhǔn)上執(zhí)行了 TTRL,并在其他基準(zhǔn)上進(jìn)行了進(jìn)一步評(píng)估。圖 3 展示了結(jié)果。盡管這種設(shè)置具有分布外的性質(zhì),但 TTRL 在所有基準(zhǔn)上都取得了實(shí)質(zhì)性的改進(jìn)。這表明 TTRL 并沒有依賴過擬合(過擬合會(huì)導(dǎo)致在其他任務(wù)上的取舍),而是在自我改進(jìn)過程中獲得了可推廣的收益。
TTRL 與不同的 RL 算法兼容。圖 4 展示了結(jié)果。研究者在 MATH-500 上使用 PPO 應(yīng)用 TTRL,以評(píng)估其與不同強(qiáng)化學(xué)習(xí)算法的兼容性。PPO 和 GRPO 的性能軌跡非常接近。與 GRPO 相比,PPO 能產(chǎn)生更穩(wěn)定的結(jié)果,同時(shí)實(shí)現(xiàn)相似的整體性能。
討論
Q1:TTRL 的性能能有多好?
研究者使用了兩個(gè)上限來分析 TTRL 的潛在性能。第一個(gè)上限是 Maj@N,用于計(jì)算 TTRL 訓(xùn)練過程中的獎(jiǎng)勵(lì)。第二個(gè)上限是在基準(zhǔn)數(shù)據(jù)集上的直接訓(xùn)練,它假定可以訪問 ground-truth 標(biāo)簽,因此會(huì)向策略模型泄露標(biāo)簽信息。
關(guān)鍵發(fā)現(xiàn)如下:
1. TTRL 不僅超越了其訓(xùn)練信號(hào)和初始模型的直觀上界 Maj@N,還接近了用標(biāo)注測(cè)試數(shù)據(jù)訓(xùn)練的直接 RL 的性能。這一進(jìn)步可能要?dú)w功于 TTRL 使用 RL 進(jìn)行測(cè)試時(shí)間訓(xùn)練:通過將基于投票的偽標(biāo)簽轉(zhuǎn)換為獎(jiǎng)勵(lì),它提高了有效監(jiān)督的質(zhì)量,同時(shí)使學(xué)習(xí)擺脫了 Maj@N 的限制。
2. TTRL 的經(jīng)驗(yàn)上限是在測(cè)試數(shù)據(jù)上進(jìn)行訓(xùn)練(即在測(cè)試數(shù)據(jù)上進(jìn)行訓(xùn)練),這凸顯了它與標(biāo)準(zhǔn)訓(xùn)練評(píng)估協(xié)議相比在功效上的潛在優(yōu)勢(shì)。
3. 對(duì)于具有挑戰(zhàn)性的任務(wù),TTRL 只需使用 1.5B 模型即可達(dá)到經(jīng)驗(yàn)上限。這表明,現(xiàn)在 LLM 可以通過 TTRL 有效地自我進(jìn)化,從而在大規(guī)模數(shù)據(jù)集上實(shí)現(xiàn)無限制的終身學(xué)習(xí)。
TTRL 受 Maj@N 監(jiān)督,卻超越了 Maj@N。圖 6 展示了 TTRL 在 Qwen2.5-Math-7B 上的測(cè)試結(jié)果??梢钥闯觯谒谢鶞?zhǔn)測(cè)試中,TTRL Avg@64 均優(yōu)于 Qwen2.5-Math-7B Maj@64,大大超出預(yù)期。此外,在應(yīng)用多數(shù)表決時(shí),TTRL 的性能也有大幅提升。
TTRL 的「性能增益法」基準(zhǔn)訓(xùn)練,圖 7 展示了結(jié)果。令人驚訝的是,TTRL 的性能曲線非常接近 RL(泄漏)的性能曲線。
Q2:TTRL 為何有效?
這一節(jié)主要分析了 TTRL 在無監(jiān)督條件下實(shí)現(xiàn)穩(wěn)定有效的 RL 的因素,包括兩個(gè)關(guān)鍵方面:標(biāo)簽估計(jì)和獎(jiǎng)勵(lì)計(jì)算。
標(biāo)簽估計(jì)。TTRL 與標(biāo)準(zhǔn) RL 算法的一個(gè)直接區(qū)別是,TTRL 涉及標(biāo)簽估計(jì),而標(biāo)簽估計(jì)會(huì)帶來獎(jiǎng)勵(lì)誤差。研究者認(rèn)為,盡管存在這些誤差,TTRL 仍能正常工作,原因有以下兩點(diǎn):
(i) 現(xiàn)有研究表明,RL 可以容忍一定程度的獎(jiǎng)勵(lì)不準(zhǔn)確性。此外,與通常依賴于記憶訓(xùn)練數(shù)據(jù)的監(jiān)督微調(diào)(SFT)相比,RL 的泛化效果往往更好。在 RL 中,獎(jiǎng)勵(lì)通常是模糊的,主要是作為探索的方向信號(hào),這導(dǎo)致了 RL 對(duì)獎(jiǎng)勵(lì)噪聲的魯棒性。
(ii) 之前的研究還從優(yōu)化的角度研究了什么是好的獎(jiǎng)勵(lì)模型,發(fā)現(xiàn)更準(zhǔn)確的獎(jiǎng)勵(lì)模型不一定是更好的教師。因此,由政策模型本身估計(jì)的獎(jiǎng)勵(lì)信號(hào)可能會(huì)為學(xué)習(xí)提供更合適的指導(dǎo)。
獎(jiǎng)勵(lì)計(jì)算。當(dāng)模型能夠通過多數(shù)投票估算出準(zhǔn)確的標(biāo)簽時(shí),隨后估算出的獎(jiǎng)勵(lì)一般都是可靠的。然而,一個(gè)自然而然的問題出現(xiàn)了:為什么在 AIME 2024 等具有挑戰(zhàn)性的基準(zhǔn)上,即使模型無法估算出準(zhǔn)確的標(biāo)簽,TTRL 仍然有效?
研究者表示,最根本的原因在于 RL 中獎(jiǎng)勵(lì)的定義?;谝?guī)則的獎(jiǎng)勵(lì)是根據(jù)預(yù)測(cè)答案是否與「標(biāo)簽」匹配來分配的。因此,即使估計(jì)的標(biāo)簽不是 ground-truth,只要它與錯(cuò)誤預(yù)測(cè)的答案不同,系統(tǒng)仍可分配正確的「負(fù)」獎(jiǎng)勵(lì)。
為了提供更詳細(xì)的案例研究,研究者在 Qwen2.5-Math-7B 上檢驗(yàn)了 TTRL 在 AIME 2024 上的性能。圖 8 顯示了三個(gè)指標(biāo)的變化曲線。
研究者發(fā)現(xiàn)了 TTRL 在 AIME 2024 上依然有效的兩個(gè)主要原因:
- 首先,獎(jiǎng)勵(lì)比標(biāo)簽更密集,即使估計(jì)的標(biāo)簽不準(zhǔn)確,也有更多機(jī)會(huì)恢復(fù)有用的學(xué)習(xí)信號(hào)。
- 其次,當(dāng)模型能力較弱時(shí),TTRL 給出的獎(jiǎng)勵(lì)可能更準(zhǔn)確。
Q3:TTRL 何時(shí)失效?
在算法層面,TTRL 與現(xiàn)有的 RL 算法并無本質(zhì)區(qū)別,因此繼承了它們的一些特點(diǎn),如對(duì)數(shù)據(jù)難度的敏感性、對(duì)先驗(yàn)的強(qiáng)烈依賴性以及在某些條件下崩潰的風(fēng)險(xiǎn)。
在實(shí)現(xiàn)層面上,這些問題因 TTRL 的限制而進(jìn)一步擴(kuò)大,TTRL 通過多數(shù)投票來估計(jì)標(biāo)簽,并且只在稀疏和以前未見過的測(cè)試數(shù)據(jù)上運(yùn)行,在某些情況下可能會(huì)導(dǎo)致失敗。
在初步實(shí)驗(yàn)中,研究者發(fā)現(xiàn)了兩個(gè)潛在問題:
缺乏對(duì)目標(biāo)任務(wù)的先驗(yàn)知識(shí)。如表 2 所示,研究者發(fā)現(xiàn),隨著問題難度的增加,性能提高率和長度縮減率都呈下降趨勢(shì)。這表明主干系統(tǒng)的可用先驗(yàn)知識(shí)不足以支持對(duì)更具挑戰(zhàn)性問題的學(xué)習(xí)。
不恰當(dāng)?shù)?RL 超參數(shù)。圖 10 比較了在 AIME 2024 上的幾次失敗嘗試。
更多研究細(xì)節(jié),可參考原論文。