小而美!1B模型如何通過測試時優(yōu)化逆襲405B LLM?
今天分享一篇來自上海人工智能實(shí)驗(yàn)室、清華大學(xué)、哈爾濱工業(yè)大學(xué)和北京郵電大學(xué)聯(lián)合的一篇文章,標(biāo)題是:Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling(1B 的 LLM 能否超越 405B 的 LLM?重新思考計算最優(yōu)的測試時縮放)。
這篇文章研究了大型語言模型(LLMs)在「推理階段通過增加計算量來提高性能的測試時縮放」(Test-Time Scaling, TTS)方法。作者們「系統(tǒng)地分析了策略模型、過程獎勵模型(PRMs)和問題難度如何影響 TTS」,并提出了兩個核心問題:「(1) 在不同的策略模型、PRMs 和問題難度水平下,擴(kuò)展測試時計算的最佳方法是什么?(2) 擴(kuò)展計算能在多大程度上提高 LLMs 在復(fù)雜任務(wù)上的性能,以及較小的語言模型是否能通過這種方法超越較大的模型?」
該方法的主要特點(diǎn)包括:
- 「全面評估」:對不同的 TTS 方法進(jìn)行了全面的評估,使用了各種最新的策略模型、多個 PRMs、不同的縮放方法和更具挑戰(zhàn)性的任務(wù)。
- 「獎勵感知」:強(qiáng)調(diào)了在 TTS 過程中考慮獎勵的必要性,并引入了獎勵感知的計算最優(yōu) TTS。
- 「小模型潛力」:實(shí)證結(jié)果表明,較小的語言模型通過 TTS 有可能超越較大的模型。
一、概述
- 「Title:」Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling
- 「URL:」??https://arxiv.org/abs/2502.06703v1??
- 「Authors:」Runze Liu, Junqi Gao, Jian Zhao, Kaiyan Zhang, Xiu Li, Biqing Qi, Wanli Ouyang, Bowen Zhou
- 「Code:」??https://ryanliu112.github.io/compute-optimal-tts??
1 Motivation
- 當(dāng)前測試時間縮放(TTS)的研究缺乏對策略模型、過程獎勵模型(PRM)和問題難度如何影響TTS的系統(tǒng)分析,限制了對TTS方法理解和實(shí)際應(yīng)用。
- 如何在不同的策略模型、PRM和問題難度級別上優(yōu)化測試時間計算的縮放方法?
- 擴(kuò)展計算能在多大程度上提高LLM在復(fù)雜任務(wù)上的性能,以及小模型是否可以通過這種方法超越大模型?
2 Methods
「省流版總結(jié):」
本文提出了一種計算最佳的TTS策略,通過綜合實(shí)驗(yàn)分析了策略模型、PRM和問題難度對TTS的影響。實(shí)驗(yàn)使用了MATH-500和AIME24數(shù)據(jù)集,以及不同大小的Llama 3和Qwen2.5模型。研究發(fā)現(xiàn),計算最佳的TTS策略高度依賴于策略模型、PRM和問題難度的選擇。
- 「問題建模」: 將推理問題建模為馬爾可夫決策過程 (MDP)。
- 「測試時縮放方法」: 考慮了三種 TTS 方法:Best-of-N (BoN), Beam Search, 和 Diverse Verifier Tree Search (DVTS) 。
- 「計算最優(yōu)的測試時縮放」: 選擇超參數(shù)以最大化給定測試時策略的性能。
- 「Reward-Aware Compute-Optimal TTS:」將獎勵集成到計算最優(yōu)的 TTS 策略中,形成更通用的框架。
「詳細(xì)方法和步驟:」
論文通過以下步驟詳細(xì)闡述了其方法:
- 「問題形式化」:
將推理問題定義為馬爾可夫決策過程(MDP),包括狀態(tài)空間、動作空間、轉(zhuǎn)移函數(shù)、獎勵函數(shù)和折扣因子。
策略根據(jù)當(dāng)前狀態(tài)生成動作,狀態(tài)根據(jù)動作進(jìn)行轉(zhuǎn)移,并獲得獎勵。
目標(biāo)是找到最優(yōu)策略,最大化累積獎勵。
- 「測試時縮放方法」:
特征 | Best-of-N (BoN) | Beam Search | Diverse Verifier Tree Search (DVTS) |
核心思想 | 生成多個獨(dú)立響應(yīng),選擇最優(yōu) | 逐步擴(kuò)展候選序列,擇優(yōu)保留 | 多樣性搜索,并行探索多個子樹 |
生成方式 | 一次性生成N個完整響應(yīng) | 逐步生成,每步選擇Top N個擴(kuò)展 | 分成多個子樹并行Beam Search |
選擇標(biāo)準(zhǔn) | PRM評分、投票等 | 驗(yàn)證器(PRM)評分 | 驗(yàn)證器(PRM)評分 |
計算量 | 與N成正比 | 每步計算量與Beam Width成正比 | 計算量較大,與子樹數(shù)量和Beam Width相關(guān) |
優(yōu)點(diǎn) | 實(shí)現(xiàn)簡單,易于并行 | 逐步優(yōu)化,效果通常優(yōu)于BoN | 探索多樣性,避免局部最優(yōu) |
缺點(diǎn) | 缺乏探索性,易受初始生成質(zhì)量影響 | 容易陷入局部最優(yōu) | 計算量大,實(shí)現(xiàn)復(fù)雜 |
適用場景 | 簡單任務(wù),計算資源有限 | 中等復(fù)雜度任務(wù) | 復(fù)雜任務(wù),需要多樣性探索 |
- 「Best-of-N (BoN)」:策略模型生成 N 個響應(yīng),然后應(yīng)用評分和投票方法選擇最終答案。
- 「Beam Search」:給定束寬 N 和束大小 M,策略模型首先生成 N 個步驟。驗(yàn)證器選擇最佳的 N/M 個步驟進(jìn)行后續(xù)搜索。下一步,策略模型對每個選定的先前步驟采樣 M 個步驟。此過程重復(fù),直到達(dá)到最大深度或生成標(biāo)記。
- 「Diverse Verifier Tree Search (DVTS)」:通過將搜索過程劃分為 N 個子樹來擴(kuò)展 Beam Search,每個子樹使用 Beam Search 獨(dú)立探索。
「目標(biāo):」 這個公式旨在找到一個最優(yōu)的測試時計算縮放策略(compute-optimal test-time scaling strategy),簡單來說就是「怎么用最合理的計算資源,讓模型在推理的時候表現(xiàn)最好」。
「符號說明:」
「公式含義:」
提出了一個測試時計算最優(yōu)縮放策略,該策略選擇超參數(shù)以最大化給定測試時策略在特定提示上的性能收益。
「符號說明 (與公式2對比):」
「公式含義:」
「公式3與公式2的區(qū)別:」
- 提出應(yīng)將獎勵整合到計算最優(yōu) TTS 策略中。
- 「絕對問題難度標(biāo)準(zhǔn)」:
- 使用絕對閾值而不是分位數(shù)來衡量問題難度。
- 基于 Pass@1 準(zhǔn)確率定義了三個難度級別:easy (50% ~ 100%)、medium (10% ~ 50%) 和 hard (0% ~ 10%)。
3 Conclusion
- 計算最佳的「TTS策略高度依賴于策略模型、PRM和問題難度的選擇。」
- 通過「計算最佳的TTS策略,極小的策略模型可以勝過更大的模型。例如,一個1B的LLM可以在MATH-500上超過一個405B的LLM?!?/strong>
- 實(shí)驗(yàn)結(jié)果表明,「與CoT和多數(shù)投票相比,計算最佳的TTS可以提高LLM的推理性能。」
4 Limitation
- 將TTS擴(kuò)展到更多任務(wù),如編碼和化學(xué)任務(wù)。
- 探索更有效的計算最佳TTS方法。
二、詳細(xì)內(nèi)容
1 獎勵會顯著影響生成的過程和結(jié)果
image-20250216224908584
說明:
- RLHFlow-PRM-Mistral-8B對短響應(yīng)給予高獎勵,卻產(chǎn)生了錯誤的答案;
- 使用RLHFlow-Deepseek-PRM-8B進(jìn)行搜索雖然產(chǎn)生正確答案,但使用了更多token。
結(jié)論:獎勵應(yīng)該被整合到計算最優(yōu)的TTS策略中。
2 PRM的過程監(jiān)督能力是決定其在TTS中性能的關(guān)鍵因素
image-20250216225517615
說明:PRM的過程監(jiān)督能力越強(qiáng),其在TTS中通常能帶來更好的性能。
結(jié)論:應(yīng)該注重提高PRM的過程監(jiān)督能力,而不僅僅是增加參數(shù)量。
3 策略模型大小對TTS參數(shù)的影響
image-20250216225948348
說明:使用了Qwen2.5系列的不同大小LLM(從0.5B到72B)進(jìn)行實(shí)驗(yàn),分析最優(yōu)TTS參數(shù)。
結(jié)論:
- 小型策略模型:基于搜索的方法優(yōu)于BoN3。對于大型策略模型,BoN比基于搜索的方法更有效。
- 最優(yōu)的TTS方法依賴于策略模型的大小,在選擇TTS方法時需要考慮模型的推理能力。
4 題目難度對TTS參數(shù)的影響
image-20250216230308416
結(jié)論:
- 「小規(guī)模策略模型(參數(shù)少于7B)」:BoN在簡單問題上表現(xiàn)更好,而束搜索更適合解決較難問題。
- 「中等規(guī)模策略模型(參數(shù)7B至32B)」:DVTS在簡單和中等問題上表現(xiàn)優(yōu)異,束搜索則在困難問題上更具優(yōu)勢。
- 「大規(guī)模策略模型(參數(shù)72B)」:BoN在所有難度級別上均為最佳選擇。
5 小模型在TTS加持下可以擊敗例如DeepSeek-R1, O1, GPT-4o等模型
結(jié)論:
- 1B模型在TTS加持下能超過405B的模型。
- TTS加持下,DeepSeek-R1蒸餾系列的模型(1.5B和7B模型)能超過DeepSeek-R1。
6 TTS最優(yōu)相對COT能顯著提升推理能力同時提高效率
結(jié)論:
- 對于推理能力較弱的模型,Scaling測試時計算會帶來顯著改進(jìn);
- 而對于推理能力較強(qiáng)的模型,提升效果則較為有限。
7 TTS比RL或者SFT加持更有效但是比不過R1蒸餾的模型
三、總結(jié)
本文對計算最優(yōu)的測試時縮放進(jìn)行了深入的實(shí)證分析,從不同的策略模型、PRMs 和更具挑戰(zhàn)性的評估任務(wù)的角度出發(fā)。研究結(jié)果「驗(yàn)證了較小的語言模型在應(yīng)用計算最優(yōu) TTS 時可以表現(xiàn)得比更大的模型更好?!?/strong> 結(jié)果表明,一個 1B 模型可以通過 TTS 實(shí)現(xiàn)比 405B 模型更好的性能。此外,還證明了一個 7B PRM 可以通過監(jiān)督一個更有能力的 72B 策略模型來實(shí)現(xiàn)強(qiáng)大的 TTS 結(jié)果,這表明了研究真正的“弱到強(qiáng)”方法的重要性,而不是目前用于策略優(yōu)化的“強(qiáng)到弱”監(jiān)督。為了實(shí)現(xiàn)這一目標(biāo),需要開發(fā)更有效的監(jiān)督方法,因?yàn)榛?PRM 和基于 RL 的方法由于依賴于高質(zhì)量的監(jiān)督而存在局限性。未來的工作應(yīng)側(cè)重于開發(fā)更具適應(yīng)性和通用性的監(jiān)督機(jī)制,以提高小型語言模型在復(fù)雜任務(wù)上的性能,并提供開發(fā)高效推理策略的新方法。
「結(jié)論1:」 通過自適應(yīng)地調(diào)整測試時計算量,「小規(guī)模語言模型在特定任務(wù)上可以達(dá)到甚至超過大規(guī)模模型的性能,實(shí)現(xiàn)了更高的效率。」
「結(jié)論2:」 最佳的「測試時計算縮放策略高度依賴于所使用的策略模型、過程獎勵模型(PRM)以及問題的難度。」 這意味著沒有一種通用的TTS策略適用于所有情況,需要根據(jù)具體任務(wù)和模型進(jìn)行調(diào)整。
「結(jié)論3:」 本文通過實(shí)證分析揭示了「計算最佳TTS策略的依賴性,強(qiáng)調(diào)了在實(shí)際應(yīng)用中考慮獎勵信息的重要性」,并為未來的研究方向提供了指導(dǎo)。
本文轉(zhuǎn)載自 ??NLP PaperWeekly??,作者: NLP PaperWeekly
