???7B的DeepSeek反超R1滿血版,上海AI Lab周伯文團(tuán)隊(duì)新成果:計(jì)算最優(yōu)的Test-Time Scaling
倒反天罡了,新方法讓DeepSeek蒸餾的Qwen數(shù)學(xué)能力反超R1滿血版,7B反超671B。
除此之外,0.5B模型超過GPT-4o,1.5B的DeepSeek蒸餾Qwen超過o1-mini和o1-preview,3B的Llama超過405B的Llama……
這是上海AI Lab/清華哈工大/北郵團(tuán)隊(duì)最新研究成果,通訊作者為齊弼卿和周伯文:
重新思考計(jì)算最優(yōu)的Test-Time Scaling(TTS)
團(tuán)隊(duì)認(rèn)為,盡管TTS在提升語言模型推理能力上取得進(jìn)展,但目前的研究還缺乏對(duì)策略模型、過程獎(jiǎng)勵(lì)模型(PRM)和問題難度等因素影響的系統(tǒng)分析。
因此,該研究聚焦兩個(gè)核心問題:
- 跨不同策略模型、PRM和問題難度,最優(yōu)的TTS方式是什么?
- TTS能在多大程度上提升語言模型在復(fù)雜任務(wù)上的表現(xiàn)?小模型能否超越大模型?
重新思考Test-Time Scaling
為探究這些問題,團(tuán)隊(duì)在MATH-500和AIME24數(shù)學(xué)推理數(shù)據(jù)集上,使用多個(gè)不同規(guī)模的策略模型和PRM,進(jìn)行了全面的實(shí)驗(yàn)評(píng)估。
他們將推理問題建模為馬爾可夫決策過程,定義了狀態(tài)空間、動(dòng)作空間、轉(zhuǎn)移函數(shù)、獎(jiǎng)勵(lì)函數(shù)和折扣因子等元素。
對(duì)于TTS,考慮了Best-of-N、Beam Search和Diverse Verifier Tree Search(DVTS)三種方法。
實(shí)驗(yàn)發(fā)現(xiàn),最優(yōu)的TTS方法高度依賴于具體的策略模型、過程獎(jiǎng)勵(lì)模型(PRM)和問題難度。
對(duì)于小型策略模型,基于搜索的方法優(yōu)于BoN,而對(duì)于大型策略模型相反。
團(tuán)隊(duì)認(rèn)為之所以出現(xiàn)這種差異,是因?yàn)檩^大的模型具有更強(qiáng)的推理能力,并且不需要驗(yàn)證器來執(zhí)行逐步選擇。相比之下,較小的模型依靠驗(yàn)證器來選擇每個(gè)步驟,確保每個(gè)中間步驟的正確性。
對(duì)于過程獎(jiǎng)勵(lì)模型,對(duì)Llama3.1-8B-Instruct使用Skywork和Qwen2.5-Math的PRM時(shí)效果拔群,在MATH-500數(shù)據(jù)集上搜索方法的性能隨計(jì)算預(yù)算增加顯著提升。
而使用Math-Shepherd和RLHFlow的PRMs時(shí)效果不佳甚至不如多數(shù)投票。
對(duì)于問題難度,參數(shù)少于7B的小型策略模型,BoN更適合于簡(jiǎn)單的問題,而Beam Search更適合于更難的問題。
參數(shù)在7B-32B的策略模型,DVTS在簡(jiǎn)單和中等問題上表現(xiàn)良好,而Beam Search對(duì)于困難問題更有效。
另外在72B參數(shù)的策略模型上,BoN是所有難度級(jí)別的最佳方法。
因此,團(tuán)隊(duì)提出了一個(gè)更通用的獎(jiǎng)勵(lì)感知型最優(yōu)計(jì)算TTS框架,確保TTS計(jì)算能適應(yīng)特定的策略模型、提示和獎(jiǎng)勵(lì)函數(shù)。
利用獎(jiǎng)勵(lì)感知型最優(yōu)TTS框架,在MATH-500和AIME24上取得了如下結(jié)果:
3B的Llama3.2超越135倍大的Llama3.1-405B,與之前的TTS研究(超越23倍大的模型)相比,改善了487%。
DeepSeek-R1-Distill-Qwen-7B超過了OpenAI-o1(參數(shù)量未知)和DeepSeek-R1(671B)。
甚至0.5B和1.5B的小模型也展現(xiàn)出了與GPT-4o、o1-preview等專門的推理模型媲美的表現(xiàn)。
研究還比較了最優(yōu)TTS和目前流行的基于長(zhǎng)CoT的方法。
結(jié)果表明,TTS在MATH-500和AIME2024上優(yōu)于多數(shù)長(zhǎng)CoT方法。
然而,雖然TTS在MATH-500上的性能接近DeepSeek-R1-Distill-Qwen-7B,但在AIME24上卻顯示出顯著的下降。
這說明TTS在相對(duì)簡(jiǎn)單任務(wù)上優(yōu)勢(shì)明顯,但在更復(fù)雜的任務(wù)上則遜色于從超大規(guī)模模型蒸餾得到模型,還有提升空間。
最后,團(tuán)隊(duì)提出研究真正的 “從弱到強(qiáng)” 方法而不是當(dāng)前 “從強(qiáng)到弱” 的策略優(yōu)化監(jiān)督機(jī)制的重要性。
未來的工作應(yīng)側(cè)重于開發(fā)更具適應(yīng)性和通用性的監(jiān)督機(jī)制,以提高小語言模型在復(fù)雜任務(wù)上的性能,并為開發(fā)有效的推理策略提供新方法。
目前的工作對(duì)數(shù)學(xué)任務(wù)上的TTS做了全面評(píng)估,但仍有一些局限性和未來方向需要探索:比如將TTS擴(kuò)展到更多任務(wù),例如代碼和化學(xué),以及探索更高效的計(jì)算最優(yōu)TTS方法。