自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

16張H100訓(xùn)26分鐘，超越o1-preview！李飛飛等用1K樣本，揭秘測試時Scaling

作者：新智元 2025-02-06 14:28:16

人工智能新聞

大模型推理性能的提升，真的只能靠堆數(shù)據(jù)、加算力嗎？李飛飛等用僅1000個樣本微調(diào)模型，并提出預(yù)算強制（budget forcing）技術(shù)，成功讓推理能力隨測試計算量增加而提升。他們的s1-32B模型在多個基準(zhǔn)測試中超越閉源模型OpenAI o1-preview，成為目前最具樣本效率的推理模型。

OpenAI o系列模型為何性能如此強大？

OpenAI將他們的方法描述為使用大規(guī)模強化學(xué)習(xí)（RL），暗示使用了大量的數(shù)據(jù)。

最近大火的DeepSeek-R1模型也通過使用數(shù)百萬個樣本和多個訓(xùn)練階段使用強化學(xué)習(xí)的方式，成功地達到了o1級別的性能。

然而，至今為止沒有人公開成功復(fù)現(xiàn)清晰的測試時擴展行為。

那么問題來了，實現(xiàn)測試時擴展和強推理性能的最簡單方法是什么？

近日，來自斯坦福大學(xué)、華盛頓大學(xué)、Ai2等機構(gòu)的研究人員發(fā)表了一篇題為「s1: Simple test-time scaling」的論文，回答了上述問題。

論文地址：https://arxiv.org/pdf/2501.19393

團隊證明，僅使用1000個樣本進行下一個token的預(yù)測訓(xùn)練，并在測試時通過一種簡單的預(yù)算強制（budget forcing）技術(shù)來控制思維持續(xù)時間，就能獲得一個強大的推理模型，其性能隨著測試計算量的增加而提升。

預(yù)算強制（budget forcing）可以簡單理解為通過強制提前結(jié)束模型的思考過程，或通過重復(fù)添加「Wait」來延長思考時間，從而影響模型的推理深度和最終答案。

這種方法可以引導(dǎo)模型進行自我檢查，并修正推理過程中的錯誤，從而提高推理性能。

具體來說，他們構(gòu)建了一個叫做「s1K」的數(shù)據(jù)集，由1000個精心篩選的問題組成，每個問題都配有推理軌跡（reasoning traces）和從Gemini Thinking Experimental蒸餾而來的答案。

接著團隊在一個預(yù)訓(xùn)練模型上進行監(jiān)督微調(diào)（SFT），僅使用16張H100 GPU訓(xùn)練26分鐘。

訓(xùn)練完成后，使用預(yù)算強制（budget forcing）方法來控制模型在測試時的計算量：

若模型生成的推理token超過設(shè)定的上限，則強制結(jié)束推理過程，并附加思維結(jié)束（end-of-thinking）token，促使模型進入答案生成階段。
若希望模型在問題上投入更多測試時計算資源，則抑制思維結(jié)束token的生成，并在推理軌跡中追加「Wait」，鼓勵模型進行更深入的推理探索。

基于這個簡單的方法，并在1000個樣本上進行SFT訓(xùn)練 + 測試時的預(yù)算強制（budget forcing）后，團隊提出的s1-32B展現(xiàn)出了測試時擴展（test-time scaling）的能力。

此外，s1-32B也是目前最具樣本效率（sample-efficient）的推理模型，在推理能力上超越了OpenAI的o1-preview等閉源模型。

如何創(chuàng)建s1K數(shù)據(jù)集

s1K數(shù)據(jù)集是一個包含1000個高質(zhì)量推理問題的精選數(shù)據(jù)集。

團隊創(chuàng)建過程主要分為兩個階段。

初始階段，研究人員從16個不同的來源收集了59029個問題，并遵循三個指導(dǎo)原則：質(zhì)量、難度和多樣性。

這些來源包括現(xiàn)有的數(shù)學(xué)問題數(shù)據(jù)集（如 NuminaMATH、AIME、OmniMath 和 AGIEval），以及研究人員自己創(chuàng)建的概率問題集 (s1-prob) 和腦筋急轉(zhuǎn)彎問題集 (s1-teasers)。

為了確保質(zhì)量，研究人員檢查了所有樣本，并忽略了格式不佳的數(shù)據(jù)集。為了增加難度，他們選擇需要大量推理努力的問題。為了確保多樣性，他們涵蓋了不同的領(lǐng)域和推理任務(wù).

第二階段，最終篩選1K樣本。研究人員通過三個階段的過濾，從59K樣本中篩選出1000個樣本，并繼續(xù)依賴質(zhì)量、難度和多樣性這三個原則。

通過這些過程，研究人員創(chuàng)建了s1K數(shù)據(jù)集，該數(shù)據(jù)集包含50個不同領(lǐng)域的1000個高質(zhì)量、多樣化和高難度的問題，并附帶推理過程。

這個數(shù)據(jù)集對于訓(xùn)練s1-32B模型至關(guān)重要。

測試時擴展方法

其核心思想是通過在測試時增加計算量來提高語言模型的性能。

論文將測試時擴展方法分為兩類：順序（Sequential）和并行（Parallel）。

順序擴展是指后面的計算依賴于前面的計算，例如長的推理過程；并行擴展是指計算是獨立運行的，例如多數(shù)投票。

論文主要關(guān)注順序擴展，因為作者認為它可以更好地利用中間結(jié)果進行更深入的推理和迭代改進。

預(yù)算強制（Budget Forcing）：通過限制模型在測試時使用的最大和/或最小思考token數(shù)量來控制計算量。

論文通過實驗證明了，這種簡單的方法能夠引導(dǎo)模型修正答案。

下圖這個例子中，模型最初在回答一個關(guān)于「raspberry」中「r」的數(shù)量的問題時給出了錯誤的答案「2」。

然而，通過抑制結(jié)束思考的token生成，并追加「Wait」來強制模型繼續(xù)推理，模型最終意識到自己快速閱讀導(dǎo)致了錯誤，并最終給出了正確的答案「3」。

測試時擴展方法

如下圖所示，s1-32B模型在使用預(yù)算強制技術(shù)后，其性能會隨著測試時計算量的增加而提高。

具體來說，通過增加模型思考的token數(shù)量（例如，通過追加「Wait」），模型在 AIME24 基準(zhǔn)測試上的表現(xiàn)得到了提升。

然而，這種提升最終會趨于平緩，過度抑制結(jié)束思考的token會導(dǎo)致模型進入重復(fù)循環(huán)。

結(jié)果表明，s1-32B模型是目前樣本效率最高的開源推理模型。盡管只使用了1000個樣本進行微調(diào)，s1-32B的性能仍明顯優(yōu)于其基礎(chǔ)模型Qwen2.5-32B-Instruct。

同時，雖然DeepSeek r1-32B模型性能更強，但其使用了800倍的訓(xùn)練樣本。

此外，s1-32B模型在AIME24上的表現(xiàn)幾乎與Gemini 2.0 Thinking API持平，表明其蒸餾過程是有效的。

總之，實驗結(jié)果證明了s1-32B模型在測試時擴展、樣本效率和推理能力方面的優(yōu)勢，并驗證了預(yù)算強制技術(shù)的有效性。

消融實驗

數(shù)據(jù)消融實驗：研究人員通過以下對比實驗，驗證了高質(zhì)量、多樣性、和難度這三個數(shù)據(jù)選擇標(biāo)準(zhǔn)的重要性：

僅質(zhì)量 (1K-random)：隨機選取1000個高質(zhì)量樣本，性能明顯低于s1K，表明難度和多樣性過濾的重要性。
僅多樣性 (1K-diverse)：均勻選取各個領(lǐng)域樣本，性能也遠不如s1K，表明只關(guān)注多樣性是不夠的。
僅難度 (1K-longest)：選擇推理軌跡最長的1000個樣本，在GPQA上有提升，但整體不如s1K，表明難度只是一個方面。
最大化數(shù)據(jù)量 (59K-full)：使用所有59K樣本訓(xùn)練，雖然性能略有提升，但訓(xùn)練資源消耗巨大，且提升幅度有限，說明精心挑選的少量數(shù)據(jù)比大量數(shù)據(jù)更高效。

結(jié)果表明，將質(zhì)量、難度和多樣性相結(jié)合是實現(xiàn)樣本高效推理訓(xùn)練的關(guān)鍵。

測試時擴展方法消融實驗：研究人員通過比較不同的測試時擴展方法，驗證了預(yù)算強制的優(yōu)越性：

Token/步驟/類別條件控制 (TCC/SCC/CCC)：這些方法都無法有效控制計算量或獲得良好的擴展效果，表明僅在提示中告知模型計算量或步驟是不足的。
拒絕采樣 (RS)：使用拒絕采樣會導(dǎo)致性能隨著計算量的增加而下降，因為更短的生成往往是模型一開始就走在正確軌道上的結(jié)果。
預(yù)算強制 (BF)：實驗表明，預(yù)算強制在控制性、擴展性和性能方面都優(yōu)于其他方法。
在預(yù)算強制中，追加「Wait」能夠鼓勵模型進行額外的思考，從而提高性能。

下圖展示了在AIME24數(shù)據(jù)集上使用s1-32B模型進行拒絕采樣（rejection sampling）的實驗結(jié)果，結(jié)果表明，隨著平均思考時間（以token數(shù)量衡量）的增加，模型的準(zhǔn)確率反而下降，呈現(xiàn)出反向擴展趨勢。

更長的推理過程并不一定意味著更好的性能。這一結(jié)果也反襯了論文提出的預(yù)算強制方法（budget forcing）的優(yōu)越性，因為預(yù)算強制可以更有效地控制測試時的計算量，并促使模型進行更有目的性的思考。

實驗結(jié)果表明，預(yù)算強制是測試時擴展的最佳方法。

總結(jié)

盡管很多模型，例如DeepSeek-r1和k1.5，通過強化學(xué)習(xí)或使用數(shù)萬個蒸餾樣本來構(gòu)建強大的推理模型。

但該研究表明，僅需在1000個樣本上進行監(jiān)督微調(diào) (SFT) 就足以構(gòu)建一個具有競爭力的推理模型，該模型可以與 OpenAI的o1-preview相媲美。

李飛飛團隊研究人員認為，預(yù)訓(xùn)練階段模型已經(jīng)接觸了大量的推理數(shù)據(jù)，因此微調(diào)階段只需少量樣本就能激活模型的推理能力，這與LIMA論文中提出的表面「對齊假說」類似。

論文提出的預(yù)算強制 (budget forcing) 是一種簡單有效的順序擴展方法，它通過控制模型思考的token數(shù)量來提高性能，并首次復(fù)現(xiàn)了OpenAI的測試時擴展曲線。

盡管預(yù)算強制有其局限性，例如最終會趨于平緩和受上下文窗口的限制，但它證明了測試時擴展的潛力，并為未來的研究提供了明確的指標(biāo)：可控性、擴展性和性能。

為了克服順序擴展的局限性，論文還探討了并行擴展方法，如多數(shù)投票和基于REBASE的樹搜索（下圖）。實驗結(jié)果表明，將順序擴展與并行擴展方法相結(jié)合，還可以進一步擴展測試時的計算量。

未來方向

論文強調(diào)，未來的研究可以探索如何進一步改進預(yù)算強制，例如輪換使用不同的字符串或結(jié)合頻率懲罰。

一個有前景的方向是將預(yù)算強制應(yīng)用于通過強化學(xué)習(xí)訓(xùn)練的推理模型，并研究新的測試時擴展方法。

此外，可以研究如何進一步擴展測試時的計算量，以克服現(xiàn)有語言模型上下文窗口的限制。

責(zé)任編輯：張燕妮來源：新智元

模型訓(xùn)練數(shù)據(jù)

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<cite id="r5jew"></cite>
<style id="r5jew"></style>

<sub id="r5jew"></sub>

<sub id="r5jew"></sub>

<em id="r5jew"></em>

<style id="r5jew"></style>