只需50美元!最簡單的推理擴(kuò)展方案,效果媲美o1!
這個工作目標(biāo)是,找到一種簡單的方法,可以實(shí)現(xiàn)testtimescalling。關(guān)鍵點(diǎn)有2個,構(gòu)建高質(zhì)量的監(jiān)督數(shù)據(jù)1k,用于監(jiān)督微調(diào);一個BudgetForcing的方法,用于限定模型的推理過程。經(jīng)過這么一折騰,模型的性能隨著推理token數(shù)量變長而編號。如何構(gòu)建高質(zhì)量的1k數(shù)據(jù)初始收集:從16個不同的來源收集了59,029個問題,包括NuminaMATH、AIME、OlympicArena、OmniMath、AGIEval等。最終篩選:通過質(zhì)量、難度和多樣性三個標(biāo)準(zhǔn),從59K個問題中...