自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

讓Qwen2.5 7B超越o1,微軟干的!MSRA推出小模型數(shù)學(xué)推理自我進(jìn)化新方法

人工智能 新聞
通過(guò)代碼增強(qiáng)CoT、蒙特卡洛樹(shù)搜索(MCTS)等,rStar-Math能讓小·大模型在不依賴蒸餾教師模型的情況下,通過(guò)多輪自我進(jìn)化的深度思維,掌握數(shù)學(xué)推理。

7B參數(shù)的Qwen2.5數(shù)學(xué)推理表現(xiàn)超過(guò)o1-preview,這是怎么做到的?!

靠的就是MSRA最新的創(chuàng)新算法,rStar-Math。

通過(guò)代碼增強(qiáng)CoT、蒙特卡洛樹(shù)搜索(MCTS)等,rStar-Math能讓小·大模型在不依賴蒸餾教師模型的情況下,通過(guò)多輪自我進(jìn)化的深度思維,掌握數(shù)學(xué)推理。

圖片

并且戰(zhàn)功赫赫:

在美國(guó)數(shù)學(xué)競(jìng)賽AIME 2024測(cè)試中,rStar-Math平均解決了53.3%的難題(OpenAI o1-preview為44.6%),打敗所有其它開(kāi)源大模型,一舉成為最聰明的高中生數(shù)學(xué)top20%。

在MATH基準(zhǔn)測(cè)試中,rStar-Math將阿里開(kāi)源大模型Qwen2.5-Math-7B的準(zhǔn)確率,從58.8%拉升到90.0%;Qwen2.5-Math-1.5B的準(zhǔn)確率從51.2%拉升到87.8%;Phi3-mini-3.8B的準(zhǔn)確率從41.4%提高到86.4%

——這些成績(jī)?nèi)咳砍^(guò)了OpenAI o1-preview。

就說(shuō)牛不牛吧!

小聲說(shuō),微軟最近有一股在小·大模型圈子里重拳出擊的態(tài)勢(shì):昨天剛開(kāi)源了目前最強(qiáng)的小·大模型,14B的phi-4;今天又推出了rStar-Math,論文中直指其面向小語(yǔ)言模型(SLM)

這個(gè)趨勢(shì)剛有點(diǎn)苗頭,立刻引得全網(wǎng)討論連連。

有網(wǎng)友不禁開(kāi)始猜測(cè):

咱就是說(shuō),有沒(méi)有一種可能,在固定計(jì)算預(yù)算的情況下,小·大模型其實(shí)在某些推理問(wèn)題上,它就是搶過(guò)大模型呢?

圖片

rStar - Math怎么做到的?

Let’s 提問(wèn):

讓小語(yǔ)言模型能和o1的數(shù)學(xué)推理能力相媲美甚至超越,且無(wú)需從高級(jí)教師模型中蒸餾,它怎么做到的?

MSRA在論文中表示,這是通過(guò)蒙特卡洛樹(shù)搜索(MCTS)進(jìn)行深度思考來(lái)實(shí)現(xiàn)的,并且,其中一個(gè)數(shù)學(xué)策略小模型在基于小模型的過(guò)程獎(jiǎng)勵(lì)模型的指導(dǎo)下執(zhí)行測(cè)試時(shí)搜索。

圖片

目前,業(yè)界普遍依賴自然語(yǔ)言生成的推理步驟來(lái)提升數(shù)學(xué)推理模型的能力。

這種方法很直給,但其關(guān)鍵在于訓(xùn)練一個(gè)強(qiáng)大的策略模型來(lái)生成解決方案步驟,還需要訓(xùn)練一個(gè)可靠的獎(jiǎng)勵(lì)模型來(lái)進(jìn)行準(zhǔn)確評(píng)估。

然而上述兩個(gè)模型都依賴于高質(zhì)量的訓(xùn)練數(shù)據(jù)。

眾所周知的壞消息是,高質(zhì)量的數(shù)學(xué)推理數(shù)據(jù)在現(xiàn)在是非常非常稀缺的,同時(shí)高質(zhì)量的合成數(shù)據(jù)也存在一定bug。

而且實(shí)驗(yàn)過(guò)程表明,它容易造成許多不相關(guān)、不必要的步驟,或產(chǎn)生錯(cuò)誤。

當(dāng)這種浪費(fèi)和失誤出現(xiàn)在復(fù)雜的數(shù)學(xué)問(wèn)題中時(shí),一般很難被察覺(jué)。

現(xiàn)有的辦法,比如基于蒸餾的數(shù)據(jù)合成方法來(lái)訓(xùn)練策略模型(如擴(kuò)大GPT-4蒸餾的CoT數(shù)據(jù)),已經(jīng)明顯的出現(xiàn)回報(bào)遞減,且最終展現(xiàn)的能力無(wú)法超過(guò)其他教師模型。

與此同時(shí),截至今天,訓(xùn)練可靠的PRM(Process Reward Model,過(guò)程獎(jiǎng)勵(lì)模型)進(jìn)行數(shù)學(xué)推理仍然是一個(gè)懸而未決的問(wèn)題。

MSRA此次推出的rStar-Math,就引入了三項(xiàng)創(chuàng)新方法,來(lái)應(yīng)對(duì)訓(xùn)練兩個(gè)小模型的挑戰(zhàn):

  • 代碼增強(qiáng)CoT數(shù)據(jù)合成方法
  • 過(guò)程獎(jiǎng)勵(lì)模型訓(xùn)練方法
  • 四輪自我思維深度進(jìn)化

咱展開(kāi)來(lái)說(shuō)說(shuō)~

代碼增強(qiáng)CoT數(shù)據(jù)合成方法

rStar-Math選擇使用代碼增強(qiáng)CoT來(lái)解決上述難題。

該方法執(zhí)行廣泛的MCTS部署,從而生成具有自我注釋的MCTS Q值的逐步驗(yàn)證推理軌跡。

具體來(lái)說(shuō),一個(gè)數(shù)學(xué)問(wèn)題的求解,會(huì)在MCTS內(nèi)被分解為多步生成。

模型在生成每一步推理時(shí),作為策略模型的哪個(gè)SLM會(huì)對(duì)候選節(jié)點(diǎn)進(jìn)行采樣,不僅生成這一步的CoT思維臉解釋?zhuān)€生成相對(duì)應(yīng)的Python代碼。

為了驗(yàn)證生成質(zhì)量,只有成功執(zhí)行Python代碼的節(jié)點(diǎn)才會(huì)被保留,從而減少中間步驟的錯(cuò)誤,確保每一步推理的正確性。

圖片

在此基礎(chǔ)上,為了進(jìn)一步確保推理步驟的質(zhì)量,rStar-Math使用了MCTS來(lái)生成逐步推理軌跡(用來(lái)分解復(fù)雜的數(shù)學(xué)問(wèn)題為多個(gè)單步生成任務(wù))。

大量的MCTS回滾會(huì)根據(jù)每個(gè)中間步驟對(duì)最終正確答案的貢獻(xiàn),自動(dòng)為其分配一個(gè)Q值。

有助于產(chǎn)生更多導(dǎo)致正確答案的軌跡的步驟將被賦予更高的Q值,并被認(rèn)為具有更高的質(zhì)量。

這確保了SLM生成的推理軌跡,是由正確、高質(zhì)量的中間步驟組成的。

過(guò)程獎(jiǎng)勵(lì)模型訓(xùn)練方法

現(xiàn)階段,多數(shù)大模型在解決推理數(shù)學(xué)問(wèn)題時(shí),都面臨一個(gè)問(wèn)題:

無(wú)法無(wú)法提供細(xì)粒度的步驟級(jí)反饋,以幫助其在推理過(guò)程中做出更優(yōu)的選擇。

盡管使用了廣泛的MCTS部署,仍會(huì)出現(xiàn)Q值不夠精確的情況,這就導(dǎo)致無(wú)法對(duì)每個(gè)推理步驟進(jìn)行評(píng)分。

為此,rStar-Math通過(guò)引入用于訓(xùn)練充當(dāng)過(guò)程偏好模型(PPM,Process Preference Model)的SLM,來(lái)可靠地為每個(gè)數(shù)學(xué)推理步驟預(yù)測(cè)獎(jiǎng)勵(lì)標(biāo)簽。

PPM的核心思想,是通過(guò)構(gòu)建步驟級(jí)的正負(fù)偏好對(duì)來(lái)訓(xùn)練模型,而不是直接依賴于精確的步驟級(jí)評(píng)分。

它根據(jù)Q值為每個(gè)步驟構(gòu)建偏好對(duì),并使用成對(duì)排名損失來(lái)優(yōu)化PPM對(duì)每個(gè)推理步驟的分?jǐn)?shù)預(yù)測(cè),實(shí)現(xiàn)可靠的標(biāo)記。

如上所述,Q值雖然不精準(zhǔn)、含噪聲,但PPM可以利用它,可靠地區(qū)分正(正確)步驟和負(fù)(不相關(guān) / 錯(cuò)誤)步驟。

四輪自我思維深度進(jìn)化

由于SLM能力較大模型更弱,團(tuán)隊(duì)設(shè)計(jì)了四輪自我思維深度進(jìn)化,以逐步生成更高質(zhì)量的數(shù)據(jù),并通過(guò)更具挑戰(zhàn)性的數(shù)學(xué)問(wèn)題擴(kuò)展訓(xùn)練集。

值得注意的是,團(tuán)隊(duì)首先選擇了一個(gè)包含747k個(gè)數(shù)學(xué)問(wèn)題的開(kāi)源數(shù)據(jù)集。

但在每一輪中,研究團(tuán)隊(duì)沒(méi)有使用747k數(shù)學(xué)數(shù)據(jù)集中的原始解決方案,而是進(jìn)行了廣泛的MCTS部署——

四輪中的每一輪,都使用MCTS生成逐步驗(yàn)證的推理軌跡,然后將其用于訓(xùn)練新策略SLM和PPM;然后又在下一輪中應(yīng)用新模型,以生成更高質(zhì)量的訓(xùn)練數(shù)據(jù)。

圖片

四輪自我思維深度進(jìn)化具體如下。

第一輪:

通過(guò)監(jiān)督微調(diào)對(duì)基礎(chǔ)模型進(jìn)行初步改進(jìn),為后續(xù)的自我進(jìn)化奠定基礎(chǔ)。

改進(jìn)后的模型表示為SLM-r1。

如表2所示,研究人員使用DeepSeek-Coder-V2-Instruct (236B)運(yùn)行MCTS來(lái)收集SFT數(shù)據(jù)。

由于本輪沒(méi)有可用的獎(jiǎng)勵(lì)模型,研究者對(duì)Q值使用終端引導(dǎo)的注釋?zhuān)CTS限制為8次推出,以提高效率。

為了獲得正確的解決方案,團(tuán)隊(duì)選擇具有最高平均Q值的前2條軌跡作為SFT數(shù)據(jù)。

同時(shí),團(tuán)隊(duì)在這一輪中也訓(xùn)練了PPM-r1。

這一輪的關(guān)鍵在于生成高質(zhì)量的初始訓(xùn)練數(shù)據(jù),并利用這些數(shù)據(jù)對(duì)基礎(chǔ)模型進(jìn)行微調(diào)。

第二輪:

訓(xùn)練可靠的PPM-r2,通過(guò)PPM顯著提升模型推理能力。

在這一輪中,隨著策略模型更新到7B SLM-r1,團(tuán)隊(duì)進(jìn)行了廣泛的MCTS部署,以獲得更可靠的Q值注釋?zhuān)怀酥猓€訓(xùn)練了第一個(gè)可靠的獎(jiǎng)勵(lì)模型PPM-r2。

具體來(lái)說(shuō),研究團(tuán)隊(duì)為每個(gè)問(wèn)題執(zhí)行16次MCTS部署。由此產(chǎn)生的逐步驗(yàn)證推理軌跡表明,質(zhì)量和Q值精度都有了顯著提高。

如表 4 所示,PPM-r2明顯比bootstrap輪次更有效。

圖片

此外,如表3所示,策略模型SLM-r2也如預(yù)期的那樣繼續(xù)改進(jìn),指導(dǎo)其在后續(xù)的推理中做出更好的選擇。

圖片

第三輪:

通過(guò)PPM增強(qiáng)的MCTS生成更高質(zhì)量的數(shù)據(jù),進(jìn)一步提升模型的推理能力。

借助可靠的PPM-r2,研究人員在這一輪中執(zhí)行PPM增強(qiáng)的MCTS以生成數(shù)據(jù),從而獲得更高質(zhì)量的軌跡。此處涵蓋訓(xùn)練集中的更多數(shù)學(xué)和奧林匹克級(jí)別問(wèn)題(詳細(xì)可見(jiàn)表2)

然后,研究者使用生成的推理軌跡和自我注釋的Q值,來(lái)訓(xùn)練新策略SLM-r3和PPM-r3——這兩者都顯示出顯著的改進(jìn)。

第四輪:

通過(guò)增加MCTS回滾次數(shù),解決具有挑戰(zhàn)性的數(shù)學(xué)難題。

前第三輪后,雖然rStar - Math已經(jīng)讓SLM在小學(xué)和MATH題目上提高成功率,但奧賽級(jí)別題目成績(jī)還是只有62.16%。

為此,團(tuán)隊(duì)采用了一種簡(jiǎn)單的策略,即對(duì)于在16次MCTS部署后未解決的問(wèn)題,會(huì)額外執(zhí)行64次部署。

如果需要,這個(gè)次數(shù)可以增加到128次。

此外,研究者們還使用不同的隨機(jī)種子進(jìn)行多個(gè)MCTS擴(kuò)展,最后將奧賽級(jí)別問(wèn)題的成功率提高到80.58%。

圖片
△此處再貼一次表2,方便大家查閱

綜上,經(jīng)過(guò)四輪自我進(jìn)化,747k數(shù)學(xué)題的成績(jī)已經(jīng)來(lái)到了90.25%。

剩下的未解決的問(wèn)題中,很大一部分都是綜合問(wèn)題。

研究者人工手動(dòng)審查了20個(gè)問(wèn)題的隨機(jī)樣本,發(fā)現(xiàn)其中19個(gè)問(wèn)題被錯(cuò)誤地標(biāo)記為錯(cuò)誤答案。

基于此,團(tuán)隊(duì)得出結(jié)論:剩余的未解決的問(wèn)題質(zhì)量較低,因此自我進(jìn)化的腳步終止在第4輪。

圖片

實(shí)驗(yàn)評(píng)估與發(fā)現(xiàn)

下面的表5,顯示了rStar-Math與最先進(jìn)的推理模型進(jìn)行比較的結(jié)果。

圖片

有三個(gè)值得說(shuō)道說(shuō)道的觀察發(fā)現(xiàn):

第一,rStar-Math 顯著提高了SLM的數(shù)學(xué)推理能力,以小得多的模型尺寸,實(shí)現(xiàn)了與OpenAI o1相當(dāng),甚至超過(guò)o1的性能。

例如,Qwen2.5-Math-7B最初在MATH上的準(zhǔn)確率為58.8%,使用rStar-Math后,準(zhǔn)確率顯著提高到90.0%,優(yōu)于o1-preview和Claude 3.5 Sonnet,和o1-mini打了個(gè)平手。

在College Math基準(zhǔn)測(cè)試中,rStar-Math后Qwen2.5-Math-7B的比o1-mini高出 2.7%。

在AIME 2024上,rStar-Math后的Qwen2.5-Math-7B得分為53.3%,不及o1-mini的56.7%。不過(guò),7B模型在AIME I 和 II 中解決了8/15的問(wèn)題,在最聰明的高中數(shù)學(xué)學(xué)生中排名前 20%。

而未解決的問(wèn)題中,有8個(gè)是需要視覺(jué)里覺(jué)的幾何圖形題,這個(gè)功能目前rStar-Math還不支持。

圖片

第二,盡管使用較小的政策模型(1.5B-7B)和獎(jiǎng)勵(lì)模型(7B),但rStar-Math的性能明顯優(yōu)于最先進(jìn)的System 2基線。

與使用相同的基本模型(Qwen2-Math-7B、Qwen2.5-Math-1.5B/7B)但獎(jiǎng)勵(lì)模型 (Qwen2.5-Math-RM-72B) 大10倍以上的Qwen Best-of-N基線相比,rStar-Math始終將所有基本模型的推理準(zhǔn)確性提高到最先進(jìn)的水平。

即使與Qwen2.5-Math-72B-Instruct的策略模型大10倍以上的N-Best-of-N對(duì)比,使用相同數(shù)量的采樣解決方案,rStar-Math也在除GSM8K之外的所有基準(zhǔn)測(cè)試中也超過(guò)了它。

第三,除了MATH、GSM8K和AIME等可能存在過(guò)度優(yōu)化的知名基準(zhǔn)測(cè)試之外,rStar-Math在其它具有挑戰(zhàn)性的數(shù)學(xué)基準(zhǔn)測(cè)試中表現(xiàn)出很強(qiáng)的通用性。

包括但不限于奧賽基準(zhǔn)、大學(xué)數(shù)學(xué)和中國(guó)高考數(shù)學(xué)考試 (Gaokao)。

而且需要強(qiáng)調(diào)的是,rStar-Math訓(xùn)練集主要來(lái)自公共數(shù)據(jù)集,并沒(méi)有針對(duì)這些基準(zhǔn)測(cè)試進(jìn)行特定的優(yōu)化。

總的來(lái)說(shuō),實(shí)驗(yàn)結(jié)果驗(yàn)證了自進(jìn)化、逐步驗(yàn)證推理軌跡和PPM的有效性。

One More Thing

本研究的共同一作分別是MSRA的Xinyu Guan和Li Lyna Zhang。

Li Lyna Zhang是工作的項(xiàng)目leader,本博都畢業(yè)于中國(guó)科學(xué)技術(shù)大學(xué),目前是MSRA系統(tǒng)與網(wǎng)絡(luò)組的高級(jí)研究員。

圖片

另一位共同一作,Xinyu Guan,在完成這項(xiàng)工作的時(shí)候是MSRA的實(shí)習(xí)生,這位同學(xué)當(dāng)時(shí)還在北大讀書(shū)。

BTW,論文中另一位作者Youran Sun參與項(xiàng)目時(shí)也是MSRA實(shí)習(xí)生,這位同學(xué)則是清華er。

啊,年輕人的世界,又是實(shí)習(xí)生呢~

arXiv:https://arxiv.org/pdf/2501.04519

代碼和數(shù)據(jù)詳見(jiàn)GitHub:https://github.com/microsoft/rStar

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-01-10 12:58:37

2025-02-27 08:00:00

DeepSeek大模型人工智能

2025-03-10 01:00:00

2025-01-10 09:25:00

模型數(shù)據(jù)微軟

2025-04-26 09:25:00

模型推理AI

2024-11-07 15:40:00

2024-09-24 11:01:03

2024-02-07 12:39:00

AI數(shù)據(jù)

2024-09-19 14:00:00

模型開(kāi)源代碼

2024-11-29 13:57:38

2024-12-13 13:04:13

模型Phi-4AI

2025-02-25 12:30:00

2025-03-27 09:40:59

2025-02-07 14:40:00

LLM智能模型

2025-04-16 15:28:31

模型AI數(shù)據(jù)

2024-10-17 14:30:00

AI模型數(shù)據(jù)

2024-02-04 08:00:00

Zephyr 7B大語(yǔ)言模型算法

2024-11-07 22:59:36

2023-10-13 19:58:33

Mistral7B模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)