8塊A100,32B碾壓DeepSeek V3、o1-preview!普林斯頓北大首提分層RL推理
僅用8塊A100,訓(xùn)出的32B模型,數(shù)學(xué)性能直接反超o1-preivie?!
看來,小模型真的要逆天改命了……
近日,來自普林斯頓和北大的華人團隊基于一種創(chuàng)新性的「分層LLM推理」方法(Hierarchical LLM Reasoning)提出了全新的ReasonFlux框架。
即,通過Scaling思維模板(Thought Template),有效地優(yōu)化推理搜索空間。
論文地址:https://arxiv.org/abs/2502.06772
開源項目:https://github.com/Gen-Verse/ReasonFlux
結(jié)果顯示,團隊訓(xùn)出的ReasonFlux-32B,在多個數(shù)學(xué)基準(zhǔn)測試中直接吊打o1-preview、DeepSeek V3等一眾SOTA模型。
在MATH基準(zhǔn)中,ReasonFlux-32B以91.2%準(zhǔn)確率傲視群雄,比o1-preview高出6.7%。
而在AIME基準(zhǔn)中,它的解題率高達56.7%,再次將o1-preview遠(yuǎn)遠(yuǎn)甩在身后,領(lǐng)先27%。
以下就是ReasonFlux-32B的一個推理示例。
可以看到,對于同一道數(shù)學(xué)題的解答中,o1-mini從只有第一步的推理是對的,從第二步就開始犯錯。
而Reason Flux在四步思考中沒有一步犯錯,最終給出了完全正確的答案。
不得不說,ReasonFlux-32B堪稱一位頂尖「數(shù)學(xué)大師」。
它的成功證明了,分層LLM推理與Scaling思維模板的強大威力,其背后離不開這三大創(chuàng)新:
- 結(jié)構(gòu)化通用思維模板庫:包含約500個高層次思維模板,可泛化到類似或相關(guān)的推理問題。
- 分層強化學(xué)習(xí):在思維模板序列上執(zhí)行強化學(xué)習(xí),不再在長思維鏈(CoT)數(shù)據(jù)上進行優(yōu)化,使基礎(chǔ)LLM能夠規(guī)劃最優(yōu)模板軌跡,逐步解決復(fù)雜問題。
- 全新的推理Scaling系統(tǒng):在推理過程中自適應(yīng)Scaling思維模板,從而實現(xiàn)分層LLM推理。
令人驚喜的是,思維模板庫還是開源的。
分層強化學(xué)習(xí),掌控數(shù)學(xué)推理
LLM近年來成績斐然,在一些任務(wù)上甚至超越了人類專家。
但在處理如美國數(shù)學(xué)奧林匹克競賽(AIME)中的數(shù)學(xué)問題、OlympiadBench中的復(fù)雜推理任務(wù)以及LiveCodeBench中的編程任務(wù)時,仍有提升空間。
為了提升LLM在復(fù)雜問題上的推理能力,研究人員提出了多種推理時策略,主要分深度搜索和獎勵模型引導(dǎo)兩類方法。
深度搜索方法,如思維樹(ToT)和思維圖(GoT),讓LLM探索多條推理路徑,并通過自我評估來選擇;獎勵模型引導(dǎo)方法則利用獎勵模型評估推理步驟的質(zhì)量。
不過,這些方法存在計算成本高、依賴手動設(shè)計的搜索策略和實例/步驟級獎勵等問題,泛化能力也受限。
檢索增強生成(RAG)通過從外部知識源檢索相關(guān)文檔來輔助LLM生成回復(fù),在一定程度上緩解了模型幻覺問題,提高了準(zhǔn)確性。
但在復(fù)雜推理任務(wù)中,如數(shù)學(xué)、編程領(lǐng)域,通過標(biāo)準(zhǔn)嵌入相似性搜索檢索相關(guān)模板非常困難,在處理大規(guī)模文檔時效果也會下降。
最新研究中,普林斯頓聯(lián)手北大學(xué)者提出了ReasonFlux框架——分層LLM推理,通過構(gòu)建結(jié)構(gòu)化思維模板庫、進行思維模板軌跡的分層RL和設(shè)計新的推理Scaling系統(tǒng),顯著提升了復(fù)雜推理能力。
研究的主要貢獻如下:
- 提出了ReasonFlux,一種分層LLM推理框架,顯著提升模型復(fù)雜推理能力。
- 構(gòu)建了一個結(jié)構(gòu)化且精煉的模板庫,包含約500個從高難度數(shù)學(xué)問題中提煉的思維模板。
- 開發(fā)了基于高層次思維模板序列的分層強化學(xué)習(xí),使LLM能夠生成最優(yōu)的思維模板軌跡,將復(fù)雜問題拆解為一系列更簡單的子問題,從而有效減少推理路徑的搜索空間。
- 設(shè)計了一種新的推理Scaling系統(tǒng),通過自適應(yīng)Scaling思維模板來實現(xiàn)分層推理。該系統(tǒng)能夠動態(tài)檢索一系列高層次模板,并在推理過程中自適應(yīng)執(zhí)行實例化推理,實現(xiàn)高效的問題求解。
ReasonFlux框架解析
結(jié)構(gòu)化思維模板庫
ReasonFlux的核心之一是,構(gòu)建結(jié)構(gòu)化思維模板庫。
人類在解決復(fù)雜推理問題時常常借助外部資源,受此啟發(fā),研究人員精心打造了這個模板庫。
研究者從不同來源廣泛收集具有挑戰(zhàn)性的數(shù)學(xué)推理問題,利用LLM深入分析解題思路,總結(jié)解題策略并挖掘常見模式,進而得到了約500個以解決方案為導(dǎo)向的高質(zhì)量思維模板。
每個模板都經(jīng)過精心設(shè)計,包含名稱、標(biāo)簽、描述、適用范圍、應(yīng)用步驟和示例等關(guān)鍵信息。
以「類型三角代換」模板為例,名稱清晰地表明了模板的核心內(nèi)容;標(biāo)簽便于基于關(guān)鍵詞進行檢索,如「三角代換」「無理函數(shù)優(yōu)化」等;詳細(xì)解釋了在特定條件下(當(dāng)問題中出現(xiàn)
形式的根式且
時)使用三角代換(
或
)的原理,將無理表達式轉(zhuǎn)化為三角函數(shù)表達式,以便利用三角函數(shù)的性質(zhì)和恒等式進行簡化和求解。
適用范圍明確界定了該模板可解決的問題類型,包括涉及函數(shù)優(yōu)化或值域的問題、含有特定根式的方程或不等式問題以及與圓相關(guān)的幾何問題等。
通過這些豐富的元數(shù)據(jù),模板庫能夠?qū)崿F(xiàn)高效檢索,為不同問題精準(zhǔn)匹配最合適的模板。
分層強化學(xué)習(xí):規(guī)劃最優(yōu)推理路徑
有了結(jié)構(gòu)化模板庫,還需要有效的方法來選擇合適的模板解決實際問題。
ReasonFlux采用分層強化學(xué)習(xí)來實現(xiàn)這一目標(biāo)。
首先是基于結(jié)構(gòu)的微調(diào)。利用結(jié)構(gòu)化模板庫構(gòu)建知識密集型訓(xùn)練數(shù)據(jù)集,該數(shù)據(jù)集包含從模板庫中提取的模板名稱、標(biāo)簽、原理描述和適用范圍等信息,以元組(T_nam, T_tag, T_des, T_sco)的形式呈現(xiàn)。
然后,在這個數(shù)據(jù)集上對基礎(chǔ)LLM進行微調(diào),讓模型深入理解每個模板的結(jié)構(gòu)、內(nèi)容和用途。
微調(diào)的優(yōu)化目標(biāo)是最大化模型在給定模板名稱和標(biāo)簽時,生成正確描述和適用范圍的可能性,確保微調(diào)后的模型能夠有效關(guān)聯(lián)模板的識別信息和功能信息,將微調(diào)后的模型記為π_struct。
接著是思維模板軌跡的偏好學(xué)習(xí)。基于微調(diào)后的π_struct,進一步訓(xùn)練它為輸入問題規(guī)劃出一系列高級思維模板(即思維模板軌跡T_traj)。
給定一個輸入問題x,π_struct首先分析和抽象問題的條件信息,識別其中的核心數(shù)學(xué)概念和關(guān)系,然后配置一條軌跡T_traj={S_1, S_2, ..., S_N},每個S_i代表推理過程中的一個高級步驟,關(guān)聯(lián)一個從模板庫中檢索到的可用于解決問題的模板名稱。每個檢索到的模板T_i會根據(jù)輸入問題x的具體細(xì)節(jié)進行實例化,并為單獨的推理大模型π_inf提供細(xì)粒度的指導(dǎo)來解決問題。
為了衡量給定軌跡的有效性和泛化能力,研究人員利用一組與原始輸入問題x相似的問題X_sim,使用軌跡上實例化的模板引導(dǎo)π_inf解決每個X_i ∈ X_sim,π_inf在這些問題上的平均準(zhǔn)確率作為軌跡獎勵R(T_traj),公式為:
這個獎勵信號用于構(gòu)建優(yōu)化對,進一步優(yōu)化π_struct。
具體來說,對于每個輸入問題x,采樣多個不同的T_traj并評估其質(zhì)量,定義優(yōu)化π_struct的損失函數(shù)為:
其中D_pair是優(yōu)化對數(shù)據(jù)集,每個對包含一個輸入問題x和兩條軌、
,
,π_θ是從π_struct初始化的待優(yōu)化LLM。
推理Scaling系統(tǒng)
經(jīng)過分層強化學(xué)習(xí)優(yōu)化后的模型被稱為ReasonFlux。在此基礎(chǔ)上,研究人員設(shè)計了全新的推理Scaling系統(tǒng)。
面對一個輸入問題時,ReasonFlux首先分析并提取問題中的核心數(shù)學(xué)概念和關(guān)系,據(jù)此配置一條最優(yōu)的模板軌跡.這條軌跡不是固定不變的,而是根據(jù)問題的具體特點動態(tài)生成的。
然后,ReasonFlux根據(jù)軌跡中的步驟信息,從模板庫中檢索最相關(guān)的思維模板。
通過分析推理過程中生成的中間結(jié)果,ReasonFlux能夠獲得有價值的見解,從而調(diào)整軌跡,這與人類通過檢查部分結(jié)果發(fā)現(xiàn)更高效解決方案的過程相似。
檢索到模板后,ReasonFlux會指示推理LLM根據(jù)問題的具體細(xì)節(jié)實例化每個模板,將抽象的模板轉(zhuǎn)化為具體的推理步驟。
在這個過程中,ReasonFlux會不斷評估和分析推理LLM生成的中間結(jié)果,根據(jù)評估結(jié)果決定是否調(diào)整軌跡,比如調(diào)整后續(xù)步驟或檢索其他替代模板。
這種迭代反饋機制模仿了人類在解決復(fù)雜問題時,通過分析部分結(jié)果不斷優(yōu)化解決方案的過程,使ReasonFlux能夠更有效地解決復(fù)雜問題。
實驗結(jié)果
研究人員使用Gemini-2.0從各種數(shù)學(xué)數(shù)據(jù)集的訓(xùn)練集中,構(gòu)建了約500個思維模板的結(jié)構(gòu)化模板庫。
訓(xùn)練過程中,由于GPU資源有限,選用Qwen2.5-32B-Instruct作為基礎(chǔ)模型和推理LLM,僅使用8個NVIDIA A100 GPU,大大降低了成本。
在基于結(jié)構(gòu)的微調(diào)階段,用包含15K個樣本的訓(xùn)練數(shù)據(jù)集訓(xùn)練初始化的模型;在模板軌跡優(yōu)化過程中,用從MATH 和自制數(shù)據(jù)集中收集的10K對軌跡進行訓(xùn)練。
為了全面評估ReasonFlux的復(fù)雜推理能力,選擇了一系列具有挑戰(zhàn)性的推理基準(zhǔn)測試,包括MATH、AIME 2024、AMC 2023、OlympiadBench和Gaokao En 2023。
在實驗中,選擇了前沿LLM(如GPT-4o、Claude、OpenAI o1-preview和o1-mini)和開源推理模型(如DeepSeek-Coder-v2-Instruct、Mathstral、NuminaMath-72B等)作為基線模型,這些模型代表了當(dāng)前數(shù)學(xué)推理的最高水平。
在具有挑戰(zhàn)性的推理基準(zhǔn)測試中,ReasonFlux-32B表現(xiàn)出色,以32B參數(shù)達到了新的最先進性能。
在MATH基準(zhǔn)測試中,準(zhǔn)確率達到91.2%,比o1-preview高出6.7%;在AIME 2024基準(zhǔn)測試中,準(zhǔn)確率為56.7%,比o1-preview和DeepSeek-V3分別高出27%和45%,與OpenAI o1-mini的性能相當(dāng)。
在其他具有挑戰(zhàn)性的數(shù)據(jù)集上,ReasonFlux-32B同樣展現(xiàn)出了強大的泛化能力和有效性。
在OlympiadBench上,其準(zhǔn)確率達到63.3%,超過DeepSeek-V3 14%。在Gaokao En 2023中,準(zhǔn)確率為 83.6%,比o1-mini高出7%。
值得注意的是,ReasonFlux使用的模板庫主要由公開可用的數(shù)據(jù)集構(gòu)建而成,并且在所有評估過程中使用相同的模板庫,這充分證明了其強大的泛化能力。
通過在MATH基準(zhǔn)測試上的實驗發(fā)現(xiàn),使用模板增強推理的方法能顯著提高不同基礎(chǔ)模型的推理準(zhǔn)確率。
實驗結(jié)果顯示,較小規(guī)模的LLM在模板的引導(dǎo)下,推理準(zhǔn)確率提升明顯,甚至能夠超越較大規(guī)模LLM的直接推理表現(xiàn),進一步凸顯了結(jié)構(gòu)化模板庫的有效性。
在推理過程中,ReasonFlux能夠根據(jù)問題的復(fù)雜性自適應(yīng)地規(guī)劃合理的模板軌跡,并確定與推理LLM交互的輪數(shù)。
隨著問題復(fù)雜度的增加,它會自動調(diào)整檢索的模板數(shù)量和交互輪數(shù),有效平衡了推理成本和性能。
在探索與利用的權(quán)衡方面,與Best-of-N和MCTS等推理策略相比,ReasonFlux在所有難度級別下都保持著更低且更穩(wěn)定的探索成本。
這得益于其結(jié)構(gòu)化模板庫對搜索空間的有效優(yōu)化,以及模板的高質(zhì)量和泛化能力,使得推理LLM能夠更準(zhǔn)確高效地進行推理,從而在探索與利用之間實現(xiàn)了更優(yōu)的平衡。
ReasonFlux目前也存在一定的局限性。例如,模板庫雖然已經(jīng)較為豐富,但可能無法涵蓋所有類型的復(fù)雜問題;在處理某些極端復(fù)雜或全新領(lǐng)域的問題時,其推理能力或許還需要進一步提升。
未來的研究可以朝著進一步擴展模板庫的覆蓋范圍、探索更高效的學(xué)習(xí)算法的方向展開,將ReasonFlux應(yīng)用于更多領(lǐng)域。
作者介紹
Ling Yang
Ling Yang現(xiàn)為北大在讀博士生(即將畢業(yè)),師從Bin Cui和Luxia Zhang教授。
同時,他也是普林斯頓大學(xué)高級研究助理,與Mengdi Wang教授合作。
他的研究興趣主要包括生成式人工智能(擴散模型、大模型)和AI for Science。
此外,他擔(dān)任多個國際會議和期刊的程序委員會成員或?qū)徃迦?,包括SIGGRAPH、TPAMI、ICML、ICLR、NeurIPS、CVPR、KDD和AAAI。
Zhaochen Yu
Zhaochen Yu是新加坡國立大學(xué)研究生,目前在PKU-DAIR Lab實習(xí),與Ling Yang和Bin Cui合作。
此前,他于2024年在北京理工大學(xué)獲得學(xué)士學(xué)位。