o1推理框架最新成果:斯坦福&伯克利提出元鏈?zhǔn)剿季S,升級模型推理能力
o1背后的推理原理,斯坦福和伯克利幫我們總結(jié)好了!
在最新的一篇長達100頁的論文中,他們將o1模型背后的推理機制提煉成了一個通用的框架——元鏈?zhǔn)剿季S(Meta-CoT)。
這個元鏈?zhǔn)剿季S(Meta-CoT)到底是什么意思呢?
簡單來說,它可以讓模型在推理過程中反思推理任務(wù)——
這樣不僅能得出結(jié)論,它還可以幫助我們找到更多新的研究思路和方法。
比如在經(jīng)典的24點問題中,傳統(tǒng)的CoT雖然也能得出正確的結(jié)論,但是Meta-CoT在推理過程中不止會關(guān)注輸入的問題,而是在推理過程中思考更多的子問題并進行嘗試:
這也是o1模型可以在HARP等數(shù)學(xué)基準(zhǔn)中大幅領(lǐng)先的原因:
SynthLabs公司的CEO Nathan Lile還自信地表示:
元鏈?zhǔn)剿季S(Meta-CoT)是通往超級智能(Superintelligence)的正確道路。下一波人工智能就是元鏈?zhǔn)剿季S(Meta-CoT)循環(huán)。
元鏈?zhǔn)剿季S(Meta-CoT)框架
為什么傳統(tǒng)CoT不管用了
在提出新框架之前,我們先要理解一個問題:為什么傳統(tǒng)模型經(jīng)常在高級推理任務(wù)中“卡殼”。
其實啊,主要原因在于大語言模型的預(yù)訓(xùn)練和指令調(diào)整語料庫數(shù)據(jù)中,不包含真實數(shù)據(jù)生成過程。
以數(shù)學(xué)問題為例,網(wǎng)上和教科書中雖有會有解答,但對于錯誤的論證方法為何失效,卻很少有相關(guān)的資料,
如此一來,在遇到復(fù)雜推理問題時,被中間環(huán)節(jié)困住的模型就很難調(diào)整到正確的思考方向。
而在全新的高中奧數(shù)水平數(shù)學(xué)基準(zhǔn)測試中,OpenAI的o1模型系列表現(xiàn)出眾,不僅遠超以往的模型,而且問題越難優(yōu)勢越明顯。
從生成tokens數(shù)量看,其他大語言模型生成的解決方案長度與人類相近,這也就是說明,它們只是在搜索匹配訓(xùn)練數(shù)據(jù)。
而o1模型在簡單問題上生成的tokens數(shù)與人類相當(dāng),在高難度問題上,生成tokens數(shù)則大幅增加,與傳統(tǒng)模型拉開差距。
這表明o1模型的CoT覆蓋范圍更廣,能更好地接近真實數(shù)據(jù)生成過程。
Meta-CoT的主要思想
我們先來看一道2011年國際數(shù)學(xué)奧林匹克競賽的 “風(fēng)車問題”:
平面上有至少兩個點的有限集合,假設(shè)任意三點不共線,從過其中一點的直線開始,讓直線繞該點順時針旋轉(zhuǎn),碰到集合中另一點時,新點成為旋轉(zhuǎn)軸繼續(xù)旋轉(zhuǎn),此過程無限持續(xù)。能否選一個點和過該點的直線,讓集合中每個點都無限次成為旋轉(zhuǎn)軸呢?
官方給出的解答如下:
這道題的解答雖然很簡短,不依賴先驗知識,但卻是競賽中最難的題之一,600 多名參賽者中只有少數(shù)人答對。
主要難點在于,它的解答過程不是線性的。很多人會選擇用凸包構(gòu)造或哈密頓圖論方法,最終都會失敗。
而答對的人主要是依靠大量幾何探索和歸納推理,才最終找到了答案。
也就是說,這個解答過程不是從左到右按部就班生成的。
從潛在變量過程角度看,經(jīng)典思維鏈?zhǔn)菍?strong>潛在推理鏈進行邊緣化,得出最終答案的概率。
但對于復(fù)雜問題,真實解答生成過程應(yīng)該是解答的聯(lián)合概率分布,取決于潛在生成過程。
這就是團隊所說的元思維鏈(Meta - CoT)過程,使用這個思路,就可以大大提升大語言模型在復(fù)雜問題上的推理能力。
內(nèi)部化搜索過程
Meta-CoT的一個重要步驟是,在面對高級推理問題時,大語言模型會努力提高搜索的效率。
以前模型通常會使用Best-of-N方法,也就是獨立生成多個完整答案,然后挑出最好的,但這個方法比較耗時。
在Meta-CoT中,研究人員把推理過程想象成一個“步步走”的游戲,也就是馬爾可夫決策過程(MDP)。
在這個過程里,他們還引入一個過程獎勵模型(PRM),它可以用來評估中間步驟能能否得出正確答案。
如果發(fā)現(xiàn)某個解答方向沒希望,模型就會盡快停下,回到可能成功的中間狀態(tài),重新尋找解決方案。
這種樹搜索方法在簡單推理任務(wù)里已經(jīng)顯出明顯的優(yōu)勢,在實際應(yīng)用中也有成功案例。
論文的主要作者之一Rafael Rafailov是斯坦福畢業(yè)的博士,也參加過很多數(shù)學(xué)競賽,他表示這個新的搜索過程和他自己解答題目時的狀態(tài)也是一樣的:
評估解決方案的潛在方法、修剪沒有取得進展的方向、探索其他可能的分支主張、嘗試根據(jù)直覺構(gòu)建通往最終目標(biāo)的路徑
合成元鏈?zhǔn)剿季S
另外一個挑戰(zhàn)在于,大模型通常會使用強化學(xué)習(xí)方法從過去經(jīng)驗里學(xué)習(xí)好的推理策略,但當(dāng)遇到新領(lǐng)域的推理問題時,用傳統(tǒng)RL訓(xùn)練出來的策略就不太好用了。
為了提高大模型解決不熟悉領(lǐng)域問題的能力,研究人員嘗試在Meta-CoT中讓大模型把推理過程當(dāng)成一場“冒險游戲”,也就是部分可觀測馬爾可夫決策過程(POMDP),非常適合用來升級模型。
在這個過程中,模型可以根據(jù)不同情況調(diào)整策略。
以下圖中的迷宮游戲為例,模型一開始可以隨意行走,但慢慢地,通過將不同的頂點加入到路徑數(shù)據(jù)集或刪除數(shù)據(jù)集中,就會逐漸找到正確的方向。
而且,通過過程監(jiān)督,模型能及時得到反饋,知道自己是否走在正確的解答道路上。
研究人員還發(fā)現(xiàn),讓模型主動探索不同的推理路徑,能大大提升它的表現(xiàn)。在實驗里,模型會努力嘗試各種方法,結(jié)果在解決復(fù)雜問題時,答對的概率也提高了很多。
論文還探討了通過搜索算法(如下圖中的蒙特卡羅樹搜索(MCTS)和A*搜索)生成合成訓(xùn)練數(shù)據(jù)的更多方法,這些方法可以幫助模型在上下文中學(xué)習(xí)并執(zhí)行復(fù)雜的搜索策略。
使用新框架的LLM表現(xiàn)全面提升
那么相比原始的CoT,使用Meta-CoT新框架的LLM性能到底變強了多少呢?下面一起來看看論文中的實驗部分。
實驗設(shè)計
在數(shù)據(jù)收集方面,本論文主要使用了多個數(shù)學(xué)問題數(shù)據(jù)集,包括HARP、NuminaMath、Omni-MATH和OpenMathInstruct-2。通過對這些數(shù)據(jù)集進行過濾和處理,生成了適合訓(xùn)練的合成數(shù)據(jù)。
實驗中的模型包括當(dāng)前主流的多個LLM,包括Llama 3.1 8B、70B和GPT-4o等。
實驗設(shè)計包括指令調(diào)優(yōu)和強化學(xué)習(xí)后訓(xùn)練兩個階段。指令調(diào)優(yōu)階段使用線性化的搜索軌跡進行訓(xùn)練,強化學(xué)習(xí)后訓(xùn)練階段使用E-RL2目標(biāo)進行訓(xùn)練。
在指令調(diào)優(yōu)階段,團隊使用了多種優(yōu)化目標(biāo),包括標(biāo)準(zhǔn)過程克隆方法和元鏈?zhǔn)剿季S優(yōu)化目標(biāo)。
在強化學(xué)習(xí)后訓(xùn)練階段,他們使用了不同的折扣率和優(yōu)化算法,如PPO和REINFORCE。
結(jié)果與分析
小規(guī)模的實驗結(jié)果:在小規(guī)模實驗中,使用MCTS和A*搜索算法生成的合成數(shù)據(jù)顯著提高了模型在復(fù)雜數(shù)學(xué)問題上的表現(xiàn)。
上下文探索的實驗結(jié)果:在上下文探索實驗中,模型在數(shù)學(xué)問題上的表現(xiàn)隨著上下文探索序列長度的增加而提高。然而,過長的序列長度也會導(dǎo)致性能下降,這也提醒我們需要在探索和推理之間找到平衡。
回溯實驗結(jié)果:在回溯實驗中,o1、DeepSeek-R1、Gemini 2.0 Flash Thinking等模型在解答數(shù)學(xué)題的過程中,在復(fù)雜數(shù)學(xué)問題上的表現(xiàn)都隨著回溯次數(shù)的增加而提高。這表明回溯是一種有效的錯誤糾正機制。
綜合實驗結(jié)果:綜合實驗結(jié)果表明,使用元鏈?zhǔn)剿季S框架可以顯著提高LLMs在復(fù)雜推理任務(wù)上的表現(xiàn)。例如,使用 E-RL2 目標(biāo)訓(xùn)練的模型在HARP數(shù)學(xué)基準(zhǔn)測試中的表現(xiàn)比基線模型提高了約25%。
團隊還在規(guī)劃更多數(shù)學(xué)研究
論文提出的通過自教推力器、A*算法等方法進行合成的元鏈?zhǔn)剿季S(Meta-CoT)的框架,通過顯式建模推理過程和搜索過程,使得LLMs在各項常見的實驗任務(wù)中進行復(fù)雜推理的表現(xiàn)都有所提升。
團隊成員也表示,未來會進一步驗證所提出方法效率的必要性,開發(fā)出更有效的過程監(jiān)督和驗證技術(shù)。
此外,針對當(dāng)前LLM普遍在數(shù)學(xué)問題等邏輯性較強的任務(wù)上表現(xiàn)不佳的現(xiàn)象,他們還正在構(gòu)建大數(shù)學(xué)(Big Math) 項目。
這個項目的目標(biāo)是聚合超過50萬個高質(zhì)量、可驗證的數(shù)學(xué)問題,并最終完全開源!
對相關(guān)項目感興趣的朋友們可以點擊下面的鏈接了解更多內(nèi)容~