Meta-CoT:通過(guò)元鏈?zhǔn)剿伎荚鰪?qiáng)大型語(yǔ)言模型的推理能力
大型語(yǔ)言模型(LLMs)在處理復(fù)雜推理任務(wù)時(shí)面臨挑戰(zhàn),這突顯了其在模擬人類(lèi)認(rèn)知中的不足。盡管 LLMs 擅長(zhǎng)生成連貫文本和解決簡(jiǎn)單問(wèn)題,但在需要邏輯推理、迭代方法和結(jié)果驗(yàn)證的復(fù)雜任務(wù)(如高級(jí)數(shù)學(xué)問(wèn)題和抽象問(wèn)題解決)中,其能力有所欠缺。
這種局限性源于 LLMs 的信息處理方式。大多數(shù)模型采用類(lèi)似于系統(tǒng) 1 的思維模式——一種快速、基于模式的反應(yīng),類(lèi)似于直覺(jué)。雖然這種方法適用于許多任務(wù),但它在需要系統(tǒng)性推理、嘗試多種策略和檢查結(jié)果的問(wèn)題上表現(xiàn)不佳。系統(tǒng) 2 思維,即人類(lèi)解決難題時(shí)采用的緩慢、逐步且通常需要回溯以完善結(jié)論的方法,是解決這些挑戰(zhàn)的關(guān)鍵。
為了彌合這一差距,研究人員引入了元鏈?zhǔn)剿伎迹∕eta-CoT)。Meta-CoT 基于鏈?zhǔn)剿伎迹–oT)方法,使 LLMs 不僅能夠建模推理步驟,還能夠模擬“思考”過(guò)程。這種轉(zhuǎn)變類(lèi)似于人類(lèi)在面對(duì)難題時(shí)的探索、評(píng)估和迭代方式。
本文探討 Meta-CoT 如何拓展 AI 推理的邊界,深入研究其理論基礎(chǔ)、實(shí)際應(yīng)用和實(shí)證支持。同時(shí)我們將分析搜索算法、強(qiáng)化學(xué)習(xí)以及在大型語(yǔ)言模型中擴(kuò)展審慎推理的挑戰(zhàn)。
解鎖 AI 中的審慎推理
大型語(yǔ)言模型(LLMs)在處理事實(shí)性問(wèn)題、撰寫(xiě)清晰文本以及解決基本推理問(wèn)題方面已取得顯著進(jìn)展。但是在高復(fù)雜度任務(wù)(如高級(jí)數(shù)學(xué)、科學(xué)證明或戰(zhàn)略決策)中,它們常常表現(xiàn)出不足。這揭示了 AI 在認(rèn)知能力方面存在的明顯差距:缺乏仔細(xì)規(guī)劃和審慎推理能力。
本文基于 Xiang 等人(2025)的研究論文《Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought》中的思想,探討了一種名為元鏈?zhǔn)剿伎迹∕eta-CoT)的新方法。該方法旨在擴(kuò)展傳統(tǒng)鏈?zhǔn)剿伎迹–oT)推理能力。
盡管傳統(tǒng)的 CoT 方法引導(dǎo) LLMs 逐步解決問(wèn)題,但它忽略了解決復(fù)雜問(wèn)題所需的迭代和探索過(guò)程。Meta-CoT 通過(guò)在 AI 的問(wèn)題解決步驟中引入結(jié)構(gòu)化的搜索、驗(yàn)證和系統(tǒng)性思考來(lái)解決這一問(wèn)題。
除了對(duì)論文進(jìn)行總結(jié),本文還提供了實(shí)際應(yīng)用、更多示例,以及對(duì) Meta-CoT 如何融入 AI 審慎推理的更廣泛計(jì)劃的視角。對(duì)于熟悉認(rèn)知科學(xué)的人來(lái)說(shuō),這與 Daniel Kahneman 所描述的系統(tǒng) 2 思維密切相關(guān)——一種緩慢且邏輯的處理過(guò)程。通過(guò)將這些概念引入 AI,Meta-CoT 推進(jìn)了 LLMs 處理需要超越模式識(shí)別的任務(wù)的能力。
本文接下來(lái)的部分將探討 Meta-CoT 的基礎(chǔ)、訓(xùn)練方法及其在實(shí)際應(yīng)用中的影響。這些見(jiàn)解共同展示了 Meta-CoT 如何為賦予 AI 類(lèi)人問(wèn)題解決能力提供藍(lán)圖。
什么是元鏈?zhǔn)剿伎迹?/span>
要理解元鏈?zhǔn)剿伎迹∕eta-CoT),需要回顧傳統(tǒng)的鏈?zhǔn)剿伎迹–oT)方法。CoT 推理引導(dǎo)語(yǔ)言模型通過(guò)將問(wèn)題分解為更小的、連續(xù)的步驟來(lái)解決問(wèn)題,類(lèi)似于在數(shù)學(xué)中展示解題過(guò)程。這種方法在簡(jiǎn)單任務(wù)中確實(shí)提高了性能,因?yàn)樗偈鼓P汀爸鸩剿伎肌?。但是?duì)于更復(fù)雜的問(wèn)題,傳統(tǒng)的 CoT 則會(huì)遇到困難。原因在于,現(xiàn)實(shí)世界的推理很少是線(xiàn)性的,它通常涉及循環(huán)和非線(xiàn)性的路徑。
Xiang 等人(2025)在其關(guān)鍵論文中引入了 Meta-CoT,將 CoT 推理向前推進(jìn),通過(guò)建模解決問(wèn)題所需的潛在思考過(guò)程。與假設(shè)線(xiàn)性和確定性推理不同,Meta-CoT 認(rèn)識(shí)到真正的問(wèn)題解決包含探索循環(huán)、驗(yàn)證和回溯。這使得模型能夠模仿人類(lèi)在面對(duì)復(fù)雜挑戰(zhàn)時(shí)使用的迭代式“思考”。
Meta-CoT 的核心是整合系統(tǒng) 2 類(lèi)型的推理——專(zhuān)注于解決復(fù)雜問(wèn)題的審慎策略。例如考慮解決一個(gè)高級(jí)數(shù)學(xué)問(wèn)題:傳統(tǒng)的 CoT 方法可能會(huì)嘗試直接求解;但是Meta-CoT 引入了以下機(jī)制:
- 搜索:探索各種可能的解決方案路徑。
- 驗(yàn)證:檢查解決方案或步驟是否符合問(wèn)題約束。
- 回溯:識(shí)別錯(cuò)誤并返回到之前的步驟進(jìn)行修正。
這種從線(xiàn)性生成到迭代式問(wèn)題解決的轉(zhuǎn)變標(biāo)志著一個(gè)根本性的改進(jìn)。他們認(rèn)為,Meta-CoT 可以更好地處理中間步驟或思考過(guò)程在訓(xùn)練數(shù)據(jù)中不明確的問(wèn)題,而這正是高級(jí)推理任務(wù)的常見(jiàn)情況。
下圖展示了語(yǔ)言模型中兩種不同的思考方式:
經(jīng)典鏈?zhǔn)剿伎迹–oT):從頭到尾逐步移動(dòng),適用于簡(jiǎn)單任務(wù),但對(duì)于非線(xiàn)性問(wèn)題則存在不足。
元鏈?zhǔn)剿伎迹∕eta-CoT):引入迭代思考、檢查和回溯,類(lèi)似于人類(lèi)處理模糊和復(fù)雜問(wèn)題的方式。
為什么經(jīng)典 CoT 會(huì)失敗?
要理解 Meta-CoT 的創(chuàng)新之處,有必要了解舊版 CoT 的局限性。經(jīng)典 CoT 使用固定的提示進(jìn)行逐步思考,假設(shè)其符合訓(xùn)練數(shù)據(jù)的模式。諸如數(shù)學(xué)證明或科學(xué)問(wèn)題等任務(wù)通常涉及隱藏的步驟。經(jīng)典 CoT 無(wú)法模仿人類(lèi)的探索策略,從而導(dǎo)致錯(cuò)誤的答案。
對(duì)于國(guó)際數(shù)學(xué)奧林匹克中的一道難題,CoT 模型通常采用簡(jiǎn)單的技巧而非深入探索。Meta-CoT 將問(wèn)題視為一個(gè)潛在變量過(guò)程,使模型能夠通過(guò)組合多個(gè)中間步驟進(jìn)行思考,即使這些步驟在數(shù)據(jù)中不存在。
推理中的搜索和驗(yàn)證
人類(lèi)通過(guò)嘗試不同的方法來(lái)解決困難問(wèn)題。我們思考可能的答案,檢查其是否可行,并在必要時(shí)調(diào)整計(jì)劃。這種探索和檢驗(yàn)想法的能力構(gòu)成了審慎思考的基礎(chǔ)。大多數(shù)語(yǔ)言模型缺乏這些能力。其線(xiàn)性的思維模式在需要探索和檢驗(yàn)的任務(wù)中會(huì)失效。
元鏈?zhǔn)剿伎迹∕eta-CoT)通過(guò)添加兩個(gè)關(guān)鍵組件來(lái)彌補(bǔ)這一不足:搜索和驗(yàn)證。這些工具使模型能夠嘗試多種解決方案路徑并檢查其正確性,類(lèi)似于人類(lèi)的推理過(guò)程。
搜索:嘗試多種解決方案路徑
Meta-CoT 中的搜索使語(yǔ)言模型能夠在解決方案空間內(nèi)嘗試不同的步驟。與之前只生成單一的步驟序列不同,Meta-CoT 將推理視為一個(gè)分支過(guò)程:
- 模型在每個(gè)階段考慮多種可能的下一步。
- 啟發(fā)式方法或概率檢查選擇最佳路徑。
- 如果在某個(gè)路徑上遇到困難,模型會(huì)回溯并嘗試其他選擇。
這種搜索工具類(lèi)似于蒙特卡洛樹(shù)搜索(MCTS)或 A* 算法,但針對(duì)推理進(jìn)行了調(diào)整。例如,在求解數(shù)學(xué)方程時(shí),模型可能會(huì)嘗試不同的因式分解方法,測(cè)試其有效性,并最終縮小至正確的選擇。
A* 算法是一種通過(guò)結(jié)合以下要素來(lái)找到目標(biāo)最優(yōu)路徑的搜索算法:
- 路徑成本 (g):從起點(diǎn)到當(dāng)前節(jié)點(diǎn)的路徑成本。
- 啟發(fā)式 (h):從當(dāng)前節(jié)點(diǎn)到目標(biāo)的估計(jì)成本。
它優(yōu)先探索總成本最低的路徑:
- f(n) = g(n) + h(n)
以下是其工作原理:
- 算法從節(jié)點(diǎn) A 開(kāi)始。
- 它探索 A 的相鄰節(jié)點(diǎn)(B 和 C)并評(píng)估其成本。
- 它選擇總成本(f)最小的節(jié)點(diǎn)并繼續(xù)搜索。
- 如果遇到目標(biāo)(D),則終止并返回解決方案。
- 如果某個(gè)路徑導(dǎo)致死胡同,算法會(huì)回溯并探索替代路徑。
以下是搜索樹(shù)圖的圖形表示:
沿途確保正確性
單獨(dú)的搜索缺乏強(qiáng)大的驗(yàn)證機(jī)制。驗(yàn)證作為模型的內(nèi)部“檢查和平衡”系統(tǒng),負(fù)責(zé)檢查特定解決步驟是否有效。在 Meta-CoT 中,驗(yàn)證是通過(guò)以下方式實(shí)現(xiàn)的:
- 顯式驗(yàn)證:使用預(yù)定義的規(guī)則或約束。
- 學(xué)習(xí)驗(yàn)證:訓(xùn)練模型基于過(guò)去的經(jīng)驗(yàn)來(lái)識(shí)別正確的模式或結(jié)果。
例如在解決難題時(shí),Meta-CoT 會(huì)檢查中間步驟,從而消除偏離問(wèn)題約束的路徑。這可以防止模型將計(jì)算資源浪費(fèi)在錯(cuò)誤的解決方案上。
搜索和驗(yàn)證的結(jié)合構(gòu)成了 Meta-CoT 的骨干,使模型能夠自適應(yīng)地探索和改進(jìn)解決方案。在下一節(jié)中,我們將研究如何訓(xùn)練 Meta-CoT 以?xún)?nèi)化這些機(jī)制,從而使審慎推理成為語(yǔ)言模型的基本能力。
Meta-CoT 訓(xùn)練:超越標(biāo)準(zhǔn)方法
元鏈?zhǔn)剿伎迹∕eta-CoT)不僅僅涉及提示設(shè)計(jì)或調(diào)整簡(jiǎn)單的數(shù)據(jù)集。掌握搜索、檢查和回溯步驟需要先進(jìn)的訓(xùn)練方法。這些方法訓(xùn)練語(yǔ)言模型不僅要生成推理步驟,還要即時(shí)檢查、改進(jìn)和修復(fù)這些步驟。
Meta-CoT 的關(guān)鍵訓(xùn)練方法
自學(xué)推理器(Self-Taught Reasoner,STaR): STaR 采用迭代的自舉方法。模型生成推理路徑,去除錯(cuò)誤的路徑,然后使用正確的解決方案來(lái)調(diào)整自身。這類(lèi)似于教模型“從錯(cuò)誤中學(xué)習(xí)”。
其工作的關(guān)鍵步驟:
- 使用模型生成推理路徑。
- 僅保留結(jié)果正確的路徑。
- 在這些“自舉”路徑上調(diào)整模型以改進(jìn)推理。
Meta-STaR: Meta-STaR 通過(guò)在訓(xùn)練中添加搜索路徑來(lái)擴(kuò)展 STaR。它在中間步驟(如探索路徑和回溯)上訓(xùn)練模型,從而允許有背景的搜索推理。
訓(xùn)練數(shù)據(jù)不再僅包含單個(gè)推理路徑,還包含展示迭代和非線(xiàn)性思考過(guò)程的搜索樹(shù)。
通過(guò)搜索算法生成合成數(shù)據(jù): 真實(shí)的數(shù)據(jù)集很少包含復(fù)雜的思考軌跡,因此 Meta-CoT 經(jīng)常使用合成數(shù)據(jù)進(jìn)行訓(xùn)練。像蒙特卡洛樹(shù)搜索(MCTS)或 A* 這樣的算法可以模擬搜索軌跡,從而訓(xùn)練模型進(jìn)行類(lèi)似的任務(wù)。
以下是 Meta-STaR 方法的簡(jiǎn)化 Python 示例,展示了如何生成和使用搜索軌跡進(jìn)行訓(xùn)練:
import random
class MetaSTaR:
def __init__(self, environment):
self.environment = environment
self.q_table = {} # Q-learning 表格
def generate_search_traces(self, num_episodes):
traces = []
for _ in range(num_episodes):
# 生成探索軌跡
trace = self._explore_episode()
traces.append(trace)
return traces
def _explore_episode(self):
# 模擬一個(gè)探索回合的搜索軌跡
state = self.environment.reset()
trace = [state]
done = False
while not done:
# 選擇動(dòng)作
action = self._choose_action(state)
# 執(zhí)行動(dòng)作
next_state, reward, done = self.environment.step(action)
# 更新軌跡
trace.append((action, next_state, reward))
state = next_state
return trace
def _choose_action(self, state):
# 使用 epsilon-greedy 策略選擇動(dòng)作
if random.random() < 0.1:
return random.choice(self.environment.actions)
else:
return max(self.environment.actions,
key=lambda a: self.q_table.get((state, a), 0))
# 訓(xùn)練方法示例
def train_meta_star(environment, num_episodes=100):
meta_star = MetaSTaR(environment)
# 生成搜索軌跡
search_traces = meta_star.generate_search_traces(num_episodes)
# 分析和處理搜索軌跡
processed_traces = process_traces(search_traces)
return processed_traces
def process_traces(traces):
# 處理搜索軌跡的邏輯
# 可以包括:
# 1. 過(guò)濾無(wú)效軌跡
# 2. 提取關(guān)鍵學(xué)習(xí)點(diǎn)
# 3. 準(zhǔn)備用于模型微調(diào)的數(shù)據(jù)
processed_traces = []
for trace in traces:
# 這里添加具體的處理邏輯
processed_traces.append(trace)
return processed_traces
諸如 Meta-STaR 之類(lèi)的訓(xùn)練方法可以開(kāi)發(fā)出能夠進(jìn)行審慎思考的模型。那么這些策略如何轉(zhuǎn)化為實(shí)際性能?
實(shí)證結(jié)果:審慎推理的證據(jù)
性能基準(zhǔn)
Meta-CoT 在 HARP、MATH 和 Omni-MATH 等基準(zhǔn)測(cè)試中進(jìn)行了嚴(yán)格的評(píng)估,這些測(cè)試考察了超越基本標(biāo)記預(yù)測(cè)的推理能力。以下是結(jié)果:
使用 Meta-CoT 改進(jìn)的 OpenAI o1 模型系列在 5 級(jí) HARP 問(wèn)題上的準(zhǔn)確性比基線(xiàn)推理模型提高了 70%。
在 MATH 數(shù)據(jù)集上,Meta-CoT 改進(jìn)的模型表現(xiàn)出 85% 的 pass@64 準(zhǔn)確率,顯著優(yōu)于停留在約 40% 的經(jīng)典 CoT 模型。
在數(shù)學(xué)定理證明中,Gemini 2.0 使用 Meta-CoT 推理,通過(guò)回溯和檢查來(lái)解決復(fù)雜的問(wèn)題,包括那些非 Meta-CoT 模型給出錯(cuò)誤或不完整答案的問(wèn)題。
在迷宮任務(wù)中,A* 算法(Meta-CoT 的一個(gè)關(guān)鍵組成部分)使得效率比類(lèi)似的采樣方法提高了 4 倍。
o1 模型為棘手問(wèn)題生成了更多的標(biāo)記,同時(shí)保持了解決方案的準(zhǔn)確性。這展示了 Meta-CoT 逐步思考的方式(見(jiàn)上面的圖 1)。
通過(guò)將迭代探索嵌入到思維模型中,Meta-CoT 使模型能夠以前所未有的方式處理復(fù)雜性。這標(biāo)志著進(jìn)步不僅在 AI 推理方面,也在現(xiàn)實(shí)生活中的問(wèn)題解決方面。
元強(qiáng)化學(xué)習(xí):學(xué)習(xí)如何思考
訓(xùn)練機(jī)器進(jìn)行審慎思考并非易事。這不僅涉及找到答案,還需要探索、失敗,并不斷嘗試,直到找到正確的解決方案。元強(qiáng)化學(xué)習(xí)(Meta-RL)通過(guò)將推理視為試錯(cuò)過(guò)程來(lái)解決這個(gè)問(wèn)題,類(lèi)似于人類(lèi)解決困難問(wèn)題的方式。
我們?nèi)绾谓虝?huì)機(jī)器思考?
元強(qiáng)化學(xué)習(xí)將推理轉(zhuǎn)變?yōu)閷W(xué)習(xí)過(guò)程。以下是該過(guò)程的概述:
探索:模型首先嘗試各種可能的解決方案。想象一下,一個(gè)學(xué)生在面對(duì)拼圖時(shí),在不知道答案的情況下嘗試猜測(cè)。
反饋:每次嘗試后,模型會(huì)使用“獎(jiǎng)勵(lì)函數(shù)”來(lái)檢查進(jìn)度。例如,它是否更接近正確的答案?
調(diào)整:通過(guò)反饋,模型會(huì)調(diào)整其方法,探索新的方法或改進(jìn)當(dāng)前的方法。
總結(jié)
構(gòu)建像人類(lèi)一樣思考和推理的機(jī)器不再是遙不可及的夢(mèng)想。通過(guò) Meta-CoT,我們開(kāi)始將基于直覺(jué)的系統(tǒng)與進(jìn)行逐步推理的系統(tǒng)連接起來(lái)。這種從認(rèn)知科學(xué)家所稱(chēng)的系統(tǒng) 1 思維到系統(tǒng) 2 思維的轉(zhuǎn)變具有深遠(yuǎn)的意義。它意味著要超越模式識(shí)別和本能,轉(zhuǎn)向更加審慎的方法,即理解如何得出答案的方法。
Meta-CoT 改變了 AI 處理復(fù)雜問(wèn)題的方式。傳統(tǒng)模型經(jīng)常難以應(yīng)對(duì)需要超越線(xiàn)性思維的挑戰(zhàn)。涉及探索或回溯的問(wèn)題超出了它們的舒適區(qū)。但是Meta-CoT 使 AI 能夠處理這些復(fù)雜性,它測(cè)試想法、檢查進(jìn)展,并在發(fā)現(xiàn)更好選擇時(shí)調(diào)整推理——類(lèi)似于科學(xué)家測(cè)試想法或國(guó)際象棋選手在看到更好的走法后重新思考棋步。