人大劉勇團隊「慢思考」機理分析:從雪球誤差到正確推理概率
在大語言模型(LLMs)的發(fā)展歷程中, Scaling Laws [1] 一直是推動性能提升的核心策略。研究表明,隨著模型規(guī)模和訓(xùn)練數(shù)據(jù)的增長,LLMs 的表現(xiàn)會不斷優(yōu)化 [2]。然而,隨著訓(xùn)練階段規(guī)模的進(jìn)一步擴大,性能提升的邊際收益逐漸減小,訓(xùn)練更強大的模型需要巨額投入。因此,研究重點逐漸從訓(xùn)練階段的擴展轉(zhuǎn)向推理階段的擴展 [3],探索在不增加模型參數(shù)量的情況下,如何提升推理質(zhì)量。
「慢思考」(Slow-Thinking),也被稱為測試時擴展(Test-Time Scaling),成為提升 LLM 推理能力的新方向。近年來,OpenAI 的 o1 [4]、DeepSeek 的 R1 [5] 以及 Qwen 的 QwQ [6] 等頂尖推理大模型的發(fā)布,進(jìn)一步印證了推理過程的擴展是優(yōu)化 LLM 邏輯能力的有效路徑。研究發(fā)現(xiàn),增加推理時間能夠顯著提升 LLM 的推理質(zhì)量 [7],這一發(fā)現(xiàn)推動了對 「慢思考」方法的深入研究。
「慢思考」主要可以分為內(nèi)部慢思考(Internal Slow-Thinking) 和 外部慢思考(External Slow-Thinking) 兩種方式:
- 內(nèi)部慢思考:通過額外的訓(xùn)練,使模型在專門的推理任務(wù)上優(yōu)化參數(shù),提升自身的推理深度和輸出質(zhì)量。
- 外部慢思考:不改變模型本身,而是增加計算開銷,例如通過多次采樣、重新生成答案等方式延長推理過程,從而提高推理的準(zhǔn)確性和可靠性。
本文主要關(guān)注外部慢思考。在面對復(fù)雜問題時,人類往往會花費額外的時間思考和完善推理的中間過程,以提高準(zhǔn)確性。外部慢思考受這一認(rèn)知過程的啟發(fā),通過增加推理步驟來提升大語言模型的推理質(zhì)量 [8]。例如,BoN(Best-of-N)方法會生成多個答案,并通過多數(shù)投票或排序等策略選出最優(yōu)解 [9]。此外,更前沿的框架 如思維鏈(CoT)[10]、思維樹(ToT)[11] 以及借鑒 AlphaGo [12] 蒙特卡洛樹搜索(MCTS) 的方法,能夠在樹狀結(jié)構(gòu)中探索解答空間,尋找更優(yōu)的答案 [13-14]。
然而,盡管外部慢思考方法展現(xiàn)出提升推理質(zhì)量的潛力,但仍面臨兩大核心挑戰(zhàn):
- 缺乏理論支撐:目前,我們對這些方法為何有效的理解仍然有限,這阻礙了更先進(jìn)策略的設(shè)計。
- 計算資源需求高:復(fù)雜的慢思考技術(shù)往往需要大量計算資源,且優(yōu)化設(shè)計參數(shù)的難度較大,導(dǎo)致實際應(yīng)用中的表現(xiàn)不盡如人意。
針對這些挑戰(zhàn),研究者提出了一種基于信息論的系統(tǒng)性框架,建立外部慢思考方法與 LLM 生成正確推理的概率之間的聯(lián)系。隨著「慢思考」方法的深入探索,LLM 發(fā)展新的轉(zhuǎn)折點正在到來。未來,大模型的推理能力優(yōu)化不再局限于擴大模型規(guī)模,而是通過優(yōu)化推理過程,實現(xiàn)更智能、更精準(zhǔn)的邏輯推理。本研究將深入剖析外部慢思考策略的理論基礎(chǔ)、機制解析以及其對 LLM 推理能力的影響,為人工智能推理能力的進(jìn)一步突破提供新的方向。
- 論文標(biāo)題:Rethinking External Slow-Thinking: From Snowball Errors to Probability of Correct Reasoning
- 論文鏈接:http://arxiv.org/abs/2501.15602
此工作主要作出了如下貢獻(xiàn):
- 分析了 LLM 推理過程中的雪球誤差效應(yīng),并證明該效應(yīng)會導(dǎo)致推理錯誤概率隨推理路徑的增長而上升,強調(diào)了慢思考策略在減少錯誤中的關(guān)鍵作用。
- 提出了一種基于信息論的系統(tǒng)性框架,建立外部慢思考方法與推理正確概率之間的數(shù)學(xué)聯(lián)系,為理解慢思考策略的有效性提供理論支撐。
- 對比了不同的外部慢思考方法,包括 BoN 和 MCTS 等,揭示它們在推理能力提升方面的差異與內(nèi)在聯(lián)系。
1 大模型推理過程中的「雪球誤差」
想象一下,在冬天的雪地上滾動一個雪球。隨著滾動的距離增加,雪球會以越來越快的速度變大,這就是雪球效應(yīng)(Snowball Effect)—— 小的變化會隨著時間推移不斷累積,最終帶來顯著影響。
在大規(guī)模語言模型(LLMs)中,這一效應(yīng)最初體現(xiàn)在自回歸式(Auto-Regressive) 的 Next-Token Prediction(NTP)任務(wù)中,微小的 token 級錯誤會不斷累積,最終導(dǎo)致模型生成的答案偏離預(yù)期的正確答案 [15]。然而,在更復(fù)雜的推理任務(wù)中,這種錯誤不再僅限于 token 級,而是擴展到句子級,使得推理偏差更加難以衡量和控制。
為什么推理偏差會逐步放大?
研究表明,LLM 的推理過程可以看作是逐步執(zhí)行一系列原始任務(wù)(Primitive Tasks)[16],每一步的推理結(jié)果都依賴于前面的輸出。因此,任何早期的微小誤差都會在推理鏈條中不斷放大,最終導(dǎo)致模型偏離正確答案。
為了更直觀地理解這一現(xiàn)象,研究者借助柏拉圖的「洞穴寓言」(Plato’s Allegory of the Cave)。在這個寓言中,人們只能看到投射在墻上的影子,而無法直接感知真實世界,類似于 LLM 只能從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)世界的「投影」。如圖 1 (a) 所示,訓(xùn)練數(shù)據(jù)只是現(xiàn)實世界的映射,而 LLM 生成的推理結(jié)果正如圖 1 (b) 所示,僅是其內(nèi)部推理過程的「影子」。
圖表 1: 大模型推理過程的柏拉圖假設(shè)
換句話說,模型的推理輸出并非直接反映其思維過程,而是受限于它從訓(xùn)練數(shù)據(jù)中學(xué)到的模式和誤差,導(dǎo)致滾雪球效應(yīng)的持續(xù)累積。
例如:在 LLM 執(zhí)行數(shù)學(xué)推理任務(wù)時,例如解答「計算 3x + 2y」,模型并不是直接給出答案,而是隱式地執(zhí)行一系列推理步驟:
t?: 計算 3x → t?: 計算 2y → t?: 將 3x 和 2y 相加。
然而,這些推理步驟是抽象的、不可直接觀察的,模型的最終輸出是這些推理過程的不同表達(dá)方式。例如,輸出序列 r? → r? → r? 可能有多種不同的表達(dá)形式,但它們并不一定能完全還原對應(yīng)的推理步驟 t? → t? → t?。
由于單個輸出 r_l 無法完全表達(dá)對應(yīng)的推理步驟 t_l,即使初始誤差微小,也會隨著推理鏈條的延續(xù)逐步放大,最終導(dǎo)致嚴(yán)重的推理偏差。這種誤差的積累,正是雪球效應(yīng)在推理任務(wù)中的典型體現(xiàn)。
在 LLM 推理過程中,雪球誤差會導(dǎo)致模型的推理結(jié)果逐步偏離正確答案。為了精準(zhǔn)衡量這一誤差,本研究引入互信息(Mutual Information, MI)這一數(shù)學(xué)工具,來量化隱式推理序列 t 與最終生成的回復(fù)序列 r 之間的共享信息量,記作 I (t; r)。這一度量幫助評估模型在推理過程中能夠保留多少關(guān)鍵信息。
具體而言,在每個推理步驟中,模型的輸出可能存在細(xì)微偏差,這些誤差會逐步累積并導(dǎo)致信息損失。研究者將信息損失定義為互信息 I (t; r) 與隱式推理過程的信息熵 H (t) 之間的差值:
而最終的雪球誤差則可以定義為在所有推理步驟上信息損失的累積:
2 從「雪球誤差」到推理錯誤的概率
在 LLM 的推理過程中,推理路徑越長,雪球誤差就會不斷累積,最終導(dǎo)致嚴(yán)重的事實偏差,研究者將其定義為推理錯誤(Reasoning Errors)。
如何衡量推理錯誤?
為了準(zhǔn)確評估推理錯誤,研究者首先需要清晰地定義它。由于每個輸出 r_l 代表隱式推理步驟 t_l,研究者通過檢查是否存在一個足夠強大的映射函數(shù) f 來從 r_l 還原 t_l。如果這種還原能力較弱,說明推理過程中信息損失較大,進(jìn)而導(dǎo)致了推理錯誤的發(fā)生。具體而言,研究者將「推理錯誤」這一事件刻畫如下:
為了更準(zhǔn)確地估計 LLM 發(fā)生推理錯誤的概率,本研究提出使用信息論方法,建立雪球誤差與推理錯誤發(fā)生概率之間的數(shù)學(xué)聯(lián)系。研究者從一個關(guān)鍵引理出發(fā),通過理論推導(dǎo)揭示滾雪球誤差如何逐步積累,并最終影響模型的推理準(zhǔn)確性。
基于此引理,研究者可以推導(dǎo)出推理錯誤發(fā)生概率的下界:
此定理表明,在推理的第 l 步,錯誤概率的下界受累積信息損失 H_(<l) (t|r) 影響,由于其累加的定義,這一損失至少會隨推理步數(shù) l 線性增長。
當(dāng)雪球效應(yīng)出現(xiàn)時,累積信息損失可能超過線性增長,導(dǎo)致推理錯誤概率隨推理路徑的增加而快速上升。換句話說,推理鏈條越長,模型出錯的可能性越大,這解釋了 LLM 在長鏈推理任務(wù)中為何容易出現(xiàn)偏差。
圖表 2: 不同 LLM 在 GSM8k 數(shù)據(jù)集上生成回復(fù)的估計互信息(MI)和獎勵分?jǐn)?shù)
為了實證驗證 LLM 推理中的雪球誤差效應(yīng),本研究基于 GSM8k 數(shù)據(jù)集進(jìn)行實驗,并測試了三款先進(jìn)的推理 LLMs:Llama3.1-8B-Instruct、Qwen2.5-7B-Instruct以及 Skywork-o1-Open-Llama-3.1-8B。
研究者計算了互信息 I (t; r) 在所有 token 上的平均值,并分析其隨推理路徑長度 L 的變化,同時評估生成結(jié)果的獎勵分?jǐn)?shù)(reward),結(jié)果如圖表 2 所示。實驗結(jié)果表明:
- 互信息呈負(fù)指數(shù)級下降,比線性衰減更快,隨著推理步數(shù) L 的增長,信息損失迅速累積;
- 由于計算的是平均互信息,推理鏈條靠后的 token 可能損失更多關(guān)鍵信息;
- 獎勵分?jǐn)?shù)隨推理長度增加而下降,進(jìn)一步驗證了雪球誤差對 LLM 生成質(zhì)量的影響。
這一實驗結(jié)果不僅驗證了雪球誤差的存在,也表明信息損失的累積速度遠(yuǎn)超線性衰減,直接影響 LLM 生成的推理質(zhì)量。這一發(fā)現(xiàn)與研究者的理論分析一致。
3 外部慢思考中的正確推理概率
先前的分析表明,推理錯誤概率 P (e_l) 隨著推理步數(shù) l 的增加而上升。然而,在實際應(yīng)用中,推理錯誤通常體現(xiàn)在模型生成結(jié)果的獎勵分?jǐn)?shù)(reward) 上。因此,本文進(jìn)一步擴展至現(xiàn)實場景,探討外部慢思考方法為何有效。
3.1 何為正確推理
研究者首先定義 LLM 在現(xiàn)實場景中的推理過程。對于一個問題 r_0,模型會通過自回歸方式生成一個包含 L 個推理步驟的響應(yīng)序列:R = [r_1,r_2,…,r_L]。
為了評估每一步推理 r_l 的質(zhì)量,研究者引入一個價值函數(shù) φ,用于衡量每個步驟的正確性 φ(r_l) 。在實際應(yīng)用中,這一評估可以通過人類反饋或獎勵模型來實現(xiàn)。此外,研究者假設(shè)每個推理步驟都有一個標(biāo)準(zhǔn)答案 r_l^*,代表 LLM 應(yīng)該生成的最準(zhǔn)確答案,與人類理想推理方式保持一致。
基于上述設(shè)定,研究者利用價值函數(shù) φ 評估推理步驟的正確性,并據(jù)此量化 LLM 生成回復(fù)的質(zhì)量。具體而言,研究者分別將單步推理和整個推理過程的正確性定義如下:
3.2 正確推理的概率
實驗結(jié)果(圖表 2)表明,平均互信息會隨推理步數(shù)呈近似指數(shù)級下降,這意味著雪球誤差隨著推理長度的增加呈指數(shù)級增長。然而,由于概率值不能超過 1,研究者基于定理 3.3 提出一個假設(shè):在實際應(yīng)用中,推理錯誤的概率可能遵循指數(shù)衰減函數(shù),即:P (e_l) = 1 -λe^(-l),這一假設(shè)使得后續(xù)分析更加直觀,并進(jìn)一步幫助推導(dǎo)在第 l 層生成正確推理步驟的概率:
由此假設(shè),研究者推導(dǎo)出在雪球誤差存在時,最終得到一個正確的完整推理過程的概率:
3.3 外部慢思考提升推理質(zhì)量的機理
基于前面的分析,研究者首先直觀上得出這樣的結(jié)論:由于 LLM 生成的隨機性,外部慢思考方法的核心目標(biāo)是引入額外的推理步驟并結(jié)合多次重新采樣策略,從而對沖雪球誤差,進(jìn)而提高模型生成結(jié)果的正確性。
接下來,研究者利用理論分析進(jìn)一步詳細(xì)闡述這一觀點。首先,外部慢思考方法從根本上來說主要具有兩個特點:
- 寬度擴展(Width-Expansion):
- 對于長度一定的推理序列,大多數(shù)外部慢思考方法都試圖擴展推理空間的寬度。
- 這可以通過簡單的重新生成(BoN、CoT-SC)或更復(fù)雜的樹搜索方法(ToT、MCTS) 來實現(xiàn)。
- 生成 & 選擇(Generation & Selection):
- 擴展推理空間后,還需要從多個候選推理路徑中選出最優(yōu)解。
- 設(shè) Pr (τ_generate) 為生成正確推理的概率,Pr (τ_select) 為從候選路徑中選出正確推理的概率,則最終獲得正確推理結(jié)果的概率可表示為:Pr [ψ(R)≤τ ]= Pr (τ_generate )× Pr (τ_select )。
外部慢思考 通過擴展推理空間來提升 LLM 生成正確答案的概率 Pr (τ_generate),但與此同時,額外的推理步驟也會增加選擇最優(yōu)推理路徑的難度,從而降低 Pr (τ_select)。這意味著,在提升推理正確性的同時,也帶來了更復(fù)雜的決策挑戰(zhàn)。
如何量化這種權(quán)衡?
為了更直觀地分析這一現(xiàn)象,研究者以 Beam Search 作為基準(zhǔn)的寬度擴展策略。Beam Search 廣泛應(yīng)用于樹搜索算法,其核心機制如下:
- 在每一層推理,生成 k 個子節(jié)點以擴展搜索樹的寬度;
- 僅保留 b 個最優(yōu)候選解,以減少計算復(fù)雜度。
研究者將分析結(jié)果形式化為一個數(shù)學(xué)引理,進(jìn)一步揭示了推理空間擴展與最優(yōu)路徑選擇之間的平衡關(guān)系。
基于推理過程的基本假設(shè),這一概率上界可以被進(jìn)一步簡化為:
引理 4.5 和定理 4.6 闡述了外部慢思考技術(shù)的本質(zhì)機理并支撐了如下結(jié)論:
獲得正確推理的概率主要受以下三個關(guān)鍵因素影響:
- 每層生成的候選數(shù) k :決定了推理空間的擴展寬度;
- 每層篩選的最優(yōu)候選數(shù) b :影響正確推理路徑的選擇精度;
- 正確性閾值 τ :衡量推理結(jié)果的質(zhì)量要求。
寬度擴展 vs. 選擇可靠性:如何找到平衡?
- Pr (τ_select) (選擇正確推理的概率)依賴于價值函數(shù)的可靠性,即 ?_b 相關(guān)的參數(shù)。
- Pr (τ_generate) (生成正確推理的概率)受 推理路徑長度 L 和擴展寬度 k 影響。
- 通過增加推理步驟,可以提升生成正確推理的概率,但同時會引入額外的選擇代價,增加錯誤概率。
慢思考方法的關(guān)鍵優(yōu)化條件
對比引理 4.4 和定理 4.6 發(fā)現(xiàn),慢思考方法是否有效,還取決于價值函數(shù)的可靠性。為了保證推理準(zhǔn)確率的上限得到提升,價值函數(shù)的可靠性必須滿足:。
通過上述分析,研究者總結(jié)了外部慢思考方法的核心機制。通過增加推理路徑的搜索范圍,這些方法提高了生成正確答案的概率,有效減少雪球誤差的累積。同時其效果極大依賴于所使用的價值函數(shù)的可靠性,這一因素直接影響整個方法的最終表現(xiàn)。
4 外部慢思考方法間的對比
接下來,研究者將對比簡單和復(fù)雜的外部慢思考框架之間的核心區(qū)別,并以著名的 BoN 和 MCTS 為例進(jìn)行分析。
4.1 BoN 與 MCTS 框架下的正確推理概率
對于 BoN 來說,研究者很方便地將其建模為進(jìn)行 N 次長度為 L 的推理,并最終在 N 個答案中選擇一次的過程。因此,BoN 的正確推理概率上界為:
對于 MCTS(RAP 模式),由于其機制較為復(fù)雜,研究者考慮其最好和最壞的情況。在最好的情況下,MCTS 的每次節(jié)點擴展時都發(fā)生在最深的葉子節(jié)點上,則它退化成了一個采樣寬度和保留寬度都為 b 的 Beam Search。
而在最差情況,MCTS 需要遍歷所有可能的節(jié)點,從而形成一棵完全 b - 叉樹。
4.2 對比 BoN 與 MCTS 的總推理代價
可以看出,MCTS 由于需要調(diào)用更多次的選擇過程,一般會比 BoN 對于價值函數(shù)有更高的敏感性。除此之外,在假設(shè)價值函數(shù)完美(?_b=1)的情況下,研究者對齊概率上界中的其余部分,可以計算出當(dāng) BoN 和 MCTS 具有相當(dāng)?shù)恼_推理概率上界時,所需要具備的總推理代價的規(guī)模,如圖表 3 所示。
圖表 3: 相同推理正確概率下 BoN 與 MCTS 總推理代價規(guī)模對比
結(jié)果表明,當(dāng) BoN 與 MCTS 在推理正確率上相當(dāng)時,BoN 的總推理成本與 MCTS 接近。
- 最優(yōu)情況下:BoN 與 MCTS 的推理成本趨近相等;
- 最差情況下:當(dāng)推理步數(shù) L 較小時,BoN 的成本可能略高于 MCTS,但仍保持在合理范圍內(nèi)。當(dāng) L 增加,BoN 的推理成本甚至可能低于 MCTS。
這一結(jié)論表明,推理成本是決定減少雪球誤差效果的關(guān)鍵因素,而具體采用哪種慢思考框架(如 BoN 或 MCTS)對最終結(jié)果的影響理論上可能是較小的。
4.3 實驗驗證
在 GSM8k 和 PrOntoQA 兩個推理任務(wù)上,實證對比了 BoN 和 MCTS 的推理準(zhǔn)確性。研究者采用 [14] 推薦的 MCTS 優(yōu)化配置,并計算相應(yīng)的 N 值,使 BoN 的推理成本與 MCTS 盡可能接近。由于兩種方法生成推理路徑的方式不同,完全對齊并不現(xiàn)實,因此研究者定義合理的 N 值區(qū)間:
N 合理范圍的下界與上界:
- N ?_res :對齊推理步數(shù)的 N 值
- N ?_call :對齊 LLM 調(diào)用次數(shù)的 N 值
研究者測試了 BoN 的三種選擇策略:
- Self-Consistency(自洽性選擇)
- ORM Vote(基于獎勵模型的投票選擇)
- ORM Max(基于獎勵模型的最大值選擇)
實驗結(jié)果如圖表 4 所示。
圖表 4: GSM8k 和 PrOntoQA 上 BoN 與 MCTS 的準(zhǔn)確性對比
研究者可以得出如下結(jié)論:
不同任務(wù)下的 BoN 表現(xiàn)
- PrOntoQA(二分類任務(wù):True/False):
- 由于答案固定,增加 N 并不會提升 Self-Consistency 策略下的 BoN 性能,除非引入獎勵模型。
- GSM8k(多步推理任務(wù)):
- 由于答案多樣,增加 N 即使在沒有獎勵模型的情況下,也能提升 BoN 的性能。
BoN 與 MCTS 的關(guān)鍵對比
- ORM Vote & ORM Max 策略(結(jié)合獎勵模型):當(dāng) N 在 N ?_res 和 N ?_call 之間時,BoN 能夠達(dá)到與 MCTS 相當(dāng)?shù)耐评硇阅埽?/span>
- N 接近 N ?_res 時,BoN 略低于 MCTS,但差距不大;
- N 取更大值時,BoN 能夠匹敵甚至超越 MCTS,進(jìn)一步驗證了 MCTS 在 LLM 推理中的局限性,并支持研究者的理論分析。
本實驗表明,在合理的 N 值范圍內(nèi),BoN 通過適當(dāng)調(diào)整推理寬度,可以達(dá)到甚至超越 MCTS 的推理效果,這與研究者的理論分析一致。
5 小結(jié)
本研究分析了外部慢思考方法的有效性機制,并通過信息論建立了 LLM 推理中的雪球誤差與推理錯誤之間的聯(lián)系。研究表明,外部慢思考方法通過擴展推理空間可以減少推理錯誤,但同時增加了推理成本,需要在正確性和計算開銷之間權(quán)衡。
對比 BoN 和 MCTS 等方法后,研究者發(fā)現(xiàn)影響其有效性的核心因素是獎勵函數(shù)的能力和推理總成本,而具體的搜索框架影響較小。因此,優(yōu)化獎勵函數(shù)和提升策略模型的推理能力是未來改進(jìn)外部慢思考方法的關(guān)鍵方向。