NeurIPS 2024 (Oral) | 如何量化與提升思維鏈的推理能力邊界?
本篇工作已被 NeurIPS(Conference on Neural Information Processing Systems)2024 會議接收,并被評為 Oral Presentation (72/4553) 。該文章的第一作者陳麒光,目前就讀于哈工大賽爾實驗室。他的主要研究方向包括大模型思維鏈、跨語言大模型等。
該研究主要提出了推理邊界框架(Reasoning Boundary Framework, RBF),首次嘗試量化并優(yōu)化思維鏈推理能力。
- 論文鏈接:https://arxiv.org/abs/2410.05695
- 代碼地址:https://github.com/LightChen233/reasoning-boundary
1. 大型語言模型(LLMs)與思維鏈推理能力
什么是思維鏈(Chain-of-Thought, CoT)?
近年來,大型語言模型(LLMs) 在處理各種復雜任務中取得了長足進展,從文本生成到問題解答,LLMs 幾乎無所不能。然而,面對復雜的推理任務,LLMs 也存在瓶頸 —— 模型往往容易跳過推理的中間步驟,直接生成最終答案,這使得它們在應對復雜問題時容易犯錯。
思維鏈推理(CoT) 是一種讓模型分步推理復雜問題的方法。與傳統(tǒng)模型的直接生成答案不同,CoT 通過逐步細化問題的每一步,從而得到更準確、更有邏輯的結果。
為什么它如此重要?
為什么 CoT 很重要?因為面對復雜的推理任務,模型往往會因為信息量大、推理路徑復雜而犯錯。CoT 的逐步推理策略使模型能夠處理更具挑戰(zhàn)性的任務 —— 從數(shù)學題解到現(xiàn)實決策問題,它能幫助模型分解任務,找到每個步驟的最佳解法。
這不僅提升了模型的準確性,還顯著增強了它處理復雜任務的能力,使其能夠應用于更廣泛的實際場景中。
2. 模型推理的困境:復雜任務中的可解釋性難題
想象這樣一個情景 :你正在處理一個復雜的項目,需要模型綜合多種能力,最終通過多步推理找到最優(yōu)解決方案,那么這些能力和推理能力是如何組合,共同影響并改進最終性能的呢?
為了解決該問題,該文章通過研究以下幾個問題來理解和解決這個問題。
2.1 模型在面對復雜推理時,如何對推理能力進行量化?
當前多數(shù)研究依賴定性分析,缺乏統(tǒng)一的量化指標來系統(tǒng)比較不同的 CoT 推理方法。這種局限性導致研究者難以精確評估和預測模型在復雜任務中的推理能力上限,阻礙了對 CoT 推理效果的深入理解和科學驗證。
為此,研究人員提出推理邊界框架(Reasoning Boundary Framework, RBF),定義了模型在不同準確率對于的推理能力邊界。并提出了三種推理邊界以量化推理能力邊界:完全可行推理邊界(CFRB);完全不可行推理邊界(CIRB); 部分可行推理邊界(PFRB)。
2.2 推理能力與不同的其他能力如何組合?
在實際場景中,模型往往需要集成多種能力才能有效地解決某一任務。
為了定量描述如何通過思維鏈 CoT 機制實現(xiàn)多種能力的協(xié)同提升,研究者進一步提出了 “ 推理邊界的組合律 ”,并推導并驗證了該組合律的具體公式。
2.3 如何基于可解釋性框架優(yōu)化思維鏈?
雖然已有研究揭示了 CoT 推理的部分機制,但如何系統(tǒng)性地優(yōu)化 CoT 推理的效率和效果仍缺少明確的策略與方法指導。這一不足限制了 CoT 技術在實際應用中的進一步改進與拓展。
根據(jù)推理邊界框架,本文提出了最短可接受推理路徑(MARP) 優(yōu)化推理效率。無論是在復雜的數(shù)學推理還是多跳推理中,RBF 都能幫助模型在海量信息中找到最優(yōu)路徑,大幅提升推理效果。
3. 概念定義
3.1 推理邊界
為了量化大型語言模型的復雜推理能力,如圖 1 (a) 所示,研究者引入了推理邊界(Reasoning Boundary, RB) 的概念,定義了 LLMs 在特定推理過程中能夠處理的任務難度上限。
具體而言,RB 被定義為模型 m 和任務 t 作為問題難度 d 的最大值,模型的準確性達到預定義閾值:
其中 Acc (t|d, m) 表示模型在難度為 d 的任務 t 上的準確率。難度可以通過推理步驟數(shù)或計算復雜度等因素來衡量。簡而言之,RB 反映了模型在保持一定準確性(accuracy)的前提下,其推理能力的邊界。
* 為了簡潔起見,在后續(xù)文章中將 RB 表示為。
總結:模型的推理邊界是由其針對給定任務難度實現(xiàn)特定準確度的能力來定義的。
3.2 推理邊界間的組合律
在實際場景中,模型往往需要集成多種能力才能有效地解決某一任務。
為了定量描述如何通過思維鏈 CoT 機制實現(xiàn)多種能力的協(xié)同提升,研究者提出了“推理邊界的組合律”,并推導出 CoT 能力上限的具體公式。
該定律估計模型 m 內(nèi) n 個任務的統(tǒng)一推理邊界,即表述為:
其中表示任務
的推理邊界。
和
是縮放因子,僅受相關任務影響。如圖 1 (b) 所示,該方程提供了一個數(shù)學公式來估計獨立 RB 的組合,從而可以更深入地了解復雜任務的模型行為。
總結:推理邊界的組合律描述了多個推理能力的協(xié)同效應,滿足加權調(diào)和平均公式,用以估計模型在多個任務上的整體推理能力。
3.3 推理邊界劃分
此外,為了指導 CoT 的優(yōu)化和更方便的表達,如圖 1 (c) 所示,研究者根據(jù)經(jīng)驗準確性定義了以下三類 RB:
- 完全可行的推理邊界:研究者定義準確率大于 90% 的部分是完全可行的推理邊界 (CFRB=
),這意味著 LLM 可以有效地掌握這部分的表現(xiàn)。
- 完全不可行的推理邊界:研究者認為準確率小于 10% 的部分是完全不可行的推理邊界 (CIRB=
),這意味著模型永遠無法有效掌握這部分的性能。
- 部分可行推理邊界:研究者將除 CFRB 和 CIRB 之外的其余部分中的 RB 定義為部分可行推理邊界 (PFRB=
),這需要模型重復思考或者更清晰的信息來解決問題。
研究者通過詳細分析了這三類 RB 的性質(zhì),進一步結合組合律來優(yōu)化這三個推理邊界,從而為支持未來 CoT 優(yōu)化提供有效的建議和指導。
4. 實驗設置
- 模型設置:研究者們采用了 GPT-3.5-Turbo 作為主要模型,實驗還涵蓋了多任務場景,包括數(shù)學推理、多跳問答和多語言推理等領域,以確保推理邊界的全面評估。
- 基準設置:為了更好地評估 LLMs 的推理能力,作者引入了一個新的數(shù)據(jù)集 ——BigGSM。這個數(shù)據(jù)集不僅具有較高的計算復雜性,還包含更長的推理鏈,能夠更好地挑戰(zhàn)模型的推理上限。
5. 驗證性實驗
5.1 推理邊界存在性驗證
研究者們通過實證分析,驗證了推理邊界在三類任務中的普遍性:
在基礎算術運算中,呈現(xiàn)出三種不同的推理邊界 (圖 2 (a));
在自然語言規(guī)劃任務中,同樣展現(xiàn)出三種不同的推理邊界 (圖 2 (b));
在代碼規(guī)劃任務中,仍然表現(xiàn)出一致的三種推理邊界 (圖 2 (c))。
5.2 推理邊界組合律驗證
在實際應用中,模型通常需要集成多種能力才能高效解決復雜任務。為此,研究者們進一步地驗證了實際場景中,推理邊界組合律的廣泛適用性:
- 復雜多項式計算的推理邊界:可視為 ①計算步驟規(guī)劃 與 ②數(shù)學運算 兩個推理邊界的結合。如圖 3 (a) 所示,實驗結果顯示了三個具有明顯邊界的推理邊界劃分區(qū)域。
- 復雜小學數(shù)學推理的推理邊界:可理解為 ①自然語言步驟規(guī)劃 與 ②數(shù)學運算 的結合,圖 3 (b) 中同樣展示了三個清晰的推理邊界劃分區(qū)域。
- 多跳問答的推理邊界:可被視作 ①多跳規(guī)劃 與 ②實體推理 的結合。正如圖 3 (c) 所示,三個推理邊界劃分的有效區(qū)域同樣可見。
5.3 不同推理邊界的不同性質(zhì)
研究者驗證了不同推理邊界在模型中的性質(zhì):
- 完全可行推理邊界-->完全掌握:如圖 4 (a, b) 所示,在這一邊界下,模型即使在沒有示例、無需 self-consistency 的情況下也能夠高效完成任務。
- 部分可行推理邊界-->不完全掌握:在這一推理邊界下,如圖 4 (b) 所示,模型對任務的掌握程度有限,需要通過多次 Self-consistency 來增強信心,從而提高準確率。
- 完全不可行推理邊界-->完全不掌握:在這種邊界下,如圖 4 (b) 所示,模型的推理表現(xiàn)極其有限,即便采用 Self-consistency,模型的準確率仍難以得到提升。
- 大模型能夠自己意識到自己的推理邊界:研究還發(fā)現(xiàn),如圖 4 (c) 所示,當讓模型自行生成 CoT 示例時,模型更傾向于生成符合其推理邊界的樣本,特別是在完全可行推理邊界范圍內(nèi),而很少生成其完全無法掌握的樣本。這表明模型對推理邊界具有一定的自我感知能力,能夠根據(jù)自身能力選擇合適的任務進行推理。
6. 基于推理邊界的 CoT 優(yōu)化
為了進一步優(yōu)化思維鏈的表現(xiàn),研究者們提出了基于推理邊界優(yōu)化的多種策略,并對這些策略進行了全面的實驗驗證,揭示了如何通過調(diào)整 RB 提升復雜任務中的推理能力。
6.1 推理邊界優(yōu)化策略
工具使用可以提升大語言模型的推理邊界
當模型使用工具時,可以簡單地認為模型可以以無限精度執(zhí)行計算,因此數(shù)學計算的推理邊界趨向于無窮大,即。顯然,模型的組合推理邊界可以計算為:
其中,c 表示計算任務,p 表示規(guī)劃任務。很容易得出,,這表明工具使用可以提高推理的邊界。這解釋了為什么工具使用比普通的推理鏈性能更好(見表 1)。此外,如圖 5 所示,理論推理邊界與實際推理邊界的分布幾乎完美重合,這也證明了該假設的可靠性和適用性。
程序化思維可以進一步提升大語言模型的推理邊界。
由工具使用的組合推理邊界計算公式可得,LLM 的推理邊界完全取決于其規(guī)劃能力。由于自然語言可能過于冗長,它會妨礙 LLM 的規(guī)劃能力。因此,程序化思維(Program-of-Thought,PoT)通過代碼提供了更清晰的邏輯表示,使得規(guī)劃更為清晰(如圖 2 (b, c) 所示)。所以,這導致更好的步驟規(guī)劃推理邊界,即。那么,PoT 的推理邊界
。
6.2 推理路徑優(yōu)化策略
對于固定推理方式的模型而言,其推理邊界(即能力邊界)是相對固定的。因此,關鍵問題在于如何通過優(yōu)化策略,提升模型的推理能力,使得優(yōu)化后的推理邊界超越原問題所需的邊界。
- Complex CoT 在推理步驟與性能之間的平衡
- 單次計算負荷緩解:研究表明,通過增加推理步驟,可以緩解單次計算的負荷,從而提升模型的計算邊界
,這有助于提高整體的推理能力。
- 規(guī)劃難度增加:然而,推理步驟的過度增加可能帶來負面影響:原問題在準確率較高的邊界
上,經(jīng)過 Complex CoT,可能落到準確率較低的邊界
上,其中
。這意味著過多的推理步驟可能導致組合推理準確度的下降。
- 在規(guī)劃與計算負荷之間存在一個平衡:如圖 6 所示,隨著推理步驟的增加,模型性能在初期顯著提高,但當步驟數(shù)超過模型的最優(yōu)推理能力時,性能開始下降。這表明,Complex CoT 在推理步驟數(shù)量與計算負荷之間存在一個最佳平衡點。超出這一點,計算負荷的增加會對模型的整體表現(xiàn)產(chǎn)生負面影響。
- Least-to-Most 的分步優(yōu)化策略
局部規(guī)劃壓力緩解:通過將問題拆解為多個子問題,如圖 7 所示,可以有效減少每個步驟內(nèi)的規(guī)劃壓力,對各種不同計算量的問題都能有一定的性能提升。
全局規(guī)劃難度增加:雖然這種策略能夠降低局部規(guī)劃負擔,它同時引入了全局分解規(guī)劃中的額外推理邊界。如圖 15 所示,接近 70% 的全局規(guī)劃數(shù)超過了 5 步,嚴重加大了模型規(guī)劃難度,從而使實際的組合推理邊界對應的準確率下降。
- 最短可接受推理路徑提示(MARP)
為了克服上述策略的局限性,研究者提出了最短可接受推理路徑提示(MARP)策略。該策略通過提示大模型在每個步驟中盡可能高效地執(zhí)行計算,同時減少不必要的全局規(guī)劃,從而降低了模型的計算負擔和規(guī)劃復雜度:
- 最小化推理路徑提示:為了減輕與規(guī)劃相關的認知負擔,通過該提示讓模型盡可能簡潔地回答問題,確保提供簡短、清晰和直接的推理路徑。
- 可接受推理路徑提示:為了更有效地利用推理邊界的上限,通過該提示要求模型每一個推理步驟的復雜性在可接受的范圍內(nèi)。
實驗結果(見表 1)顯示,MARP 顯著提高了模型性能,并有效減少了 token 的使用量。
7. 拓展性探索
7.1 模型擴展驗證
- 推理邊界與模型準確率的正相關性:研究者通過對 25 個不同模型的推理邊界表現(xiàn)進行分析,發(fā)現(xiàn)推理邊界與數(shù)學任務中的準確率呈現(xiàn)出正相關關系。
- 數(shù)學模型與通用模型在推理邊界 - 準確率分布上的差異:通過數(shù)學數(shù)據(jù)微調(diào)的模型,推理邊界 - 準確率分布雖然呈現(xiàn)出正相關,但與通用 LLM 存在顯著差異。這可以為未來區(qū)分模型是否進行了數(shù)學專項訓練提供了一個潛在的指標。
- 開源模型在完全可行推理邊界上的局限性:開源模型在完全可行推理邊界(CFRB)上的表現(xiàn)與閉源模型存在顯著差異。幾乎所有開源模型的 CFRB 值均為 0,這表明開源模型在高級推理任務上的不足,表明其在未來優(yōu)化中的潛力。
7.2 任務擴展驗證
更進一步地,該研究不僅驗證了在數(shù)學運算、數(shù)學推理和多跳問答任務中的推理邊界擴展規(guī)律,還進一步探索了在多語言推理和醫(yī)療推理任務中的表現(xiàn)。
- 多語言推理:通過將多語言能力、數(shù)學計算與推理規(guī)劃相結合,實驗結果表明,這些能力的正交組合后,推理邊界依然保持了三類不同的推理邊界模式,進一步證實了此方法的普適性和穩(wěn)定性。
- 醫(yī)療推理:類似地,在醫(yī)療領域,研究通過將醫(yī)療實體推理與多跳推理規(guī)劃相結合,驗證了推理邊界在正交組合后仍然保持一致,說明該推理策略同樣適用于醫(yī)療推理任務。
8. 如何理解 o1 的優(yōu)異性能?
為了深入理解當前最先進的大型語言模型 o1,研究人員利用推理邊界框架對 GPT 系列模型進行了全面評估。
如圖 11 所示,與早期版本相比,各項推理邊界指標均有顯著提升,模型性能也隨之增強。特別是,盡管 GPT-3.5 與 GPT-4o 之間在 完全不可行推理邊界(CIRB) 上的改進幅度較大,但 完全可行推理邊界(CFRB) 的提升相對較小。然而,在 GPT-o1 版本中,完全可行推理邊界的表現(xiàn)則有了顯著改善。
進一步來看,圖 14 揭示了 GPT-o1 版本在完全可行推理邊界上的卓越表現(xiàn),提升幅度幾乎是其他模型的三倍。
研究人員認為,這一成果主要歸功于邏輯強化學習技術的進步和 Inference Scaling Law 策略的優(yōu)化。這些新策略在提升完全可行推理邊界方面起到了關鍵作用,遠遠超越了常規(guī)的改進路徑。這一現(xiàn)象可能為未來研究提供了新的方向和啟示。
總結
本研究提出了一個推理邊界(RB)框架,系統(tǒng)量化并優(yōu)化大語言模型(LLMs)在思維鏈(CoT)任務中的推理能力邊界。通過定義推理邊界和應用優(yōu)化策略,合理解釋了多個 CoT 策略其在推理性能上的優(yōu)勢。同時,最短可接受推理路徑(MARP)策略通過減少不必要的推理步驟,顯著提高了不同任務中的推理性能與效率。研究者希望 RB 框架能夠為相關研究提供理論基礎,推動 LLMs 在復雜推理任務中的發(fā)展。