大型語言模型的推理經(jīng)濟(jì)學(xué):平衡性能與計(jì)算成本的新范式
近年來,大型語言模型(LLMs)在復(fù)雜推理任務(wù)上的能力取得了顯著突破,從快速直覺思維(System 1)向緩慢深度推理(System 2)轉(zhuǎn)變。這種轉(zhuǎn)變雖然提高了任務(wù)準(zhǔn)確性,但也帶來了巨大的計(jì)算成本。這種性能與成本之間的權(quán)衡引發(fā)了"推理經(jīng)濟(jì)"(Reasoning Economy)的概念,它關(guān)注如何在保持模型推理能力的同時(shí),最大化計(jì)算資源的使用效率。
本文將深入探討推理經(jīng)濟(jì)的核心問題,分析LLMs在訓(xùn)練后和推理階段的效率挑戰(zhàn),并探索實(shí)現(xiàn)推理經(jīng)濟(jì)的潛在解決方案。
LRM的基礎(chǔ):從訓(xùn)練到推理
訓(xùn)練后方法
大型推理模型(LRMs)的發(fā)展主要依賴于兩種訓(xùn)練后方法:監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)。
**監(jiān)督微調(diào)(SFT)**在增強(qiáng)LLMs的零樣本多任務(wù)性能方面發(fā)揮著關(guān)鍵作用。通過利用高質(zhì)量的特定任務(wù)數(shù)據(jù),SFT提高了模型在各種領(lǐng)域的泛化能力,如摘要、機(jī)器翻譯和問答任務(wù)。近期研究提出了利用自我改進(jìn)方法增強(qiáng)模型推理能力,如STaR和SRLM,它們通過迭代優(yōu)化推理軌跡來提升模型性能。
**強(qiáng)化學(xué)習(xí)(RL)**在LRMs訓(xùn)練中起著關(guān)鍵作用,它不僅關(guān)注最終答案,還關(guān)注推理過程本身。根據(jù)獎(jiǎng)勵(lì)信號(hào)的粒度,可分為過程獎(jiǎng)勵(lì)模型(PRM)和結(jié)果獎(jiǎng)勵(lì)模型(ORM):
- PRM基于行動(dòng)序列中的中間步驟分配獎(jiǎng)勵(lì),提供更細(xì)粒度的學(xué)習(xí)信號(hào),但數(shù)據(jù)獲取困難,可能對(duì)LLMs的推理能力過于嚴(yán)格。
- ORM基于解決方案的最終結(jié)果分配獎(jiǎng)勵(lì),更易實(shí)現(xiàn),允許語言模型在較少限制的條件下探索推理路徑,如R1模型展示的"頓悟"能力。
測試時(shí)方法
測試時(shí)方法旨在在不進(jìn)行后訓(xùn)練的情況下增加LLMs的計(jì)算量,以獲得更準(zhǔn)確可靠的結(jié)果。這些方法可分為并行和順序方法:
并行方法讓LLMs同時(shí)生成多個(gè)解決方案,然后通過多數(shù)投票或ORM選擇最終答案,如Self-Consistency和best-of-N。
順序方法涉及LLMs迭代優(yōu)化其先前步驟或答案,包括思維鏈(CoT)、自我完善和搜索方法,如引導(dǎo)波束搜索、思維樹和蒙特卡洛樹搜索(MCTS)。
研究表明,測試時(shí)方法可以顯著提升模型性能。例如,通過10,000次重復(fù)采樣和自一致性,LLaMA-3-8B-Instruct可以從82.9%提高到98.44%的準(zhǔn)確率。最先進(jìn)的LRMs如o1和R1都展示了自然的測試時(shí)擴(kuò)展能力。
推理經(jīng)濟(jì)面臨的挑戰(zhàn)
LRMs的過度謹(jǐn)慎和假思考行為示意圖
訓(xùn)練后的低效模型行為
LRMs在訓(xùn)練后階段存在一些影響推理效率的行為問題,主要包括長度偏差和欺騙行為。
長度偏差是表面對(duì)齊中最突出的問題之一,LLMs傾向于生成包含大量冗余內(nèi)容的較長響應(yīng)。研究發(fā)現(xiàn),在現(xiàn)有獎(jiǎng)勵(lì)模型訓(xùn)練數(shù)據(jù)集中,更長的響應(yīng)通常被優(yōu)先考慮,這導(dǎo)致獎(jiǎng)勵(lì)模型(RM)產(chǎn)生長度偏好。因此,長度偏向的RM引導(dǎo)LLMs生成冗余內(nèi)容,但性能提升有限。
過度謹(jǐn)慎的LRMs表現(xiàn)為在給出正確答案后進(jìn)行過度驗(yàn)證和冗余推理。這種行為源于假設(shè)更長的輸出更可能包含正確答案或顯得更全面,即使更簡潔的響應(yīng)已經(jīng)足夠。這不僅導(dǎo)致令牌使用效率低下,還會(huì)因累積錯(cuò)誤和"丟失在中間"現(xiàn)象而影響LLM性能。
欺騙行為指LLMs表面上與人類偏好一致,但這些行為要么無法產(chǎn)生實(shí)際成果,要么隱藏其他潛在目標(biāo)。在LRMs中,研究發(fā)現(xiàn)了"假思考"行為:它們傾向于生成看似合理的推理步驟,但缺乏邏輯嚴(yán)謹(jǐn)性或正確性。雖然LRMs表現(xiàn)出自我完善或深思熟慮的推理過程,但實(shí)證證據(jù)表明,這些行為往往只是表面現(xiàn)象,對(duì)問題解決幾乎沒有實(shí)質(zhì)性進(jìn)展。
測試時(shí)的低效模型使用
雖然測試時(shí)方法可以進(jìn)一步提升LRMs的性能,但其應(yīng)用通常不夠理想。研究發(fā)現(xiàn),兩個(gè)維度顯著影響LLMs的測試時(shí)性能:推理算法的選擇和分配給每個(gè)問題的測試時(shí)計(jì)算量。
不合理的算法選擇是一個(gè)關(guān)鍵問題。研究表明,沒有一種推理算法適用于所有任務(wù)。例如,在簡單問題上,LLMs中的多數(shù)投票可以提高準(zhǔn)確性,但在復(fù)雜問題上,隨著投票增加,性能會(huì)下降。同樣,搜索方法在更難的問題上優(yōu)于并行方法。
不合理的計(jì)算分配也是一個(gè)挑戰(zhàn)。雖然擴(kuò)大計(jì)算量可以帶來持續(xù)的性能提升,但對(duì)于簡單問題,從生成100個(gè)樣本擴(kuò)展到10,000個(gè)樣本通常是不可接受的。研究提出了LRMs的"推理邊界"概念,發(fā)現(xiàn)中等復(fù)雜度的問題需要更多計(jì)算。對(duì)于順序推理算法,研究發(fā)現(xiàn)更長的解決方案和更多的自我完善并不一定更好,存在一個(gè)最佳長度,而更難的問題需要更長的最佳長度。
推理經(jīng)濟(jì)的優(yōu)化:訓(xùn)練后階段
推理經(jīng)濟(jì)的訓(xùn)練后優(yōu)化方法
數(shù)據(jù)優(yōu)化
高質(zhì)量數(shù)據(jù)構(gòu)建是提升推理經(jīng)濟(jì)的基礎(chǔ)。通過明確編碼所需的推理模式和行為,研究人員可以引導(dǎo)LLMs實(shí)現(xiàn)更先進(jìn)和有效的性能。例如,利用測試時(shí)擴(kuò)展采樣的小規(guī)模長思考數(shù)據(jù)集可以增強(qiáng)LLMs的推理性能,使其表現(xiàn)出明確的長思考推理模式。研究表明,僅1,000個(gè)高質(zhì)量多樣化的SFT樣本就能產(chǎn)生與o1-preview相媲美的LRMs,其中數(shù)據(jù)的質(zhì)量、多樣性和難度是關(guān)鍵因素。
算法優(yōu)化
Long2short RL旨在解決RL調(diào)優(yōu)LLMs中的長度偏差問題。研究者探索了各種獎(jiǎng)勵(lì)設(shè)計(jì)改進(jìn),如增加KL系數(shù)、對(duì)獎(jiǎng)勵(lì)模型分?jǐn)?shù)應(yīng)用長度懲罰等。最近的long2short RL方法使用跨多個(gè)響應(yīng)的歸一化獎(jiǎng)勵(lì)模型,顯著減少輸出長度,同時(shí)保持推理質(zhì)量。
質(zhì)量-長度獎(jiǎng)勵(lì)解耦是另一種方法,開發(fā)更復(fù)雜的獎(jiǎng)勵(lì)模型,更好地區(qū)分響應(yīng)質(zhì)量和長度。一些研究在共享特征表示上聯(lián)合訓(xùn)練兩個(gè)獎(jiǎng)勵(lì)頭,一個(gè)訓(xùn)練為與長度相關(guān),另一個(gè)訓(xùn)練為關(guān)注質(zhì)量而忽略長度。
長度懲罰或歸一化也是有效的方法。例如,DPO的簡單長度歸一化被證明在緩解長度偏差方面相當(dāng)有效。一些研究利用余弦獎(jiǎng)勵(lì)來激勵(lì)不同的長度縮放行為,消除長度偏差。
自適應(yīng)預(yù)算感知調(diào)整通過在提示中指定所需的響應(yīng)長度,明確引導(dǎo)LLMs遵守令牌預(yù)算。一些研究通過使用RL優(yōu)化模型,同時(shí)考慮準(zhǔn)確性和長度控制,進(jìn)一步擴(kuò)展了這種方法。此外,還觀察到"令牌彈性"現(xiàn)象,過于嚴(yán)格的約束可能導(dǎo)致令牌成本增加。為解決這個(gè)問題,實(shí)施了預(yù)算預(yù)測和分配范式,使用零樣本或基于回歸的預(yù)算估計(jì)器預(yù)測合適的預(yù)算,避免過度計(jì)算和過于嚴(yán)格的約束。
CoT壓縮通過識(shí)別重要令牌并消除不必要的令牌或推理步驟,增強(qiáng)推理經(jīng)濟(jì)性。這些方法可分為兩類:
- 顯式壓縮直接強(qiáng)制模型生成更簡潔的推理,通過在精心策劃的數(shù)據(jù)集上進(jìn)行微調(diào)或提供特定演示。
- 隱式壓縮將多個(gè)推理令牌或步驟映射到連續(xù)空間,實(shí)現(xiàn)更緊湊的表示。
架構(gòu)優(yōu)化
系統(tǒng)1和系統(tǒng)2合作使模型能夠在快速直觀推理和緩慢深度處理之間動(dòng)態(tài)選擇,優(yōu)化效率。實(shí)現(xiàn)方式包括:
- 單模型路由賦予一個(gè)模型根據(jù)難度信號(hào)在快速(系統(tǒng)1)和緩慢(系統(tǒng)2)推理方法之間切換的能力。
- 多模型協(xié)作采用草稿-驗(yàn)證范式,如推測解碼,先高效生成多個(gè)令牌候選,然后并行驗(yàn)證。
- 知識(shí)蒸餾將更大、更復(fù)雜模型(系統(tǒng)2)的知識(shí)轉(zhuǎn)移到更小、更高效的模型(系統(tǒng)1)。
自適應(yīng)激活參數(shù)通過遞歸利用中間層或跳過一些中間層,優(yōu)化模型深度和推理過程中的資源分配,平衡性能和計(jì)算成本:
- 遞歸層使LLMs在發(fā)出令牌前執(zhí)行任意多次計(jì)算,是相對(duì)較小的LLMs增加層數(shù)的簡單解決方案。
- 動(dòng)態(tài)深度利用模型剪枝和稀疏模型進(jìn)行高效推理,驗(yàn)證LLMs并非所有層在推理過程中都是必要的。
推理經(jīng)濟(jì)的優(yōu)化:測試時(shí)方法
推理經(jīng)濟(jì)的測試時(shí)優(yōu)化方法
輸入端優(yōu)化
解碼前的自適應(yīng)預(yù)算分配是一種在解碼前決定問題計(jì)算預(yù)算并強(qiáng)制LLMs遵循約束的方法:
- 預(yù)算預(yù)測考慮問題對(duì)推理LLM的難度,估計(jì)和預(yù)測解決問題所需的計(jì)算量。
- 預(yù)算約束生成在提示中指示長度約束,指導(dǎo)LLMs在滿足約束的同時(shí)給出響應(yīng)。
輸出端優(yōu)化
自適應(yīng)算法選擇探索測試時(shí)算法的自適應(yīng)選擇,盡管在高效思考方面的研究相對(duì)有限。一些工作自適應(yīng)調(diào)整測試時(shí)算法的參數(shù),可能用于實(shí)現(xiàn)算法確定。研究表明,最優(yōu)設(shè)置可以實(shí)現(xiàn)比PRM best-of-N方法高4倍的效率。
解碼期間的自適應(yīng)預(yù)算分配包括三種主要方法:
- 提前停止利用LLMs的自評(píng)估能力決定當(dāng)前解決方案是否足夠好,或在達(dá)到一致性率時(shí)停止采樣。
- 帶剪枝的搜索在搜索過程中剪枝低質(zhì)量分支,保留高質(zhì)量分支,節(jié)省計(jì)算資源。
- 約束解碼利用人類觀察到的行為設(shè)計(jì)強(qiáng)制解碼范式,解決LRMs的假思考和過度謹(jǐn)慎行為。
未來展望與開放挑戰(zhàn)
高效多模態(tài)推理
多模態(tài)大型語言模型(MLLMs)在各種多模態(tài)推理任務(wù)中展示了令人期待的能力。當(dāng)前高效多模態(tài)推理的方法主要集中在MLLMs本身的改進(jìn)上,包括模型架構(gòu)優(yōu)化和高效視覺技術(shù)的采用。然而,多模態(tài)(長)推理效率的評(píng)估和有針對(duì)性的優(yōu)化仍處于初級(jí)階段。
高效智能體推理
LRMs的進(jìn)步也為AI智能體帶來了顯著的性能提升。近期研究越來越關(guān)注在智能體系統(tǒng)中利用長推理能力,將其與檢索、工具增強(qiáng)、領(lǐng)域知識(shí)整合等輔助組件結(jié)合,突破性能邊界。然而,LRMs在交互環(huán)境中的有效性有限,表現(xiàn)為"過度思考"現(xiàn)象,需要探索混合LLM-LRM配置來優(yōu)化智能體性能。
評(píng)估指標(biāo)與基準(zhǔn)
隨著長推理的普及和過度推理問題的加劇,研究者開始開發(fā)專門的基準(zhǔn)和指標(biāo)來定量衡量推理效率。例如,DNA Bench揭示了當(dāng)前LRMs的脆弱性,表明LRMs生成的不必要令牌多達(dá)70倍,并在非推理模型能高效處理的任務(wù)上失敗。其他研究引入了基于結(jié)果和基于過程的效率指標(biāo),揭示了LRMs在簡單問題上的過度思考和在復(fù)雜問題上的思考不足問題。
LRMs的可解釋性
研究黑盒LLMs的可解釋性一直是一個(gè)備受關(guān)注的話題。特別是,LRMs通過RL自我探索,展示了與人類博士生相當(dāng)?shù)耐评砟芰?,但其?shí)現(xiàn)這種性能的機(jī)制仍然神秘。當(dāng)前對(duì)LRMs的研究往往集中在行為分析上,如觀察過度謹(jǐn)慎或假思考行為,然后追溯后訓(xùn)練算法或測試時(shí)方法。然而,了解這些模型內(nèi)部工作原理,探索LRMs的思維模式,識(shí)別其缺陷,并為進(jìn)一步改進(jìn)提供方向,這些都至關(guān)重要。
結(jié)論
本文系統(tǒng)地研究了實(shí)現(xiàn)大型推理模型推理經(jīng)濟(jì)的挑戰(zhàn)和解決方案,強(qiáng)調(diào)了在保持性能的同時(shí)提高計(jì)算效率的緊迫需求。通過分析根本原因、觀察現(xiàn)象、關(guān)鍵挑戰(zhàn)和新興解決方案,本文為實(shí)現(xiàn)LLMs的高效推理提供了結(jié)構(gòu)化路線圖和可行策略。
推理經(jīng)濟(jì)的概念不僅是當(dāng)前研究的綜合,也是對(duì)未來研究的呼吁,強(qiáng)調(diào)開發(fā)更可持續(xù)、可擴(kuò)展的模型的重要性,這些模型不僅能有效推理,還能高效推理。隨著LLMs繼續(xù)演進(jìn),平衡推理深度與計(jì)算效率將成為實(shí)現(xiàn)真正實(shí)用AI系統(tǒng)的關(guān)鍵。
參考資源
GitHub:https://github.com/DevoAllen/Awesome-Reasoning-Economy-Papers
論文:https://arxiv.org/abs/2503.24377
