樹搜索也存在「過思考」與「欠思考」?騰訊AI Lab與廈大聯(lián)合提出高效樹搜索框架
通訊作者包括騰訊 AI Lab研究員宋林峰與涂兆鵬,以及廈門大學(xué)蘇勁松教授。論文第一作者為廈門大學(xué)博士生王安特。
本文探討基于樹搜索的大語言模型推理過程中存在的「過思考」與「欠思考」問題,并提出高效樹搜索框架——Fetch。本研究由騰訊 AI Lab 與廈門大學(xué)、蘇州大學(xué)研究團隊合作完成。
- 論文題目:Don't Get Lost in the Trees: Streamlining LLM Reasoning by Overcoming Tree Search Exploration Pitfalls
- 論文地址:https://arxiv.org/abs/2502.11183
背景與動機
近月來,OpenAI-o1 展現(xiàn)的卓越推理性能激發(fā)了通過推理時計算擴展(Test-Time Computation)增強大語言模型(LLMs)推理能力的研究熱潮。
該研究領(lǐng)域內(nèi),基于驗證器引導(dǎo)的樹搜索算法已成為相對成熟的技術(shù)路徑。這類算法通過系統(tǒng)探索龐大的解空間,在復(fù)雜問題的最優(yōu)解搜索方面展現(xiàn)出顯著優(yōu)勢,其有效性已獲得多項研究實證支持。
盡管諸如集束搜索(Beam Search)、最佳優(yōu)先搜索(Best-First Search)、A*算法及蒙特卡洛樹搜索(MCTS)等傳統(tǒng)樹搜索算法已得到廣泛探索,但其固有缺陷仍待解決:樹搜索算法需承擔(dān)高昂的計算開銷,且難以根據(jù)問題復(fù)雜度動態(tài)調(diào)整計算資源分配。
針對上述挑戰(zhàn),研究團隊通過系統(tǒng)性解構(gòu)樹搜索的行為范式,首次揭示了該推理過程中存在的「過思考」與「欠思考」雙重困境。
「過思考」與「欠思考」
研究團隊選取最佳優(yōu)先搜索算法為研究對象,基于 GSM8K 數(shù)據(jù)集開展系統(tǒng)性研究。實驗設(shè)置中逐步增加子節(jié)點拓展數(shù)(N=2,3,5,10)時發(fā)現(xiàn):模型性能雖持續(xù)提升但呈現(xiàn)邊際效益遞減規(guī)律(圖 a),而計算開銷卻呈指數(shù)級增長(圖 b),二者形成的顯著差異揭示出傳統(tǒng)樹搜索在推理時計算擴展的效率瓶頸。
通過深度解構(gòu)搜索過程,研究團隊首次揭示搜索樹中存在兩類關(guān)鍵缺陷:
- 節(jié)點冗余:由于大語言模型采樣機制的隨機性,搜索樹中生成大量語義重復(fù)節(jié)點(圖 c)。量化分析采用基于語義相似度的節(jié)點聚類方法,定義重復(fù)度為平均類內(nèi)節(jié)點數(shù),該指標(biāo)與計算開銷呈現(xiàn)顯著正相關(guān),此現(xiàn)象直接導(dǎo)致算法重復(fù)遍歷相似推理路徑,形成「過思考」困境;
- 驗證器不穩(wěn)定性:引導(dǎo)搜索的驗證器存在一定的魯棒性缺陷,節(jié)點評分易受推理路徑表述差異影響而產(chǎn)生非必要波動(圖 d),在復(fù)雜數(shù)學(xué)推理場景中尤為明顯。這種不穩(wěn)定性可能引發(fā)搜索路徑的局部震蕩,迫使搜索算法過早終止高潛力路徑的深度探索,從而產(chǎn)生「欠思考」現(xiàn)象。
Fetch
為應(yīng)對「過思考」與「欠思考」問題,研究團隊提出適用于主流搜索算法的高效樹搜索框架 Fetch,其核心包含兩部分:
- 冗余節(jié)點合并(State Merging):通過合并語義重復(fù)的節(jié)點,有效避免冗余節(jié)點的重復(fù)探索。
- 驗證方差抑制(Variance Reduction):采用訓(xùn)練階段與推理階段的雙重優(yōu)化策略,降低驗證器評分的非必要波動。
冗余節(jié)點合并
研究團隊采用層次聚類算法(Agglomerative Clustering)實現(xiàn)節(jié)點冗余合并。具體而言,當(dāng)搜索算法生成子節(jié)點后,首先基于 SimCSE 句子表示模型提取節(jié)點語義特征向量
,隨后應(yīng)用聚類算法形成超節(jié)點(Hyper-Node,
)。該機制通過將語義等價節(jié)點聚合為單一超節(jié)點,有效避免冗余節(jié)點的重復(fù)拓展。
針對通用領(lǐng)域預(yù)訓(xùn)練 SimCSE 在數(shù)學(xué)推理場景下存在的領(lǐng)域適配問題,研究團隊對 SimCSE 進一步微調(diào)。為此,提出兩種可選的節(jié)點對語義等價標(biāo)注方案:
- 基于提示:利用大語言模型的指令遵循能力,通過用戶指令自動生成節(jié)點對語義等價性標(biāo)注。但受限于專家模型的指令遵循局限性,該方法可能依賴于額外的通用模型;
- 基于一致性:基于重復(fù)節(jié)點后續(xù)采樣結(jié)果具有更高一致性的先驗假設(shè),通過比較節(jié)點后續(xù)推理路徑的概率相似度,構(gòu)建無監(jiān)督標(biāo)注數(shù)據(jù)集。該方法規(guī)避了對外部模型的依賴。
最終,利用收集的節(jié)點對標(biāo)注,通過交叉熵損失對 SimCSE 進行微調(diào):
其中, 表示余弦相似度計算函數(shù)。
驗證方差抑制
現(xiàn)有驗證器普遍采用判別方式對樹節(jié)點進行質(zhì)量評分。傳統(tǒng)訓(xùn)練方法基于強化學(xué)習(xí)經(jīng)驗,通過蒙特卡洛采樣估計節(jié)點期望獎勵:
其中,表示從當(dāng)前狀態(tài)(節(jié)點
)出發(fā)通過策略模型采樣獲取的推理路徑,即
,
是采樣的次數(shù)。受限于高昂的采樣代價,
通常設(shè)置較小(例如
),導(dǎo)致獎勵估計存在顯著方差,進而削弱驗證器的決策穩(wěn)健性。
為此,研究團隊提出訓(xùn)練和測試兩階段的優(yōu)化方案:
在訓(xùn)練階段,研究團隊借鑒時序差分學(xué)習(xí)(Temporal Difference Learning),引入訓(xùn)練驗證器。
是經(jīng)典的強化學(xué)習(xí)算法,通過將蒙特卡洛采樣與時序差分學(xué)習(xí)結(jié)合,以平衡訓(xùn)練數(shù)據(jù)的偏差(bias)及方差(variance)。對于節(jié)點
,其期望獎勵為
其中,是總計后續(xù)采樣節(jié)點數(shù),
為偏差-方差權(quán)衡系數(shù),
。
隨后,通過標(biāo)準(zhǔn)的均方誤差損失進行訓(xùn)練:
該方案雖有效降低方差,但引入的偏差可能損害驗證精度,且不兼容現(xiàn)有開源驗證器的遷移需求。因此,研究團隊進一步提出在推理階段實施驗證器集成策略,以有效抑制個體驗證器的異常波動:
其中,為集成驗證器的個數(shù)。
實驗結(jié)果
實驗結(jié)果表明,F(xiàn)etch 框架在跨數(shù)據(jù)集與跨算法測試中均展現(xiàn)出顯著優(yōu)勢。例如,對于 BFS 及 MCTS 算法,相較于基線,F(xiàn)etch 計算開銷降低至原有的 1/3,并且保持 1~3 個點的準(zhǔn)確率提升。
當(dāng)測試時計算規(guī)模逐步提升時,F(xiàn)etch 帶來的增益也更加顯著,驗證了框架的效率優(yōu)勢。
總結(jié)
本研究由騰訊 AI Lab 聯(lián)合廈門大學(xué)、蘇州大學(xué)科研團隊共同完成,首次揭示基于樹搜索的大語言模型推理中存在的「過思考-欠思考」雙重困境。
分析表明,該現(xiàn)象的核心成因源于兩個關(guān)鍵缺陷:搜索樹中大量語義冗余節(jié)點導(dǎo)致的無效計算循環(huán),以及驗證器評分方差過高引發(fā)的探索路徑失焦。二者共同導(dǎo)致樹搜索陷入計算資源錯配困境——即消耗指數(shù)級算力卻僅獲得次線性性能提升。
針對上述挑戰(zhàn),研究團隊提出高效樹搜索框架 Fetch,其創(chuàng)新性體現(xiàn)在雙重優(yōu)化機制:
- 冗余節(jié)點合并機制,實現(xiàn)搜索空間的智能壓縮;
- 驗證方差抑制機制,保障搜索方向穩(wěn)定性。
結(jié)果表明,F(xiàn)etch 在 GSM8K、MATH 等基準(zhǔn)測試中展現(xiàn)出顯著優(yōu)勢:相較傳統(tǒng)樹搜索算法,框架實現(xiàn)了計算效率和性能的同步提升。該成果為提升大語言模型推理效能提供了新的方法論支持。