自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

樹搜索也存在「過思考」與「欠思考」?騰訊AI Lab與廈大聯(lián)合提出高效樹搜索框架

人工智能 新聞
本文探討基于樹搜索的大語言模型推理過程中存在的「過思考」與「欠思考」問題,并提出高效樹搜索框架——Fetch。本研究由騰訊 AI Lab 與廈門大學(xué)、蘇州大學(xué)研究團隊合作完成。

通訊作者包括騰訊 AI Lab研究員宋林峰與涂兆鵬,以及廈門大學(xué)蘇勁松教授。論文第一作者為廈門大學(xué)博士生王安特。

本文探討基于樹搜索的大語言模型推理過程中存在的「過思考」與「欠思考」問題,并提出高效樹搜索框架——Fetch。本研究由騰訊 AI Lab 與廈門大學(xué)、蘇州大學(xué)研究團隊合作完成。

圖片


  • 論文題目:Don't Get Lost in the Trees: Streamlining LLM Reasoning by Overcoming Tree Search Exploration Pitfalls
  • 論文地址:https://arxiv.org/abs/2502.11183

背景與動機

近月來,OpenAI-o1 展現(xiàn)的卓越推理性能激發(fā)了通過推理時計算擴展(Test-Time Computation)增強大語言模型(LLMs)推理能力的研究熱潮。

該研究領(lǐng)域內(nèi),基于驗證器引導(dǎo)的樹搜索算法已成為相對成熟的技術(shù)路徑。這類算法通過系統(tǒng)探索龐大的解空間,在復(fù)雜問題的最優(yōu)解搜索方面展現(xiàn)出顯著優(yōu)勢,其有效性已獲得多項研究實證支持。

盡管諸如集束搜索(Beam Search)、最佳優(yōu)先搜索(Best-First Search)、A*算法及蒙特卡洛樹搜索(MCTS)等傳統(tǒng)樹搜索算法已得到廣泛探索,但其固有缺陷仍待解決:樹搜索算法需承擔(dān)高昂的計算開銷,且難以根據(jù)問題復(fù)雜度動態(tài)調(diào)整計算資源分配。

針對上述挑戰(zhàn),研究團隊通過系統(tǒng)性解構(gòu)樹搜索的行為范式,首次揭示了該推理過程中存在的「過思考」與「欠思考」雙重困境。

「過思考」與「欠思考」

研究團隊選取最佳優(yōu)先搜索算法為研究對象,基于 GSM8K 數(shù)據(jù)集開展系統(tǒng)性研究。實驗設(shè)置中逐步增加子節(jié)點拓展數(shù)(N=2,3,5,10)時發(fā)現(xiàn):模型性能雖持續(xù)提升但呈現(xiàn)邊際效益遞減規(guī)律(圖 a),而計算開銷卻呈指數(shù)級增長(圖 b),二者形成的顯著差異揭示出傳統(tǒng)樹搜索在推理時計算擴展的效率瓶頸。

圖片

通過深度解構(gòu)搜索過程,研究團隊首次揭示搜索樹中存在兩類關(guān)鍵缺陷:

  • 節(jié)點冗余:由于大語言模型采樣機制的隨機性,搜索樹中生成大量語義重復(fù)節(jié)點(圖 c)。量化分析采用基于語義相似度的節(jié)點聚類方法,定義重復(fù)度為平均類內(nèi)節(jié)點數(shù),該指標(biāo)與計算開銷呈現(xiàn)顯著正相關(guān),此現(xiàn)象直接導(dǎo)致算法重復(fù)遍歷相似推理路徑,形成「過思考」困境;
  • 驗證器不穩(wěn)定性:引導(dǎo)搜索的驗證器存在一定的魯棒性缺陷,節(jié)點評分易受推理路徑表述差異影響而產(chǎn)生非必要波動(圖 d),在復(fù)雜數(shù)學(xué)推理場景中尤為明顯。這種不穩(wěn)定性可能引發(fā)搜索路徑的局部震蕩,迫使搜索算法過早終止高潛力路徑的深度探索,從而產(chǎn)生「欠思考」現(xiàn)象。

Fetch

為應(yīng)對「過思考」與「欠思考」問題,研究團隊提出適用于主流搜索算法的高效樹搜索框架 Fetch,其核心包含兩部分:

  • 冗余節(jié)點合并(State Merging):通過合并語義重復(fù)的節(jié)點,有效避免冗余節(jié)點的重復(fù)探索。
  • 驗證方差抑制(Variance Reduction):采用訓(xùn)練階段與推理階段的雙重優(yōu)化策略,降低驗證器評分的非必要波動。

圖片

冗余節(jié)點合并

研究團隊采用層次聚類算法(Agglomerative Clustering)實現(xiàn)節(jié)點冗余合并。具體而言,當(dāng)搜索算法生成子節(jié)點后圖片,首先基于 SimCSE 句子表示模型提取節(jié)點語義特征向量圖片,隨后應(yīng)用聚類算法形成超節(jié)點(Hyper-Node,圖片)。該機制通過將語義等價節(jié)點聚合為單一超節(jié)點,有效避免冗余節(jié)點的重復(fù)拓展。

圖片

針對通用領(lǐng)域預(yù)訓(xùn)練 SimCSE 在數(shù)學(xué)推理場景下存在的領(lǐng)域適配問題,研究團隊對 SimCSE 進一步微調(diào)。為此,提出兩種可選的節(jié)點對語義等價標(biāo)注方案:

  • 基于提示:利用大語言模型的指令遵循能力,通過用戶指令自動生成節(jié)點對語義等價性標(biāo)注。但受限于專家模型的指令遵循局限性,該方法可能依賴于額外的通用模型;
  • 基于一致性:基于重復(fù)節(jié)點后續(xù)采樣結(jié)果具有更高一致性的先驗假設(shè),通過比較節(jié)點后續(xù)推理路徑的概率相似度,構(gòu)建無監(jiān)督標(biāo)注數(shù)據(jù)集。該方法規(guī)避了對外部模型的依賴。

最終,利用收集的節(jié)點對標(biāo)注,通過交叉熵損失對 SimCSE 進行微調(diào):

圖片

其中,圖片 表示余弦相似度計算函數(shù)。

驗證方差抑制

現(xiàn)有驗證器普遍采用判別方式對樹節(jié)點進行質(zhì)量評分。傳統(tǒng)訓(xùn)練方法基于強化學(xué)習(xí)經(jīng)驗,通過蒙特卡洛采樣估計節(jié)點期望獎勵:

圖片

其中,圖片表示從當(dāng)前狀態(tài)(節(jié)點圖片)出發(fā)通過策略模型采樣獲取的推理路徑,即圖片,圖片 是采樣的次數(shù)。受限于高昂的采樣代價,圖片 通常設(shè)置較小(例如圖片),導(dǎo)致獎勵估計存在顯著方差,進而削弱驗證器的決策穩(wěn)健性。

為此,研究團隊提出訓(xùn)練和測試兩階段的優(yōu)化方案:

訓(xùn)練階段,研究團隊借鑒時序差分學(xué)習(xí)(Temporal Difference Learning),引入圖片訓(xùn)練驗證器。圖片是經(jīng)典的強化學(xué)習(xí)算法,通過將蒙特卡洛采樣與時序差分學(xué)習(xí)結(jié)合,以平衡訓(xùn)練數(shù)據(jù)的偏差(bias)及方差(variance)。對于節(jié)點圖片,其期望獎勵為

圖片

其中,圖片是總計后續(xù)采樣節(jié)點數(shù),圖片為偏差-方差權(quán)衡系數(shù),圖片。

隨后,通過標(biāo)準(zhǔn)的均方誤差損失進行訓(xùn)練:

圖片

該方案雖有效降低方差,但引入的偏差可能損害驗證精度,且不兼容現(xiàn)有開源驗證器的遷移需求。因此,研究團隊進一步提出在推理階段實施驗證器集成策略,以有效抑制個體驗證器的異常波動:

圖片

其中,圖片為集成驗證器的個數(shù)。

實驗結(jié)果

圖片

實驗結(jié)果表明,F(xiàn)etch 框架在跨數(shù)據(jù)集與跨算法測試中均展現(xiàn)出顯著優(yōu)勢。例如,對于 BFS 及 MCTS 算法,相較于基線,F(xiàn)etch 計算開銷降低至原有的 1/3,并且保持 1~3 個點的準(zhǔn)確率提升。

圖片

當(dāng)測試時計算規(guī)模逐步提升時,F(xiàn)etch 帶來的增益也更加顯著,驗證了框架的效率優(yōu)勢。

總結(jié)

本研究由騰訊 AI Lab 聯(lián)合廈門大學(xué)、蘇州大學(xué)科研團隊共同完成,首次揭示基于樹搜索的大語言模型推理中存在的「過思考-欠思考」雙重困境。

分析表明,該現(xiàn)象的核心成因源于兩個關(guān)鍵缺陷:搜索樹中大量語義冗余節(jié)點導(dǎo)致的無效計算循環(huán),以及驗證器評分方差過高引發(fā)的探索路徑失焦。二者共同導(dǎo)致樹搜索陷入計算資源錯配困境——即消耗指數(shù)級算力卻僅獲得次線性性能提升。

針對上述挑戰(zhàn),研究團隊提出高效樹搜索框架 Fetch,其創(chuàng)新性體現(xiàn)在雙重優(yōu)化機制:

  • 冗余節(jié)點合并機制,實現(xiàn)搜索空間的智能壓縮;
  • 驗證方差抑制機制,保障搜索方向穩(wěn)定性。

結(jié)果表明,F(xiàn)etch 在 GSM8K、MATH 等基準(zhǔn)測試中展現(xiàn)出顯著優(yōu)勢:相較傳統(tǒng)樹搜索算法,框架實現(xiàn)了計算效率和性能的同步提升。該成果為提升大語言模型推理效能提供了新的方法論支持。


責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2023-06-01 17:23:26

AI模型

2022-12-26 00:51:33

雙向鏈表二叉搜索樹

2018-01-23 10:29:50

主搜索店鋪搜索

2024-07-10 09:37:57

2025-01-08 13:08:55

2024-12-26 15:35:33

2015-09-08 13:50:24

Web前端框架類庫

2017-12-24 21:00:10

自動化測試測試框架敏捷

2014-10-22 10:50:14

Web前端

2024-01-17 07:36:50

二叉搜索聯(lián)系簿

2024-01-26 08:49:47

ChatGPT搜索方式

2025-03-12 12:10:13

2023-08-29 08:31:13

B+樹數(shù)據(jù)索引

2022-06-30 07:45:29

搜索聯(lián)合搜索索引

2022-08-15 14:56:30

搜索引擎分布式

2021-03-22 17:16:04

AI 數(shù)據(jù)人工智能

2012-03-21 10:09:12

2022-12-30 15:27:13

2019-12-20 07:49:38

APT網(wǎng)絡(luò)攻擊數(shù)據(jù)泄露

2022-12-18 22:36:59

圖計算數(shù)據(jù)業(yè)務(wù)
點贊
收藏

51CTO技術(shù)棧公眾號