自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<sub id="y7vps"></sub>

<tfoot id="y7vps"></tfoot>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

樹搜索也存在「過思考」與「欠思考」？騰訊AI Lab與廈大聯(lián)合提出高效樹搜索框架

作者：機器之心 2025-03-21 13:25:14

人工智能新聞

本文探討基于樹搜索的大語言模型推理過程中存在的「過思考」與「欠思考」問題，并提出高效樹搜索框架——Fetch。本研究由騰訊 AI Lab 與廈門大學(xué)、蘇州大學(xué)研究團隊合作完成。

通訊作者包括騰訊 AI Lab研究員宋林峰與涂兆鵬，以及廈門大學(xué)蘇勁松教授。論文第一作者為廈門大學(xué)博士生王安特。

本文探討基于樹搜索的大語言模型推理過程中存在的「過思考」與「欠思考」問題，并提出高效樹搜索框架——Fetch。本研究由騰訊 AI Lab 與廈門大學(xué)、蘇州大學(xué)研究團隊合作完成。

論文題目：Don't Get Lost in the Trees: Streamlining LLM Reasoning by Overcoming Tree Search Exploration Pitfalls
論文地址：https://arxiv.org/abs/2502.11183

背景與動機

近月來，OpenAI-o1 展現(xiàn)的卓越推理性能激發(fā)了通過推理時計算擴展（Test-Time Computation）增強大語言模型（LLMs）推理能力的研究熱潮。

該研究領(lǐng)域內(nèi)，基于驗證器引導(dǎo)的樹搜索算法已成為相對成熟的技術(shù)路徑。這類算法通過系統(tǒng)探索龐大的解空間，在復(fù)雜問題的最優(yōu)解搜索方面展現(xiàn)出顯著優(yōu)勢，其有效性已獲得多項研究實證支持。

盡管諸如集束搜索（Beam Search）、最佳優(yōu)先搜索（Best-First Search）、A*算法及蒙特卡洛樹搜索（MCTS）等傳統(tǒng)樹搜索算法已得到廣泛探索，但其固有缺陷仍待解決：樹搜索算法需承擔(dān)高昂的計算開銷，且難以根據(jù)問題復(fù)雜度動態(tài)調(diào)整計算資源分配。

針對上述挑戰(zhàn)，研究團隊通過系統(tǒng)性解構(gòu)樹搜索的行為范式，首次揭示了該推理過程中存在的「過思考」與「欠思考」雙重困境。

「過思考」與「欠思考」

研究團隊選取最佳優(yōu)先搜索算法為研究對象，基于 GSM8K 數(shù)據(jù)集開展系統(tǒng)性研究。實驗設(shè)置中逐步增加子節(jié)點拓展數(shù)（N=2,3,5,10）時發(fā)現(xiàn)：模型性能雖持續(xù)提升但呈現(xiàn)邊際效益遞減規(guī)律（圖 a），而計算開銷卻呈指數(shù)級增長（圖 b），二者形成的顯著差異揭示出傳統(tǒng)樹搜索在推理時計算擴展的效率瓶頸。

通過深度解構(gòu)搜索過程，研究團隊首次揭示搜索樹中存在兩類關(guān)鍵缺陷：

節(jié)點冗余：由于大語言模型采樣機制的隨機性，搜索樹中生成大量語義重復(fù)節(jié)點（圖 c）。量化分析采用基于語義相似度的節(jié)點聚類方法，定義重復(fù)度為平均類內(nèi)節(jié)點數(shù)，該指標(biāo)與計算開銷呈現(xiàn)顯著正相關(guān)，此現(xiàn)象直接導(dǎo)致算法重復(fù)遍歷相似推理路徑，形成「過思考」困境；
驗證器不穩(wěn)定性：引導(dǎo)搜索的驗證器存在一定的魯棒性缺陷，節(jié)點評分易受推理路徑表述差異影響而產(chǎn)生非必要波動（圖 d），在復(fù)雜數(shù)學(xué)推理場景中尤為明顯。這種不穩(wěn)定性可能引發(fā)搜索路徑的局部震蕩，迫使搜索算法過早終止高潛力路徑的深度探索，從而產(chǎn)生「欠思考」現(xiàn)象。

Fetch

為應(yīng)對「過思考」與「欠思考」問題，研究團隊提出適用于主流搜索算法的高效樹搜索框架 Fetch，其核心包含兩部分：

冗余節(jié)點合并（State Merging）：通過合并語義重復(fù)的節(jié)點，有效避免冗余節(jié)點的重復(fù)探索。
驗證方差抑制（Variance Reduction）：采用訓(xùn)練階段與推理階段的雙重優(yōu)化策略，降低驗證器評分的非必要波動。

冗余節(jié)點合并

研究團隊采用層次聚類算法（Agglomerative Clustering）實現(xiàn)節(jié)點冗余合并。具體而言，當(dāng)搜索算法生成子節(jié)點后，首先基于 SimCSE 句子表示模型提取節(jié)點語義特征向量，隨后應(yīng)用聚類算法形成超節(jié)點（Hyper-Node，）。該機制通過將語義等價節(jié)點聚合為單一超節(jié)點，有效避免冗余節(jié)點的重復(fù)拓展。

針對通用領(lǐng)域預(yù)訓(xùn)練 SimCSE 在數(shù)學(xué)推理場景下存在的領(lǐng)域適配問題，研究團隊對 SimCSE 進一步微調(diào)。為此，提出兩種可選的節(jié)點對語義等價標(biāo)注方案：

基于提示：利用大語言模型的指令遵循能力，通過用戶指令自動生成節(jié)點對語義等價性標(biāo)注。但受限于專家模型的指令遵循局限性，該方法可能依賴于額外的通用模型；
基于一致性：基于重復(fù)節(jié)點后續(xù)采樣結(jié)果具有更高一致性的先驗假設(shè)，通過比較節(jié)點后續(xù)推理路徑的概率相似度，構(gòu)建無監(jiān)督標(biāo)注數(shù)據(jù)集。該方法規(guī)避了對外部模型的依賴。

最終，利用收集的節(jié)點對標(biāo)注，通過交叉熵損失對 SimCSE 進行微調(diào)：

其中，表示余弦相似度計算函數(shù)。

驗證方差抑制

現(xiàn)有驗證器普遍采用判別方式對樹節(jié)點進行質(zhì)量評分。傳統(tǒng)訓(xùn)練方法基于強化學(xué)習(xí)經(jīng)驗，通過蒙特卡洛采樣估計節(jié)點期望獎勵：

其中，表示從當(dāng)前狀態(tài)（節(jié)點）出發(fā)通過策略模型采樣獲取的推理路徑，即，是采樣的次數(shù)。受限于高昂的采樣代價，通常設(shè)置較小（例如），導(dǎo)致獎勵估計存在顯著方差，進而削弱驗證器的決策穩(wěn)健性。

為此，研究團隊提出訓(xùn)練和測試兩階段的優(yōu)化方案：

在訓(xùn)練階段，研究團隊借鑒時序差分學(xué)習(xí)（Temporal Difference Learning），引入訓(xùn)練驗證器。是經(jīng)典的強化學(xué)習(xí)算法，通過將蒙特卡洛采樣與時序差分學(xué)習(xí)結(jié)合，以平衡訓(xùn)練數(shù)據(jù)的偏差（bias）及方差（variance）。對于節(jié)點，其期望獎勵為

其中，是總計后續(xù)采樣節(jié)點數(shù)，為偏差-方差權(quán)衡系數(shù)，。

隨后，通過標(biāo)準(zhǔn)的均方誤差損失進行訓(xùn)練：

該方案雖有效降低方差，但引入的偏差可能損害驗證精度，且不兼容現(xiàn)有開源驗證器的遷移需求。因此，研究團隊進一步提出在推理階段實施驗證器集成策略，以有效抑制個體驗證器的異常波動：

其中，為集成驗證器的個數(shù)。

實驗結(jié)果

實驗結(jié)果表明，F(xiàn)etch 框架在跨數(shù)據(jù)集與跨算法測試中均展現(xiàn)出顯著優(yōu)勢。例如，對于 BFS 及 MCTS 算法，相較于基線，F(xiàn)etch 計算開銷降低至原有的 1/3，并且保持 1~3 個點的準(zhǔn)確率提升。

當(dāng)測試時計算規(guī)模逐步提升時，F(xiàn)etch 帶來的增益也更加顯著，驗證了框架的效率優(yōu)勢。

總結(jié)

本研究由騰訊 AI Lab 聯(lián)合廈門大學(xué)、蘇州大學(xué)科研團隊共同完成，首次揭示基于樹搜索的大語言模型推理中存在的「過思考-欠思考」雙重困境。

分析表明，該現(xiàn)象的核心成因源于兩個關(guān)鍵缺陷：搜索樹中大量語義冗余節(jié)點導(dǎo)致的無效計算循環(huán)，以及驗證器評分方差過高引發(fā)的探索路徑失焦。二者共同導(dǎo)致樹搜索陷入計算資源錯配困境——即消耗指數(shù)級算力卻僅獲得次線性性能提升。

針對上述挑戰(zhàn)，研究團隊提出高效樹搜索框架 Fetch，其創(chuàng)新性體現(xiàn)在雙重優(yōu)化機制：

冗余節(jié)點合并機制，實現(xiàn)搜索空間的智能壓縮；
驗證方差抑制機制，保障搜索方向穩(wěn)定性。

結(jié)果表明，F(xiàn)etch 在 GSM8K、MATH 等基準(zhǔn)測試中展現(xiàn)出顯著優(yōu)勢：相較傳統(tǒng)樹搜索算法，框架實現(xiàn)了計算效率和性能的同步提升。該成果為提升大語言模型推理效能提供了新的方法論支持。

責(zé)任編輯：張燕妮來源：機器之心

模型數(shù)據(jù)訓(xùn)練

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

<style id="pmqjs"></style>