自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

NeurIPS 2024 ｜ REBASE，比MCTS更高效的Inference Scaling算法

發(fā)布于 2025-2-6 14:25

瀏覽

0收藏

?還在為大模型推理速度慢、成本高而煩惱嗎？這篇來自 CMU 和清華大學的論文給你帶來了一個顛覆性的解決方案！他們發(fā)現(xiàn)，在推理大型語言模型時，“大力出奇跡”不再是真理！通過深入研究推理過程中的計算與性能關(guān)系，他們提出了“推理縮放定律”，并革命性地推出了一種名為 REBASE 的全新算法。

REBASE 就像一位聰明的向?qū)?，能夠巧妙地利用獎勵信號，指引模型在推理的迷宮中高效探索，避免了傳統(tǒng)方法中耗時費力的盲目搜索。實驗結(jié)果令人驚嘆：在數(shù)學推理任務(wù)上，REBASE 搭配小模型，不僅速度更快，而且精度更高，輕松擊敗了更大的模型！

這篇論文的意義不僅僅在于提出了一種新算法，更在于它顛覆了我們對大模型推理的傳統(tǒng)認知，為我們指明了一條通往更高效、更經(jīng)濟的 AI 之路。想要了解如何讓你的大模型推理效率飆升？快來閱讀這篇論文，一起探索 LLM 推理的奧秘吧！

一、概述

?Title:INFERENCE SCALING LAWS: AN EMPIRICAL ANALYSIS OF COMPUTE-OPTIMAL INFERENCE FOR LLM PROBLEM-SOLVING

?URL:?? https://arxiv.org/abs/2408.00724??

?Authors:Yangzhen Wu, Zhiqing Sun, Shanda Li, Sean Welleck, Yiming Yang

?Code:?? https://thu-wyz.github.io/inference-scaling/??

1.Motivation

? 目前關(guān)于大型語言模型 (LLM) 的研究主要集中在訓練階段的縮放定律上，而對于推理階段的最佳配置研究較少。

? 現(xiàn)有的推理技術(shù)通常需要在推理時增加額外的計算，以最大化性能，但這些技術(shù)的計算成本必須考慮在內(nèi)，以實現(xiàn)計算最優(yōu)推理。

? 傳統(tǒng)的采樣算法會有性能上限（論文Figure 1），需要更好的推理算法來取得更好的結(jié)果。

2.Methods

文章評估了不同模型大小和推理算法在數(shù)學推理基準測試上的性能，設(shè)計了一個新的樹搜索算法REBASE，該算法在計算效率上優(yōu)于常用的采樣和MCTS方法。

2.1 省流版總結(jié):

核心思想：研究在給定計算預算下，如何選擇最優(yōu)的語言模型大小和有效的推理策略，以最大化問題解決的準確性。

創(chuàng)新點：提出了一個新的樹搜索算法REBASE（Reward Balanced Search），該算法與加權(quán)投票結(jié)合使用，能夠在準確性和推理計算量之間實現(xiàn)帕累托最優(yōu)的權(quán)衡。

帕累托最優(yōu)的權(quán)衡意味著：

? REBASE 算法在給定的計算預算下，能夠獲得最佳的性能（例如，最高的數(shù)學問題解決準確率）。

? 如果你想進一步提高準確率，你就必須增加計算預算（例如，生成更多的 tokens，進行更多的搜索）。

? 如果你想減少計算預算，你就必須接受較低的準確率。

2.2 REBASE詳細方法和步驟:

目標：在給定固定計算預算的情況下，如何選擇最優(yōu)的模型大小和推理策略，以最大化模型在特定任務(wù)上的性能。

2.2.1 REBASE 算法是干什么的的？

為了解決 MCTS 的計算成本高問題，論文提出了新的樹搜索算法 REBASE。REBASE 通過獎勵模型來控制節(jié)點的擴展，從而避免了 MCTS 中顯式的 rollout 步驟。

REBASE 算法避免 MCTS 中顯式 rollout 步驟的關(guān)鍵在于它巧妙地利用了獎勵模型 (Reward Model) 和平衡擴展 (Balanced Expansion) 策略。

2.2.2 MCTS 的 Rollout 步驟有什么問題？

在傳統(tǒng)的 MCTS 中，為了評估一個節(jié)點的價值，需要進行 rollout（模擬）。Rollout 是指從當前節(jié)點開始，根據(jù)某種策略（例如隨機策略或基于模型的策略）模擬生成多個完整的解決方案，然后根據(jù)這些解決方案的結(jié)果來估計該節(jié)點的價值。

Rollout 的問題在于：

1)計算成本高:Rollout 需要生成多個完整的解決方案，這在計算上非常昂貴，特別是當解決)方案很長時。

2)估計偏差:Rollout 使用的策略可能與實際的策略不同，這會導致價值估計存在偏差。

2.2.3 REBASE 如何利用獎勵模型控制節(jié)點擴展？

REBASE 摒棄了顯式的 rollout 步驟，而是直接使用過程獎勵模型 (PRM) 來評估節(jié)點的質(zhì)量。具體來說，REBASE 在每次迭代中執(zhí)行以下步驟：

1)獎勵分配 (Reward Assignment):

對于當前深度??i??? 的每個節(jié)點??nj???，REBASE 使用 PRM 來計算該節(jié)點的獎勵??R(nj)???。這個獎勵反映了從根節(jié)點到節(jié)點??nj?? 的部分解決方案的質(zhì)量。注意，這里直接利用了 PRM 的輸出，而不需要進行 rollout。

2)平衡擴展 (Balanced Expansion):

Wj = Round ( Bi * exp(R(nj) / Tb) / Σk exp(R(nk) / Tb) )

其中：

直觀理解：這個公式的含義是，每個節(jié)點的擴展寬度與該節(jié)點的獎勵的指數(shù)成正比。獎勵越高的節(jié)點，其指數(shù)值越大，因此獲得的擴展寬度也越大。通過這種方式，REBASE 將更多的計算資源分配給更有希望的節(jié)點。

???Bi??? 是深度??i?? 的可用采樣預算（即還可以生成的總節(jié)點數(shù)）。

???R(nj)??? 是節(jié)點??nj?? 的獎勵。

???Tb??? 是一個平衡溫度參數(shù)，用于控制擴展的“平滑”程度。較高的??Tb??? 會導致更均勻的擴展，而較低的??Tb?? 會導致更集中于高獎勵節(jié)點的擴展。

???Round()?? 函數(shù)將結(jié)果四舍五入到最接近的整數(shù)。

? 分母??Σk exp(R(nk) / Tb)??? 對所有節(jié)點??nk??? 的獎勵進行 softmax 歸一化，確保所有節(jié)點的擴展寬度之和等于??Bi??。

? REBASE 的目標是根據(jù)節(jié)點的獎勵來“平衡”地擴展節(jié)點。這意味著獎勵越高的節(jié)點，將被分配越多的計算資源（即擴展出更多的子節(jié)點）。

? 具體來說，REBASE 計算每個節(jié)點??nj??? 的擴展寬度??Wj??，公式如下：

3)節(jié)點擴展 (Node Expansion):

? 根據(jù)計算出的擴展寬度??Wj???，REBASE 從策略模型??πθ??? 中采樣??Wj??? 個子節(jié)點，作為節(jié)點??nj?? 的子節(jié)點。

2.2.4 總結(jié)一下REBASE方法的改進點

REBASE 通過以下方式避免了 MCTS 的 rollout 步驟：

?直接使用獎勵模型評估節(jié)點質(zhì)量:無需進行耗時的 rollout 模擬。

?基于獎勵模型進行平衡擴展:根據(jù)節(jié)點的獎勵動態(tài)分配計算資源，將更多資源分配給更有希望的節(jié)點，從而更有效地利用計算預算。

通過這種方式，REBASE 在保持樹搜索的“探索”和“利用”特性的同時，顯著降低了計算成本，使其在準確性和計算效率之間取得了更好的平衡，從而實現(xiàn)了帕累托最優(yōu)的權(quán)衡。

3 Conclusion

?較小的模型（例如 Llemma-7B）在相同的計算預算下可以勝過較大的模型，并且較小的模型與先進的推理算法相結(jié)合可以產(chǎn)生帕累托最優(yōu)的成本性能權(quán)衡。

? 論文提出的REBASE 算法在所有測試的計算預算中都實現(xiàn)了最佳性能，優(yōu)于常用的加權(quán)多數(shù)投票（Majority Voting）和 MCTS 方法。

? 通過采樣更多的樣本，基于采樣的多數(shù)投票策略不可避免地會飽和到一個取決于底層生成策略的分布。因此，通過設(shè)計替代推理策略來改變采樣分布是有意義的。

4 Limitation

? 該分析主要針對數(shù)學問題解決，推理縮放規(guī)律和計算優(yōu)化推理在其他任務(wù)中是否適用還有待進一步研究。

? 在GSM8K和MATH500數(shù)據(jù)集上的評估可能不足以泛化到其他任務(wù)和數(shù)據(jù)集。

? 模型大小和推理策略的探索仍然存在局限性。

二、詳細情況

1 實驗設(shè)置

其他推理策略對比：論文主要考慮了以下幾種推理策略：

? 貪婪搜索（Greedy Search）：每次選擇概率最高的token。

? Best-of-n：生成多個候選答案，選擇得分最高的答案。

? 多數(shù)投票（Majority Voting）：生成多個候選答案，選擇出現(xiàn)頻率最高的答案。

? 加權(quán)多數(shù)投票（Weighted Majority Voting）：根據(jù)獎勵模型給出的分數(shù)對候選答案進行加權(quán)，然后進行投票。

? 樹搜索算法（Tree Search）：包括 MCTS 和作者提出的 REBASE。

模型和數(shù)據(jù)集：

? 使用了 Pythia 和 Llemma 系列的多種大小的模型，并在數(shù)學推理基準測試集 GSM8K 和 MATH500 上進行了實驗。

? 使用 MetaMath 數(shù)據(jù)集對模型進行微調(diào)。

理論分析：

? 對基于采樣的投票方法進行了理論分析，表明隨著采樣次數(shù)的增加，準確率會收斂到一個極限，這個極限取決于語言模型和獎勵模型的分布。

實驗評估：

? 通過實驗，論文比較了不同模型大小和推理策略在不同計算預算下的性能。結(jié)果表明，較小的模型與高級的推理算法相結(jié)合可以實現(xiàn)帕累托最優(yōu)的成本效益。

2 最優(yōu)錯誤率和模型大小以及預算的關(guān)系

NeurIPS 2024 ｜ REBASE，比MCTS更高效的Inference Scaling算法-AI.x社區(qū)

1.1 錯誤率和計算量以及模型大小的關(guān)系（左）

?隨著計算量的增加，錯誤率下降：所有的曲線都顯示，隨著推理計算量的增加 (即橫軸向右移動)，錯誤率逐漸下降，說明模型性能在提升。這是因為增加計算量通常意味著模型可以進行更多的采樣，從而找到更好的解。

?模型性能最終趨于飽和：每條曲線最終都趨于平緩，說明模型性能有一個極限。增加更多的計算量后，錯誤率的下降幅度會變得越來越小，最終趨于飽和。

?不同大小的模型在不同階段表現(xiàn)不同：在計算量較少的時候，較小的模型 (例如 410M, 1.4B) 下降速度可能更快。隨著計算量增加，較大模型 (例如 6.9B, 12B) 會逐漸展現(xiàn)出更好的性能，但其飽和也需要更大的計算量。

1.2 最佳模型大小和預算的關(guān)系（右）

?最佳模型大小隨計算預算變化：圖中顯示，在不同的推理計算量預算下，最佳的模型大小是不同的。

例如，在較小的計算量預算下 (241 和 244

隨著計算預算的增加 (247

?小模型在較低計算量下表現(xiàn)出色：如圖中所示，在 241 和 244 FLOPs 的計算量下，較小的模型是計算最優(yōu)的。這意味著，如果計算資源有限，與其使用大模型，不如使用小模型搭配適當?shù)耐评聿呗钥赡苄Ч谩?/p>

3 REBASE 算法在計算效率上有明顯優(yōu)勢（7B模型+REBASE算法可以超過MCTS等方法）

NeurIPS 2024 ｜ REBASE，比MCTS更高效的Inference Scaling算法-AI.x社區(qū)

方法：在 MATH 數(shù)據(jù)集上，對比不同推理策略 (weighted majority voting 和 best-of-n) 和不同模型大小對模型性能的影響。

結(jié)論：

?在 MATH 數(shù)據(jù)集上，REBASE 算法在不同的推理策略（加權(quán)多數(shù)投票和最佳 n 選 1）下，均優(yōu)于其他方法（包括傳統(tǒng)的采樣和 MCTS）。

?REBASE 算法的優(yōu)越性不僅僅局限于特定的模型大小，其在使用 7B 模型時通常能夠達到最佳的性能。

?MCTS 方法在數(shù)學推理任務(wù)中，性能不如其他方法。

4 REBASE 算法可以在更低的計算預算下實現(xiàn)更高的準確率

NeurIPS 2024 ｜ REBASE，比MCTS更高效的Inference Scaling算法-AI.x社區(qū)

?列:包括 # SAMPLES (采樣數(shù)量), FLOPS (推理計算量) 和 MATH500 (在 MATH500 數(shù)據(jù)集上的準確率) 三列。

?行:比較了使用采樣方法和 REBASE 算法在不同模型 (Mistral-7B, Llemma-7B, Llemma-34B) 下的性能。

?總結(jié):

REBASE 算法可以在更低的計算預算下實現(xiàn)更高的準確率:對于所有模型，REBASE 算法在使用更少的樣本和更低的計算量 (FLOPS) 的情況下，都比采樣方法實現(xiàn)了更高的 MATH500 準確率。

驗證了 REBASE 的高效性：這個表格用具體數(shù)值驗證了 REBASE 的高效性，即能夠在降低計算成本的同時，實現(xiàn)更高的性能。

5 消融實驗

NeurIPS 2024 ｜ REBASE，比MCTS更高效的Inference Scaling算法-AI.x社區(qū)

實驗說明：

?Sampling W.M.：使用采樣方法和加權(quán)多數(shù)投票策略。

?Sampling BoN：使用采樣方法和 best-of-n 策略。

?REBASE W.M.：使用 REBASE 算法和加權(quán)多數(shù)投票策略。

?REBASE BoN：使用 REBASE 算法和 best-of-n 策略。

實驗結(jié)論：

?REBASE 算法性能普遍優(yōu)于采樣：在所有模型 (Llemma-7B, Llemma-34B, Mistral-7B) 和所有計算預算下，使用 REBASE 算法 (無論是加權(quán)多數(shù)投票還是 best-of-n) 的曲線都低于使用采樣方法的曲線，說明 REBASE 算法性能更佳。

?REBASE + 加權(quán)多數(shù)投票策略表現(xiàn)最佳：REBASE 算法配合加權(quán)多數(shù)投票策略通?？梢赃_到最優(yōu)的性能。

?不同模型之間在相同策略下，性能隨計算預算增加有差異：例如，在低預算下，Llemma-7B 在 REBASE 策略下表現(xiàn)可能更好；在高預算下，不同模型之間的差距可能縮小。

三、總結(jié)

結(jié)論1: 計算最優(yōu)的推理策略依賴于模型大小和計算預算。論文表明，在推理時使用更小的模型并進行多次采樣，在計算成本方面可能比使用更大的模型更有效。此外，論文提出的REBASE算法在多個數(shù)據(jù)集上優(yōu)于MCTS方法和傳統(tǒng)的采樣方法。

結(jié)論2: 基于采樣的投票策略具有性能上限，需要更復雜的推理算法。論文的理論分析表明，基于采樣的投票方法（如多數(shù)投票和加權(quán)多數(shù)投票）在計算預算增加時，性能會飽和，且達到一個基于底層生成策略的極限，這表明了需要更復雜的推理策略。

結(jié)論3: REBASE算法在計算效率和準確率方面都有優(yōu)勢。 REBASE算法通過獎勵模型來控制節(jié)點的擴展，從而避免了顯式的rollout，從而在計算效率上優(yōu)于MCTS。同時，其性能在所有測試的計算預算下優(yōu)于采樣方法。

本文轉(zhuǎn)載自??NLP PaperWeekly??，作者： NLP PaperWeekly ????

標簽

贊

收藏

回復

舉報

回復

相關(guān)推薦

Scaling Law被證偽，谷歌研究人員實錘研究力挺小模型更高效，不局限于特定采樣技術(shù)！

51CTO技術(shù)棧 ? 3086瀏覽 ? 0回復
以自組織映射算法促進高效的LLM檢索增強生成

51CTO內(nèi)容精選 ? 3403瀏覽 ? 0回復
ICRA 2024：基于語義增強和動作分塊實現(xiàn)的樣本高效機械臂操作——RoboAgent

AIGC最前線 ? 3321瀏覽 ? 0回復
ICLR 2024 Oral｜用巧妙的「傳送」技巧，讓神經(jīng)網(wǎng)絡(luò)的訓練更加高效

輕薄滴假象 ? 2220瀏覽 ? 0回復
不同數(shù)據(jù)集有不同的Scaling law？而你可用一個壓縮算法來預測它

輕薄滴假象 ? 2124瀏覽 ? 0回復
ACL2024 | NLP-KG：一個比Google Scholar更強大的NLP文獻搜索工具

Tang_Lan ? 3218瀏覽 ? 0回復
如何讓大型語言模型部署更高效？Run:ai Model Streamer的革命性突破

Halo咯咯 ? 2140瀏覽 ? 0回復
RAGCache：讓RAG系統(tǒng)更高效的多級動態(tài)緩存新方案

Halo咯咯 ? 1891瀏覽 ? 0回復
使用MCTS顯著提升LLM在復雜任務(wù)的推理能力

arnoldzhw ? 5773瀏覽 ? 0回復
LLM-ESR@NeurIPS 2024: 大語言模型破解推薦系統(tǒng)的長尾難題

十一月雨_55 ? 2806瀏覽 ? 0回復
NeurIPS'24 基于自適應(yīng)多尺度超圖Transfromer的時間序列預測方法

海因斯DK ? 3107瀏覽 ? 0回復
谷歌AI推出LAuReL：讓神經(jīng)網(wǎng)絡(luò)更高效的革命性架構(gòu)

Halo咯咯 ? 2863瀏覽 ? 0回復
NeurIPS 2024 | 全面提升文生圖SOTA方法！ToMe:基于token合并的免訓練文生圖語義綁定

angel ? 2475瀏覽 ? 0回復
NeurIPS 2024 ｜ REBASE，比MCTS更高效的Inference Scaling算法

arnoldzhw ? 2555瀏覽 ? 0回復
NeurIPS 2024 | 像素級LLM實現(xiàn)圖像視頻理解、生成、分割和編輯大統(tǒng)一

angel ? 3445瀏覽 ? 0回復
人工智能智能體(AI Agent)發(fā)展趨勢2024年總結(jié)與2025年展望

十一月雨_55 ? 8299瀏覽 ? 0回復
新模型Gemma 3號稱“單 GPU 模型王”，Gemma 3讓AI更輕便、更高效、更觸手可及！

Halo咯咯 ? 1886瀏覽 ? 0回復
FAR模型+FlexRoPE讓16倍時長創(chuàng)作更高效

AIPaperDaily ? 959瀏覽 ? 0回復
掌握這5個技巧，讓你的大模型交互更高效！

Halo咯咯 ? 954瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

香港科技大學聯(lián)合DeepSeek-AI推出CODEI/O：讓AI學會“濃縮”推理模式 9天前發(fā)布
中國科大認知全重實驗室發(fā)布Agent-R1訓練框架，支持自主思考與工具調(diào)用！ 2025-04-09 06:29:20發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點：替代人干真活！ 1回復

王炸！MCP 架構(gòu)設(shè)計深度剖析 & 使用 Spring AI + MCP 四步教你實現(xiàn) Agent 智能體開發(fā) 0回復

Dify從入門到高階系列二：手把手教學！超詳細的Dify知識庫配置全攻略 0回復

Crawl4AI：GitHub榜首40K星標！LLM專屬極速開源爬蟲神器 0回復

只需5分鐘，教你用Python搭建MCP Server 0回復

上一篇：對話數(shù)據(jù)合成：清華利用多Agent合成大量醫(yī)療對話數(shù)據(jù)顯著提升LLM在醫(yī)療場景效果

下一篇： DeepSeek-R1技術(shù)大揭秘：論文核心原理拆解與模型性能突破關(guān)鍵

社區(qū)精華內(nèi)容

目錄

^{<sub id="mvlv9"></sub>}

^{<sub id="mvlv9"></sub>}