自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

NeurIPS 2024 | REBASE,比MCTS更高效的Inference Scaling算法

發(fā)布于 2024-12-25 11:42
瀏覽
0收藏

還在為大模型推理速度慢、成本高而煩惱嗎?這篇來(lái)自 CMU 和清華大學(xué)的論文給你帶來(lái)了一個(gè)顛覆性的解決方案! 他們發(fā)現(xiàn),在推理大型語(yǔ)言模型時(shí),“大力出奇跡”不再是真理! 通過(guò)深入研究推理過(guò)程中的計(jì)算與性能關(guān)系,他們提出了“推理縮放定律”,并革命性地推出了一種名為 REBASE 的全新算法。

REBASE 就像一位聰明的向?qū)?,能夠巧妙地利用?jiǎng)勵(lì)信號(hào),指引模型在推理的迷宮中高效探索,避免了傳統(tǒng)方法中耗時(shí)費(fèi)力的盲目搜索。 實(shí)驗(yàn)結(jié)果令人驚嘆:在數(shù)學(xué)推理任務(wù)上,REBASE 搭配小模型,不僅速度更快,而且精度更高,輕松擊敗了更大的模型!

這篇論文的意義不僅僅在于提出了一種新算法,更在于它顛覆了我們對(duì)大模型推理的傳統(tǒng)認(rèn)知,為我們指明了一條通往更高效、更經(jīng)濟(jì)的 AI 之路。 想要了解如何讓你的大模型推理效率飆升?快來(lái)閱讀這篇論文,一起探索 LLM 推理的奧秘吧!

一、概述

? Title: INFERENCE SCALING LAWS: AN EMPIRICAL ANALYSIS OF COMPUTE-OPTIMAL INFERENCE FOR LLM PROBLEM-SOLVING

? URL: https://arxiv.org/abs/2408.00724

? Authors: Yangzhen Wu, Zhiqing Sun, Shanda Li, Sean Welleck, Yiming Yang

? Code: https://thu-wyz.github.io/inference-scaling/

1.Motivation

? 目前關(guān)于大型語(yǔ)言模型 (LLM) 的研究主要集中在訓(xùn)練階段的縮放定律上,而對(duì)于推理階段的最佳配置研究較少。

? 現(xiàn)有的推理技術(shù)通常需要在推理時(shí)增加額外的計(jì)算,以最大化性能,但這些技術(shù)的計(jì)算成本必須考慮在內(nèi),以實(shí)現(xiàn)計(jì)算最優(yōu)推理。

? 傳統(tǒng)的采樣算法會(huì)有性能上限(論文Figure 1),需要更好的推理算法來(lái)取得更好的結(jié)果。

2.Methods

文章評(píng)估了不同模型大小和推理算法在數(shù)學(xué)推理基準(zhǔn)測(cè)試上的性能,設(shè)計(jì)了一個(gè)新的樹(shù)搜索算法REBASE,該算法在計(jì)算效率上優(yōu)于常用的采樣和MCTS方法。

2.1 省流版總結(jié):

核心思想: 研究在給定計(jì)算預(yù)算下,如何選擇最優(yōu)的語(yǔ)言模型大小和有效的推理策略,以最大化問(wèn)題解決的準(zhǔn)確性。

創(chuàng)新點(diǎn): 提出了一個(gè)新的樹(shù)搜索算法REBASE(Reward Balanced Search),該算法與加權(quán)投票結(jié)合使用,能夠在準(zhǔn)確性和推理計(jì)算量之間實(shí)現(xiàn)帕累托最優(yōu)的權(quán)衡。

帕累托最優(yōu)的權(quán)衡意味著:

? REBASE 算法在給定的計(jì)算預(yù)算下,能夠獲得最佳的性能(例如,最高的數(shù)學(xué)問(wèn)題解決準(zhǔn)確率)。

? 如果你想進(jìn)一步提高準(zhǔn)確率,你就必須增加計(jì)算預(yù)算(例如,生成更多的 tokens,進(jìn)行更多的搜索)。

? 如果你想減少計(jì)算預(yù)算,你就必須接受較低的準(zhǔn)確率。

2.2 REBASE詳細(xì)方法和步驟:

目標(biāo): 在給定固定計(jì)算預(yù)算的情況下,如何選擇最優(yōu)的模型大小和推理策略,以最大化模型在特定任務(wù)上的性能。

2.2.1 REBASE 算法是干什么的的?

為了解決 MCTS 的計(jì)算成本高問(wèn)題,論文提出了新的樹(shù)搜索算法 REBASE。REBASE 通過(guò)獎(jiǎng)勵(lì)模型來(lái)控制節(jié)點(diǎn)的擴(kuò)展,從而避免了 MCTS 中顯式的 rollout 步驟。

REBASE 算法避免 MCTS 中顯式 rollout 步驟的關(guān)鍵在于它巧妙地利用了獎(jiǎng)勵(lì)模型 (Reward Model) 和 平衡擴(kuò)展 (Balanced Expansion) 策略。

2.2.2 MCTS 的 Rollout 步驟有什么問(wèn)題?

在傳統(tǒng)的 MCTS 中,為了評(píng)估一個(gè)節(jié)點(diǎn)的價(jià)值,需要進(jìn)行 rollout(模擬)。Rollout 是指從當(dāng)前節(jié)點(diǎn)開(kāi)始,根據(jù)某種策略(例如隨機(jī)策略或基于模型的策略)模擬生成多個(gè)完整的解決方案,然后根據(jù)這些解決方案的結(jié)果來(lái)估計(jì)該節(jié)點(diǎn)的價(jià)值。

Rollout 的問(wèn)題在于:

  • 計(jì)算成本高: Rollout 需要生成多個(gè)完整的解決方案,這在計(jì)算上非常昂貴,特別是當(dāng)解決方案很長(zhǎng)時(shí)。
  • 估計(jì)偏差: Rollout 使用的策略可能與實(shí)際的策略不同,這會(huì)導(dǎo)致價(jià)值估計(jì)存在偏差。
2.2.3 REBASE 如何利用獎(jiǎng)勵(lì)模型控制節(jié)點(diǎn)擴(kuò)展?

NeurIPS 2024 | REBASE,比MCTS更高效的Inference Scaling算法-AI.x社區(qū)

REBASE 摒棄了顯式的 rollout 步驟,而是直接使用過(guò)程獎(jiǎng)勵(lì)模型 (PRM) 來(lái)評(píng)估節(jié)點(diǎn)的質(zhì)量。具體來(lái)說(shuō),REBASE 在每次迭代中執(zhí)行以下步驟:

  • 獎(jiǎng)勵(lì)分配 (Reward Assignment):

對(duì)于當(dāng)前深度 i 的每個(gè)節(jié)點(diǎn) nj,REBASE 使用 PRM 來(lái)計(jì)算該節(jié)點(diǎn)的獎(jiǎng)勵(lì) R(nj)。這個(gè)獎(jiǎng)勵(lì)反映了從根節(jié)點(diǎn)到節(jié)點(diǎn) nj 的部分解決方案的質(zhì)量。注意,這里直接利用了 PRM 的輸出,而不需要進(jìn)行 rollout。

  • 平衡擴(kuò)展 (Balanced Expansion):

Wj = Round ( Bi * exp(R(nj) / Tb) / Σk exp(R(nk) / Tb) )

其中:

直觀理解: 這個(gè)公式的含義是,每個(gè)節(jié)點(diǎn)的擴(kuò)展寬度與該節(jié)點(diǎn)的獎(jiǎng)勵(lì)的指數(shù)成正比。獎(jiǎng)勵(lì)越高的節(jié)點(diǎn),其指數(shù)值越大,因此獲得的擴(kuò)展寬度也越大。通過(guò)這種方式,REBASE 將更多的計(jì)算資源分配給更有希望的節(jié)點(diǎn)。

Bi 是深度 i 的可用采樣預(yù)算(即還可以生成的總節(jié)點(diǎn)數(shù))。

R(nj) 是節(jié)點(diǎn) nj 的獎(jiǎng)勵(lì)。

Tb 是一個(gè)平衡溫度參數(shù),用于控制擴(kuò)展的“平滑”程度。較高的 Tb 會(huì)導(dǎo)致更均勻的擴(kuò)展,而較低的 Tb 會(huì)導(dǎo)致更集中于高獎(jiǎng)勵(lì)節(jié)點(diǎn)的擴(kuò)展。

Round() 函數(shù)將結(jié)果四舍五入到最接近的整數(shù)。

分母 Σk exp(R(nk) / Tb) 對(duì)所有節(jié)點(diǎn) nk 的獎(jiǎng)勵(lì)進(jìn)行 softmax 歸一化,確保所有節(jié)點(diǎn)的擴(kuò)展寬度之和等于 Bi。

REBASE 的目標(biāo)是根據(jù)節(jié)點(diǎn)的獎(jiǎng)勵(lì)來(lái)“平衡”地?cái)U(kuò)展節(jié)點(diǎn)。這意味著獎(jiǎng)勵(lì)越高的節(jié)點(diǎn),將被分配越多的計(jì)算資源(即擴(kuò)展出更多的子節(jié)點(diǎn))。

具體來(lái)說(shuō),REBASE 計(jì)算每個(gè)節(jié)點(diǎn) nj 的擴(kuò)展寬度 Wj,公式如下:

  • 節(jié)點(diǎn)擴(kuò)展 (Node Expansion):

根據(jù)計(jì)算出的擴(kuò)展寬度 Wj,REBASE 從策略模型 πθ 中采樣 Wj 個(gè)子節(jié)點(diǎn),作為節(jié)點(diǎn) nj 的子節(jié)點(diǎn)。

2.2.4 總結(jié)一下REBASE方法的改進(jìn)點(diǎn)

REBASE 通過(guò)以下方式避免了 MCTS 的 rollout 步驟:

? 直接使用獎(jiǎng)勵(lì)模型評(píng)估節(jié)點(diǎn)質(zhì)量: 無(wú)需進(jìn)行耗時(shí)的 rollout 模擬。

? 基于獎(jiǎng)勵(lì)模型進(jìn)行平衡擴(kuò)展: 根據(jù)節(jié)點(diǎn)的獎(jiǎng)勵(lì)動(dòng)態(tài)分配計(jì)算資源,將更多資源分配給更有希望的節(jié)點(diǎn),從而更有效地利用計(jì)算預(yù)算。

通過(guò)這種方式,REBASE 在保持樹(shù)搜索的“探索”和“利用”特性的同時(shí),顯著降低了計(jì)算成本,使其在準(zhǔn)確性和計(jì)算效率之間取得了更好的平衡,從而實(shí)現(xiàn)了帕累托最優(yōu)的權(quán)衡。

3.Conclusion

? 較小的模型(例如 Llemma-7B)在相同的計(jì)算預(yù)算下可以勝過(guò)較大的模型,并且較小的模型與先進(jìn)的推理算法相結(jié)合可以產(chǎn)生帕累托最優(yōu)的成本性能權(quán)衡。

? 論文提出的 REBASE 算法在所有測(cè)試的計(jì)算預(yù)算中都實(shí)現(xiàn)了最佳性能,優(yōu)于常用的加權(quán)多數(shù)投票(Majority Voting)和 MCTS 方法。

? 通過(guò)采樣更多的樣本,基于采樣的多數(shù)投票策略不可避免地會(huì)飽和到一個(gè)取決于底層生成策略的分布。因此,通過(guò)設(shè)計(jì)替代推理策略來(lái)改變采樣分布是有意義的。

4.Limitation

? 該分析主要針對(duì)數(shù)學(xué)問(wèn)題解決,推理縮放規(guī)律和計(jì)算優(yōu)化推理在其他任務(wù)中是否適用還有待進(jìn)一步研究。

? 在GSM8K和MATH500數(shù)據(jù)集上的評(píng)估可能不足以泛化到其他任務(wù)和數(shù)據(jù)集。

? 模型大小和推理策略的探索仍然存在局限性。

二、詳細(xì)情況

1.實(shí)驗(yàn)設(shè)置

其他推理策略對(duì)比: 論文主要考慮了以下幾種推理策略:

? 貪婪搜索(Greedy Search):每次選擇概率最高的token。

? Best-of-n:生成多個(gè)候選答案,選擇得分最高的答案。

? 多數(shù)投票(Majority Voting):生成多個(gè)候選答案,選擇出現(xiàn)頻率最高的答案。

? 加權(quán)多數(shù)投票(Weighted Majority Voting):根據(jù)獎(jiǎng)勵(lì)模型給出的分?jǐn)?shù)對(duì)候選答案進(jìn)行加權(quán),然后進(jìn)行投票。

? 樹(shù)搜索算法(Tree Search):包括 MCTS 和作者提出的 REBASE。

模型和數(shù)據(jù)集:

? 使用了 Pythia 和 Llemma 系列的多種大小的模型,并在數(shù)學(xué)推理基準(zhǔn)測(cè)試集 GSM8K 和 MATH500 上進(jìn)行了實(shí)驗(yàn)。

? 使用 MetaMath 數(shù)據(jù)集對(duì)模型進(jìn)行微調(diào)。

理論分析:

? 對(duì)基于采樣的投票方法進(jìn)行了理論分析,表明隨著采樣次數(shù)的增加,準(zhǔn)確率會(huì)收斂到一個(gè)極限,這個(gè)極限取決于語(yǔ)言模型和獎(jiǎng)勵(lì)模型的分布。

實(shí)驗(yàn)評(píng)估:

? 通過(guò)實(shí)驗(yàn),論文比較了不同模型大小和推理策略在不同計(jì)算預(yù)算下的性能。結(jié)果表明,較小的模型與高級(jí)的推理算法相結(jié)合可以實(shí)現(xiàn)帕累托最優(yōu)的成本效益。

2.最優(yōu)錯(cuò)誤率和模型大小以及預(yù)算的關(guān)系

NeurIPS 2024 | REBASE,比MCTS更高效的Inference Scaling算法-AI.x社區(qū)

2.1 錯(cuò)誤率和計(jì)算量以及模型大小的關(guān)系(左)

? 隨著計(jì)算量的增加,錯(cuò)誤率下降: 所有的曲線(xiàn)都顯示,隨著推理計(jì)算量的增加 (即橫軸向右移動(dòng)),錯(cuò)誤率逐漸下降,說(shuō)明模型性能在提升。這是因?yàn)樵黾佑?jì)算量通常意味著模型可以進(jìn)行更多的采樣,從而找到更好的解。

? 模型性能最終趨于飽和: 每條曲線(xiàn)最終都趨于平緩,說(shuō)明模型性能有一個(gè)極限。增加更多的計(jì)算量后,錯(cuò)誤率的下降幅度會(huì)變得越來(lái)越小,最終趨于飽和。

? 不同大小的模型在不同階段表現(xiàn)不同: 在計(jì)算量較少的時(shí)候,較小的模型 (例如 410M, 1.4B) 下降速度可能更快。隨著計(jì)算量增加,較大模型 (例如 6.9B, 12B) 會(huì)逐漸展現(xiàn)出更好的性能,但其飽和也需要更大的計(jì)算量。

2.2 最佳模型大小和預(yù)算的關(guān)系(右)

? 最佳模型大小隨計(jì)算預(yù)算變化: 圖中顯示,在不同的推理計(jì)算量預(yù)算下,最佳的模型大小是不同的。

例如,在較小的計(jì)算量預(yù)算下 (241 和 244 FLOPs),較小的模型可能是最優(yōu)的。

隨著計(jì)算預(yù)算的增加 (247 FLOPs),較大的模型可能表現(xiàn)更優(yōu)。

? 小模型在較低計(jì)算量下表現(xiàn)出色: 如圖中所示,在 241 和 244 FLOPs 的計(jì)算量下,較小的模型是計(jì)算最優(yōu)的。這意味著,如果計(jì)算資源有限,與其使用大模型,不如使用小模型搭配適當(dāng)?shù)耐评聿呗钥赡苄Ч谩?/p>

3.REBASE 算法在計(jì)算效率上有明顯優(yōu)勢(shì)(7B模型+REBASE算法可以超過(guò)MCTS等方法)

NeurIPS 2024 | REBASE,比MCTS更高效的Inference Scaling算法-AI.x社區(qū)

方法:在 MATH 數(shù)據(jù)集上,對(duì)比不同推理策略 (weighted majority voting 和 best-of-n) 和不同模型大小對(duì)模型性能的影響 。

結(jié)論:

? 在 MATH 數(shù)據(jù)集上,REBASE 算法在不同的推理策略(加權(quán)多數(shù)投票和最佳 n 選 1)下,均優(yōu)于其他方法(包括傳統(tǒng)的采樣和 MCTS)。

? REBASE 算法的優(yōu)越性不僅僅局限于特定的模型大小,其在使用 7B 模型時(shí)通常能夠達(dá)到最佳的性能。

? MCTS 方法在數(shù)學(xué)推理任務(wù)中,性能不如其他方法。

4.REBASE 算法可以在更低的計(jì)算預(yù)算下實(shí)現(xiàn)更高的準(zhǔn)確率

NeurIPS 2024 | REBASE,比MCTS更高效的Inference Scaling算法-AI.x社區(qū)

? 列: 包括 # SAMPLES (采樣數(shù)量), FLOPS (推理計(jì)算量) 和 MATH500 (在 MATH500 數(shù)據(jù)集上的準(zhǔn)確率) 三列。

? 行: 比較了使用采樣方法和 REBASE 算法在不同模型 (Mistral-7B, Llemma-7B, Llemma-34B) 下的性能。

總結(jié):

? REBASE 算法可以在更低的計(jì)算預(yù)算下實(shí)現(xiàn)更高的準(zhǔn)確率: 對(duì)于所有模型,REBASE 算法在使用更少的樣本和更低的計(jì)算量 (FLOPS) 的情況下,都比采樣方法實(shí)現(xiàn)了更高的 MATH500 準(zhǔn)確率。

? 驗(yàn)證了 REBASE 的高效性: 這個(gè)表格用具體數(shù)值驗(yàn)證了 REBASE 的高效性,即能夠在降低計(jì)算成本的同時(shí),實(shí)現(xiàn)更高的性能。

5.消融實(shí)驗(yàn)

NeurIPS 2024 | REBASE,比MCTS更高效的Inference Scaling算法-AI.x社區(qū)

實(shí)驗(yàn)說(shuō)明:

? Sampling W.M.:使用采樣方法和加權(quán)多數(shù)投票策略。

? Sampling BoN:使用采樣方法和 best-of-n 策略。

? REBASE W.M.:使用 REBASE 算法和加權(quán)多數(shù)投票策略。

? REBASE BoN:使用 REBASE 算法和 best-of-n 策略。

實(shí)驗(yàn)結(jié)論:

? REBASE 算法性能普遍優(yōu)于采樣: 在所有模型 (Llemma-7B, Llemma-34B, Mistral-7B) 和所有計(jì)算預(yù)算下,使用 REBASE 算法 (無(wú)論是加權(quán)多數(shù)投票還是 best-of-n) 的曲線(xiàn)都低于使用采樣方法的曲線(xiàn),說(shuō)明 REBASE 算法性能更佳。

? REBASE + 加權(quán)多數(shù)投票 策略表現(xiàn)最佳: REBASE 算法配合加權(quán)多數(shù)投票策略通??梢赃_(dá)到最優(yōu)的性能。

? 不同模型之間在相同策略下,性能隨計(jì)算預(yù)算增加有差異: 例如,在低預(yù)算下,Llemma-7B 在 REBASE 策略下表現(xiàn)可能更好;在高預(yù)算下,不同模型之間的差距可能縮小。

三、總結(jié)

結(jié)論1: 計(jì)算最優(yōu)的推理策略依賴(lài)于模型大小和計(jì)算預(yù)算。 論文表明,在推理時(shí)使用更小的模型并進(jìn)行多次采樣,在計(jì)算成本方面可能比使用更大的模型更有效。此外,論文提出的REBASE算法在多個(gè)數(shù)據(jù)集上優(yōu)于MCTS方法和傳統(tǒng)的采樣方法。 

結(jié)論2: 基于采樣的投票策略具有性能上限,需要更復(fù)雜的推理算法。 論文的理論分析表明,基于采樣的投票方法(如多數(shù)投票和加權(quán)多數(shù)投票)在計(jì)算預(yù)算增加時(shí),性能會(huì)飽和,且達(dá)到一個(gè)基于底層生成策略的極限,這表明了需要更復(fù)雜的推理策略。 

結(jié)論3: REBASE算法在計(jì)算效率和準(zhǔn)確率方面都有優(yōu)勢(shì)。 REBASE算法通過(guò)獎(jiǎng)勵(lì)模型來(lái)控制節(jié)點(diǎn)的擴(kuò)展,從而避免了顯式的rollout,從而在計(jì)算效率上優(yōu)于MCTS。同時(shí),其性能在所有測(cè)試的計(jì)算預(yù)算下優(yōu)于采樣方法。

本文轉(zhuǎn)載自 ??NLP PaperWeekly??,作者: NLP PaperWeekly

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦