3B模型長(zhǎng)思考后擊敗70B！HuggingFace逆向出o1背后技術(shù)細(xì)節(jié)并開(kāi)源

2024-12-18 07:10:00

HuggingFace 聯(lián)合創(chuàng)始人兼 CEO Clem Delangue 表示，在 OpenAI o1 公開(kāi)亮相僅 10 天后，我們很高興地揭曉了其成功背后的突破性技術(shù)的開(kāi)源版本：擴(kuò)展測(cè)試時(shí)計(jì)算。

如果給小模型更長(zhǎng)的思考時(shí)間，它們性能可以超越更大規(guī)模的模型。

最近一段時(shí)間，業(yè)內(nèi)對(duì)小模型的研究熱情空前地高漲，通過(guò)一些「實(shí)用技巧」讓它們?cè)谛阅苌铣礁笠?guī)模的模型。

可以說(shuō)，將目光放到提升較小模型的性能上來(lái)有其必然性。對(duì)于大語(yǔ)言模型而言，訓(xùn)練時(shí)計(jì)算（train-time compute）的擴(kuò)展主導(dǎo)了它們的發(fā)展。盡管這種模式已被證明非常有效，但越來(lái)越大模型的預(yù)訓(xùn)練所需的資源卻變得異常昂貴，數(shù)十億美元的集群已經(jīng)出現(xiàn)。

因此，這一趨勢(shì)引發(fā)了人們對(duì)另外一種互補(bǔ)方法的極大興趣，即測(cè)試時(shí)計(jì)算擴(kuò)展（test-time compute scaling）。測(cè)試時(shí)方法不依賴(lài)于越來(lái)越大的預(yù)訓(xùn)練預(yù)算，而是使用動(dòng)態(tài)推理策略，讓模型在更難的問(wèn)題上「思考更長(zhǎng)時(shí)間」。一個(gè)突出的例子是 OpenAI 的 o1 模型，隨著測(cè)試時(shí)計(jì)算量的增加，它在困難數(shù)學(xué)問(wèn)題上表現(xiàn)出持續(xù)的進(jìn)步。

雖然我們不清楚 o1 是如何訓(xùn)練的，但 DeepMind 最近的研究表明，可以通過(guò)迭代自我改進(jìn)或使用獎(jiǎng)勵(lì)模型在解決方案空間上進(jìn)行搜索等策略來(lái)實(shí)現(xiàn)測(cè)試時(shí)計(jì)算的最佳擴(kuò)展。通過(guò)自適應(yīng)地按 prompt 分配測(cè)試時(shí)計(jì)算，較小的模型可以與較大、資源密集型模型相媲美，有時(shí)甚至超越它們。當(dāng)內(nèi)存受限且可用硬件不足以運(yùn)行較大模型時(shí)，擴(kuò)展時(shí)間時(shí)計(jì)算尤其有利。然而這種有前途的方法是用閉源模型演示的，沒(méi)有發(fā)布任何實(shí)現(xiàn)細(xì)節(jié)或代碼。

DeepMind 論文：https://arxiv.org/pdf/2408.03314

在過(guò)去幾個(gè)月里，HuggingFace 一直在深入研究，試圖對(duì)這些結(jié)果進(jìn)行逆向工程并復(fù)現(xiàn)。他們?cè)谶@篇博文將介紹：

計(jì)算最優(yōu)擴(kuò)展（compute-optimal scaling）：通過(guò)實(shí)現(xiàn) DeepMind 的技巧來(lái)提升測(cè)試時(shí)開(kāi)放模型的數(shù)學(xué)能力。
多樣性驗(yàn)證器樹(shù)搜索 (DVTS)：它是為驗(yàn)證器引導(dǎo)樹(shù)搜索技術(shù)開(kāi)發(fā)的擴(kuò)展。這種簡(jiǎn)單高效的方法提高了多樣性并提供了更好的性能，特別是在測(cè)試時(shí)計(jì)算預(yù)算較大的情況下。
搜索和學(xué)習(xí)：一個(gè)輕量級(jí)工具包，用于使用 LLM 實(shí)現(xiàn)搜索策略，并使用 vLLM 實(shí)現(xiàn)速度提升。

那么，計(jì)算最優(yōu)擴(kuò)展在實(shí)踐中效果如何呢？在下圖中，如果你給它們足夠的「思考時(shí)間」，規(guī)模很小的 1B 和 3B Llama Instruct 模型在具有挑戰(zhàn)性的 MATH-500 基準(zhǔn)上，超越了比它們大得多的 8B、70B 模型。

HuggingFace 聯(lián)合創(chuàng)始人兼 CEO Clem Delangue 表示，在 OpenAI o1 公開(kāi)亮相僅 10 天后，我們很高興地揭曉了其成功背后的突破性技術(shù)的開(kāi)源版本：擴(kuò)展測(cè)試時(shí)計(jì)算。通過(guò)給模型更長(zhǎng)的「思考時(shí)間」，1B 模型可以擊敗 8B、3B 模型可以擊敗 70B。當(dāng)然，完整的技術(shù)配方是開(kāi)源的。

各路網(wǎng)友看到這些結(jié)果也不淡定了，直呼不可思議，并認(rèn)為這是小模型的勝利。

接下來(lái)，HuggingFace 深入探討了產(chǎn)生上述結(jié)果背后的原因，并幫助讀者了解實(shí)現(xiàn)測(cè)試時(shí)計(jì)算擴(kuò)展的實(shí)用策略。

擴(kuò)展測(cè)試時(shí)計(jì)算策略

擴(kuò)展測(cè)試時(shí)計(jì)算主要有以下兩種主要策略：

自我改進(jìn)：模型通過(guò)在后續(xù)迭代中識(shí)別和糾錯(cuò)來(lái)迭代改進(jìn)自己的輸出或「想法」。雖然這種策略在某些任務(wù)上有效，但通常要求模型具有內(nèi)置的自我改進(jìn)機(jī)制，這可能會(huì)限制其適用性。
針對(duì)驗(yàn)證器進(jìn)行搜索：這種方法側(cè)重于生成多個(gè)候選答案并使用驗(yàn)證器選擇最佳答案。驗(yàn)證器可以是基于硬編碼的啟發(fā)式方法，也可以是學(xué)得的獎(jiǎng)勵(lì)模型。本文將重點(diǎn)介紹學(xué)得的驗(yàn)證器，它包括了 Best-of-N 采樣和樹(shù)搜索等技術(shù)。這種搜索策略更靈活，可以適應(yīng)問(wèn)題的難度，不過(guò)它們的性能受到驗(yàn)證器質(zhì)量的限制。

HuggingFace 專(zhuān)注于基于搜索的方法，它們是測(cè)試時(shí)計(jì)算優(yōu)化的實(shí)用且可擴(kuò)展的解決方案。下面是三種策略：

Best-of-N：通常使用獎(jiǎng)勵(lì)模型為每個(gè)問(wèn)題生成多個(gè)響應(yīng)并為每個(gè)候選答案分配分?jǐn)?shù)，然后選擇獎(jiǎng)勵(lì)最高的答案（或稍后討論的加權(quán)變體）。這種方法強(qiáng)調(diào)答案質(zhì)量而非頻率。
集束搜索：一種探索解決方案空間的系統(tǒng)搜索方法，通常與過(guò)程獎(jiǎng)勵(lì)模型 (PRM) 結(jié)合使用，以?xún)?yōu)化問(wèn)題解決中間步驟的采樣和評(píng)估。與對(duì)最終答案產(chǎn)生單一分?jǐn)?shù)的傳統(tǒng)獎(jiǎng)勵(lì)模型不同，PRM 會(huì)提供一系列分?jǐn)?shù)，其中推理過(guò)程的每個(gè)步驟都有一個(gè)分?jǐn)?shù)。這種細(xì)粒度反饋能力使得 PRM 成為 LLM 搜索方法的自然選擇。
多樣性驗(yàn)證器樹(shù)搜索 (DVTS)：HuggingFace 開(kāi)發(fā)的集束搜索擴(kuò)展，將初始集束拆分為獨(dú)立的子樹(shù)，然后使用 PRM 貪婪地?cái)U(kuò)展這些子樹(shù)。這種方法提高了解決方案的多樣性和整體性能，尤其是在測(cè)試時(shí)計(jì)算預(yù)算較大的情況下。

實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)設(shè)置包括以下步驟：

首先給 LLM 提供一個(gè)數(shù)學(xué)問(wèn)題，讓其生成 N 個(gè)部分解，例如，推導(dǎo)過(guò)程中的中間步驟。
每個(gè) step 都由 PRM 評(píng)分，PRM 估計(jì)每個(gè)步驟最終達(dá)到正確答案的概率。
一旦搜索策略結(jié)束，最終候選解決方案將由 PRM 排序以產(chǎn)生最終答案。

為了比較各種搜索策略，本文使用了以下開(kāi)源模型和數(shù)據(jù)集：

模型：使用 meta-llama/Llama-3.2-1B-Instruct 為主要模型，用于擴(kuò)展測(cè)試時(shí)計(jì)算；
過(guò)程獎(jiǎng)勵(lì)模型 PRM：為了指導(dǎo)搜索策略，本文使用了 RLHFlow/Llama3.1-8B-PRM-Deepseek-Data，這是一個(gè)經(jīng)過(guò)過(guò)程監(jiān)督訓(xùn)練的 80 億獎(jiǎng)勵(lì)模型。過(guò)程監(jiān)督是一種訓(xùn)練方法，模型在推理過(guò)程的每一步都會(huì)收到反饋，而不僅僅是最終結(jié)果；
數(shù)據(jù)集：本文在 MATH-500 子集上進(jìn)行了評(píng)估，這是 OpenAI 作為過(guò)程監(jiān)督研究的一部分發(fā)布的 MATH 基準(zhǔn)數(shù)據(jù)集。這些數(shù)學(xué)問(wèn)題涵蓋了七個(gè)科目，對(duì)人類(lèi)和大多數(shù)大語(yǔ)言模型來(lái)說(shuō)都具有挑戰(zhàn)性。

本文將從一個(gè)簡(jiǎn)單的基線(xiàn)開(kāi)始，然后逐步結(jié)合其他技術(shù)來(lái)提高性能。

多數(shù)投票

多數(shù)投票是聚合 LLM 輸出的最直接方法。對(duì)于給定的數(shù)學(xué)問(wèn)題，會(huì)生成 N 個(gè)候選解，然后選擇出現(xiàn)頻率最高的答案。在所有的實(shí)驗(yàn)中，本文采樣了多達(dá) N=256 個(gè)候選解，溫度參數(shù) T=0.8，并為每個(gè)問(wèn)題生成了最多 2048 個(gè) token。

以下是多數(shù)投票應(yīng)用于 Llama 3.2 1B Instruct 時(shí)的表現(xiàn)：

結(jié)果表明，多數(shù)投票比貪婪解碼基線(xiàn)有顯著的改進(jìn)，但其收益在大約 N=64 generation 后開(kāi)始趨于平穩(wěn)。這種限制的出現(xiàn)是因?yàn)槎鄶?shù)投票難以解決需要細(xì)致推理的問(wèn)題。

基于多數(shù)投票的局限性，讓我們看看如何結(jié)合獎(jiǎng)勵(lì)模型來(lái)提高性能。

超越多數(shù)：Best-of-N

Best-of-N 是多數(shù)投票算法的簡(jiǎn)單且有效的擴(kuò)展，它使用獎(jiǎng)勵(lì)模型來(lái)確定最合理的答案。該方法有兩種主要變體：

普通的 Best-of-N：生成 N 個(gè)獨(dú)立響應(yīng)，選擇 RM 獎(jiǎng)勵(lì)最高的一個(gè)作為最終回答。這確保了選擇置信度最高的響應(yīng)，但它并沒(méi)有考慮到回答之間的一致性。

加權(quán) Best-of-N：匯總所有相同響應(yīng)的得分，并選擇總獎(jiǎng)勵(lì)最高的回答。這種方法通過(guò)重復(fù)出現(xiàn)來(lái)提高分?jǐn)?shù)，從而優(yōu)先考慮高質(zhì)量的回答。從數(shù)學(xué)上講，回答的權(quán)重 a_i：

其中，RM (p,s_i) 是對(duì)于問(wèn)題 p 的第 i 個(gè)解決方案 s_i 的獎(jiǎng)勵(lì)模型分?jǐn)?shù)。

通常，人們使用結(jié)果獎(jiǎng)勵(lì)模型 (ORM) 來(lái)獲得單個(gè)解決方案級(jí)別的分?jǐn)?shù)。但為了與其他搜索策略進(jìn)行公平比較，使用相同的 PRM 對(duì) Best-of-N 的解決方案進(jìn)行評(píng)分。如下圖所示，PRM 為每個(gè)解決方案生成一個(gè)累積的步驟級(jí)分?jǐn)?shù)序列，因此需要對(duì)步驟進(jìn)行規(guī)約（reduction）以獲得單個(gè)解決方案級(jí)分?jǐn)?shù)：

最常見(jiàn)的規(guī)約如下：

Min：使用所有步驟中的最低分?jǐn)?shù)。
Prod：使用階梯分?jǐn)?shù)的乘積。
Last：使用步驟中的最終分?jǐn)?shù)。該分?jǐn)?shù)包含所有先前步驟的累積信息，因此將 PRM 有效地視為能夠?qū)Σ糠纸鉀Q方案進(jìn)行評(píng)分的 ORM。

以下是應(yīng)用 Best-of-N 的兩種變體得到的結(jié)果：

結(jié)果揭示了一個(gè)明顯的優(yōu)勢(shì)：加權(quán)的 Best-of-N 始終優(yōu)于普通的 Best-of-N，特別是在發(fā)電預(yù)算較大的情況下。它能夠匯總相同答案的分?jǐn)?shù)，確保即使頻率較低但質(zhì)量較高的答案也能得到有效的優(yōu)先處理。

然而，盡管有這些改進(jìn)，仍然達(dá)不到 Llama 8B 模型所達(dá)到的性能，并且在 N=256 時(shí) Best-of-N 方法開(kāi)始趨于穩(wěn)定。

可以通過(guò)逐步監(jiān)督搜索過(guò)程來(lái)進(jìn)一步突破界限嗎？

使用 PRM 的集束搜索

作為一種結(jié)構(gòu)化搜索方法，集束搜索可以系統(tǒng)地探索解決方案空間，使其成為在測(cè)試時(shí)改進(jìn)模型輸出的強(qiáng)大工具。與 PRM 結(jié)合使用時(shí)，集束搜索可以?xún)?yōu)化問(wèn)題解決中中間步驟的生成和評(píng)估。集束搜索的工作方式如下：

通過(guò)保持固定數(shù)量的「集束」或活動(dòng)路徑 N ，迭代生成多個(gè)候選解決方案。
在第一次迭代中，從溫度為 T 的 LLM 中抽取 N 個(gè)獨(dú)立步驟，以引入響應(yīng)的多樣性。這些步驟通常由停止標(biāo)準(zhǔn)定義，例如終止于新行 \n 或雙新行 \n\n。
使用 PRM 對(duì)每個(gè)步驟進(jìn)行評(píng)分，并選擇前 N/M 個(gè)步驟作為下一輪生成的候選。這里 M 表示給定活動(dòng)路徑的「集束寬度」。與 Best-of-N 一樣，使用「最后」的規(guī)約來(lái)對(duì)每次迭代的部分解決方案進(jìn)行評(píng)分。
通過(guò)在解決方案中采樣 M 個(gè)后續(xù)步驟來(lái)擴(kuò)展在步驟 (3) 中選擇的步驟。
重復(fù)步驟 (3) 和 (4)，直到達(dá)到 EOS token 或超過(guò)最大搜索深度。

通過(guò)允許 PRM 評(píng)估中間步驟的正確性，集束搜索可以在流程早期識(shí)別并優(yōu)先考慮有希望的路徑。這種逐步評(píng)估策略對(duì)于數(shù)學(xué)等復(fù)雜的推理任務(wù)特別有用，這是因?yàn)轵?yàn)證部分解決方案可以顯著改善最終結(jié)果。

實(shí)現(xiàn)細(xì)節(jié)

在實(shí)驗(yàn)中，HuggingFace 遵循 DeepMind 的超參數(shù)選擇，并按照以下方式運(yùn)行集束搜索：

計(jì)算擴(kuò)展為 4、16、64、256 時(shí)的 N 個(gè)集束
固定集束寬度 M=4
在溫度 T=0.8 時(shí)采樣
最多 40 次迭代，即最大深度為 40 步的樹(shù)

如下圖所示，結(jié)果令人震驚：在 N=4 的測(cè)試時(shí)預(yù)算下，集束搜索實(shí)現(xiàn)了與 N=16 時(shí) Best-of-N 相同的準(zhǔn)確率，即計(jì)算效率提高了 4 倍！此外，集束搜索的性能與 Llama 3.1 8B 相當(dāng)，每個(gè)問(wèn)題僅需 N=32 解決方案。計(jì)算機(jī)科學(xué)博士生在數(shù)學(xué)方面的平均表現(xiàn)約為 40%，因此對(duì)于 1B 模型來(lái)說(shuō)，接近 55% 已經(jīng)很不錯(cuò)了！

哪些問(wèn)題集束搜索解決得最好

雖然總體上很明顯，集束搜索是一種比 Best-of-N 或多數(shù)投票更好的搜索策略，但 DeepMind 的論文表明，每種策略都有權(quán)衡，這取決于問(wèn)題的難度和測(cè)試時(shí)計(jì)算預(yù)算。

為了了解哪些問(wèn)題最適合哪種策略，DeepMind 計(jì)算了估計(jì)問(wèn)題難度的分布，并將結(jié)果分成五等分。換句話(huà)說(shuō)，每個(gè)問(wèn)題被分配到 5 個(gè)級(jí)別之一，其中級(jí)別 1 表示較容易的問(wèn)題，級(jí)別 5 表示最難的問(wèn)題。為了估計(jì)問(wèn)題難度，DeepMind 為每個(gè)問(wèn)題生成了 2048 個(gè)候選解決方案，并進(jìn)行了標(biāo)準(zhǔn)采樣，然后提出了以下啟發(fā)式方法：

Oracle：使用基本事實(shí)標(biāo)簽估計(jì)每個(gè)問(wèn)題的 pass@1 分?jǐn)?shù)，對(duì) pass@1 分?jǐn)?shù)的分布進(jìn)行分類(lèi)以確定五分位數(shù)。
模型：使用每個(gè)問(wèn)題的平均 PRM 分?jǐn)?shù)分布來(lái)確定五分位數(shù)。這里的直覺(jué)是：更難的問(wèn)題分?jǐn)?shù)會(huì)更低。

下圖是根據(jù) pass@1 分?jǐn)?shù)和四個(gè)測(cè)試時(shí)計(jì)算預(yù)算 N=[4,16,64,256] 對(duì)各種方法的細(xì)分：

可以看到，每個(gè)條形表示測(cè)試時(shí)計(jì)算預(yù)算，并且在每個(gè)條形內(nèi)顯示每種方法的相對(duì)準(zhǔn)確度。例如在難度等級(jí) 2 的四個(gè)條形中：

多數(shù)投票是所有計(jì)算預(yù)算中表現(xiàn)最差的方法，除了 N=256（集束搜索表現(xiàn)最差）。

集束搜索最適合 N=[4,16,64]，但 Best-of-N 最適合 N=256。

應(yīng)該說(shuō)，集束搜索在中等難度和困難難度問(wèn)題（3-5 級(jí)）中取得了持續(xù)的進(jìn)展，但在較簡(jiǎn)單問(wèn)題上，尤其是在計(jì)算預(yù)算較大的情況下，它的表現(xiàn)往往比 Best-of-N（甚至多數(shù)投票）更差。

通過(guò)觀察集束搜索生成的結(jié)果樹(shù)，HuggingFace 意識(shí)到，如果單個(gè)步驟被分配了高獎(jiǎng)勵(lì)，那么整棵樹(shù)就在該軌跡上崩潰，從而影響多樣性。這促使他們探索一種最大化多樣性的集束搜索擴(kuò)展。

DVTS：通過(guò)多樣性提升性能

正如上面所看到的，集束搜索比 Best-of-N 具有更好的性能，但在處理簡(jiǎn)單問(wèn)題和測(cè)試時(shí)計(jì)算預(yù)算較大時(shí)往往表現(xiàn)不佳。

為了解決這個(gè)問(wèn)題，HuggingFace 開(kāi)發(fā)了一個(gè)擴(kuò)展，稱(chēng)之為「多樣性驗(yàn)證器樹(shù)搜索」（DVTS），旨在最大限度地提高 N 較大時(shí)的多樣性。

DVTS 的工作方式與集束搜索類(lèi)似，但有以下修改：

對(duì)于給定的 N 和 M，將初始集束擴(kuò)展為 N/M 個(gè)獨(dú)立子樹(shù)。
對(duì)于每個(gè)子樹(shù)，選擇具有最高 PRM 分?jǐn)?shù)的步驟。
從步驟 (2) 中選擇的節(jié)點(diǎn)生成 M 個(gè)新步驟，并選擇具有最高 PRM 分?jǐn)?shù)的步驟。
重復(fù)步驟 (3)，直到達(dá)到 EOS token 或最大樹(shù)深度。

下圖是將 DVTS 應(yīng)用于 Llama 1B 的結(jié)果：

可以看到，DVTS 為集束搜索提供了一種補(bǔ)充策略：在 N 較小時(shí)，集束搜索更有效地找到正確的解決方案；但在 N 較大時(shí)，DVTS 候選的多樣性開(kāi)始發(fā)揮作用，可以獲得更好的性能。

此外在問(wèn)題難度細(xì)分中，DVTS 在 N 較大時(shí)提高了簡(jiǎn)單 / 中等問(wèn)題的性能，而集束搜索在 N 較小時(shí)表現(xiàn)最佳。

計(jì)算 - 最優(yōu)擴(kuò)展（compute-optimal scaling）

有了各種各樣的搜索策略，一個(gè)自然的問(wèn)題是哪一個(gè)是最好的？在 DeepMind 的論文中（可參考《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters 》），他們提出了一種計(jì)算 - 最優(yōu)擴(kuò)展策略，該策略可以選擇搜索方法和超參數(shù) θ，以便在給定的計(jì)算預(yù)算 N 下達(dá)到最佳性能：

其中是問(wèn)題 q 的正確答案。表示計(jì)算 - 最優(yōu)的擴(kuò)展策略。由于直接計(jì)算有些棘手，DeepMind 提出了一種基于問(wèn)題難度的近似方法，即根據(jù)哪種搜索策略在給定難度級(jí)別上達(dá)到最佳性能來(lái)分配測(cè)試時(shí)的計(jì)算資源。

例如，對(duì)于較簡(jiǎn)單的問(wèn)題和較低的計(jì)算預(yù)算，最好使用 Best-of-N 等策略，而對(duì)于較難的問(wèn)題，集 shu 搜索是更好的選擇。下圖為計(jì)算 - 最優(yōu)曲線(xiàn)！

擴(kuò)展到更大的模型

本文還探索了將計(jì)算 - 最優(yōu)（compute-optimal）的方法擴(kuò)展到 Llama 3.2 3B Instruct 模型，以觀察 PRM 在與策略自身容量相比時(shí)在哪個(gè)點(diǎn)開(kāi)始減弱。結(jié)果顯示，計(jì)算 - 最優(yōu)的擴(kuò)展效果非常好，3B 模型的性能超過(guò)了 Llama 3.1 70B Instruct（后者是前者大小的 22 倍?。?。

接下來(lái)該怎么辦？

對(duì)測(cè)試時(shí)計(jì)算擴(kuò)展的探索揭示了利用基于搜索的方法的潛力和挑戰(zhàn)。展望未來(lái)，本文提出了幾個(gè)令人興奮的方向：

強(qiáng)驗(yàn)證器：強(qiáng)驗(yàn)證器在提高性能方面發(fā)揮著關(guān)鍵作用，提高驗(yàn)證器的穩(wěn)健性和通用性對(duì)于推進(jìn)這些方法至關(guān)重要；
自我驗(yàn)證：最終目標(biāo)是實(shí)現(xiàn)自我驗(yàn)證，即模型可以自主驗(yàn)證自己的輸出。這種方法似乎是 o1 等模型正在做的事情，但在實(shí)踐中仍然難以實(shí)現(xiàn)。與標(biāo)準(zhǔn)監(jiān)督微調(diào) (SFT) 不同，自我驗(yàn)證需要更細(xì)致的策略；
將思維融入過(guò)程：在生成過(guò)程中融入明確的中間步驟或思維可以進(jìn)一步增強(qiáng)推理和決策能力。通過(guò)將結(jié)構(gòu)化推理融入搜索過(guò)程，可以在復(fù)雜任務(wù)上實(shí)現(xiàn)更好的表現(xiàn)；
搜索作為數(shù)據(jù)生成工具：該方法還可以充當(dāng)強(qiáng)大的數(shù)據(jù)生成過(guò)程，創(chuàng)建高質(zhì)量的訓(xùn)練數(shù)據(jù)集。例如，根據(jù)搜索產(chǎn)生的正確軌跡對(duì) Llama 1B 等模型進(jìn)行微調(diào)可以帶來(lái)顯著的收益。這種基于策略的方法類(lèi)似于 ReST 或 V-StaR 等技術(shù)，但具有搜索的額外優(yōu)勢(shì)，為迭代改進(jìn)提供了一個(gè)有希望的方向；
調(diào)用更多的 PRM：PRM 相對(duì)較少，限制了其更廣泛的應(yīng)用。為不同領(lǐng)域開(kāi)發(fā)和共享更多 PRM 是社區(qū)可以做出重大貢獻(xiàn)的關(guān)鍵領(lǐng)域。

原文鏈接：https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute

責(zé)任編輯：姜華來(lái)源：機(jī)器之心