3B模型長(zhǎng)思考后擊敗70B!HuggingFace逆向出o1背后技術(shù)細(xì)節(jié)并開(kāi)源
如果給小模型更長(zhǎng)的思考時(shí)間,它們性能可以超越更大規(guī)模的模型。
最近一段時(shí)間,業(yè)內(nèi)對(duì)小模型的研究熱情空前地高漲,通過(guò)一些「實(shí)用技巧」讓它們?cè)谛阅苌铣礁笠?guī)模的模型。
可以說(shuō),將目光放到提升較小模型的性能上來(lái)有其必然性。對(duì)于大語(yǔ)言模型而言,訓(xùn)練時(shí)計(jì)算(train-time compute)的擴(kuò)展主導(dǎo)了它們的發(fā)展。盡管這種模式已被證明非常有效,但越來(lái)越大模型的預(yù)訓(xùn)練所需的資源卻變得異常昂貴,數(shù)十億美元的集群已經(jīng)出現(xiàn)。
因此,這一趨勢(shì)引發(fā)了人們對(duì)另外一種互補(bǔ)方法的極大興趣,即測(cè)試時(shí)計(jì)算擴(kuò)展(test-time compute scaling)。測(cè)試時(shí)方法不依賴(lài)于越來(lái)越大的預(yù)訓(xùn)練預(yù)算,而是使用動(dòng)態(tài)推理策略,讓模型在更難的問(wèn)題上「思考更長(zhǎng)時(shí)間」。一個(gè)突出的例子是 OpenAI 的 o1 模型,隨著測(cè)試時(shí)計(jì)算量的增加,它在困難數(shù)學(xué)問(wèn)題上表現(xiàn)出持續(xù)的進(jìn)步。
雖然我們不清楚 o1 是如何訓(xùn)練的,但 DeepMind 最近的研究表明,可以通過(guò)迭代自我改進(jìn)或使用獎(jiǎng)勵(lì)模型在解決方案空間上進(jìn)行搜索等策略來(lái)實(shí)現(xiàn)測(cè)試時(shí)計(jì)算的最佳擴(kuò)展。通過(guò)自適應(yīng)地按 prompt 分配測(cè)試時(shí)計(jì)算,較小的模型可以與較大、資源密集型模型相媲美,有時(shí)甚至超越它們。當(dāng)內(nèi)存受限且可用硬件不足以運(yùn)行較大模型時(shí),擴(kuò)展時(shí)間時(shí)計(jì)算尤其有利。然而這種有前途的方法是用閉源模型演示的,沒(méi)有發(fā)布任何實(shí)現(xiàn)細(xì)節(jié)或代碼。
DeepMind 論文:https://arxiv.org/pdf/2408.03314
在過(guò)去幾個(gè)月里,HuggingFace 一直在深入研究,試圖對(duì)這些結(jié)果進(jìn)行逆向工程并復(fù)現(xiàn)。他們?cè)谶@篇博文將介紹:
- 計(jì)算最優(yōu)擴(kuò)展(compute-optimal scaling):通過(guò)實(shí)現(xiàn) DeepMind 的技巧來(lái)提升測(cè)試時(shí)開(kāi)放模型的數(shù)學(xué)能力。
- 多樣性驗(yàn)證器樹(shù)搜索 (DVTS):它是為驗(yàn)證器引導(dǎo)樹(shù)搜索技術(shù)開(kāi)發(fā)的擴(kuò)展。這種簡(jiǎn)單高效的方法提高了多樣性并提供了更好的性能,特別是在測(cè)試時(shí)計(jì)算預(yù)算較大的情況下。
- 搜索和學(xué)習(xí):一個(gè)輕量級(jí)工具包,用于使用 LLM 實(shí)現(xiàn)搜索策略,并使用 vLLM 實(shí)現(xiàn)速度提升。
那么,計(jì)算最優(yōu)擴(kuò)展在實(shí)踐中效果如何呢?在下圖中,如果你給它們足夠的「思考時(shí)間」,規(guī)模很小的 1B 和 3B Llama Instruct 模型在具有挑戰(zhàn)性的 MATH-500 基準(zhǔn)上,超越了比它們大得多的 8B、70B 模型。
HuggingFace 聯(lián)合創(chuàng)始人兼 CEO Clem Delangue 表示,在 OpenAI o1 公開(kāi)亮相僅 10 天后,我們很高興地揭曉了其成功背后的突破性技術(shù)的開(kāi)源版本:擴(kuò)展測(cè)試時(shí)計(jì)算。通過(guò)給模型更長(zhǎng)的「思考時(shí)間」,1B 模型可以擊敗 8B、3B 模型可以擊敗 70B。當(dāng)然,完整的技術(shù)配方是開(kāi)源的。
各路網(wǎng)友看到這些結(jié)果也不淡定了,直呼不可思議,并認(rèn)為這是小模型的勝利。
接下來(lái),HuggingFace 深入探討了產(chǎn)生上述結(jié)果背后的原因,并幫助讀者了解實(shí)現(xiàn)測(cè)試時(shí)計(jì)算擴(kuò)展的實(shí)用策略。
擴(kuò)展測(cè)試時(shí)計(jì)算策略
擴(kuò)展測(cè)試時(shí)計(jì)算主要有以下兩種主要策略:
- 自我改進(jìn):模型通過(guò)在后續(xù)迭代中識(shí)別和糾錯(cuò)來(lái)迭代改進(jìn)自己的輸出或「想法」。雖然這種策略在某些任務(wù)上有效,但通常要求模型具有內(nèi)置的自我改進(jìn)機(jī)制,這可能會(huì)限制其適用性。
- 針對(duì)驗(yàn)證器進(jìn)行搜索:這種方法側(cè)重于生成多個(gè)候選答案并使用驗(yàn)證器選擇最佳答案。驗(yàn)證器可以是基于硬編碼的啟發(fā)式方法,也可以是學(xué)得的獎(jiǎng)勵(lì)模型。本文將重點(diǎn)介紹學(xué)得的驗(yàn)證器,它包括了 Best-of-N 采樣和樹(shù)搜索等技術(shù)。這種搜索策略更靈活,可以適應(yīng)問(wèn)題的難度,不過(guò)它們的性能受到驗(yàn)證器質(zhì)量的限制。
HuggingFace 專(zhuān)注于基于搜索的方法,它們是測(cè)試時(shí)計(jì)算優(yōu)化的實(shí)用且可擴(kuò)展的解決方案。下面是三種策略:
- Best-of-N:通常使用獎(jiǎng)勵(lì)模型為每個(gè)問(wèn)題生成多個(gè)響應(yīng)并為每個(gè)候選答案分配分?jǐn)?shù),然后選擇獎(jiǎng)勵(lì)最高的答案(或稍后討論的加權(quán)變體)。這種方法強(qiáng)調(diào)答案質(zhì)量而非頻率。
- 集束搜索:一種探索解決方案空間的系統(tǒng)搜索方法,通常與過(guò)程獎(jiǎng)勵(lì)模型 (PRM) 結(jié)合使用,以?xún)?yōu)化問(wèn)題解決中間步驟的采樣和評(píng)估。與對(duì)最終答案產(chǎn)生單一分?jǐn)?shù)的傳統(tǒng)獎(jiǎng)勵(lì)模型不同,PRM 會(huì)提供一系列分?jǐn)?shù),其中推理過(guò)程的每個(gè)步驟都有一個(gè)分?jǐn)?shù)。這種細(xì)粒度反饋能力使得 PRM 成為 LLM 搜索方法的自然選擇。
- 多樣性驗(yàn)證器樹(shù)搜索 (DVTS):HuggingFace 開(kāi)發(fā)的集束搜索擴(kuò)展,將初始集束拆分為獨(dú)立的子樹(shù),然后使用 PRM 貪婪地?cái)U(kuò)展這些子樹(shù)。這種方法提高了解決方案的多樣性和整體性能,尤其是在測(cè)試時(shí)計(jì)算預(yù)算較大的情況下。
實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)設(shè)置包括以下步驟:
- 首先給 LLM 提供一個(gè)數(shù)學(xué)問(wèn)題,讓其生成 N 個(gè)部分解,例如,推導(dǎo)過(guò)程中的中間步驟。
- 每個(gè) step 都由 PRM 評(píng)分,PRM 估計(jì)每個(gè)步驟最終達(dá)到正確答案的概率。
- 一旦搜索策略結(jié)束,最終候選解決方案將由 PRM 排序以產(chǎn)生最終答案。
為了比較各種搜索策略,本文使用了以下開(kāi)源模型和數(shù)據(jù)集:
- 模型:使用 meta-llama/Llama-3.2-1B-Instruct 為主要模型,用于擴(kuò)展測(cè)試時(shí)計(jì)算;
- 過(guò)程獎(jiǎng)勵(lì)模型 PRM:為了指導(dǎo)搜索策略,本文使用了 RLHFlow/Llama3.1-8B-PRM-Deepseek-Data,這是一個(gè)經(jīng)過(guò)過(guò)程監(jiān)督訓(xùn)練的 80 億獎(jiǎng)勵(lì)模型。過(guò)程監(jiān)督是一種訓(xùn)練方法,模型在推理過(guò)程的每一步都會(huì)收到反饋,而不僅僅是最終結(jié)果;
- 數(shù)據(jù)集:本文在 MATH-500 子集上進(jìn)行了評(píng)估,這是 OpenAI 作為過(guò)程監(jiān)督研究的一部分發(fā)布的 MATH 基準(zhǔn)數(shù)據(jù)集。這些數(shù)學(xué)問(wèn)題涵蓋了七個(gè)科目,對(duì)人類(lèi)和大多數(shù)大語(yǔ)言模型來(lái)說(shuō)都具有挑戰(zhàn)性。
本文將從一個(gè)簡(jiǎn)單的基線(xiàn)開(kāi)始,然后逐步結(jié)合其他技術(shù)來(lái)提高性能。
多數(shù)投票
多數(shù)投票是聚合 LLM 輸出的最直接方法。對(duì)于給定的數(shù)學(xué)問(wèn)題,會(huì)生成 N 個(gè)候選解,然后選擇出現(xiàn)頻率最高的答案。在所有的實(shí)驗(yàn)中,本文采樣了多達(dá) N=256 個(gè)候選解,溫度參數(shù) T=0.8,并為每個(gè)問(wèn)題生成了最多 2048 個(gè) token。
以下是多數(shù)投票應(yīng)用于 Llama 3.2 1B Instruct 時(shí)的表現(xiàn):
結(jié)果表明,多數(shù)投票比貪婪解碼基線(xiàn)有顯著的改進(jìn),但其收益在大約 N=64 generation 后開(kāi)始趨于平穩(wěn)。這種限制的出現(xiàn)是因?yàn)槎鄶?shù)投票難以解決需要細(xì)致推理的問(wèn)題。
基于多數(shù)投票的局限性,讓我們看看如何結(jié)合獎(jiǎng)勵(lì)模型來(lái)提高性能。
超越多數(shù):Best-of-N
Best-of-N 是多數(shù)投票算法的簡(jiǎn)單且有效的擴(kuò)展,它使用獎(jiǎng)勵(lì)模型來(lái)確定最合理的答案。該方法有兩種主要變體:
普通的 Best-of-N:生成 N 個(gè)獨(dú)立響應(yīng),選擇 RM 獎(jiǎng)勵(lì)最高的一個(gè)作為最終回答。這確保了選擇置信度最高的響應(yīng),但它并沒(méi)有考慮到回答之間的一致性。
加權(quán) Best-of-N:匯總所有相同響應(yīng)的得分,并選擇總獎(jiǎng)勵(lì)最高的回答。這種方法通過(guò)重復(fù)出現(xiàn)來(lái)提高分?jǐn)?shù),從而優(yōu)先考慮高質(zhì)量的回答。從數(shù)學(xué)上講,回答的權(quán)重 a_i:
其中,RM (p,s_i) 是對(duì)于問(wèn)題 p 的第 i 個(gè)解決方案 s_i 的獎(jiǎng)勵(lì)模型分?jǐn)?shù)。
通常,人們使用結(jié)果獎(jiǎng)勵(lì)模型 (ORM) 來(lái)獲得單個(gè)解決方案級(jí)別的分?jǐn)?shù)。但為了與其他搜索策略進(jìn)行公平比較,使用相同的 PRM 對(duì) Best-of-N 的解決方案進(jìn)行評(píng)分。如下圖所示,PRM 為每個(gè)解決方案生成一個(gè)累積的步驟級(jí)分?jǐn)?shù)序列,因此需要對(duì)步驟進(jìn)行規(guī)約(reduction)以獲得單個(gè)解決方案級(jí)分?jǐn)?shù):
最常見(jiàn)的規(guī)約如下:
- Min:使用所有步驟中的最低分?jǐn)?shù)。
- Prod:使用階梯分?jǐn)?shù)的乘積。
- Last:使用步驟中的最終分?jǐn)?shù)。該分?jǐn)?shù)包含所有先前步驟的累積信息,因此將 PRM 有效地視為能夠?qū)Σ糠纸鉀Q方案進(jìn)行評(píng)分的 ORM。
以下是應(yīng)用 Best-of-N 的兩種變體得到的結(jié)果:
結(jié)果揭示了一個(gè)明顯的優(yōu)勢(shì):加權(quán)的 Best-of-N 始終優(yōu)于普通的 Best-of-N,特別是在發(fā)電預(yù)算較大的情況下。它能夠匯總相同答案的分?jǐn)?shù),確保即使頻率較低但質(zhì)量較高的答案也能得到有效的優(yōu)先處理。
然而,盡管有這些改進(jìn),仍然達(dá)不到 Llama 8B 模型所達(dá)到的性能,并且在 N=256 時(shí) Best-of-N 方法開(kāi)始趨于穩(wěn)定。
可以通過(guò)逐步監(jiān)督搜索過(guò)程來(lái)進(jìn)一步突破界限嗎?
使用 PRM 的集束搜索
作為一種結(jié)構(gòu)化搜索方法,集束搜索可以系統(tǒng)地探索解決方案空間,使其成為在測(cè)試時(shí)改進(jìn)模型輸出的強(qiáng)大工具。與 PRM 結(jié)合使用時(shí),集束搜索可以?xún)?yōu)化問(wèn)題解決中中間步驟的生成和評(píng)估。集束搜索的工作方式如下:
- 通過(guò)保持固定數(shù)量的「集束」或活動(dòng)路徑 N ,迭代生成多個(gè)候選解決方案。
- 在第一次迭代中,從溫度為 T 的 LLM 中抽取 N 個(gè)獨(dú)立步驟,以引入響應(yīng)的多樣性。這些步驟通常由停止標(biāo)準(zhǔn)定義,例如終止于新行 \n 或雙新行 \n\n。
- 使用 PRM 對(duì)每個(gè)步驟進(jìn)行評(píng)分,并選擇前 N/M 個(gè)步驟作為下一輪生成的候選。這里 M 表示給定活動(dòng)路徑的「集束寬度」。與 Best-of-N 一樣,使用「最后」的規(guī)約來(lái)對(duì)每次迭代的部分解決方案進(jìn)行評(píng)分。
- 通過(guò)在解決方案中采樣 M 個(gè)后續(xù)步驟來(lái)擴(kuò)展在步驟 (3) 中選擇的步驟。
- 重復(fù)步驟 (3) 和 (4),直到達(dá)到 EOS token 或超過(guò)最大搜索深度。
通過(guò)允許 PRM 評(píng)估中間步驟的正確性,集束搜索可以在流程早期識(shí)別并優(yōu)先考慮有希望的路徑。這種逐步評(píng)估策略對(duì)于數(shù)學(xué)等復(fù)雜的推理任務(wù)特別有用,這是因?yàn)轵?yàn)證部分解決方案可以顯著改善最終結(jié)果。
實(shí)現(xiàn)細(xì)節(jié)
在實(shí)驗(yàn)中,HuggingFace 遵循 DeepMind 的超參數(shù)選擇,并按照以下方式運(yùn)行集束搜索:
- 計(jì)算擴(kuò)展為 4、16、64、256 時(shí)的 N 個(gè)集束
- 固定集束寬度 M=4
- 在溫度 T=0.8 時(shí)采樣
- 最多 40 次迭代,即最大深度為 40 步的樹(shù)
如下圖所示,結(jié)果令人震驚:在 N=4 的測(cè)試時(shí)預(yù)算下,集束搜索實(shí)現(xiàn)了與 N=16 時(shí) Best-of-N 相同的準(zhǔn)確率,即計(jì)算效率提高了 4 倍!此外,集束搜索的性能與 Llama 3.1 8B 相當(dāng),每個(gè)問(wèn)題僅需 N=32 解決方案。計(jì)算機(jī)科學(xué)博士生在數(shù)學(xué)方面的平均表現(xiàn)約為 40%,因此對(duì)于 1B 模型來(lái)說(shuō),接近 55% 已經(jīng)很不錯(cuò)了!
哪些問(wèn)題集束搜索解決得最好
雖然總體上很明顯,集束搜索是一種比 Best-of-N 或多數(shù)投票更好的搜索策略,但 DeepMind 的論文表明,每種策略都有權(quán)衡,這取決于問(wèn)題的難度和測(cè)試時(shí)計(jì)算預(yù)算。
為了了解哪些問(wèn)題最適合哪種策略,DeepMind 計(jì)算了估計(jì)問(wèn)題難度的分布,并將結(jié)果分成五等分。換句話(huà)說(shuō),每個(gè)問(wèn)題被分配到 5 個(gè)級(jí)別之一,其中級(jí)別 1 表示較容易的問(wèn)題,級(jí)別 5 表示最難的問(wèn)題。為了估計(jì)問(wèn)題難度,DeepMind 為每個(gè)問(wèn)題生成了 2048 個(gè)候選解決方案,并進(jìn)行了標(biāo)準(zhǔn)采樣,然后提出了以下啟發(fā)式方法:
- Oracle:使用基本事實(shí)標(biāo)簽估計(jì)每個(gè)問(wèn)題的 pass@1 分?jǐn)?shù),對(duì) pass@1 分?jǐn)?shù)的分布進(jìn)行分類(lèi)以確定五分位數(shù)。
- 模型:使用每個(gè)問(wèn)題的平均 PRM 分?jǐn)?shù)分布來(lái)確定五分位數(shù)。這里的直覺(jué)是:更難的問(wèn)題分?jǐn)?shù)會(huì)更低。
下圖是根據(jù) pass@1 分?jǐn)?shù)和四個(gè)測(cè)試時(shí)計(jì)算預(yù)算 N=[4,16,64,256] 對(duì)各種方法的細(xì)分:
可以看到,每個(gè)條形表示測(cè)試時(shí)計(jì)算預(yù)算,并且在每個(gè)條形內(nèi)顯示每種方法的相對(duì)準(zhǔn)確度。例如在難度等級(jí) 2 的四個(gè)條形中:
多數(shù)投票是所有計(jì)算預(yù)算中表現(xiàn)最差的方法,除了 N=256(集束搜索表現(xiàn)最差)。
集束搜索最適合 N=[4,16,64],但 Best-of-N 最適合 N=256。
應(yīng)該說(shuō),集束搜索在中等難度和困難難度問(wèn)題(3-5 級(jí))中取得了持續(xù)的進(jìn)展,但在較簡(jiǎn)單問(wèn)題上,尤其是在計(jì)算預(yù)算較大的情況下,它的表現(xiàn)往往比 Best-of-N(甚至多數(shù)投票)更差。
通過(guò)觀察集束搜索生成的結(jié)果樹(shù),HuggingFace 意識(shí)到,如果單個(gè)步驟被分配了高獎(jiǎng)勵(lì),那么整棵樹(shù)就在該軌跡上崩潰,從而影響多樣性。這促使他們探索一種最大化多樣性的集束搜索擴(kuò)展。
DVTS:通過(guò)多樣性提升性能
正如上面所看到的,集束搜索比 Best-of-N 具有更好的性能,但在處理簡(jiǎn)單問(wèn)題和測(cè)試時(shí)計(jì)算預(yù)算較大時(shí)往往表現(xiàn)不佳。
為了解決這個(gè)問(wèn)題,HuggingFace 開(kāi)發(fā)了一個(gè)擴(kuò)展,稱(chēng)之為「多樣性驗(yàn)證器樹(shù)搜索」(DVTS),旨在最大限度地提高 N 較大時(shí)的多樣性。
DVTS 的工作方式與集束搜索類(lèi)似,但有以下修改:
- 對(duì)于給定的 N 和 M,將初始集束擴(kuò)展為 N/M 個(gè)獨(dú)立子樹(shù)。
- 對(duì)于每個(gè)子樹(shù),選擇具有最高 PRM 分?jǐn)?shù)的步驟。
- 從步驟 (2) 中選擇的節(jié)點(diǎn)生成 M 個(gè)新步驟,并選擇具有最高 PRM 分?jǐn)?shù)的步驟。
- 重復(fù)步驟 (3),直到達(dá)到 EOS token 或最大樹(shù)深度。
下圖是將 DVTS 應(yīng)用于 Llama 1B 的結(jié)果:
可以看到,DVTS 為集束搜索提供了一種補(bǔ)充策略:在 N 較小時(shí),集束搜索更有效地找到正確的解決方案;但在 N 較大時(shí),DVTS 候選的多樣性開(kāi)始發(fā)揮作用,可以獲得更好的性能。
此外在問(wèn)題難度細(xì)分中,DVTS 在 N 較大時(shí)提高了簡(jiǎn)單 / 中等問(wèn)題的性能,而集束搜索在 N 較小時(shí)表現(xiàn)最佳。
計(jì)算 - 最優(yōu)擴(kuò)展(compute-optimal scaling)
有了各種各樣的搜索策略,一個(gè)自然的問(wèn)題是哪一個(gè)是最好的?在 DeepMind 的論文中(可參考《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters 》),他們提出了一種計(jì)算 - 最優(yōu)擴(kuò)展策略,該策略可以選擇搜索方法和超參數(shù) θ,以便在給定的計(jì)算預(yù)算 N 下達(dá)到最佳性能:
其中是問(wèn)題 q 的正確答案。
表示計(jì)算 - 最優(yōu)的擴(kuò)展策略。由于直接計(jì)算
有些棘手,DeepMind 提出了一種基于問(wèn)題難度的近似方法,即根據(jù)哪種搜索策略在給定難度級(jí)別上達(dá)到最佳性能來(lái)分配測(cè)試時(shí)的計(jì)算資源。
例如,對(duì)于較簡(jiǎn)單的問(wèn)題和較低的計(jì)算預(yù)算,最好使用 Best-of-N 等策略,而對(duì)于較難的問(wèn)題,集 shu 搜索是更好的選擇。下圖為計(jì)算 - 最優(yōu)曲線(xiàn)!
擴(kuò)展到更大的模型
本文還探索了將計(jì)算 - 最優(yōu)(compute-optimal)的方法擴(kuò)展到 Llama 3.2 3B Instruct 模型,以觀察 PRM 在與策略自身容量相比時(shí)在哪個(gè)點(diǎn)開(kāi)始減弱。結(jié)果顯示,計(jì)算 - 最優(yōu)的擴(kuò)展效果非常好,3B 模型的性能超過(guò)了 Llama 3.1 70B Instruct(后者是前者大小的 22 倍?。?。
接下來(lái)該怎么辦?
對(duì)測(cè)試時(shí)計(jì)算擴(kuò)展的探索揭示了利用基于搜索的方法的潛力和挑戰(zhàn)。展望未來(lái),本文提出了幾個(gè)令人興奮的方向:
- 強(qiáng)驗(yàn)證器:強(qiáng)驗(yàn)證器在提高性能方面發(fā)揮著關(guān)鍵作用,提高驗(yàn)證器的穩(wěn)健性和通用性對(duì)于推進(jìn)這些方法至關(guān)重要;
- 自我驗(yàn)證:最終目標(biāo)是實(shí)現(xiàn)自我驗(yàn)證,即模型可以自主驗(yàn)證自己的輸出。這種方法似乎是 o1 等模型正在做的事情,但在實(shí)踐中仍然難以實(shí)現(xiàn)。與標(biāo)準(zhǔn)監(jiān)督微調(diào) (SFT) 不同,自我驗(yàn)證需要更細(xì)致的策略;
- 將思維融入過(guò)程:在生成過(guò)程中融入明確的中間步驟或思維可以進(jìn)一步增強(qiáng)推理和決策能力。通過(guò)將結(jié)構(gòu)化推理融入搜索過(guò)程,可以在復(fù)雜任務(wù)上實(shí)現(xiàn)更好的表現(xiàn);
- 搜索作為數(shù)據(jù)生成工具:該方法還可以充當(dāng)強(qiáng)大的數(shù)據(jù)生成過(guò)程,創(chuàng)建高質(zhì)量的訓(xùn)練數(shù)據(jù)集。例如,根據(jù)搜索產(chǎn)生的正確軌跡對(duì) Llama 1B 等模型進(jìn)行微調(diào)可以帶來(lái)顯著的收益。這種基于策略的方法類(lèi)似于 ReST 或 V-StaR 等技術(shù),但具有搜索的額外優(yōu)勢(shì),為迭代改進(jìn)提供了一個(gè)有希望的方向;
- 調(diào)用更多的 PRM:PRM 相對(duì)較少,限制了其更廣泛的應(yīng)用。為不同領(lǐng)域開(kāi)發(fā)和共享更多 PRM 是社區(qū)可以做出重大貢獻(xiàn)的關(guān)鍵領(lǐng)域。
原文鏈接:https://huggingface.co/spaces/HuggingFaceH4/blogpost-scaling-test-time-compute