自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

開源Llama版o1來了,3B小模型反超80B,逆向工程復(fù)現(xiàn)OpenAI新Scaling Law

人工智能 新聞
雖然OpenAI o1的配方完全保密,沒有發(fā)布實現(xiàn)細(xì)節(jié)或代碼,但團(tuán)隊基于DeepMind公布的研究結(jié)果,完成了自己的實驗。

o1完整版公開僅10天,Scaling Law新范式就被逆向工程復(fù)現(xiàn)了!

Hugging Face官方發(fā)文,開源了擴展測試時計算的方法。

用在小小小模型Llama 1B上,數(shù)學(xué)分?jǐn)?shù)直接超過8倍大的模型,也超過了計算機科學(xué)博士生的平均分?jǐn)?shù)(40%)。

圖片

那么用在Llama 3B上呢?進(jìn)步幅度更大,甚至能和20幾倍大的70B模型媲美。

圖片

雖然OpenAI o1的配方完全保密,沒有發(fā)布實現(xiàn)細(xì)節(jié)或代碼,但團(tuán)隊基于DeepMind公布的研究結(jié)果,完成了自己的實驗。

圖片

在DeepMind研究的基礎(chǔ)上,Hugging Face團(tuán)隊做出如下改進(jìn):

  • 多樣化驗證器樹搜索(Diverse Verifier Tree Search),一種簡單而有效的方法,可以提高多樣性和更高性能,特別是在算力預(yù)算充足的情況下。
  • 開源輕量級工具包Search and Learn,與推理框架vLLM配合,快速構(gòu)建搜索策略

測試時計算擴展策略

目前擴展測試時計算主要有兩種策略:自我優(yōu)化和搜索。

自我優(yōu)化中,模型識別和糾正后續(xù)迭代中的錯誤來迭代優(yōu)化自己的輸出或“想法”。

團(tuán)隊認(rèn)為雖然此策略對某些任務(wù)有效,但通常要求模型具有內(nèi)置的自我優(yōu)化機制,這可能會限制其適用性。

搜索方法側(cè)重于生成多個候選答案并使用驗證器選擇最佳答案。

搜索策略更靈活,可以適應(yīng)問題的難度。Hugging Face的研究主要聚焦于搜索方法,因為實用且可擴展。

其中驗證器可以是任何東西,從硬編碼到可學(xué)習(xí)的獎勵模型,這里將重點介紹可學(xué)習(xí)的驗證器。

具體來說,研究涉及三種搜索策略:

圖片

  • Best-of-N

為每個問題生成多個響應(yīng),并使用獎勵模型為每個候選答案分配分?jǐn)?shù)。選擇分?jǐn)?shù)最高的答案(或加權(quán)變體),這種方法強調(diào)答案質(zhì)量而不是頻率。

  • Beam search

一種探索解決方案空間的系統(tǒng)搜索方法,通常與過程獎勵模型 (PRM) 相結(jié)合,以優(yōu)化解決問題中中間步驟的采樣和評估。與在最終答案上產(chǎn)生單個分?jǐn)?shù)的傳統(tǒng)獎勵模型不同,PRM提供一系列分?jǐn)?shù),推理過程的每個步驟分配一個分?jǐn)?shù)。這種提供精細(xì)反饋的能力使PRM非常適合大模型。

  • 多樣化的驗證器樹搜索 (DVTS)

新開發(fā)的Beam search變體,它將初始Beam拆分為獨立的子樹,然后使用PRM做貪婪擴展。這種方法可以提高解決方案的多樣性和整體性能,尤其是在測試時算力預(yù)算較大的情況下。

實驗設(shè)置:3種搜索策略PK

圖片

  • 首先將數(shù)學(xué)問題提供給大模型,生成N個中間步驟。
  • 每個步驟都由PRM評分,估計每個步驟最終能得出正確答案的概率。
  • 給定的搜索策略使用這些步驟和PRM分?jǐn)?shù),來選擇應(yīng)該進(jìn)一步探索哪些方向,生成下一輪中間步驟。
  • 搜索策略終止后,PRM將對最終候選解決方案進(jìn)行排名,以生成最終答案。

為了比較各種搜索策略,研究中使用了以下開放模型和數(shù)據(jù)集:

語言模型,Llama-3.2-1B-Instruct作為主要實驗對象,因為輕量級模型可以快速迭代,并且在數(shù)學(xué)基準(zhǔn)測試中性能不飽和

流程獎勵模型,使用了Llama3.1-8B-PRM-Deepseek-Data,與語言模型同屬一個系列,且在測試中給出了更好的結(jié)果。

數(shù)據(jù)集,使用MATH基準(zhǔn)測試的子集MATH-500,該子集由OpenAI發(fā)布,數(shù)學(xué)問題橫跨7個科目,對人類和大多數(shù)模型來說都有挑戰(zhàn)性。

實驗結(jié)果:動態(tài)分配策略達(dá)到最優(yōu)

首先,多數(shù)投票策略比貪婪解碼基線有顯著改進(jìn),收益在大約N=64后趨于穩(wěn)定。

團(tuán)隊認(rèn)為,之所以出現(xiàn)這種限制,是因為多數(shù)投票難以解決需要細(xì)致入微推理的問題,或者解決幾個答案錯到一塊去的任務(wù)。

圖片

獎勵模型加入后的策略,表現(xiàn)均有提高。

Best-of-N策略分為兩種變體,原版(Vanilla)不考慮答案之間的一致性,加權(quán)版(Weighted)匯總所有結(jié)果相同的答案,并選擇總分?jǐn)?shù)最高的。

結(jié)果發(fā)現(xiàn)加權(quán)版始終優(yōu)于原版,特別是在算力預(yù)算大的時候更明顯,因為確保了頻率較低但質(zhì)量較高的答案也能獲選。

圖片

Beam Search策略終于讓1B模型表現(xiàn)開始高于8B。

但Beam Search并不是萬金油方法,在簡單的問題上表現(xiàn)反而不如Best-of-N。

團(tuán)隊通過查看結(jié)果樹,發(fā)現(xiàn)如果一個中間步驟獲得了高分,那么整個樹就會坍塌到這一步,影響了后續(xù)答案的多樣性。

圖片

最終,DVTS方法改進(jìn)了答案的多樣性,該方法與Beam Search相比有以下不同之處:

  • 對于給定的Beam寬度(M)和生成數(shù)量N,初始Beam集設(shè)定為N/M個獨立子樹
  • 對于每個子樹,選擇PRM分?jǐn)?shù)最高的步驟
  • 生成M個新的下一步,繼續(xù)選擇分?jǐn)?shù)最高的
  • 重復(fù)這個過程,直到生成EOS token后終止,或達(dá)到最大深度

圖片

在對問題難度細(xì)分后,發(fā)現(xiàn)DVTS方法在N比較大時增強了對簡單/中等難度問題的性能。

而Beam Search在N比較小時仍然表現(xiàn)最好。

圖片

最終基于問題難度動態(tài)分配策略的方法可以取得最佳成績。

圖片

最后團(tuán)隊提出,未來這項技術(shù)還有更多值得探索的地方:

  • 更強大的驗證器,提高其穩(wěn)健性和泛化能力至關(guān)重要。
  • 最終目標(biāo)是實現(xiàn)自我驗證,目前在實踐中仍然難以實現(xiàn),需要更細(xì)致的策略。
  • 在生成過程中加入明確的中間步驟或 “想法” ,通過將結(jié)構(gòu)化推理整合到搜索過程中,可以在復(fù)雜任務(wù)中獲得更好的性能。
  • 搜索方法可以用于合成數(shù)據(jù),創(chuàng)建高質(zhì)量的訓(xùn)練數(shù)據(jù)集
  • 開放的流程獎勵模型目前數(shù)量較少,是開源社區(qū)可以做出重大貢獻(xiàn)的領(lǐng)域
  • 目前的方法在數(shù)學(xué)和代碼等領(lǐng)域表現(xiàn)出色,這些問題本質(zhì)上是可驗證的,如何將這些技術(shù)擴展到結(jié)構(gòu)性較差或評判標(biāo)準(zhǔn)主觀的任務(wù),仍是一個重大挑戰(zhàn)。

評論區(qū)有網(wǎng)友表示,這種方法更適合本地部署,而不是API調(diào)用,因為調(diào)用256次3B模型和過程獎勵模型,通常會比調(diào)用一次70B模型更貴。

圖片

也有人建議在Qwen系列模型上嘗試,以及指路天工Skywork發(fā)布了兩個基于Qwen的PRM模型

圖片

開源代碼:https://github.com/huggingface/search-and-learn

責(zé)任編輯:張燕妮 來源: 量子位
點贊
收藏

51CTO技術(shù)棧公眾號