o3并非獨(dú)門秘技,谷歌已發(fā)背后關(guān)鍵機(jī)制,方法更簡單、成本更低
o1/o3帶火的推理計(jì)算Scaling,原來谷歌早在今年8月就曾探討過。
當(dāng)時(shí),來自斯坦福、牛津以及谷歌DeepMind的團(tuán)隊(duì)提出通過重復(fù)采樣來擴(kuò)展推理計(jì)算量——
結(jié)果在編碼任務(wù)中將性能最多提高40%。
他們發(fā)現(xiàn)小模型通過生成多種答案/樣本,其任務(wù)表現(xiàn)可能比一些大型模型單次嘗試還要好。
比如,DeepSeek-Coder通過重復(fù)采集5個(gè)樣本,性能優(yōu)于GPT-4o,而成本卻僅為后者的三分之一。
這篇論文講了什么?
這篇論文取名Monkey,靈感來自于無限猴子定理。
一只猴子在打字機(jī)鍵盤上隨機(jī)敲擊鍵盤無限長的時(shí)間,幾乎肯定會(huì)打出任何給定的文本。
而在大模型的語境下,只要采的樣夠多,那么大模型總能找到正確解。
本文遵循的重復(fù)采樣程序,首先通過大模型中采樣,為給定的問題生成許多候選解。
其次再選擇特定領(lǐng)域的驗(yàn)證器Verifier(比如代碼的unittests),從生成的樣本中選擇最終答案。
重復(fù)采樣的有效性取決于兩個(gè)關(guān)鍵特性。
- 覆蓋率,隨著樣本數(shù)量的增加,我們可以利用生成的任何樣本解決多少問題。
- 精確度,在從生成的樣本集合中選擇最終答案的情況下,我們能否識(shí)別出正確的樣本?
他們關(guān)注的是yes or no的任務(wù),在這些任務(wù)中,答案可以直接被打分為對或者錯(cuò),主要指標(biāo)是成功率——即能夠解決問題的比例。
通過重復(fù)采樣,考慮這樣一種設(shè)置,即模型在嘗試解決問題時(shí)可以生成許多候選解。
因此,成功率既受到為許多問題生成正確樣本的能力(即覆蓋率)的影響,也受到識(shí)別這些正確樣本的能力(即精確度)的影響。
基于此,確定了五種數(shù)學(xué)和編程任務(wù):GSM8K、MATH、MiniF2F-MATH、CodeContests、SWE-benchLite。
結(jié)果顯示,在多個(gè)任務(wù)和模型中,覆蓋率隨樣本數(shù)量增加而提升,在某些情況下,重復(fù)采樣可使較弱模型超越單樣本性能更好的強(qiáng)模型,且成本效益更高
比如在使用Gemma-2B解決CodeContests編程問題時(shí)。隨著樣本數(shù)量的增加,覆蓋率提高了300倍以上,從一次嘗試的0.02%提高到10000次嘗試的7.1%。解決來自GSM8K和MATH的數(shù)學(xué)單詞問題時(shí),Llama-3模型的覆蓋率在10,000個(gè)樣本的情況下增長到95%以上。
有趣的是,log(覆蓋率)與樣本數(shù)之間的關(guān)系往往遵循近似的冪律。
在Llama-3和Gemma模型中,可以觀察到覆蓋率與樣本數(shù)呈近似對數(shù)線性增長,超過幾個(gè)數(shù)量級。
在不同參數(shù)量、不同模型以及后訓(xùn)練水平(基礎(chǔ)模型和微調(diào)模型)下,都顯示通過重復(fù)采樣Scaling推理時(shí)間計(jì)算,覆蓋率都有一致的提升。
此外,他們還證明了這種Scaling還能降本增效,以FLOPs作為成本指標(biāo),以LIama-3為例。
計(jì)算公式如下:
比較 Llama-3-8B-Instruct 和 Llama3-70B-Instruct 的成本(以推理 FLOPs 數(shù)量衡量)和覆蓋率。當(dāng)FLOPs預(yù)算固定時(shí),在 MiniF2F、GSM8K和 MATH 上,Llama-3-8B-Instruct的覆蓋率總是高于更大(更貴)的 70B 模型。然而,在 CodeContests 中,70B 模型幾乎總是更具成本效益。
對比API成本,當(dāng)采樣較多時(shí),開源 DeepSeek-Coder-V2-Instruct 模型可以達(dá)到與閉源模型GPT-4o相同的問題解決率,而價(jià)格僅為后者的三分之一。
有趣的是,他們發(fā)現(xiàn)對于大多數(shù)任務(wù)和模型,覆蓋率與樣本數(shù)之間的關(guān)系可以用指數(shù)冪律來模擬。
因此總結(jié),這篇文章以重復(fù)采樣為軸心,在推理時(shí)擴(kuò)展計(jì)算量,從而提高模型性能。
在一系列模型和任務(wù)中,重復(fù)采樣可以顯著提高使用任何生成樣本解決問題的比例(即覆蓋率)。當(dāng)可以識(shí)別出正確的解決方案時(shí)(通過自動(dòng)驗(yàn)證工具或其他驗(yàn)證算法),重復(fù)采樣可以在推理過程中放大模型的能力。
與使用較強(qiáng)、較昂貴的模型進(jìn)行較少的嘗試相比,這種放大作用可使較弱的模型與大量樣本的組合更具性能和成本效益。
來自斯坦福牛津谷歌
這篇論文是來自斯坦福、牛津大學(xué)以及谷歌DeepMind團(tuán)隊(duì)。TogetherAI提供計(jì)算支持。
其中可以看到有谷歌杰出科學(xué)家Quoc V. Le。
有網(wǎng)友表示,這有點(diǎn)像更簡單的靜態(tài)版o3。
o3在評價(jià)器的指導(dǎo)下,通過回溯動(dòng)態(tài)搜索程序空間,而這種方法則依賴于靜態(tài)采樣和事后評價(jià)(投票、獎(jiǎng)勵(lì)模型等)。兩者都能擴(kuò)展推理計(jì)算,但O3的適應(yīng)性更強(qiáng)。
o3會(huì)反復(fù)探索解決方案,不斷完善路徑,而重復(fù)采樣會(huì)并行生成輸出,沒有反饋回路。如何取舍?o3的計(jì)算密集度更高,但在需要結(jié)構(gòu)化推理的任務(wù)中表現(xiàn)出色。這種方法在編碼/數(shù)學(xué)方面更具成本效益。
不過也有網(wǎng)友指出了背后的局限性。
我們不能一味地增加采樣數(shù)量來提高性能。在某些時(shí)候,模型會(huì)出現(xiàn)停滯,生成的樣本也會(huì)開始重復(fù)。
無論成本如何,都有一個(gè)極限,一個(gè)模型無法超越的最大思維水平。