自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI o1模型推理能力大幅提升的背后:重復(fù)采樣如何提升AI推理能力 精華

發(fā)布于 2024-9-14 11:47
瀏覽
0收藏

今天OpenAI對(duì)外發(fā)布了o1模型,最大的特點(diǎn)便是推理能力大大增強(qiáng),推理速度大大變慢。傳統(tǒng)大模型都在比拼降低響應(yīng)延遲的時(shí)候,OpenAI竟然做了一個(gè)“超慢”模型。

OpenAI o1模型推理能力大幅提升的背后:重復(fù)采樣如何提升AI推理能力-AI.x社區(qū)

為什么會(huì)這樣

答案就在下面這張圖里,它解釋了o1的推理工作原理,也回答了它為啥變慢。

OpenAI o1模型推理能力大幅提升的背后:重復(fù)采樣如何提升AI推理能力-AI.x社區(qū)

o1模型的特點(diǎn)是在回答前進(jìn)行思考,并不直接給出推理結(jié)果,響應(yīng)用戶之前會(huì)產(chǎn)生長串的內(nèi)部思維鏈,生成不同的方法,進(jìn)行驗(yàn)證嘗試,有成功的,也有失敗的,但不會(huì)展示給用戶,就像是打草稿一樣,直到得出答案,最后再丟棄草稿,以保持回答簡潔,上下文干凈。這樣的好處是既能進(jìn)行復(fù)雜推理,又能保持對(duì)話的連貫和效率。也正是如此,為了區(qū)分內(nèi)部推理使用的token與輸入輸出token,引入了推理token的概念,也就是“草稿”token,值得注意的是,這一token量可能會(huì)大大高于輸入輸出token數(shù),進(jìn)而帶來很高的使用成本。

測試時(shí)計(jì)算

這里先不談創(chuàng)新的大規(guī)模強(qiáng)化學(xué)習(xí)算法在模型訓(xùn)練時(shí)對(duì)性能的提升因素,而聚焦在另一個(gè)提升模型性能的因素上,這就是測試時(shí)計(jì)算。可見他們不僅首先提出了訓(xùn)練時(shí)的縮放定律(scaling laws),也很早就洞察到推理時(shí)縮放定律),其訣竅便是”別人問問題,別急著回答,先在心里打草稿,想好了再回答“,雖然回答速度慢了,但是準(zhǔn)確率高了。這一過程中一個(gè)很重要的內(nèi)容便是重復(fù)采樣。

OpenAI o1模型推理能力大幅提升的背后:重復(fù)采樣如何提升AI推理能力-AI.x社區(qū)

咱們今天介紹這一領(lǐng)域的代表論文《Large Language Monkeys: Scaling Inference Compute with Repeated Sampling》,該研究揭示了重復(fù)采樣(repeated sampling)能夠顯著提升AI模型的推理能力,特別是在編程和數(shù)學(xué)等領(lǐng)域。

OpenAI o1模型推理能力大幅提升的背后:重復(fù)采樣如何提升AI推理能力-AI.x社區(qū)

重復(fù)采樣:讓AI多試幾次

重復(fù)采樣的核心思想很簡單:不要局限于模型的單次輸出,而是讓它生成多個(gè)答案,然后從中選擇最佳結(jié)果。這種方法類似于人類在解決復(fù)雜問題時(shí)的"頭腦風(fēng)暴"過程,通過多次嘗試來提高找到正確解決方案的概率。

研究發(fā)現(xiàn),隨著采樣次數(shù)的增加,模型解決問題的覆蓋率(coverage)呈現(xiàn)出顯著的增長。例如,在CodeContests編程競賽數(shù)據(jù)集上,Gemma-2B模型的覆蓋率從單次嘗試的0.02%飆升至10,000次嘗試的7.1%,增長了驚人的300多倍!

更令人興奮的是,這種提升效果在多個(gè)任務(wù)和模型上都得到了驗(yàn)證。從數(shù)學(xué)問題到形式化證明,再到實(shí)際的軟件工程任務(wù),重復(fù)采樣都展現(xiàn)出了強(qiáng)大的效果。

小模型也能辦大事

重復(fù)采樣的一個(gè)重要應(yīng)用是amplify(放大)較小模型的能力。在SWE-bench Lite(一個(gè)真實(shí)世界的GitHub問題數(shù)據(jù)集)上,DeepSeek-Coder-V2-Instruct模型單次嘗試的成功率僅為15.9%。然而,當(dāng)我們?cè)试S它嘗試250次時(shí),成功率飆升至56%,遠(yuǎn)超當(dāng)前單次嘗試的最高水平43%(由更強(qiáng)大的GPT-4和Claude 3.5 Sonnet模型混合實(shí)現(xiàn))。

OpenAI o1模型推理能力大幅提升的背后:重復(fù)采樣如何提升AI推理能力-AI.x社區(qū)

這一發(fā)現(xiàn)具有重要意義:它表明,我們可以通過增加推理計(jì)算量來"放大"較弱模型的能力,甚至超越更強(qiáng)大但只有一次嘗試機(jī)會(huì)的模型。這為AI應(yīng)用提供了一種新的優(yōu)化思路,特別是在資源受限或需要控制成本的場景下。

推理計(jì)算的"摩爾定律"?

研究中一個(gè)有趣的發(fā)現(xiàn)是,覆蓋率的增長似乎遵循一種類似于摩爾定律的規(guī)律。在許多情況下,log(覆蓋率)與采樣次數(shù)的關(guān)系近似于冪律分布。這意味著,我們可能正在見證一種新的"推理計(jì)算的縮放定律"的誕生,類似于訓(xùn)練計(jì)算量與模型性能之間已經(jīng)被廣泛研究的關(guān)系。

OpenAI o1模型推理能力大幅提升的背后:重復(fù)采樣如何提升AI推理能力-AI.x社區(qū)

這一發(fā)現(xiàn)不僅具有理論意義,還為實(shí)踐提供了指導(dǎo)。它暗示著我們可以通過預(yù)測來估算需要多少次采樣才能達(dá)到特定的性能水平,從而更好地平衡計(jì)算資源和期望結(jié)果。

成本效益的新視角

重復(fù)采樣還為AI應(yīng)用的成本效益提供了新的思考角度。研究發(fā)現(xiàn),在某些任務(wù)中,使用較小的模型進(jìn)行多次采樣可能比使用大型模型進(jìn)行單次嘗試更具成本效益。例如,在SWE-bench Lite任務(wù)中,使用DeepSeek模型進(jìn)行5次采樣不僅解決的問題更多,而且成本還比使用GPT-4或Claude 3.5 Sonnet進(jìn)行單次嘗試低3倍以上。

OpenAI o1模型推理能力大幅提升的背后:重復(fù)采樣如何提升AI推理能力-AI.x社區(qū)

這一發(fā)現(xiàn)對(duì)于AI服務(wù)提供商和用戶都具有重要啟示。它提示我們,在評(píng)估AI解決方案時(shí),不應(yīng)僅僅關(guān)注模型的大小或單次性能,還應(yīng)考慮通過重復(fù)采樣來優(yōu)化成本和效果的平衡。

盡管重復(fù)采樣展現(xiàn)出了巨大潛力,但研究也指出了一些挑戰(zhàn)。最突出的是在缺乏自動(dòng)驗(yàn)證工具的領(lǐng)域(如某些數(shù)學(xué)問題),如何從大量生成的樣本中準(zhǔn)確識(shí)別正確答案仍是一個(gè)待解決的問題?,F(xiàn)有的方法,如多數(shù)投票或獎(jiǎng)勵(lì)模型評(píng)分,在樣本數(shù)量超過一定規(guī)模后效果提升不明顯,這表明我們還需要更先進(jìn)的驗(yàn)證技術(shù)。

小結(jié)

"Large Language Monkeys"研究以及OpenAI o1模型的能力佐證,將會(huì)掀起AI推理增強(qiáng)模型性能的新思路探索熱潮,可以預(yù)見將會(huì)出現(xiàn)越來越多智能的采樣策略,更為高效的驗(yàn)證篩選技術(shù)等。

從某種角度講,就像有人說“o1是工程化的產(chǎn)物”,在執(zhí)著于模型性能本身提升的同時(shí),通過一些看似簡單的技巧,也能夠?qū)δP托阅軒砭薮筇嵘?,這也為我們思考AI系統(tǒng)的設(shè)計(jì)和優(yōu)化提供了新的視角。

本文轉(zhuǎn)載自??AI工程化??,作者: ully ????


標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦