自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

OpenAI:強(qiáng)化學(xué)習(xí)確實可顯著提高LLM性能,DeepSeek R1、Kimi k1.5發(fā)現(xiàn)o1的秘密

人工智能 新聞
OpenAI 在論文開篇就用一句話進(jìn)行了總結(jié):「將強(qiáng)化學(xué)習(xí)應(yīng)用于大型語言模型(LLM)可顯著提高在復(fù)雜編程和推理任務(wù)上的性能?!?/div>

最近,OpenAI 發(fā)了一篇論文,宣稱 o3 模型在 2024 IOI 上達(dá)到了金牌水平,并且在 CodeForces 上獲得了與精英級人類相當(dāng)?shù)牡梅帧?/span>

他們是怎么做到的呢?OpenAI 在論文開篇就用一句話進(jìn)行了總結(jié):「將強(qiáng)化學(xué)習(xí)應(yīng)用于大型語言模型(LLM)可顯著提高在復(fù)雜編程和推理任務(wù)上的性能?!?/span>

image.png

  • 論文標(biāo)題:Competitive Programming with Large Reasoning Models
  • 論文地址:https://arxiv.org/pdf/2502.06807

這兩天,這篇論文又引起了廣泛熱議,尤其是其中被博主 Matthew Berman 指出的關(guān)鍵:這種策略不僅適用于編程,它還是通往 AGI 及更遠(yuǎn)未來的最清晰路徑。

image.png

也就是說,這篇論文不僅僅是展示了 AI 編程的新成績,更是給出了一份創(chuàng)造世界最佳 AI 程序員乃至 AGI 的藍(lán)圖。正如 OpenAI 在論文中寫到的那樣:「這些結(jié)果表明,擴(kuò)展通用強(qiáng)化學(xué)習(xí),而不是依賴特定領(lǐng)域的技術(shù),能為在推理領(lǐng)域(例如競技編程)實現(xiàn) SOTA AI 提供一條穩(wěn)健的路徑?!?/span>

此外,這篇論文還特別提到,中國的 DeepSeek-R1 和 Kimi k1.5 通過獨立研究顯示,利用思維鏈(CoT)學(xué)習(xí)方法可顯著提升模型在數(shù)學(xué)解題與編程挑戰(zhàn)中的綜合表現(xiàn),這也是 o1 此前沒有公開過的「配方」—— 直到前些天才半遮半掩地揭示一些,參閱機(jī)器之心報道《感謝 DeepSeek,ChatGPT 開始公開 o3 思維鏈,但不完整》。(1 月 20 日,DeepSeek 和 Kimi 在同一天發(fā)布推理模型 R1 和 k1.5,兩個模型均有超越 OpenAI o1 的表現(xiàn)。)

下面,我們先看看這篇論文的核心內(nèi)容,然后再看看 Matthew Berman 為什么說擴(kuò)展通用強(qiáng)化學(xué)習(xí)是「通往 AGI 及更遠(yuǎn)未來的最清晰路徑」。

OpenAI 從自家的三個模型入手,這三個模型分別是 o1  、 o1-ioi 以及 o3。

OpenAI o1 :在競爭性編程任務(wù)上的性能大幅提升

o1 是一個通過強(qiáng)化學(xué)習(xí)訓(xùn)練的大型語言模型,旨在解決復(fù)雜的推理任務(wù)。

在回答問題之前,o1 會先生成一個內(nèi)部思維鏈,并且用強(qiáng)化學(xué)習(xí)完善這種思維鏈過程,幫助模型識別和糾正錯誤,將復(fù)雜任務(wù)分解為可管理的部分,并在一種方法失敗時探索替代的解決方案路徑。這些上下文推理能力顯著提升了 o1 在廣泛任務(wù)上的整體表現(xiàn)。

Kimi 研究員 Flood Sung 也談到了推理模型 Kimi k1.5 的研發(fā)過程也有類似的發(fā)現(xiàn),他指出:「長思維鏈的有效性曾在 Kimi 內(nèi)部得到驗證,使用很小的模型,訓(xùn)練模型做幾十位的加減乘除運算,將細(xì)粒度的運算過程合成出來變成很長的 CoT 數(shù)據(jù)做 SFT,就可以獲得非常好的效果?!顾f,「依然記得當(dāng)時看到那個效果的震撼?!?/span>

除此之外,o1 還可調(diào)用外部工具驗證代碼。

不同模型在 CodeForces 基準(zhǔn)上的表現(xiàn)。

OpenAI 將 o1 與非推理型大語言模型(gpt-4o)以及早期的推理模型(o1-preview)進(jìn)行了對比。

圖 1 展示了 o1-preview 和 o1 都顯著優(yōu)于 gpt-4o,這凸顯了強(qiáng)化學(xué)習(xí)在復(fù)雜推理任務(wù)中的有效性。

o1-preview 模型在 CodeForces 上的評分達(dá)到了 1258 分,相比 gpt-4o 的 808 分有了顯著提升。進(jìn)一步的訓(xùn)練將 o1 的評分提升至 1673,為 AI 在競爭性編程中的表現(xiàn)樹立了新的里程碑。

image.png

 OpenAI o1-ioi:增加強(qiáng)化學(xué)習(xí)和測試時推理就能帶來大幅提升

OpenAI 在開發(fā)和評估 OpenAI o1 的過程中,他們發(fā)現(xiàn)增加 RL 計算量和測試時推理計算量都能持續(xù)提升模型性能。

如圖 2 所示,擴(kuò)展 RL 訓(xùn)練和延長測試時推理可以顯著提升模型性能?;谶@些洞見,OpenAI 創(chuàng)建了 o1-ioi 系統(tǒng)。

image.png

他們從以下方面來實現(xiàn)。

第一步是擴(kuò)展 OpenAI o1 的強(qiáng)化學(xué)習(xí)階段,重點關(guān)注編碼任務(wù)。具體如下:

  • 從 OpenAI o1 檢查點開始繼續(xù)強(qiáng)化學(xué)習(xí)訓(xùn)練;
  • 特別強(qiáng)調(diào)了具有挑戰(zhàn)性的編程問題,幫助模型改進(jìn) C++ 生成和運行時檢查。
  • 指導(dǎo)模型以 IOI 提交格式生成輸出。

在高層次上,OpenAI 將每個 IOI 問題分解為子任務(wù),并為每個子任務(wù)從 o1-ioi 中采樣了 10,000 個解決方案,然后采用基于聚類和重新排名的方法來決定從這些解決方案中提交哪些。

圖 3 顯示,o1-ioi 的 CodeForces 評分達(dá)到 1807,超過 93% 的競爭對手 —— 這證明了在編碼任務(wù)上進(jìn)行額外的 RL 訓(xùn)練可以帶來明顯的改進(jìn)。

這些結(jié)果證實,特定領(lǐng)域的 RL 微調(diào)與高級選擇啟發(fā)式相結(jié)合可以顯著提高編程結(jié)果。

image.png

圖 4 為 IOI 比賽結(jié)果。在比賽期間,系統(tǒng)為每道問題生成了 10,000 個候選解決方案,并使用測試時選擇策略從中篩選出 50 次提交。最終,模型獲得了 213 分,排名位于前 49 % 。

image.png

OpenAI o3:無需人類的強(qiáng)化學(xué)習(xí)效果卓越

基于從 o1 和 o1-ioi 獲得的洞見,OpenAI 又探索了僅依賴強(qiáng)化學(xué)習(xí)(RL)結(jié)果如何,而不依賴于人為設(shè)計的測試時策略。

甚至 OpenAI 試圖探索進(jìn)一步的 RL 訓(xùn)練,模型是否能夠自主開發(fā)和執(zhí)行自己的測試時推理策略。

為此,OpenAI 使用了 o3 的早期檢查點,以評估其在競技編程任務(wù)上的表現(xiàn)。

如圖 5 所示,進(jìn)一步的強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練顯著提升了 o1 和完整 o1-ioi 系統(tǒng)的表現(xiàn)。o3 能夠以更高的可靠性解決更廣泛的復(fù)雜算法問題,使其能力更接近 CodeForces 上的頂級人類程序員。

 image.png

圖 7 為模型在 IOI 2024 上的最終得分。2024 年比賽的總分上限為 600 分,金牌的分?jǐn)?shù)線約為 360 分。

以下是關(guān)鍵結(jié)果:

o1-ioi 在 50 次提交的限制下獲得了 213 分,而在 10,000 次提交的限制下提升至 362.14 分,略高于金牌分?jǐn)?shù)線。

o3 在 50 次提交的限制下獲得了 395.64 分,超過了金牌分?jǐn)?shù)線。

這些結(jié)果表明,o3 在不依賴針對 IOI 手工設(shè)計的測試時策略的情況下,表現(xiàn)優(yōu)于 o1-ioi。相反,o3 在訓(xùn)練過程中自然涌現(xiàn)的復(fù)雜測試時技術(shù)(例如生成暴力解法以驗證輸出)足以替代 o1-ioi 所需的手工設(shè)計的聚類和選擇流程。

總體而言,在 IOI 2024 上的結(jié)果證實,僅通過大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練即可實現(xiàn)最先進(jìn)的編程和推理性能。通過獨立學(xué)習(xí)生成、評估和優(yōu)化解決方案,o3 超越了 o1-ioi,而無需依賴領(lǐng)域特定的啟發(fā)式方法或基于聚類的方法。

image.png

另外,在 CodeForces 上,如前圖 5 所示,o3 的成績達(dá)到了 2724 分,已經(jīng)進(jìn)入了全球前 200 名。

image.png

該論文的作者之一 Ahmed El-Kishky 在 ?? 上分享了一個有趣的發(fā)現(xiàn)。他表示,他們在檢查思維鏈時發(fā)現(xiàn)該模型獨立發(fā)展出了自己的測試時策略:該模型首先會編寫一個簡單的暴力解決方案,然后再使用它來驗證一種更加復(fù)雜優(yōu)化版方法。

image.png

軟件工程評估

OpenAI 還對模型進(jìn)行了軟件工程評估。他們在兩個數(shù)據(jù)集上測試了模型:HackerRank Astra 數(shù)據(jù)集和 SWE-bench verified。

圖 8 表明了模型進(jìn)行思維鏈推理的影響:與 GPT-4o 相比,o1-preview 模型在 pass@1 上提升了 9.98%,在平均得分上提高了 6.03 分。

通過強(qiáng)化學(xué)習(xí)進(jìn)一步微調(diào)后,o1 的表現(xiàn)得到了提升,其 pass@1 達(dá)到了 63.92%,平均得分為 75.80%—— 相比 o1-preview,pass@1 提高了 3.03%。

image.png

圖 9 所示,o1 預(yù)覽版在 SWE-bench 上相比 gpt-4o 提升了 8.1%,突顯了模型推理能力的顯著進(jìn)步。

在訓(xùn)練過程中應(yīng)用額外的強(qiáng)化學(xué)習(xí)計算,o1 進(jìn)一步實現(xiàn)了 8.6% 的性能提升。

值得注意的是,o3 使用了比 o1 顯著更多的計算資源進(jìn)行訓(xùn)練,比 o1 實現(xiàn)了 22.8% 的顯著改進(jìn)。

image.png

通用強(qiáng)化學(xué)習(xí)是實現(xiàn) AGI 的最清晰路徑?

基于此論文,Matthew Berman 通過一系列推文佐證了一個論點:通用強(qiáng)化學(xué)習(xí)是實現(xiàn) AGI 的最清晰路徑。下面我們來看看他的論據(jù)。

首先,在這篇論文中,OpenAI 的研究表明「強(qiáng)化學(xué)習(xí) + 測試時計算」是構(gòu)建超智能 AI 的關(guān)鍵。OpenAI CEO Sam Altman 也說 OpenAI 的模型已經(jīng)在競爭性編程任務(wù)上從 175 名上升到了 50 名,并有望在今年底達(dá)到第 1 名。

同時,上述論文中也指出,一開始模型依賴于人類設(shè)計的推理策略,但進(jìn)步最大時候并不是在這個階段出現(xiàn)的,而是在將人類完全移出流程之后。

image.png

Berman 也引出了 DeepSeek-R1 的巨大成就。

image.png

他指出,DeepSeek-R1 的突破來自于「可驗證獎勵的強(qiáng)化學(xué)習(xí)」,而這其實也是 AlphaGo 使用的方法 —— 讓模型在試錯中學(xué)習(xí),然后無限地擴(kuò)展智能。

AlphaGo 在沒有人類引導(dǎo)的情況下成為了世界最強(qiáng)圍棋棋手。它的方法就是不斷與自己博弈,直到其掌握這個游戲。

image.png

Kimi 研究員 Flood Sung 也談到了這一點,他指出:「不管模型中間做錯了什么,只要不是重復(fù)的,最后模型做對了就認(rèn)為這是一個好的探索,值得鼓勵。反之,要懲罰。隨后在實際訓(xùn)練中,發(fā)現(xiàn)模型會隨著訓(xùn)練提升表現(xiàn)并不斷增加 token 數(shù),證明強(qiáng)化訓(xùn)練過程中模型可以自己涌現(xiàn),這與 DeepSeek 的發(fā)現(xiàn)非常相似,也為 k1.5 視覺思考模型的上線奠定了基礎(chǔ)。」

而現(xiàn)在,類似的策略也被 OpenAI 用在了編程領(lǐng)域,并且未來也可能被用在更多領(lǐng)域。

這意味著什么呢?Berman 認(rèn)為,這意味著每個具有可驗證獎勵的領(lǐng)域(包括數(shù)學(xué)、編程、科學(xué))都可被 AI 通過自我博弈方法掌握。

Flood Sung 也表達(dá)了類似的期待:「o3 在前面,還有很多路要走。給 AI 一個可衡量的目標(biāo),然后讓其自己去探索。比如讓 AI 寫出 10 萬 + 的公眾號文章,比如讓 AI 發(fā)布一個復(fù)制 tiktok 的 app,讓我們一起期待一下接下來的進(jìn)展!」

屆時,AI 將不再受到人類水平的限制。這或許也就是 AGI 誕生之時。

實際上,特斯拉已經(jīng)在全自動駕駛?cè)蝿?wù)上驗證這一點了。過去,他們的方法是依靠一個「人類規(guī)則 + AI」的混合模型;但他們換成端到端的 AI 方法之后,性能實現(xiàn)了大幅提升。Berman 表示:「AI 只需要更多計算 —— 而不是更多人類干預(yù)。」

正如 Sam Altman 之前說過的那樣,AGI 就是個規(guī)模擴(kuò)展問題。

實際上,已經(jīng)有不少研究者將強(qiáng)化學(xué)習(xí)用在編程和數(shù)學(xué)等領(lǐng)域之外了。

image.png

當(dāng)然,并不是所有人都認(rèn)可 Berman 與 Altman 的看法,比如有人指出了競爭性編程與實際編程的區(qū)別 —— 實際編程往往涉及到更多問題,包括可擴(kuò)展性、安全性、彈性和投資回報等。

image.png

也有人直言反駁:

image.png

你已經(jīng)看過這篇論文了嗎?對于「可驗證獎勵的強(qiáng)化學(xué)習(xí)」的未來潛力,你有什么看法?你認(rèn)為這能否實現(xiàn) AGI?

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-09-13 06:32:25

2024-09-14 14:00:00

AI模型

2025-02-08 14:03:25

2025-03-10 08:10:00

AI研究安全

2025-02-03 14:17:27

2025-01-21 09:00:00

2025-01-27 12:30:07

2024-09-18 10:37:00

強(qiáng)化學(xué)習(xí)AI模型

2025-04-09 09:41:43

2025-03-05 10:21:04

DeepSeekLVLM

2025-02-20 15:32:28

2024-09-25 09:30:16

2025-04-09 09:15:00

數(shù)據(jù)模型AI

2025-04-25 13:34:53

R1DeepSeekAgent

2025-01-26 08:40:00

AI模型預(yù)測

2024-12-16 16:05:34

2025-02-03 12:07:52

2024-09-24 11:01:03

2025-02-03 14:06:32

2024-11-29 13:57:38

點贊
收藏

51CTO技術(shù)棧公眾號