OpenAI震撼發(fā)布o(jì)3/o4-mini,直逼視覺(jué)推理巔峰!首用圖像思考,十倍算力爆表
不出所料,滿(mǎn)血版o3真的來(lái)了。
剛剛,OpenAI聯(lián)創(chuàng)Greg Brockman和首席研究官M(fèi)ark Chen帶隊(duì),開(kāi)啟了20分鐘線上直播。
這次不僅有o3,還有下一代推理模型o4-mini。它們首次實(shí)現(xiàn)了「用圖像思考」,堪稱(chēng)視覺(jué)推理的巔峰之作。
圖片
如同AI智能體,兩款模型在不到1分鐘內(nèi),自主判斷并組合運(yùn)用ChatGPT內(nèi)置工具,生成了詳盡周全的答案。
其中包括,搜索網(wǎng)頁(yè)、用Python分析上傳的文件及數(shù)據(jù)、對(duì)視覺(jué)輸入進(jìn)行深度推理,乃至生成圖像。
圖片
在Codeforces、SWE-bench、MMMU等基準(zhǔn)測(cè)試中,o3刷新SOTA,不論是在編程、數(shù)學(xué)、科學(xué),還是在視覺(jué)感知領(lǐng)域都樹(shù)立了新標(biāo)桿。
尤其是,對(duì)于圖像、圖表、圖形分析,o3表現(xiàn)尤為突出,能夠深入挖掘視覺(jué)輸入的細(xì)節(jié)。
在Codeforces中,新模型得分均超2700分,在全球參賽者中排名前200名。
用奧特曼的話來(lái)說(shuō),「接近或達(dá)到天才水平」。
圖片
不過(guò),這個(gè)智力的代價(jià)是,需要投入o1十倍以上的算力。
圖片
相較于滿(mǎn)血版o3,o4-mini則以小巧高效、高性?xún)r(jià)比的特點(diǎn)脫穎而出。
在AIME 2025測(cè)試中,o4-mini配合Python解釋器取得了99.5%高分,幾乎完美拿下了這項(xiàng)基準(zhǔn)測(cè)試。
而且,在數(shù)學(xué)、編程、視覺(jué)任務(wù),以及非STEM領(lǐng)域,它的性能均優(yōu)于o3-mini。
此外,o4-mini支持遠(yuǎn)超o3的使用額度,是高并發(fā)場(chǎng)景最優(yōu)選。
總而言之,o3和o4-mini都非常擅長(zhǎng)編碼,由此OpenAI還開(kāi)源了一個(gè)可在終端運(yùn)行的輕量級(jí)編程 AI 智能體——Codex CLI。
圖片
從今天起,ChatGPT Plus、Pro和Team用戶(hù)將第一時(shí)間體驗(yàn)到o3、o4?mini和o4?mini?high,它們將取代o1、o3?mini和o3?mini?high。
同時(shí),這兩款模型也將通過(guò)Chat Completions API和Responses API,向所有開(kāi)發(fā)者提供。
圖片
推理模型,首次會(huì)用工具了
直播演示中,Greg先上了一個(gè)價(jià)值——有些模型就像是質(zhì)的飛躍,GPT-4是其中之一,今天o3/o4-mini同樣是。
他表示,o3讓他和OpenAI的同事見(jiàn)到了AI大模型能完成「從未見(jiàn)到的事」,比如,它自己就提出了一個(gè)很棒的系統(tǒng)架構(gòu)想法。
這兩款模型真正令人驚訝的地方,它們不僅僅是模型,更是一個(gè)「AI系統(tǒng)」。
它們跟之前那些推理模型最大的區(qū)別,就是首次被用來(lái)訓(xùn)練各種工具。它們會(huì)在CoT中使用這些工具來(lái)解決難題。
圖片
人類(lèi)最后考試中,o3模型足以媲美Deep Research表現(xiàn),而且速率更快。
為了攻克了一個(gè)復(fù)雜難題,o3曾連續(xù)使用約600次工具調(diào)用。它們一次性生成的代碼片段,真正在代碼庫(kù)發(fā)揮效用。
Greg表示,自己最珍視的一點(diǎn),就是它們的軟件工程能力:它們不僅能編寫(xiě)一次性的代碼,而且能真正在真實(shí)的代碼庫(kù)中工作!
比如,它在瀏覽OpenAI代碼庫(kù)方面,就比Greg做得更好。這就是它極其有用的地方。
圖片
而且,在指令跟隨、智能體工具使用評(píng)估中,與工具結(jié)合的o3和o4-mini準(zhǔn)確性是最高的。
圖片
外部專(zhuān)家評(píng)估顯示,o3在處理真實(shí)世界任務(wù)時(shí),嚴(yán)重錯(cuò)誤率比o1還降低了20%。
之所以有如此大的進(jìn)步,正是因?yàn)镽L中持續(xù)的算法進(jìn)步所驅(qū)動(dòng)的。用Greg的話說(shuō),引擎蓋下最令人驚嘆的是,目前它還仍然是預(yù)測(cè)一個(gè)token,然后加入一點(diǎn)RL的AI,就已經(jīng)做到這個(gè)地步。
那么,在實(shí)操過(guò)程中,o3是如何結(jié)合使用工具解決復(fù)雜任務(wù)的呢?
多模態(tài)團(tuán)隊(duì)研究員Brandon McKinzie上傳了一張2015年完成的一個(gè)物理實(shí)習(xí)海報(bào),讓ChatGPT估算質(zhì)子同位標(biāo)量電荷的數(shù)量。
圖片
o3開(kāi)始推理的同時(shí),逐一分析圖片中內(nèi)容,并確定Brandon提出問(wèn)題的正確數(shù)量。實(shí)際上,海報(bào)截圖中并沒(méi)有覆蓋最終結(jié)果。
于是,o3便開(kāi)始聯(lián)網(wǎng)搜索查找最新的估算值,幾秒鐘內(nèi)讀完數(shù)十篇論文,節(jié)省了大量時(shí)間。
結(jié)果顯示,模型計(jì)算出了一個(gè)未經(jīng)歸一化的值,并且乘以一個(gè)特定常數(shù),又可以重新歸一化,最終結(jié)果與實(shí)際比較接近。
圖片
后訓(xùn)練團(tuán)隊(duì)研究員Eric Mitchell為ChatGPT開(kāi)啟了記憶功能, 然后讓o3去查找新聞,而且是與自己興趣有關(guān)的內(nèi)容,同時(shí)還要足夠冷門(mén)。
o3基于已有的了解——潛水和演奏音樂(lè),主動(dòng)思考并調(diào)用工具,找出了一些相關(guān)的有趣內(nèi)容。
比如,研究人員錄制了健康的珊瑚聲音,并用揚(yáng)聲器播放錄音,加速了新珊瑚和魚(yú)類(lèi)定居。
同時(shí),它還能繪制出可視化的數(shù)據(jù),便于直接放入博客文章當(dāng)中。
圖片
也就是說(shuō),無(wú)論o3是用于前沿的科研領(lǐng)域,還是將模型集成到日常工作流中,都會(huì)非常有用。
在解決AIME數(shù)學(xué)競(jìng)賽問(wèn)題時(shí),o3被要求觀察2x2方格網(wǎng)格,并計(jì)算出滿(mǎn)足約束條件的顏色方案數(shù)量。
圖片
它首先生成了一個(gè)暴力程序,然后用Python解釋器運(yùn)行,并得到了正確答案,即82。
即便如此,它的解題過(guò)程并不優(yōu)雅簡(jiǎn)潔,對(duì)此,o3自動(dòng)識(shí)別后并嘗試簡(jiǎn)化解決方案,找到更聰明辦法。
圖片
它還會(huì)自動(dòng)核查答案的可靠性,甚至最后給出了文字解決方案,方便向人類(lèi)解釋。
讓研究人員驚訝的是,訓(xùn)練o3過(guò)程中并沒(méi)有使用類(lèi)似策略,也沒(méi)有要求簡(jiǎn)化,都是AI自主學(xué)習(xí)完成的。
圖片
在編碼任務(wù)中,研究人員讓o3-high找出一個(gè)名為symbols軟件包的錯(cuò)誤。
首先,模型會(huì)主動(dòng)檢查指令中,所說(shuō)的問(wèn)題是否存在,并嘗試了解代碼儲(chǔ)存庫(kù)的概況。
圖片
然后,它發(fā)現(xiàn)一可以mro的解釋類(lèi)繼承信息的Python結(jié)構(gòu),基于已有的世界知識(shí),找到了問(wèn)題所在。
圖片
最后,o3通過(guò)瀏覽互聯(lián)網(wǎng),找到了最優(yōu)的解決方案——apply_patch。
圖片
就推理成本來(lái)看,o3和o4-mini不僅是迄今為止最智能模型,相較于o1和o3?mini,更在效率和成本控制方面樹(shù)立了新標(biāo)桿。
在2025年AIME數(shù)學(xué)競(jìng)賽上,o3推理成本和性能全面優(yōu)于 o1,同樣地,o4-mini成本-性能也全面優(yōu)于o3?mini。
所以,如果你需要一個(gè)小而快的多模態(tài)推理模型,o4-mini將是極好的選擇。
o3和o4-mini能夠自主選擇工具、計(jì)劃方法解決問(wèn)題,無(wú)論是數(shù)學(xué)、商業(yè)、科學(xué)、體育還是視覺(jué)推理都沒(méi)問(wèn)題。
比如,在解決體育問(wèn)題時(shí),o3能聯(lián)網(wǎng)獲取最新數(shù)據(jù),考慮了最近一個(gè)賽季和2022-23年聯(lián)賽ERA略升后回歸正常的情況。
o1給出的數(shù)據(jù)是大概值,略有偏差,不夠精確,而且它錯(cuò)誤地認(rèn)為偷壘增加完全是因?yàn)橥肚蛴?jì)時(shí)器,忽略了基地墊擴(kuò)大和限制牽制次數(shù)這些更直接的原因。
圖片
用圖像思考,視覺(jué)推理新巔峰
更引人注目的是,o3和o4-mini在視覺(jué)推理上全面超越前代,成為o系列最新的視覺(jué)推理模型。
它們通過(guò)在思維鏈(CoT)中用圖像進(jìn)行推理,實(shí)現(xiàn)了視覺(jué)感知的重大突破。
OpenAI首次實(shí)現(xiàn)了模型在其思維鏈中用圖像進(jìn)行思考——而不僅僅只是看圖。
與早期的OpenAI o1類(lèi)似,o3和o4-mini能在回答前思考更久,在回答用戶(hù)前內(nèi)部會(huì)生成很長(zhǎng)的思維鏈。
不僅如此,o3和o4-mini可以在思考過(guò)程中「看」圖片。這種能力是通過(guò)工具處理用戶(hù)上傳的圖像來(lái)實(shí)現(xiàn)的,比如進(jìn)行裁剪、放大、旋轉(zhuǎn)等簡(jiǎn)單的圖像處理。
更厲害的是,這些功能都是原生的,不需要依賴(lài)額外的專(zhuān)業(yè)模型。
在基準(zhǔn)測(cè)試中,這種用圖像思考,無(wú)需依賴(lài)網(wǎng)絡(luò)瀏覽的能力,碾壓了前代多模態(tài)模型的性能。
在STEM問(wèn)答(MMMU、MathVista)、圖表閱讀與推理(CharXiv)、感知基元(VLMs are Blind)以及視覺(jué)搜索(V*)等領(lǐng)域,o3和o4-mini均創(chuàng)下了SOTA。
特別是,在 V*基準(zhǔn)測(cè)試上,兩款模型以96.3%準(zhǔn)確率幾乎攻克了這項(xiàng)挑戰(zhàn),標(biāo)志著視覺(jué)推理技術(shù)重大飛躍。
圖片
ChatGPT增強(qiáng)的視覺(jué)智能,能更徹底、精準(zhǔn)、可靠地分析圖片,幫你解決更棘手的問(wèn)題。
它能將高級(jí)推理與網(wǎng)頁(yè)搜索、圖像處理等工具無(wú)縫結(jié)合,自動(dòng)放大、裁剪、翻轉(zhuǎn)或優(yōu)化你的圖片,哪怕照片不完美也能挖掘出有用信息。
比如,你可以上傳一張經(jīng)濟(jì)學(xué)作業(yè)的照片,得到一步步的解答,或者分享一個(gè)程序報(bào)錯(cuò)的截圖,快速找出問(wèn)題根源。
這種方法開(kāi)啟了一種新的測(cè)試時(shí)計(jì)算擴(kuò)展方式,完美的融合了視覺(jué)和文本推理。
這體現(xiàn)在它們?cè)诙嗄B(tài)基準(zhǔn)測(cè)試中的頂尖表現(xiàn),標(biāo)志著多模態(tài)推理邁出了重要一步。
視覺(jué)推理實(shí)戰(zhàn)
用圖像思考可以與ChatGPT更加輕松的互動(dòng)。
你可以直接拍張照片提問(wèn),不用擔(dān)心物體擺放問(wèn)題——不論文字是不是倒的,或者一張照片里有多道物理題。
即使東西乍一看不太清楚,視覺(jué)推理也能讓模型放大看清細(xì)節(jié)。
比如,一個(gè)放在桌子上幾乎與視線平行的筆記本,上面有兩行模糊的字,人看上去也很難直接認(rèn)出來(lái)。
而ChatGPT可以將圖片放大查看,發(fā)現(xiàn)字是倒著的后,還將其旋轉(zhuǎn)過(guò)來(lái),最終成功將其給認(rèn)了出來(lái)。
圖片
圖片
圖片
圖片
OpenAI最新的視覺(jué)推理模型能跟Python數(shù)據(jù)分析、網(wǎng)頁(yè)搜索、圖像生成等工具配合,創(chuàng)意又高效地解決更復(fù)雜的問(wèn)題,為用戶(hù)首次帶來(lái)了多模態(tài)智能體驗(yàn)。
圖片
編程智能體Codex CLI全開(kāi)源
接下來(lái),OpenAI表示,將展示一些codex遺產(chǎn)的延續(xù),發(fā)布一系列應(yīng)用程序,而它們,將定義編程的未來(lái)。
除了新模型之外,OpenAI還開(kāi)源了一項(xiàng)新的實(shí)驗(yàn)性工具:Codex CLI,一個(gè)可在終端運(yùn)行的輕量級(jí)編程AI智能體。
它的作用,就是在需要的地方安全地部署代碼執(zhí)行。
它直接在本地計(jì)算機(jī)上運(yùn)行,旨在充分發(fā)揮o3和o4-mini這類(lèi)模型的強(qiáng)大推理能力,并將很快支持GPT-4.1?等更多模型的API調(diào)用。
通過(guò)向模型傳遞屏幕截圖或低保真草圖,并結(jié)合訪問(wèn)本地代碼的權(quán)限,就能在命令行中體驗(yàn)到多模態(tài)推理的強(qiáng)大功能。
同時(shí),他們也啟動(dòng)一項(xiàng)100萬(wàn)美元的資助計(jì)劃,用以支持使用Codex CLI 和 OpenAI 模型的項(xiàng)目。
GitHub項(xiàng)目一經(jīng)發(fā)布,Codex CLI已斬獲3.3k星,可見(jiàn)響應(yīng)度之高。
圖片
項(xiàng)目地址:https://github.com/openai/codex
現(xiàn)場(chǎng),OpenAI演示人員參考了網(wǎng)上的帖子,使用Codex和o4 Mini做了一個(gè)很酷的圖片轉(zhuǎn)ASCII生成器。
只需先截一張圖,拖進(jìn)終端里,接下來(lái)就可以把它交給Codex。
圖片
令人驚嘆的是,你可以實(shí)際看到它在思考,還可以直接運(yùn)行工具。
圖片
完成后,Codex創(chuàng)建了一個(gè)ASCII HTML文件,甚至還生成了一個(gè)可以控制分辨率的滑塊。
也就是說(shuō),從此電腦上的任何文件,以及你正在處理的代碼庫(kù),都可以放進(jìn)Codex了!
在現(xiàn)場(chǎng),研究者們還成功添加了一個(gè)網(wǎng)絡(luò)攝像頭API。
Scaling強(qiáng)化學(xué)習(xí),依舊有效
在OpenAI o3的整個(gè)研發(fā)過(guò)程中,研究者觀察到一個(gè)現(xiàn)象:大規(guī)模強(qiáng)化學(xué)習(xí)同樣遵循著GPT系列預(yù)訓(xùn)練時(shí)顯現(xiàn)的規(guī)律——即「投入越多的計(jì)算資源,就能獲得越好的性能」。
他們循著這條Scaling路徑,這次將重點(diǎn)放在強(qiáng)化學(xué)習(xí)(RL)上,把訓(xùn)練計(jì)算量和推理階段的思考量(或稱(chēng)推理計(jì)算量)都提升了一個(gè)數(shù)量級(jí),結(jié)果依然觀察到顯著的性能提升。
圖片
技術(shù)報(bào)告:https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf
這驗(yàn)證了只要給模型更多時(shí)間去「思考」,它的表現(xiàn)就會(huì)持續(xù)提高。
相較于前代o1,o3在相同延遲和成本下展現(xiàn)出更高的性能。更令人興奮地是,當(dāng)允許思考更長(zhǎng)時(shí)間,其性能還會(huì)繼續(xù)攀升。
圖片
此外,OpenAI通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練,讓o3和o4-mini掌握了工具使用的智慧——不僅學(xué)會(huì)「如何用」,更懂得「何時(shí)用」。
它們不僅能完全訪問(wèn)ChatGPT內(nèi)置的工具,還能通過(guò)API中的函數(shù)調(diào)用功能接入用戶(hù)自定義的工具。
這種能力讓模型在開(kāi)放式場(chǎng)景時(shí),更加游刃有余,尤其是在需要視覺(jué)推理和多步驟工作流的復(fù)雜任務(wù)中。
而且,從前面諸多案例中,我們已經(jīng)對(duì)模型工具調(diào)用的能力,獲得了關(guān)鍵一撇。
那些提前拿到內(nèi)測(cè)資格的大佬們,紛紛被o3震驚了。
尤其是在臨床和醫(yī)學(xué)領(lǐng)域,它的表現(xiàn)堪稱(chēng)現(xiàn)象級(jí)。無(wú)論是診斷分析還是治療建議,仿佛出自頂尖專(zhuān)家的手筆。
圖片
圖片
不論是加速科學(xué)發(fā)現(xiàn)、優(yōu)化臨床決策,還是推理跨領(lǐng)域的創(chuàng)新,o3正成為這場(chǎng)變革的主導(dǎo)者。
參考資料: