OpenAI深夜發(fā)布滿(mǎn)血o3和o4mini：兩個(gè)沒(méi)想到

作者：AI寒武紀(jì) 2025-04-17 08:59:59

OpenAI o3和o4-mini最顯著的特點(diǎn)是首次實(shí)現(xiàn)了對(duì)ChatGPT內(nèi)所有工具的智能使用和組合能力

OpenAI剛剛宣布推出其最新的o系列模型：o3和o4-mini，與以往模型不同，o3和o4-mini被設(shè)計(jì)為真正的AI系統(tǒng)，模型甚至能連續(xù)調(diào)用超過(guò)600次工具來(lái)完成一項(xiàng)艱巨任務(wù)，它們?cè)诶斫夂蛯?dǎo)航大型代碼庫(kù)（比如OpenAI自己的代碼庫(kù)）方面，超越了人類(lèi)工程師，極大地提高了開(kāi)發(fā)效率。

這次發(fā)布會(huì)我有兩個(gè)沒(méi)想到：一是沒(méi)想到o系列模型變成了一個(gè)融合的模型，另外一個(gè)是引入圖像推理“Thinking with Images”，下面第一時(shí)間給大家劃個(gè)重點(diǎn)。

全面工具訪問(wèn)與推理能力

o3和o4-mini最顯著的特點(diǎn)是首次實(shí)現(xiàn)了對(duì)ChatGPT內(nèi)所有工具的智能使用和組合能力。它們可以搜索網(wǎng)絡(luò)、分析上傳的文件、處理視覺(jué)輸入、生成圖像，并且能夠智能地判斷何時(shí)以及如何使用這些工具來(lái)解決復(fù)雜問(wèn)題。這些模型經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練，能夠在大約一分鐘內(nèi)提供詳細(xì)且經(jīng)過(guò)深思熟慮的答案，以適當(dāng)?shù)妮敵龈袷浇鉀Q多方面的問(wèn)題。

o3,o4mini性能

OpenAI o3是目前最強(qiáng)大的推理模型，在編程、數(shù)學(xué)、科學(xué)、視覺(jué)感知等領(lǐng)域推動(dòng)了技術(shù)邊界。它在包括Codeforces、SWE-bench和MMMU在內(nèi)的多項(xiàng)基準(zhǔn)測(cè)試中創(chuàng)下新的記錄。在由外部專(zhuān)家進(jìn)行的評(píng)估中，o3在解決困難的現(xiàn)實(shí)世界任務(wù)時(shí)比OpenAI o1減少了20%的重大錯(cuò)誤，特別是在編程、商業(yè)咨詢(xún)和創(chuàng)意構(gòu)思方面表現(xiàn)出色。早期測(cè)試者強(qiáng)調(diào)了它作為思維伙伴的分析嚴(yán)謹(jǐn)性，以及在生物學(xué)、數(shù)學(xué)和工程背景下生成和批判性評(píng)估新假設(shè)的能力。

OpenAI o4-mini是一個(gè)針對(duì)快速、高效推理而優(yōu)化的小型模型。盡管規(guī)模較小，但它在數(shù)學(xué)、編碼和視覺(jué)任務(wù)方面表現(xiàn)出色。在2025年AIME數(shù)學(xué)競(jìng)賽中，當(dāng)獲得Python解釋器訪問(wèn)權(quán)限時(shí)，o4-mini的得分高達(dá)99.5%，實(shí)際上已經(jīng)飽和了這個(gè)基準(zhǔn)測(cè)試。在專(zhuān)家評(píng)估中，它也在非STEM任務(wù)和數(shù)據(jù)科學(xué)等領(lǐng)域超越了前身o3-mini。由于其高效性，o4-mini支持比o3更高的使用限制，使其成為需要推理能力的高容量、高吞吐量應(yīng)用的理想選擇。

圖像推理能力的突破

o3和o4-mini首次能夠?qū)D像直接整合到思維鏈中，它們不僅能看到圖像，還能通過(guò)圖像進(jìn)行思考。這解鎖了融合視覺(jué)和文本推理的新型問(wèn)題解決方式，在多模態(tài)基準(zhǔn)測(cè)試中表現(xiàn)出色。用戶(hù)可以上傳白板照片、教科書(shū)圖表或手繪草圖，模型能夠解釋它們——即使圖像模糊、顛倒或質(zhì)量低下。借助工具使用能力，模型可以實(shí)時(shí)操作圖像，作為推理過(guò)程的一部分進(jìn)行旋轉(zhuǎn)、縮放或轉(zhuǎn)換。

負(fù)責(zé)圖像推理的華裔研究員Jiahui Yu解釋圖像推理（“Thinking with Images”）的重要性：

自最初的 o 系列發(fā)布以來(lái)，“圖像思考”一直是我們?cè)诟兄I(lǐng)域的核心戰(zhàn)略之一。我們悄然發(fā)布了 o1 vision，作為對(duì)這一戰(zhàn)略的驚鴻一瞥——如今，o3 和 o4-mini 的問(wèn)世則以臻于完善的姿態(tài)將其變?yōu)楝F(xiàn)實(shí),多模態(tài)技術(shù)對(duì)于 OpenAI 實(shí)現(xiàn) AGI 的愿景至關(guān)重要。

朝向主動(dòng)式工具使用

OpenAI o3和o4-mini可以完全訪問(wèn)ChatGPT內(nèi)的工具，以及通過(guò)API中的函數(shù)調(diào)用訪問(wèn)用戶(hù)自定義工具。它們經(jīng)過(guò)訓(xùn)練，能夠推理如何解決問(wèn)題，選擇何時(shí)以及如何使用工具，以快速產(chǎn)生詳細(xì)且經(jīng)過(guò)深思熟慮的答案。例如，用戶(hù)可能會(huì)問(wèn)："今年夏季加利福尼亞的能源使用情況與去年相比如何？"模型可以搜索網(wǎng)絡(luò)獲取公用事業(yè)數(shù)據(jù)，編寫(xiě)Python代碼建立預(yù)測(cè)模型，生成圖表或圖像，并解釋預(yù)測(cè)背后的關(guān)鍵因素，將多個(gè)工具調(diào)用鏈接在一起。

One More Thing... 開(kāi)源Codex CLI！

發(fā)布會(huì)最后還帶來(lái)一個(gè)驚喜，OpenAI推出了Codex CLI——一個(gè)連接模型與用戶(hù)本地計(jì)算機(jī)環(huán)境的輕量級(jí)命令行接口。

它直接在用戶(hù)的計(jì)算機(jī)上工作，旨在最大限度地發(fā)揮像o3和o4-mini這樣的模型的推理能力，未來(lái)還將支持GPT-4.1等其他API模型。用戶(hù)可以通過(guò)向模型傳遞屏幕截圖或低保真草圖，結(jié)合本地代碼訪問(wèn)，從命令行獲得多模態(tài)推理的好處。

發(fā)布會(huì)現(xiàn)場(chǎng)演示環(huán)節(jié)開(kāi)發(fā)人員利用Codex CLI工具展示了一個(gè)非?？犰诺膶?shí)時(shí)攝像頭ASCII藝術(shù)，讓模型直接讀取電腦攝像頭畫(huà)面，實(shí)時(shí)生成酷炫的ASCII動(dòng)態(tài)畫(huà)面。

開(kāi)源地址：https://github.com/openai/codex

最后

從今天開(kāi)始，ChatGPT Plus、Pro和Team用戶(hù)將在模型選擇器中看到o3、o4-mini和o4-mini-high，取代o1、o3-mini和o3-mini-high。ChatGPT Enterprise和Edu用戶(hù)將在一周內(nèi)獲得訪問(wèn)權(quán)限。免費(fèi)用戶(hù)可以在提交查詢(xún)前選擇"Think"來(lái)嘗試o4-mini。所有計(jì)劃的速率限制與先前的模型集保持不變。

OpenAI預(yù)計(jì)將在幾周內(nèi)發(fā)布具有完整工具支持的OpenAI o3-pro。目前，Pro用戶(hù)仍可以訪問(wèn)o1-pro。

成本：

o3和o4-mini今天也通過(guò)Chat Completions API和Responses API向開(kāi)發(fā)者提供。Responses API支持推理摘要，能夠在函數(shù)調(diào)用周?chē)Ａ敉评順?biāo)記以獲得更好的性能，并將很快支持模型推理中的內(nèi)置工具，如網(wǎng)絡(luò)搜索、文件搜索和代碼解釋器。

個(gè)人感覺(jué)今天的更新反映了OpenAI模型的發(fā)展方向：將o系列的專(zhuān)業(yè)推理能力與GPT系列更自然的對(duì)話(huà)能力和工具使用能力融合。通過(guò)統(tǒng)一這些優(yōu)勢(shì)，未來(lái)的模型將支持無(wú)縫、自然的對(duì)話(huà)，同時(shí)提供主動(dòng)工具使用和高級(jí)問(wèn)題解決能力。

責(zé)任編輯：張燕妮來(lái)源： AI寒武紀(jì)

AI 模型訓(xùn)練

自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡