譯者 | 崔皓
審校 | 重樓
開篇
就在OpenAI推出 GPT 4.1 系列幾天后,又發(fā)布了o3 和 o4-mini 的推理模型,這表明大模型正式邁向 AGI( 人工通用智能 )。 o3 和 o4-mini 不僅僅是 AI 模型;它們還具備智能性、自治性、可調(diào)用工具以及與真實(shí)軟件對(duì)接的技能,是一個(gè)真正意義上的AI 系統(tǒng)。 新模型不會(huì)被動(dòng)工作;而是主動(dòng)使用工具自動(dòng)完成任務(wù)! 接下來,就讓我們深入了解“O 系”模型:o3 和 o4-mini 的功能、性能和應(yīng)用。
o3 和 o4-mini 是什么?
o3 和 o4-mini 是 OpenAI 最新的推理模型,取代了 o 系列之前的模型,比如 o1 和 o3-mini。o 系模型不同于主要關(guān)注模式識(shí)別和文本生成的LLMs(大語言模型),o 系模型作為推理模型采用了更長(zhǎng)的內(nèi)部“思維鏈”模式。
這種方式使模型能夠分解復(fù)雜問題,評(píng)估不同步驟,并得出更準(zhǔn)確和慎重的解決方案。因此,在諸如 STEM、編碼和邏輯推理等領(lǐng)域,它們尤其擅長(zhǎng)。此外, o 系模型首創(chuàng)了整合工具套件的能力,能夠主動(dòng)使用和組合 ChatGPT 中提供的完整工具套件。
o3 是 OpenAI 最先進(jìn)的推理模型,擅長(zhǎng)處理在各個(gè)領(lǐng)域需要深入分析思考的任務(wù)。該模型的計(jì)算量是 o1 的 10 倍,引入了“圖像推理”的能力。這使其能夠直接在認(rèn)知過程中處理和推理關(guān)于視覺輸入的信息。
o4-mini 是 o3 模型的替代品, 相對(duì)于o3而言o4-mini更加緊湊、高效、以及成本更低。盡管o4-mini模型的參數(shù)少于o3模型,但它在數(shù)學(xué)、編碼和視覺任務(wù)等領(lǐng)域表現(xiàn)出色。通過對(duì)模型的優(yōu)化設(shè)計(jì)可以確保模型具備更快的響應(yīng)速度和更高的吞吐量,使其適用于高效的應(yīng)用場(chǎng)景。
同時(shí),OpenAI 還發(fā)布了 o4-mini-high 變體,它會(huì)花費(fèi)更多時(shí)間處理用戶請(qǐng)求,并給出更可靠的答案。
未來,OpenAI計(jì)劃向訂閱用戶發(fā)布更強(qiáng)大的o3-pro版本,它將使用更多計(jì)算資源,同時(shí)也提供更好的服務(wù)。
o3 和 o4-mini 的主要功能
o3與o4-mini的強(qiáng)大離不開如下關(guān)鍵特性:
- 主動(dòng)行為:主動(dòng)解決問題的能力,自主確定復(fù)雜任務(wù)的最佳方法,并高效地執(zhí)行多步解決方案。
- 高級(jí)工具集成:無縫地利用諸如網(wǎng)絡(luò)瀏覽、代碼執(zhí)行和圖像生成等工具,以增強(qiáng)其回答并有效應(yīng)對(duì)復(fù)雜查詢 。
- 多模態(tài)推理:直接處理和整合視覺信息到他們的推理過程中,從而解釋和分析圖像與文本數(shù)據(jù)并行。
- 高級(jí)視覺推理(“用圖像思考”):解釋復(fù)雜的視覺輸入,例如圖表、白板草圖,甚至模糊/低質(zhì)量照片。它們甚至可以將這些圖像(放大、裁剪、旋轉(zhuǎn)、增強(qiáng))作為推理過程的一部分,從而提取相關(guān)信息。
o3 和 o4-mini 是否反映了 AGI?
這兩個(gè)“o 系”模型會(huì)在生成響應(yīng)前執(zhí)行復(fù)雜的多步推理。
當(dāng)用戶給出問題時(shí), o3先會(huì)使用“蠻力”得出解決方案。接著,會(huì)嘗試找到更智能的計(jì)算方法并以更簡(jiǎn)潔的格式呈現(xiàn)。然后,繼續(xù)核對(duì)答案并簡(jiǎn)化,從而提供給用戶簡(jiǎn)單和易于理解的回應(yīng)。
盡管整個(gè)思考過程部分基于計(jì)算和訓(xùn)練,但在模型的訓(xùn)練過程中,并沒有被明確教導(dǎo)去簡(jiǎn)化答案或重新檢查過程。不過模型的響應(yīng)過程,這使之具備自我進(jìn)化和自我學(xué)習(xí)的能力,從而逐漸逼近通用人工智能。
此外,o3 能夠自主決定何時(shí)以及如何使用 ChatGPT 中的各種工具(網(wǎng)絡(luò)搜索、Python 數(shù)據(jù)分析、DALL·E 圖像生成和視覺),以解決復(fù)雜、多方面的查詢。它可以鏈接多個(gè)工具調(diào)用,迭代搜索網(wǎng)絡(luò),分析結(jié)果,并在各種模式之間綜合信息。
對(duì) o3、o4-mini 和 o4-mini-high 進(jìn)行實(shí)際測(cè)試
現(xiàn)在讓我們?cè)谝恍?shí)際應(yīng)用中嘗試這些備受期待的新 o 系列模型。我們將測(cè)試所有三個(gè)模型在它們擅長(zhǎng)的任務(wù)上的表現(xiàn)。這包括:
- 使用 o3 進(jìn)行編碼
- 使用 o4-mini 進(jìn)行數(shù)學(xué)推理
- 使用 o4-mini-high 進(jìn)行視覺推理
讓我們開始吧!
任務(wù) 1:使用 o3 進(jìn)行編碼
提示詞: “創(chuàng)建一個(gè) Python 模擬,其中有 2 個(gè)球 - 一個(gè)是黃色的,另一個(gè)是藍(lán)色的 - 它們?cè)谝粋€(gè)順時(shí)針旋轉(zhuǎn)的五邊形內(nèi)的厚六邊形框架中彈跳。每次它們相撞時(shí),球必須變成綠色,并在下一次相撞時(shí)恢復(fù)原來的顏色。它們必須以遞增的速度移動(dòng)?!?/p>
o3 在不到一分鐘內(nèi)生成了完全功能的、無錯(cuò)的代碼,并附加了它的解釋,輸出結(jié)果非常棒!我嘗試過在其他各種模型上使用類似的提示,這絕對(duì)是第一次生成的最佳模擬之一。無論是形狀、運(yùn)動(dòng)方向和速度,還是顏色的變化 - 都是十分準(zhǔn)確的!唯一出錯(cuò)的是球一直在框架外移動(dòng)。
任務(wù) 2:使用 o4-mini 進(jìn)行數(shù)學(xué)推理的任務(wù)
提示詞: “從給定的算式中選出兩個(gè)數(shù)字,互換位置還能夠讓等式成立?”14 + 39 – (√256 ÷ 3) + (5 × 4) – 6 = 58″
o4-mini 只花了大約 10 秒鐘來回答這個(gè)問題。它展示了在生成最終答案之前的思考過程和分析,這使其更可信。結(jié)果準(zhǔn)確無誤,速度也很快。
任務(wù) 3:使用 o4-mini-high 進(jìn)行視覺推理的任務(wù)
提示詞: “軟木板上寫的點(diǎn)綴色是什么?”
輸入圖像:
o4-mini-high 在約一分鐘內(nèi)分析了圖像并讀取了手寫文本。它首先評(píng)估了圖像的大小,放大到便利貼貼在的部分。然后裁剪圖像,將模糊部分清晰化,然后嘗試閱讀文本。這是非常出色的,目前沒有其他模型能夠做到這一點(diǎn)。
盡管 o4-mini-high 可以讀到便簽上寫的“ACCENT COLOURS”,但只看到了其中提到的 4 種顏色中的 3 種,甚至讀錯(cuò)了。然而,有趣的是,在它的思維過程中,該模型提到無法清楚閱讀文本是因?yàn)樽煮w太小。
出于好奇,問 o4-mini-high“顯示器和頭盔是什么品牌?”,它立刻正確識(shí)別了它們。
o3 和 o4-mini 的可用性
這兩個(gè)模型都可以通過 OpenAI 的 ChatGPT 平臺(tái)和 API 服務(wù)進(jìn)行訪問:
ChatGPT 訪問 :ChatGPT Plus、Pro 和 Team 計(jì)劃的用戶可以直接在聊天界面上使用 o3、o4-mini 和 o4-mini-high 模型。
企業(yè)和教育用戶將在一周內(nèi)獲得訪問權(quán)限。
免費(fèi)用戶可以在提交查詢之前選擇“Think”選項(xiàng)來體驗(yàn) o4-mini。
API Access:開發(fā)者可以通過 OpenAI 的API將 o3 和 o4-mini 集成到其應(yīng)用程序中,從而在各種平臺(tái)上實(shí)現(xiàn)定制 AI 解決方案。
o3 和 o4-mini:基準(zhǔn)性能
o3 和 o4-mini 模型在一系列標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中展現(xiàn)出了出色的能力。
- SWE-Lancer:這兩個(gè)模型的高變異體在這個(gè)編碼基準(zhǔn)測(cè)試中表現(xiàn)出色,令它們的前輩相形見絀。
- 經(jīng)過 SWE-Bench 驗(yàn)證(軟件工程):o3 取得了 69.1%的成績(jī),而 o4-mini 緊隨其后,達(dá)到了 68.1%。這兩個(gè)模型在表現(xiàn)上明顯優(yōu)于以往的模型,如 o3-mini(49.3%)和像 Claude 3.7 Sonnet(63.7%)。
- Aider Polyglot(代碼編輯):這兩個(gè)模型在代碼編輯基準(zhǔn)測(cè)試中被證明是 OpenAI 中最佳的,創(chuàng)下了新紀(jì)錄。
- AIME 2025 (數(shù)學(xué)):o4-mini 通過配備 Python 解釋器創(chuàng)下了新的基準(zhǔn),得分為 99.5%,而 o3 緊隨其后,得分為 98.4%。
- Codeforces (競(jìng)技編程): o4-mini 實(shí)現(xiàn)了 2719 的 Elo 評(píng)分,反映了其在競(jìng)技編程場(chǎng)景中的先進(jìn)問題解決能力。與此同時(shí),o3 得分為 2706,仍遠(yuǎn)遠(yuǎn)優(yōu)于其他模型的表現(xiàn)。
- GPQA Diamond (PhD 級(jí)):o3 在不使用任何工具的情況下,通過在該基準(zhǔn)測(cè)試上達(dá)到 87.7%的準(zhǔn)確性,展示了先進(jìn)的科學(xué)推理能力。o4-mini 緊隨其后,準(zhǔn)確率為 81.4%。
- MMMU(大規(guī)模多模態(tài)多任務(wù)理解):o3 在這項(xiàng)基準(zhǔn)測(cè)試中表現(xiàn)出色,展示出其處理涉及文本和視覺數(shù)據(jù)的多樣且復(fù)雜任務(wù)的能力。
- Humanity’s Last Exam :在跨領(lǐng)域?qū)<壹?jí)推理能力的基準(zhǔn)測(cè)試中,o3 的準(zhǔn)確度達(dá)到了 26.6%,勝過所有其他 OpenAI 模型。與此同時(shí),o4-mini 明顯優(yōu)于其前身 o3-mini。
o3 和 o4-mini 的應(yīng)用
o3 和 o4-mini 的增強(qiáng)推理、工具使用和視覺能力解鎖了各種潛在應(yīng)用,包括:
- 復(fù)雜數(shù)據(jù)分析和報(bào)告: 通過編寫和執(zhí)行 Python 代碼分析數(shù)據(jù)集,從網(wǎng)絡(luò)獲取補(bǔ)充信息,并生成摘要或可視化。
- 高級(jí)科學(xué)研究:通過解釋復(fù)雜圖表、分析實(shí)驗(yàn)數(shù)據(jù)、搜索文獻(xiàn),并可能提出新的研究方向,來協(xié)助研究人員。
- 高級(jí)編碼和軟件工程:調(diào)試復(fù)雜的代碼,基于視覺模擬或圖表生成代碼,理解存儲(chǔ)庫結(jié)構(gòu),并執(zhí)行多步驟的軟件開發(fā)任務(wù)。
- 教育和輔導(dǎo):使用逐步推理解釋復(fù)雜的 STEM 概念,解釋教科書圖表或手寫筆記,并提供互動(dòng)問題解決協(xié)助。
- 多模態(tài)內(nèi)容創(chuàng)作與理解:生成圖像的詳細(xì)描述或分析,創(chuàng)建需要整合文本和視覺元素的內(nèi)容,并根據(jù)視覺證據(jù)回答問題。
- 商業(yè)智能與策略:使用實(shí)時(shí)網(wǎng)絡(luò)數(shù)據(jù)分析市場(chǎng)趨勢(shì),制定預(yù)測(cè),并基于綜合信息來源創(chuàng)建戰(zhàn)略計(jì)劃。
- 創(chuàng)新問題解決:解決需要結(jié)合不同類型信息和推理步驟的開放性挑戰(zhàn)。
結(jié)論
OpenAI 的 o3 和 o4-mini 模型代表了人工智能能力的重大進(jìn)步,特別是在推理和多模態(tài)理解方面。通過將深層推理與多才多藝的工具使用以及“以圖像思考”的新能力相結(jié)合,為人工智能的智能和效用設(shè)定了新標(biāo)準(zhǔn)。在各種基準(zhǔn)測(cè)試中的出色表現(xiàn),凸顯了在處理軟件工程以及科學(xué)研究等領(lǐng)域的復(fù)雜任務(wù)的潛力。
o3 即使面對(duì)最苛刻任務(wù)也展現(xiàn)出高性能的一面,而o4-mini 則展現(xiàn)了能力、速度和成本的一種平衡。無論如何,兩個(gè)模型都擁有自主能力,體現(xiàn)了人工智能的先進(jìn)程度。隨著人工智能的不斷發(fā)展,這種創(chuàng)新模型將為更復(fù)雜和多樣化的應(yīng)用鋪平道路,使我們更接近實(shí)現(xiàn) AGI(通用人工智能)。
譯者介紹
崔皓,51CTO社區(qū)編輯,資深架構(gòu)師,擁有18年的軟件開發(fā)和架構(gòu)經(jīng)驗(yàn),10年分布式架構(gòu)經(jīng)驗(yàn)。
原文標(biāo)題:o3 and o4-mini: OpenAI’s Most Advanced Reasoning Models,作者:K.C. Sabreena Basheer