自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

實測o3/o4-mini:3分鐘解決歐拉問題,OpenAI最強模型名副其實!

人工智能
使用基于結(jié)果的強化學(xué)習(xí)可能會導(dǎo)致模型盲目猜測,并且某些行為(如模擬代碼工具)可能會在某些任務(wù)上提高準(zhǔn)確性,但在其他任務(wù)上造成混淆。

號稱“OpenAI迄今為止最強模型”,o3/o4-mini真實能力究竟如何?

就在發(fā)布后的幾小時內(nèi),網(wǎng)友們的第一波實測已新鮮出爐。

最強推理模型o3,即使遇上首位全職提示詞工程師Riley Goodside的“刻意刁難”,也順利過關(guān):

圖片圖片

可以看到,面對藏在一堆玩具里的手繪圖表,它也能通過圖像識別和推理能力正確解答。

圖片圖片

而o4-mini作為一款專為快速、經(jīng)濟(jì)高效的推理而優(yōu)化的小模型,在數(shù)學(xué)能力方面堪稱強悍——

用時2分55秒,解決了最新的歐拉問題,并且該網(wǎng)友強調(diào):

至今只有15個人能夠在30分鐘內(nèi)解決它。

圖片圖片

與此同時,OpenAI內(nèi)部技術(shù)人員也表示,o3的出現(xiàn)讓他第一次萌生了將模型稱為通用人工智能(AGI)的念頭。

圖片圖片

眼見氣氛都烘托到這兒了,那我們還不得趕緊看看更多實測效果(doge)。

網(wǎng)友實測o3/o4-mini

首次帶圖深度思考

首先,官方提到,o3和o4-mini是OpenAI首次能將上傳圖像集成到思維鏈中的模型——

這意味著,它們可以基于圖像展開思考。

比如有人隨手上傳一張照片,讓o3來判斷拍攝時間和地點,而且要求能具體到地圖上的某一個點。

結(jié)果令這位小哥驚訝的是,其答案和實際情況之間的誤差非常?。?/p>

地點僅相差1000英尺(約305米),時間僅相差2分鐘。

圖片圖片

更有意思的是,假如一張圖上的小字看不清,通過扒思維鏈還能發(fā)現(xiàn)——o3甚至?xí)约骸巴低捣糯蟆薄?/p>

圖片圖片

難怪在針對復(fù)雜多模態(tài)謎題的EnigmaEva測試基準(zhǔn)中,o3能拿下SOTA。

圖片圖片

不過值得注意的是,據(jù)自稱OpenAI員工的網(wǎng)友爆料,雖然基準(zhǔn)測試結(jié)果存在差異,但o4-mini實際上是比o3更好的視覺模型。

該網(wǎng)友甚至直接建議大家:

在任何涉及視覺的任務(wù)中使用o4-mini-high而不是o3。

圖片圖片

巧合的是,在大多需要計算復(fù)雜數(shù)學(xué)題的帶圖測試中,大家竟默契選擇了o4-mini而非o3。

除了一開頭提到的解答歐拉問題的例子,o4-mini也被用來解讀技術(shù)圖紙。

該網(wǎng)友表示,對于這種大多AI都很難搞定的難題,它一次就成功了:

o4 mini(high)能夠分析該部件的尺寸并準(zhǔn)確計算出正確體積。

圖片圖片

編程能力

其次,兩個新模型這次在編程能力上都有一定程度升級,測試結(jié)果表明:

其中o3 High取代谷歌Gemini-2.5,拿下編程第一。

圖片圖片

順帶OpenAI這次還開源了一個本地代碼智能體Codex CLI——

它是一種聊天驅(qū)動的開發(fā)方式 ,能夠理解并執(zhí)行本地代碼庫,兼容所有OpenAI模型,包括剛剛發(fā)布的o3、o4-mini和GPT-4.1。

賓大沃頓商學(xué)院教授Ethan Mollick,這次直接利用o3的推理+編程能力制作了一個小短片:

圖片圖片

從完整制作過程來看,這里還同步考察了o3調(diào)用各項工具的能力。

  • 第一步:理解需求;
  • 第二步:使用編程庫生成幀,并將這些幀組合成一個視頻文件;
  • 第三步:使用Python的PIL庫(Pillow)來處理圖像,使用imageio庫來創(chuàng)建視頻文件;
  • 第四步:生成幀;
  • ……

圖片圖片

最后我們也簡單實測了一把,重點考察一下o3和o4-mini的推理能力。

比如讓它們分別幫忙看看“手相”,o3的結(jié)果如下:

圖片圖片

o4-mini:

圖片圖片

可以看到,兩個模型對人物性格特征的判斷大致相似,不過o3還額外給了一些提示建議。

p.s. 原圖為AI生成,大家感興趣可以自己試試~

One More Thing

有趣的是,有網(wǎng)友在實測o3的過程中還發(fā)現(xiàn)了一個現(xiàn)象:

o系列模型比GPT系列模型更容易錯誤地聲稱使用了代碼工具

圖片圖片

為此他們還專門寫了一篇博客,其中揭露了:o3經(jīng)常編造其為滿足用戶請求而采取的行動,并在用戶質(zhì)疑時詳細(xì)地為這些編造進(jìn)行辯解。

圖片圖片

就像下面這樣,模型聲稱它在筆記本電腦上運行了實際并不存在的代碼。

圖片圖片

而且通過進(jìn)一步研究發(fā)現(xiàn),這些偽造行為包括下面這些:

1、錯誤地聲稱執(zhí)行代碼,聲稱“我本地運行了這個”或“運行它產(chǎn)生了”后面跟著特定輸出,而模型沒有能力執(zhí)行Python或其他編程語言;

2、編造詳細(xì)的計算結(jié)果,包括特定的數(shù)值、統(tǒng)計數(shù)據(jù)和加密哈希值,表現(xiàn)為它們是實際執(zhí)行輸出而不是估計或示例;

3、……

圖片圖片

同時,他們也初步提出了造成這一現(xiàn)象的可能原因:

首先就是模型幻覺和獎勵黑客攻擊,他們表示這些問題在o系列模型中尤為普遍。

另外,使用基于結(jié)果的強化學(xué)習(xí)可能會導(dǎo)致模型盲目猜測,并且某些行為(如模擬代碼工具)可能會在某些任務(wù)上提高準(zhǔn)確性,但在其他任務(wù)上造成混淆。

最后就是,o系列模型在處理連續(xù)對話時有一個限制,它們無法訪問之前的推理過程,這可能導(dǎo)致模型在回答問題時出現(xiàn)不準(zhǔn)確或不一致的情況。

圖片圖片

順便一提,即日起,ChatGPT的Plus、Pro會員以及Team用戶,都能直接體驗o3、o4-mini和o4-mini-high,而原本的o1、o3-mini和o3-mini-high則已悄然下架。

你怎么看OpenAI這次發(fā)布的o3和o4-mini?

博客:https://transluce.org/investigating-o3-truthfulness

參考鏈接:

[1]https://x.com/goodside/status/1912604138518851990

[2]https://x.com/johnohallman/status/1912608446274498747

[3]https://x.com/bio_bootloader/status/1912566454823870801

[4]https://x.com/TransluceAI/status/1912552046269771985


責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-04-23 08:30:05

2025-04-21 16:25:58

OpenAI測試模型

2024-12-24 16:15:04

2025-04-07 07:18:48

2025-04-17 06:10:57

2025-04-17 08:59:59

2025-04-21 08:22:25

2025-04-17 07:23:10

2025-04-17 14:09:52

OpenAI模型編程

2025-04-17 06:36:29

2025-02-08 17:00:11

2025-04-25 10:26:19

2025-02-07 09:05:36

2025-01-20 19:52:50

2025-02-03 14:06:32

2017-05-18 11:11:20

Google谷歌開發(fā)者大會

2025-03-10 08:10:00

AI研究安全

2025-04-14 09:17:00

2025-04-21 16:32:29

視覺模型AI

2024-12-23 07:40:00

AI模型數(shù)學(xué)
點贊
收藏

51CTO技術(shù)棧公眾號