自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<tt id="btjsi"></tt>

<sub id="btjsi"></sub>

<sub id="btjsi"><p id="btjsi"></p></sub>

<acronym id="btjsi"></acronym>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

o3全網(wǎng)震撼實(shí)測(cè)：AGI真來了？最強(qiáng)氛圍編程秒殺人類，卻被曝捏造事實(shí)

作者：新智元 2025-04-17 14:09:52

人工智能新聞

OpenAI新模型全網(wǎng)實(shí)測(cè)驚艷來襲！o3縮放圖像被玩瘋，o4-mini速解Project Euler，碾壓人類。AI初創(chuàng)CEO說，OpenAI憑此一役已經(jīng)重回榜首，甚至有經(jīng)濟(jì)學(xué)家直言AGI已經(jīng)來臨！

昨夜o3的發(fā)布，讓人不盡感慨：打了這么久嘴炮的OpenAI，這回終于實(shí)實(shí)在在拿出了點(diǎn)真東西。

史上首次，模型能夠用圖像思考，視覺推理達(dá)到巔峰。

許多網(wǎng)友實(shí)測(cè)后，大感驚艷。

o3能不斷縮放圖像，完成解題、識(shí)圖，編程任務(wù)實(shí)測(cè)驚人。

還有一大特點(diǎn)，就是速度快！只用2分55秒，它就解決了一道Project Euler問題，速度秒殺任何人類。

甚至可以認(rèn)為，o3是一個(gè)快速版的Deep Search，但不需要20分鐘，只需要2分鐘。

AI初創(chuàng)CEO Dan Shipper表示，o3意味著一件大事——OpenAI已經(jīng)重回榜首！

經(jīng)濟(jì)學(xué)家Tyler Cowen甚至直接發(fā)文，深感就在今天，AGI已經(jīng)降臨！

縮放圖像，被網(wǎng)友玩瘋

給出一張圖，o3就可以反復(fù)縮放和裁剪圖像，多小的圖，經(jīng)過這一番操作后都能馬上被識(shí)別出來。

比如琴架上曲譜里是什么歌，它通過放大圖片就能發(fā)現(xiàn)：這是「月亮河」。

發(fā)給o3一張嬰兒車的照片，詢問品牌和型號(hào)后，它會(huì)自動(dòng)放大靠背上的小標(biāo)志，經(jīng)過14次搜索后，找到了正確答案。

還有人給o3發(fā)了一張圖片，問它這輛車是哪個(gè)品牌和型號(hào)。

o3一番絲滑操作，多次裁剪圖片，不停用Python寫代碼，然后開始在網(wǎng)上狂搜，僅僅4分鐘后，它就找到了正確答案，堪稱驚人！

無論是確認(rèn)飯店名字，還是做出一堆玩具中紙上的謎題，它都游刃有余。

有人讓4o來分析y軸上的數(shù)字，確認(rèn)它們是否符合大海撈針測(cè)試中的S型分布。

果然，它不僅做到了，甚至還根據(jù)這些數(shù)字做出了一張圖表。

綜合解題能力

o3的綜合解題能力，讓人倍感驚艷。

Layers Itd的聯(lián)創(chuàng)兼開發(fā)主管稱，o3實(shí)在令他印象太深刻了，因?yàn)橄聢D中這個(gè)問題，第一次被一個(gè)模型一次性解決了！

而o4-mini-high則是和其他模型一樣，在幾次嘗試后才成功解決。

問題看似很簡(jiǎn)單：紅色柱子有多高？

這道題的精髓，無非就是算出物體實(shí)際高度和投在地上影子的比例，另外要注意紅柱子落在豎直墻上的影長(zhǎng)，跟對(duì)應(yīng)部分的實(shí)際高度一致。

如此簡(jiǎn)單的問題，卻讓很多大模型第一次都折戟了，只有o3順利做出。

而生物醫(yī)學(xué)教授Derya Unutamz表示，自己被全新的o3模型徹底震撼了！

因?yàn)橐呀?jīng)提前獲得了訪問權(quán)限，他已經(jīng)好幾天對(duì)o3愛不釋手。

在他看來，o3就像o1-preview和o1-pro的里程碑，但在各個(gè)方面都更聰明、更可靠，甚至可以說，o3的智能水平已經(jīng)達(dá)到或接近天才級(jí)別。

它從不產(chǎn)生幻覺，智能體風(fēng)格工具能輕松處理多步驟任務(wù)，還具備非凡的推理能力和精確性，能生成極具洞察力的科學(xué)假設(shè)。

當(dāng)Unutamz教授向o3提出極有挑戰(zhàn)性的臨床或醫(yī)學(xué)問題時(shí)，它的回答仿佛來自頂級(jí)的?？漆t(yī)生，精確、全面、基于證據(jù)、充滿智慧。

他表示，o3的誕生，對(duì)于科學(xué)、醫(yī)學(xué)及很多領(lǐng)域，都是一個(gè)徹底的顛覆者。

而最喜歡給新模型測(cè)試「水獺難題」的沃頓商學(xué)院教授Ethan Mollick，則直接讓o3制作了一部關(guān)于水獺和飛機(jī)的電影。

接到這個(gè)指令后，o3雖然沒有電影功能，立即自行決定繪制每一幀，然后拼接成gif。這個(gè)任務(wù)，它一次性順利完成。

AGI已經(jīng)降臨？

OpenAI的工程師、普林斯頓校友John Hallman，在o3完成訓(xùn)練后提早有了試用新模型的機(jī)會(huì)，他難掩內(nèi)心沖動(dòng)：

o3就是AGI。

雖然還不完美，但在99%的智力評(píng)估中，o3模型能擊敗我、你乃至99%的人類。

經(jīng)濟(jì)學(xué)家Tyler Cowen，直接發(fā)文宣揚(yáng)：昨天OpenAI發(fā)布o(jì)3之日，就是AGI降臨之日。

他堅(jiān)信o3就是AGI，但釋放AGI潛力，尚需時(shí)日：

我認(rèn)為這是AGI，真的。

試著問它多個(gè)問題，然后問問自己：我原本期望AGI有多聰明？

正如我過去所爭(zhēng)論的，無論你如何定義AGI，它本身并不是社會(huì)事件。我們?nèi)匀恍枰荛L(zhǎng)時(shí)間才能正確地使用它。但股市不為所動(dòng)，因?yàn)锳I快速發(fā)展的事實(shí)早已被市場(chǎng)消化。

初創(chuàng)媒體聯(lián)合創(chuàng)始人/首席執(zhí)行官Dan Shipper，稱ChatGPT是「帶WiFi的梭羅」，對(duì)本次o3的發(fā)布更是贊不絕口！

他玩了o3大約一星期，已經(jīng)是他最喜歡的模型了。

它速度快，有主動(dòng)性，極其聰明，而且氛圍感很強(qiáng)。

Dan Shipper表示，可以把o3看作是Deep Search-lite。

它仿佛可以對(duì)所有事物進(jìn)行深度研究，但并不需要花20分鐘，而是只要30秒到5分鐘。

而Dan Shipper最喜歡的o3用例之一，是制作迷你課程。它可以設(shè)計(jì)一門課，每天用「提醒」工具給你上一堂新課。

最令人驚訝的體驗(yàn)

在o3正式發(fā)布之前，Dan Shipper已提前測(cè)評(píng)了好幾天。

他給予了o3最高的評(píng)價(jià)：

在短短一周內(nèi)，它已經(jīng)成為我處理大多數(shù)任務(wù)時(shí)的首選模型。

我仍然用GPT 4.5來寫作，用3.7 Sonnet來編程Windurf，但除此之外，我?guī)缀鯚o時(shí)無刻不在使用o3。

這里是o3的簡(jiǎn)要總結(jié)：

它具備自主能力：你只需給它一個(gè)任務(wù)，30秒或3分鐘后回來，它就能給出詳細(xì)的回答。它可以利用搜索、代碼解釋器、提醒和記憶等工具，編寫復(fù)雜的功能等等。
它很快，非常流暢：速度是智能的一部分。在測(cè)試中，o3在這一維度上始終比Anthropic和Google的前沿推理模型（分別是Claude 3.7 Sonnet和Gemini 2.5 Pro）要快。使用起來非常順暢。
它非常聰明：雖然現(xiàn)在沒有基準(zhǔn)數(shù)據(jù)，但給它喂了一些專家級(jí)的數(shù)獨(dú)題目，它第一次就解出來了。Gemini 2.5 Pro和3.7 Sonnet都沒能解決。
它突破了ChatGPT的一些舊局限：因?yàn)樗邆渥灾鞔砟芰?，舊規(guī)則不再適用。它讓ChatGPT變得更加實(shí)用。
在社交上，它不那么尷尬，也不像3.7 Sonnet那樣過于刻意：o3會(huì)專注于解決問題。似乎比其他o系列模型更有「人情味」，與它交流更有趣；盡管它的寫作能力不如GPT 4.5（安息）或Sonnet 3.5，但仍然非常不錯(cuò)。

對(duì)OpenAI而言，這是一個(gè)極具價(jià)值的戰(zhàn)略定位，將進(jìn)一步鞏固其作為AI時(shí)代首選聊天平臺(tái)的領(lǐng)先地位。

o3的發(fā)布，也印證了企業(yè)動(dòng)蕩的歷史經(jīng)驗(yàn)。

在Sam Altman被解雇后的一年里，OpenAI新產(chǎn)品發(fā)布緩慢，分析師們甚至預(yù)言其將走向衰落。

而隨著o3的推出，以及此前GPT-4.5的發(fā)布和深厚的研究積累，OpenAI正以勢(shì)不可擋的姿態(tài)強(qiáng)勢(shì)回歸。

勝過人類的表現(xiàn)

前DeepMind工程師Scott Swingle稱，o4-mini-high只用了2分55秒就解決了一道最新的Project Euler問題。

這道題并不簡(jiǎn)單，只有15個(gè)人能在30分鐘內(nèi)解決它。

而且這還是一道幾天前才出來的新題，不可能出現(xiàn)在o4的訓(xùn)練集中，這表明o4-mini-high依靠「思考」解決了它。

o4-mini-high通過歸納法計(jì)算數(shù)學(xué)表達(dá)式，它先定義一個(gè)公式并用快速冪運(yùn)算提取特定系數(shù)。接著通過累加和模運(yùn)算逐步計(jì)算出結(jié)果，并用Python代碼驗(yàn)證了答案。

解題速度比之前人類的最好成績(jī)快了一倍。

不過，這還不是它的極限，網(wǎng)友Dan Loewenherz用它又解了一遍這道題，結(jié)果這次更夸張，只用了不到一分鐘就搞定。

隨著o4-mini不斷的更新升級(jí)，它解答類似問題的速度也會(huì)越來越快，與人類選手對(duì)比速度快慢也就沒太大意義了。

換句話說，至少在編程數(shù)學(xué)領(lǐng)域，o4-mini-high可能已經(jīng)達(dá)到了AGI。

網(wǎng)友Flavio Adamo更是認(rèn)為稱o3和o4-mini-high為最佳「氛圍」編程模型。

Adamo最先在網(wǎng)上發(fā)起了針對(duì)模型的旋轉(zhuǎn)多邊形和小球挑戰(zhàn)。

這一挑戰(zhàn)既能考察模型的編程能力，也能檢驗(yàn)?zāi)Ｐ蛯?duì)物理法則的了解，迅速成為測(cè)試新模型的基準(zhǔn)測(cè)試。

o3和o4-mini-high在這一挑戰(zhàn)上的表現(xiàn)完美，甚至不相上下。

無論是多邊形的旋轉(zhuǎn)還是小球的運(yùn)動(dòng)，都與現(xiàn)實(shí)接近。

它們的表現(xiàn)已經(jīng)超越了被認(rèn)為是現(xiàn)在最強(qiáng)的模型Gemini 2.5 Pro與DeepSeek R1。

o3正在絕對(duì)主導(dǎo)SEAL排行榜，排名第一的項(xiàng)目有：人類終極測(cè)試（Humanity's Last Exam、多挑戰(zhàn)（MutiChallenge）、掩碼（Mask）以及ENIGMA（謎題解答）。

有人質(zhì)疑：o3并沒有那么厲害

不過，雖然外界多把o3和o4-mini-high吹上了天，甚至有人喊出這兩個(gè)模型已經(jīng)「解決了」數(shù)學(xué)問題。

但OpenAI的自家研究員Noam Brown卻表現(xiàn)得比較謙虛，他說o3和o4-mini在撰寫證明方面仍然表現(xiàn)不佳。

與獲得國際數(shù)學(xué)奧賽金牌的水平「相去甚遠(yuǎn)」。

更有人實(shí)測(cè)后，發(fā)現(xiàn)o3還是不知道「strawberry」里到底有幾個(gè)字母「r」。

Gary Marcus一貫不看好目前的AI范式，直接預(yù)測(cè)：o3只是風(fēng)光一時(shí)，在現(xiàn)實(shí)的日常推理中，o3的可靠性不如數(shù)學(xué)等封閉領(lǐng)域。

Transluce研究實(shí)驗(yàn)室測(cè)試了o3的預(yù)發(fā)布版本，也發(fā)現(xiàn)了它的重大缺陷——經(jīng)常捏造事實(shí)！

它不僅經(jīng)常捏造從未采取過的行動(dòng)，甚至還在被質(zhì)疑時(shí)會(huì)精心辯解。

它經(jīng)常捏造從未采取過的行動(dòng)，然后在被質(zhì)疑時(shí)精心為這些行動(dòng)辯解。

甚至在打假過程中，他們發(fā)現(xiàn)o1和o3-mini也會(huì)經(jīng)常進(jìn)行虛假陳述。

盡管o3沒有訪問編碼工具，但它卻聲稱在自己的筆記本電腦上運(yùn)行了代碼，然后將數(shù)字復(fù)制到了答案中。這種說法，出現(xiàn)在了71份記錄中！

甚至，它還會(huì)為自己聲稱運(yùn)行的代碼編造詳細(xì)的理由，在352個(gè)實(shí)例可以證明這一點(diǎn)。

用戶要求o3提供一個(gè)隨機(jī)素?cái)?shù)的示例記錄

當(dāng)被質(zhì)疑時(shí)，o3嘴硬辯稱，自己有壓倒性的統(tǒng)計(jì)證據(jù)，證明這個(gè)數(shù)是素?cái)?shù)。

它拒不承認(rèn)自己從未運(yùn)行過代碼，而是聲稱錯(cuò)誤是源于輸入數(shù)字不正確。

總之，o3似乎很習(xí)慣滿嘴跑火車。

而且Transluce發(fā)現(xiàn)，這種行為并不局限于o3?？傮w來說，o系列模型的幻覺頻率要高于GPT系列模型。

Transluce的研究者猜測(cè)，或許是基于結(jié)果的RL最大化產(chǎn)生正確答案的機(jī)會(huì)，會(huì)激勵(lì)模型去盲目猜測(cè)。

責(zé)任編輯：張燕妮來源：新智元

OpenAI 模型編程

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)