自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

大半精銳盡出!o1下線!滿血o3之后,模型本身就是Manus,最大賣點(diǎn):替代人干真活! 原創(chuàng)

發(fā)布于 2025-4-17 06:27
瀏覽
1收藏

編輯 | 云昭

出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)

4月17日凌晨1點(diǎn),一半OpenAI的模型精銳都出來秀肌肉了!

凌晨一點(diǎn),OpenAI派出了8位新老大將齊聚今晚的直播間,一起解說OpenAI新發(fā)布的目前OpenAI最為強(qiáng)大、最為智能的模型:滿血o3和o4-mini!

可以說這次發(fā)布的重點(diǎn)和賣點(diǎn)就是:實(shí)用價(jià)值(真能代替你干活)!??????

“這些是首批得到頂尖科學(xué)家和律師認(rèn)可的模型,這些模型能夠產(chǎn)生真正有價(jià)值且實(shí)用的新想法。我們已經(jīng)看到了非常出色的結(jié)果?!?Sam的好盟友、OpenAI聯(lián)創(chuàng)Geg Brockman開場(chǎng)來了一波客戶證言。

大半精銳盡出!o1下線!滿血o3之后,模型本身就是Manus,最大賣點(diǎn):替代人干真活!-AI.x社區(qū)圖片

這次帶貨的兩大主播分別是OpenAI聯(lián)合創(chuàng)始人Greg Brockman以及首席研究官M(fèi)ark Chen,

其他六位則是o系列模型的研究員或貢獻(xiàn)者,分別是:在OpenAI主要負(fù)責(zé)o系列模型研究的Eric Mitchell, 多模態(tài)推理研究員Brandon McKinzie, 新模型核心貢獻(xiàn)者Wenda Zhou, 以及去年4月臨危受命接管Ilya離職后的空懸的安全團(tuán)隊(duì)任務(wù)的,現(xiàn)在是Agent Research的Fouad Matin, o系列模型貢獻(xiàn)者M(jìn)ichael Bolin (后也來到了Agent Resarch)和 Ananya Kumar。

1.滿血o3之后,模型即是Agent!

Brockman絕對(duì)是場(chǎng)控大哥,上來就拋出了o3和o4的兩大感受:一、模型可以被訓(xùn)練使用工具,二、模型不再僅僅是生成代碼片段而是可以處理實(shí)際的代碼問題。

“這些模型的真正神奇之處在于,它們不僅僅是普通的AI系統(tǒng)。我們可以訓(xùn)練它們使用工具,這是我們以前的模型所沒有做到的。它們?cè)趪L試解決復(fù)雜問題時(shí),會(huì)在思考過程中真正使用這些工具。例如,我們看到o3連續(xù)調(diào)用了600次工具來解決一些非常棘手的問題。”

大半精銳盡出!o1下線!滿血o3之后,模型本身就是Manus,最大賣點(diǎn):替代人干真活!-AI.x社區(qū)

還有一件讓我非常興奮的事情是,這些模型在軟件工程方面的能力不僅僅是一次性的代碼片段,而是真正能夠處理實(shí)際的代碼問題。我發(fā)現(xiàn)這些模型在這方面甚至比我更擅長,它們?cè)谖覀兊拈_源項(xiàng)目中表現(xiàn)得非常出色?!?/p>

Mark Chen則進(jìn)一步解釋了“模型可以使用工具”的“后果”——???

“我們對(duì)工具使用的興奮源于它使我們的推理模型變得更加有用和智能。正如你可能會(huì)用計(jì)算器解決一個(gè)復(fù)雜的數(shù)學(xué)問題,或者用地圖來導(dǎo)航一樣,當(dāng)我們的模型與合適的工具結(jié)合時(shí),它們會(huì)變得更加強(qiáng)大?;谶@一點(diǎn),我們將o系列推理模型與我們完整的工具套件相結(jié)合,在許多非常復(fù)雜的任務(wù)中取得了最先進(jìn)的成果?!?/p>

Chen還舉了一個(gè)典型的例子:直接讓模型處理圖像。o3模型可以使用Python來操作、裁剪和轉(zhuǎn)換圖像,以完成你想要的任務(wù)。

“這意味著今天你可以上傳復(fù)雜的內(nèi)容。你可以上傳一張倒置的藍(lán)光圖片,而模型會(huì)處理它。”

那背后究竟是如何做到的呢?

Mark Chen解釋道:這些進(jìn)步是由我們在RL范式中的持續(xù)算法改進(jìn)所推動(dòng)的,我們繼續(xù)在訓(xùn)練時(shí)間和測(cè)試時(shí)間上進(jìn)行擴(kuò)展。

讓我非常興奮的是,就在一兩周前,我看到一篇新的論文中提到了O3 Mini High,它幫助證明了一個(gè)尚未解決的定理。我真的相信,憑借O3和O4 Mini這一系列模型,我們將看到更多類似的事情。

Eric和Brandon,現(xiàn)場(chǎng)秀起了這兩項(xiàng)功能:使用工具、代碼處理圖片(多模態(tài)推理)。

大半精銳盡出!o1下線!滿血o3之后,模型本身就是Manus,最大賣點(diǎn):替代人干真活!-AI.x社區(qū)圖片

Brandon解說得很到位,“我要輸入的是我2015年做的一個(gè)物理學(xué)實(shí)習(xí)項(xiàng)目的海報(bào)。這個(gè)項(xiàng)目的目標(biāo)是估算一個(gè)叫做質(zhì)子ISO矢量標(biāo)量的粒子物理量,它能告訴你短程相互作用的強(qiáng)度。你會(huì)看到模型o3正在放大圖像。它有點(diǎn)像在瀏覽或放大,以便更好地查看。它正在尋找我提出的問題的正確數(shù)值,也就是找到我之前的結(jié)果,并將其與最近的文獻(xiàn)進(jìn)行比較。

但這里有一個(gè)小轉(zhuǎn)折。結(jié)果其實(shí)并不在Brandon上傳的海報(bào)里,“因?yàn)楫?dāng)時(shí)我還沒有得到這個(gè)結(jié)果,盡管它在我的最終論文中,但不在這個(gè)海報(bào)里。我實(shí)際上是讓o3為我完成這個(gè)項(xiàng)目的剩余部分。”

演示中,o3果真找到了Brandon想要的圖表。

接下來o3還需要計(jì)算這個(gè)圖表的斜率,推導(dǎo)到一個(gè)特定的物理夸克質(zhì)量,然后抓取那個(gè)數(shù)值,并應(yīng)用另一個(gè)量來歸一化這個(gè)值。

“我認(rèn)為它已經(jīng)大致明白了應(yīng)該做什么,但它還在花一點(diǎn)時(shí)間探索圖像。現(xiàn)在它將開始瀏覽網(wǎng)絡(luò),尋找合理的結(jié)果。”

“它告訴我這個(gè)結(jié)果,這很好。對(duì)我來說,重新熟悉我的項(xiàng)目就需要好幾天,更不用說搜索文獻(xiàn)了?!?/p>

而o3的厲害之處在于,它的論文理解速度已經(jīng)遠(yuǎn)超過人類,“它肯定在幾秒鐘內(nèi)讀了至少10篇不同的論文。

這次演示沒有翻車,o3最后給出了正確的結(jié)果,而且細(xì)節(jié)處理得也很到位,人類有時(shí)候都會(huì)粗心犯的錯(cuò),o3顯然不會(huì)。??

“它通過推導(dǎo)估算出了一個(gè)未歸一化的值,然后當(dāng)你乘以這個(gè)特定常數(shù)時(shí),它會(huì)重新歸一化。它說,最終你會(huì)得到這個(gè)結(jié)果,這在我的論文中大概是1.2左右,然后它與實(shí)際文獻(xiàn)進(jìn)行了比較。這里有幾個(gè)不同的估計(jì)值,看起來有點(diǎn)接近。

o3非常專業(yè)地指出,Brandon論文中的原始值看起來偏高,因?yàn)樗枰獨(dú)w一化。在乘以那個(gè)常數(shù)之后,你得到的結(jié)果與最先進(jìn)的結(jié)果更一致。

不同于Brandon演示的科學(xué)研究領(lǐng)域,Eric則讓o3演示了一個(gè)更接地氣的場(chǎng)景:寫一篇圖文并茂的博客、甚至可以讀出來。??

大半精銳盡出!o1下線!滿血o3之后,模型本身就是Manus,最大賣點(diǎn):替代人干真活!-AI.x社區(qū)圖片

“這里有一個(gè)很好的博客文章,模型在這里流暢地瀏覽,使用數(shù)據(jù)分析來展示和繪制數(shù)據(jù)。它使用Canvas生成博客文章,并在結(jié)尾處總結(jié)引用了它找到的內(nèi)容和來源?!踔量梢圆シ怕曇??!?/p>

也就是說,有了使用工具能力的o3自己本身就是一個(gè)Agent!

正如Eric總結(jié)的:新的大模型結(jié)合上使用工具的能力,無論你是在某個(gè)科學(xué)領(lǐng)域的前沿,還是將這個(gè)模型整合到你的日常工作中,都會(huì)很有用。

2.理科難題能力幾乎撐爆測(cè)試集o4-mini AIME 99%,數(shù)學(xué)競(jìng)賽近全對(duì)????

上面這些可以說是形象的讓大家知道了滿血o3和o4的厲害之處,那么基準(zhǔn)性能上這次都有哪些新進(jìn)展呢???????????

Wenda Zhou和Ananya展示了這些模型在數(shù)學(xué)、編程和科學(xué)方面的標(biāo)準(zhǔn)基準(zhǔn)測(cè)試結(jié)果。其中Wenda Zhou從事可擴(kuò)展系統(tǒng)的研究的, Ananya從事最新o系列模型的算法工作,

大半精銳盡出!o1下線!滿血o3之后,模型本身就是Manus,最大賣點(diǎn):替代人干真活!-AI.x社區(qū)圖片

圖中顯示,深黃色的條形代表新的模型系列滿血o3和o4,淺黃色的條形代表舊的模型系列o1和o3-mini。

有一處很顯眼的地方,在AIME數(shù)學(xué)競(jìng)賽中,僅僅使用python的o4-mini的準(zhǔn)確率獎(jiǎng)金達(dá)到了99%,可以說幾近于全對(duì)。

在編程任務(wù)Codeforces方面,新的模型的得分均超過了2700分,這意味著它們可以在全球參賽者中排名前300。

而GPQA是一套艱難的博士級(jí)問題,o3的得分超過了83%,這相當(dāng)令人難以置信。

如果你回望過去的兩年,就會(huì)發(fā)現(xiàn):OpenAI再大模型的復(fù)雜推理上、尤其是理工科的能力上簡(jiǎn)直不要太領(lǐng)先。??????????????

當(dāng)然,注意滿血o3和o4-mini的優(yōu)秀的成績得益于模型的工具使用能力。這里有一個(gè)模型解決數(shù)學(xué)難題任務(wù)的展示。問題是要求你查看這個(gè)2×2的方格,并計(jì)算從未驗(yàn)證過的著色組合的數(shù)量。

大半精銳盡出!o1下線!滿血o3之后,模型本身就是Manus,最大賣點(diǎn):替代人干真活!-AI.x社區(qū)圖片

不過模型跟人的思考方式很不同。它首先生成了一個(gè)暴力解決方案,然后使用Python解釋器運(yùn)行它,并得到了正確的答案,即82。但這個(gè)解決方案很混亂,相當(dāng)不優(yōu)雅。

“模型意識(shí)到這一點(diǎn),然后簡(jiǎn)化了它的解決方案,找到了一個(gè)更聰明的方法。然后它還再次檢查了它的答案,以增加可靠性,這很酷?!?/p>

現(xiàn)在,這些模型不僅僅是被訓(xùn)練來輸出正確答案,它們還被訓(xùn)練成有用的工具。

Ananya認(rèn)為,真正酷的地方在于,團(tuán)隊(duì)并沒有直接訓(xùn)練模型使用某些策略,既沒有說“簡(jiǎn)化你的解決方案”,也沒告訴他“再次檢查”。模型是自然地學(xué)會(huì)了這些方法,這相當(dāng)令人難以置信。

Zhou補(bǔ)充表示,模型本質(zhì)上產(chǎn)生了一個(gè)內(nèi)部解決方案,雖然人類也可以做到,但最初的暴力解決方案當(dāng)然在實(shí)際情境中人類是沒有時(shí)間去做的。

Zhou還展示了一個(gè)o3模型完成SWE任務(wù)的示例,這是一個(gè)涉及到工程任務(wù)和代碼錯(cuò)誤的很好的示例。

大半精銳盡出!o1下線!滿血o3之后,模型本身就是Manus,最大賣點(diǎn):替代人干真活!-AI.x社區(qū)圖片

圖中的問題,實(shí)際上是要模型要解決的是關(guān)于一個(gè)名為Sympi的包中的一個(gè)錯(cuò)誤,這是一個(gè)用于符號(hào)數(shù)學(xué)的Python包。Zhou用問題提示它,并且給模型提供了一個(gè)容器,里面有Sympi的代碼庫。所以模型可以訪問一個(gè)所有代碼。?

o3模型最后處理的也很nice?!八婚_始只是再次確認(rèn)我在說什么,并看看它是否觀察到了同樣的事情,就像人的第一反應(yīng)。”

緊接著,模型總是會(huì)問一些好問題。所以,為了再次確認(rèn),它會(huì)檢查符號(hào)是否沒有正確應(yīng)用。j檢查出這是內(nèi)部行為的錯(cuò)誤后,試圖修復(fù)它。

就這樣,模型會(huì)繼續(xù)瀏覽代碼,試圖找到代碼庫的層次結(jié)構(gòu),并為此使用常見的終端工具。所以,它會(huì)打開文件,打印出相關(guān)文件,并試圖找到出錯(cuò)的地方。

最后找到了可疑的地方,就可以修改,應(yīng)用補(bǔ)丁,然后給出正確的解決方案。最后,為了確認(rèn)這一點(diǎn),模型還運(yùn)行了一個(gè)單元測(cè)試,就像工程師在確認(rèn)自己是否得到了正確答案一樣。

整個(gè)過程看起來非常繁瑣,但實(shí)際上不到2分鐘,而且一切都是模型自己完成的,Zhou透露,這一次模型進(jìn)行了多輪與容器的交互,token消耗量也很驚人。?

在某些情況下,模型進(jìn)行100次容器交互,80k個(gè)token,平均是37次容積交互,消耗24k個(gè)token。?

大半精銳盡出!o1下線!滿血o3之后,模型本身就是Manus,最大賣點(diǎn):替代人干真活!-AI.x社區(qū)圖片

3.多模態(tài)推理任務(wù)比肩DeepResearch,速度更快?????????????

多模態(tài)能力方面,滿血o3也取得了相當(dāng)驚人的數(shù)字。???????

大半精銳盡出!o1下線!滿血o3之后,模型本身就是Manus,最大賣點(diǎn):替代人干真活!-AI.x社區(qū)圖片

公開的多模態(tài)基準(zhǔn)測(cè)試的數(shù)字顯示,在MathVistaArchive和Visual Search上,o3和o4對(duì)于多模態(tài)任務(wù)依舊非常有用。

“將推理范式應(yīng)用于多模態(tài),以前幾乎是不可能的,但現(xiàn)在正如Brandon在演示中所展示的,模型能夠在思考鏈中直接操作圖像,這帶來了巨大的提升?!?/p>

在“人類最后的考試”中,o3(無工具)、o3(python+瀏覽器等工具)、o4mini(python+瀏覽器)都能接近DeepResearch的結(jié)果。但所有三個(gè)模型的運(yùn)行速度都要比DeepResearch快得多。

大半精銳盡出!o1下線!滿血o3之后,模型本身就是Manus,最大賣點(diǎn):替代人干真活!-AI.x社區(qū)圖片

4.o1/o3-mini/o3-mini-high全面讓位新模型???????????????????

差不多介紹完之后,Brockman抖出來一個(gè)大料:

今天開始,ChatGPT Plus、Pro 和 Team 用戶將在模型選擇器中看到 o3、o4-mini 和 o4-mini-high,取代 o1、o3-mini 和 o3-mini-high。

為什么會(huì)這樣?o3-mini1月底才上線的,為什么“保質(zhì)期”連三個(gè)月都沒有就要涼了?

Brockman表示,主要還是推理成本的原因。

大半精銳盡出!o1下線!滿血o3之后,模型本身就是Manus,最大賣點(diǎn):替代人干真活!-AI.x社區(qū)圖片

上圖顯示,o4-ini在任何給定的推理成本下都比o3-mini性能好得多。

此外,o4-mini是一個(gè)多模態(tài)模型,而且是一個(gè)小型且快速的多模態(tài)推理模型,非常值得各位嘗鮮試用。?????

不過,滿血o3跟o1對(duì)比起來,o3的結(jié)果更它可以用更少的推理成本獲得相同的性能。如果你愿意支付和o1相同的費(fèi)用,那么你將獲得更高的分?jǐn)?shù)。

大半精銳盡出!o1下線!滿血o3之后,模型本身就是Manus,最大賣點(diǎn):替代人干真活!-AI.x社區(qū)圖片

所以你看,新模型性能漲了但成本沒漲,甚至下降了,這是一個(gè)技術(shù)上可行的事實(shí)趨勢(shì)。????????????????????????????????

大半精銳盡出!o1下線!滿血o3之后,模型本身就是Manus,最大賣點(diǎn):替代人干真活!-AI.x社區(qū)圖片

據(jù)Zhou介紹,OpenAI在新模型的成本效益上進(jìn)行了強(qiáng)有效的優(yōu)化,同時(shí)使模型在一般情況下更有用。這里要強(qiáng)調(diào)地是,有DeepSeek珠玉在前,OpenAI這次并不再是像圣誕節(jié)12天直播那樣之針對(duì)基準(zhǔn)測(cè)試進(jìn)行優(yōu)化,而是進(jìn)行了大量的預(yù)訓(xùn)練的優(yōu)化。?????????????

“總的來說,它在多模態(tài)示例中仍然表現(xiàn)很好。我們?nèi)匀幌M@是一個(gè)更好的模型,因?yàn)樗槍?duì)實(shí)際用例進(jìn)行了優(yōu)化。當(dāng)你詢問問題時(shí),你不需要等待太久,這確實(shí)是一個(gè)真實(shí)的情況?!?/p>

因?yàn)橥评頃r(shí)延是推理場(chǎng)景下,不管是B端還是C端一致的剛性需求。??????

Zhou爆料說道:這些模型是經(jīng)過了大量的嚴(yán)謹(jǐn)科學(xué)、巧妙的創(chuàng)造力和精湛的工藝才得以誕生的?!拔覀兺度肓吮萶1多10倍的訓(xùn)練計(jì)算量來生產(chǎn)o3。這是很多人的辛勤工作。但最終結(jié)果真的非常美麗,當(dāng)我們?cè)黾佑?jì)算量時(shí),像AIMW這樣的評(píng)估表現(xiàn)持續(xù)上升。”

令人驚訝的是,這還僅僅是預(yù)訓(xùn)練環(huán)節(jié)的優(yōu)化,OpenAI下一步的目標(biāo)是真正實(shí)現(xiàn)Scaling in RL,“隨著我們投入更多的RL計(jì)算量,我們也能獲得相應(yīng)的成果?!?/p>

5.彩蛋:OpenAI推出輕量級(jí)接口Codex CLI,程序員可以繼續(xù)在Agent時(shí)代拉風(fēng)了???

本來以為模型發(fā)完就結(jié)束了,結(jié)果這次還來了一個(gè)彩蛋環(huán)節(jié)。???????

兩位Agents Research的成員走進(jìn)直播間,分享了一場(chǎng)頗有原始賽博風(fēng)格的編程秀。

“今天我們想展示的是Codex的延續(xù)。我們今天將發(fā)布一系列應(yīng)用程序,我們認(rèn)為這些應(yīng)用程序?qū)⒍x未來編程的面貌。”

早在今年2月初就有人在x上曬出了用o3生成的一張ASCLL碼風(fēng)格椰子樹照片。這次兩位研究員直接來了一次更高級(jí)的復(fù)現(xiàn)。????

大半精銳盡出!o1下線!滿血o3之后,模型本身就是Manus,最大賣點(diǎn):替代人干真活!-AI.x社區(qū)圖片

這次兩位用到的是Codex CLI,這是一個(gè)輕量級(jí)的接口,可以將所用的模型連接到用戶及其計(jì)算機(jī)?!澳憧梢园阉醋魇且粋€(gè)參考實(shí)現(xiàn),展示如何安全地部署代碼執(zhí)行代理。它建立在公共API之上,比如Response API,利用了API中的新特性,如思維鏈摘要。我們的最新模型O2、O3和O4 Mini都具備多模態(tài)推理能力?!?/p>

大半精銳盡出!o1下線!滿血o3之后,模型本身就是Manus,最大賣點(diǎn):替代人干真活!-AI.x社區(qū)圖片

這次的復(fù)現(xiàn)使用的Codex和o4。Fouad先截個(gè)圖甩到終端里喂給Codex。接受完輸入后,Codex將開始使用我們之前看到的多模態(tài)推理。

大半精銳盡出!o1下線!滿血o3之后,模型本身就是Manus,最大賣點(diǎn):替代人干真活!-AI.x社區(qū)圖片

值得一提的是,不同于全自動(dòng)的Agent,Codex支持兩種形式的工作模式,一種是完全自動(dòng)化的代理模式,另一種是建議模式(默認(rèn)狀態(tài)),它運(yùn)行時(shí),會(huì)給出執(zhí)行建議,讓用戶自己去批準(zhǔn)每一個(gè)命令。?

不過即便是代理模式,一樣是安全和可靠的,“它可以運(yùn)行命令,網(wǎng)絡(luò)被禁用,并且限制它對(duì)添加的目錄進(jìn)行的編輯。所以,它給你帶來了一種可以放手讓某人去完成任務(wù)的安心感,但又不會(huì)帶來僅僅讓它運(yùn)行任何命令所帶來的風(fēng)險(xiǎn)?!?/p>

“使用這些模型直接在你的計(jì)算機(jī)上,你可以處理任何文件和代碼?!?/p>

6.現(xiàn)在就可以用上滿血o3!但速率限制依舊????????????????

據(jù)OpenAI官方媒體賬號(hào)消息,即日起,ChatGPT Plus、Pro 和 Team 用戶將在模型選擇器中看到 o3、o4-mini 和 o4-mini-high,取代 o1、o3-mini 和 o3-mini-high。

ChatGPT Enterprise 和 Edu 用戶將在一周內(nèi)獲得訪問權(quán)限。所有套餐的速率限制與之前的版本保持不變。接下來預(yù)計(jì)將在幾周內(nèi)發(fā)布提供全面工具支持的 o3-pro。目前,Pro 用戶仍可在“更多模型”下的模型選擇器中訪問 o1-pro。

此外,OpenAI o3 和 o4-mini 目前也可通過 Chat Completions API 和 Responses API 向開發(fā)人員開放。ps:Responses API 支持推理摘要,能夠在函數(shù)調(diào)用周圍保留推理標(biāo)記以獲得更好的性能,并且很快將在模型推理中支持內(nèi)置工具,如網(wǎng)絡(luò)搜索、文件搜索和代碼解釋器。

不過,多說一嘴,即便o1下線了,但又來了一個(gè)o1-pro 難怪乎網(wǎng)友會(huì)沒好氣地抱怨OpenAI,這命名規(guī)則簡(jiǎn)直就是個(gè)迷~?????

大半精銳盡出!o1下線!滿血o3之后,模型本身就是Manus,最大賣點(diǎn):替代人干真活!-AI.x社區(qū)圖片

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:云昭


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
1
收藏 1
回復(fù)
舉報(bào)
1條回復(fù)
按時(shí)間正序
/
按時(shí)間倒序
51ceshier
51ceshier

不錯(cuò),點(diǎn)贊

回復(fù)
2025-4-18 10:39:42
回復(fù)
相關(guān)推薦
社區(qū)精華內(nèi)容

目錄