自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

<pre id="nnttc"></pre>

<sub id="nnttc"></sub>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會

公眾號矩陣

移動端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺

51CTO學(xué)堂

IT職業(yè)在線教育平臺

擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天

51CTO技術(shù)棧

發(fā)布于 2024-12-23 09:59

瀏覽

0收藏

編輯｜言征、伊風(fēng)

網(wǎng)友誠不我欺，o3果真來了！

擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區(qū) 圖片

就在昨天谷歌推出自己的多模態(tài)推理大模型Thingking之后，OpenAI終于坐不住了，在十二天直播的最后一天，發(fā)布了自己最先進(jìn)的下一代模型o3！這里不得不感嘆一句，友商的壓力是無窮的～

不過，有朋友會好奇問，既然是下一代模型，為什么會跳過o2直接出o3呢？這可不是OpenAI今年擠牙膏式發(fā)布的風(fēng)格。

原來是商標(biāo)版權(quán)的問題：

據(jù)theinformation報道，OpenAI正在開發(fā)其下一代o1推理模型，在響應(yīng)之前，這將需要更多時間來“思考”用戶查詢。然而，由于與英國電信服務(wù)提供商O2的潛在版權(quán)或商標(biāo)沖突，該公司正在考慮跳過“o2”這個名字。

直播中，奧特曼也證明了這一說法。

擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區(qū) 圖片

這次OpenAI發(fā)布了兩款型號：o3和o3 mini。前者性能最強(qiáng)，甚至可以在博士級科學(xué)任務(wù)上超過人類平均水平，當(dāng)然也最貴；后者性價比被奧特曼稱為“已經(jīng)做了最大性價比的優(yōu)化”。

有這樣一句評價：o1只是用強(qiáng)化學(xué)習(xí)訓(xùn)練了GPT，o3才是真正的展現(xiàn)了推理Scaling Law定律的擴(kuò)展空間。

看點(diǎn)上，聚光燈還是給到了o3的出色編程和數(shù)學(xué)能力。相信大家對于這兩塊已經(jīng)審美疲勞了，不過不要緊，這次OpenAI引進(jìn)了不少的新的測試用例和基準(zhǔn)，給了大家耳目一新的感覺，值得一探。

打敗99.9%人類程序員的超強(qiáng)編程能力

首先，作為被大模型率先盯上的生產(chǎn)力變革領(lǐng)域，大模型的編程能力，o3刷新了先有模型的基準(zhǔn)。在流行的SWE基準(zhǔn)測試上，o3達(dá)到了驚人的71.7的分?jǐn)?shù)，可以理解成1000道編碼工程問題，o3可以直接為717道問題生成正確的代碼布丁并通過單元測試，而且用時還比人類少很多（分鐘級）。

擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區(qū) 圖片

其次，還有一個非常新鮮的基準(zhǔn)測試：Codeforces。這是個什么鬼？這里要首先科普下，cedeforce是一個人類編程競技平臺。這次測試就是要讓AI 在 codeforces 上面參與競賽，是跟人類選手一樣，在比賽時才會拿到賽題。

擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區(qū) 圖片

如果高分參賽者輸給了低分參賽者時，那么高分參賽者的 Elo 分?jǐn)?shù)會下降，而低分參賽者的 Elo 分?jǐn)?shù)會上升。令人吃驚的是，目前這個競賽，有 168076 名來自全球各地的程序員參賽。

而o3竟然已經(jīng)排到了175，Elo分?jǐn)?shù)超過了2700分，有熱心的網(wǎng)友直呼：這不意味著o3已經(jīng)在編程競技中擊敗了世界上 1-175/168076=99.9% 的程序員嗎？

數(shù)學(xué)：刷榜最難數(shù)學(xué)測試，吊打sota

那么，o3這次在數(shù)學(xué)方面有哪些新看點(diǎn)呢？

一、在美國數(shù)學(xué)奧林匹克預(yù)科考試（AIME）中，o3只打錯了一道題，在上一個版本o1最好的水平是答錯了5道題目。

擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區(qū) 圖片

二、在處理博士級水平的科學(xué)任務(wù)方面，o3同樣也得到了顯著的代際提升，GPQA Diamond測試水平87.7%，已經(jīng)超過了人類博士的平均水平（70%），o1的數(shù)字則是78.3%。

三、還有項(xiàng)測試：號稱最難數(shù)學(xué)測試的 EpochAI Frontier Math，包含最新未公開前沿題目。o3在測試中比之前SOTA從2分提升到25分。這個也是沒想到的，一下提高了12倍！

據(jù)說，這項(xiàng)測試難度極高，人類專業(yè)數(shù)學(xué)家解決其中一道題目也要花費(fèi)數(shù)小時到數(shù)天，現(xiàn)在o3只需要思考幾分鐘了。

擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區(qū) 圖片

AGI測試新突破，邁入新階段

Keras之父Fran?ois Chollet發(fā)起了一項(xiàng)面向AGI能力的測試基準(zhǔn)ARC-AGI，典型題目為圖形邏輯推理。比如這樣式兒的——

擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區(qū) 圖片

這些圖形邏輯推理題對于人類而言并不是很難，但是它能考驗(yàn)?zāi)Ｐ屯评淼膭?chuàng)新適應(yīng)性能力，而o3在ARC-AGI上的分?jǐn)?shù)從32%躍升到了75.7%、87.5%，可以說踏入了一個新階段。

擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區(qū) 圖片

那為什么是兩個分?jǐn)?shù)？原因當(dāng)然是因?yàn)閛3設(shè)置了兩個思考模式——低思考程度和高思考程度兩種設(shè)置，高思考程度花費(fèi)的算力也是大的嚇人。

這里有兩個冷知識——

1.這個ARC-AGI測試中，所有任務(wù)都具有獨(dú)特性，無法提前準(zhǔn)備；不需要特定的世界知識或語言能力；僅依賴人類普遍具備的核心認(rèn)知能力。

2.AI 參與 ARC-AGI 測試的要求是：讓AI在ARC-AGI-1公共訓(xùn)練集上進(jìn)行訓(xùn)練，訓(xùn)練的預(yù)算成本要小于 1 萬美元。

但，這并不意味著o3已經(jīng)是AGI了，據(jù)介紹，在該項(xiàng)測試中，一些非常簡單的任務(wù)，o3依舊會出錯。

有關(guān)o3 mini

OpenAI 以思考的時間和成本為基準(zhǔn)，不僅將 o3 系列分成了 o3 和 o3 mini，甚至更進(jìn)一步的將 o3 mini 分成了 low、medium、high（低中高）三個型號。

擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區(qū)

而 o1 的平均思考時間是 8.92 秒，o3 mini（high）直接翻了差不多兩倍，達(dá)到了 23.33 秒的平均思考時間。

而 o3 mini（high）在一些任務(wù)上是 o1 水平，o3 旗艦版的平均思考時間這里沒有放出來，有網(wǎng)友認(rèn)為可能已經(jīng)達(dá)到了分鐘級。

基本上就是這些了，可以看出這次o3的發(fā)布，還是給出了不少驚喜：很多都是階躍式的提升。

相信各位朋友對于能不能用上更感興趣，目前o3也只是展示階段，還沒有真正開放使用，奧特曼透露，o3 mini會在明年1月底前發(fā)布，o3也會在那之后不久開放，現(xiàn)在呢，如果有心急的朋友可以先去申請測試：

??https://openai.com/index/early-access-for-safety-testing/??

最后附上以上12天的直播概覽吧，小編也在辛苦的追！

OpenAI12天發(fā)布回顧

DAY-1: o1滿血版上線

滿血版o1上線多模態(tài)推理，推理速度和正確率比preview版顯著提升
發(fā)布200美元/月的ChatGPT Pro 訂閱計(jì)劃，可無限制訪問 o1，還可訪問特供版o1 Pro

擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區(qū) 圖片

DAY-2: 新功能強(qiáng)化微調(diào)推出

強(qiáng)化微調(diào)功能上線，最低幾十個例子就可創(chuàng)建專家模型，使開發(fā)人員能夠創(chuàng)建針對各種領(lǐng)域復(fù)雜任務(wù)的專用AI模型

擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區(qū) 圖片

DAY-3: Sora公開可用

Sora上線，開放給ChatGPT Plus/Pro用戶
Sora新增故事版（Storyboard）、Remix、Re-cut、Loop等功能

擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區(qū) 圖片

DAY-4: Canvas正式上線

Canvas上線，提供了智能寫作、代碼協(xié)作和AI智能體為一體的工作臺

擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區(qū) 圖片

上圖：Canvas界面，可以隨時與ChatGPT交互

擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區(qū) 逐漸變得濃烈的圣誕裝扮

DAY-5: 官宣和蘋果的合作

ChatGPT宣布全面接入蘋果設(shè)備，包括iPhone、iPad和Mac，支持Apple Intelligence

DAY-6: OpenAI的Her功能上線

此前的AI實(shí)時視頻對話功能推出，允許用戶通過攝像頭與ChatGPT進(jìn)行互動
團(tuán)隊(duì)用戶、ChatGPT Plus/Pro用戶可以訪問此項(xiàng)功能

擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區(qū) 圖片

DAY-7: Projects 功能上線

ChatGPT添加了“Projects”功能，相當(dāng)于給ChatGPT的對話搞了個文件夾
“Projects”允許用戶組織聊天會話，并上傳文件、設(shè)置項(xiàng)目指令

擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區(qū) 圖片

DAY-8: ChatGPT Search功能開放

ChatGPT Search功能開放給了免費(fèi)用戶，并進(jìn)行了大量更新，包括實(shí)時搜索、高級語音等功能

擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區(qū) 圖片

DAY-9: API的重大更新

OpenAI將o1模型通過API全面向第三方開發(fā)者開放
宣布了對Realtime API的重大更新，價格全面下調(diào)（實(shí)時API音頻token價格降了60%）
推出一種全新的微調(diào)方法——偏好微調(diào)，根據(jù)開發(fā)人員的偏好更輕松地定制模型

擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區(qū) 因?yàn)榕co1有關(guān)，成員很有梗的穿了草莓毛衣

DAY-10: ChatGPT熱線電話

OpenAI熱線開通，美國用戶撥打1-800-ChatGPT（或 1-800-242-8478）
短信服務(wù)：給上述號碼發(fā)送WhatsApp獲得ChatGPT回復(fù)

擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區(qū) 圖片

DAY-11: ChatGPT與Mac應(yīng)用深度集成

桌面版ChatGPT打通了部分編程和寫作應(yīng)用，例如Warp、XCode、Notion，能夠更加方便地執(zhí)行任務(wù)

擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區(qū) 圖片

DAY-12: o3/o3 mini發(fā)布

OpenAI最新最強(qiáng)模型o3，在AGI測試方面躍升

擊敗99.9%的程序員！o3來了！AGI測試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天-AI.x社區(qū) 圖片

完結(jié)，撒花，冬至快樂～

本文轉(zhuǎn)載自??51CTO技術(shù)棧??，作者：言征、伊風(fēng)

標(biāo)簽

已于2024-12-26 17:00:29修改

贊

收藏

回復(fù)

舉報

回復(fù)

相關(guān)推薦

開源版AI程序員來了：GPT-4加持，能力比肩Devin，一天1.4k Star

輕薄滴假象 ? 3639瀏覽 ? 0回復(fù)
一文回顧常見圖像融合方法

angel ? 4689瀏覽 ? 0回復(fù)
他12歲就能寫代碼，為數(shù)百萬程序員引路~

wx65af60231fbe2 ? 2487瀏覽 ? 1回復(fù)
GPT-4o再秀神操作，“復(fù)現(xiàn)”OpenAI總裁講課，網(wǎng)友當(dāng)真了

Crystalcxt ? 2522瀏覽 ? 0回復(fù)
【好禮贏不停】1024程序員嘉年華！在這里集結(jié)

AI.x社區(qū)官方賬號 ? 1.2w瀏覽 ? 15回復(fù)
PHP程序員學(xué)習(xí)AI的學(xué)習(xí)心得

龐然大悟 ? 1667瀏覽 ? 0回復(fù)
刷屏了！Genie 2開啟文生游戲時代，可交互的世界模型震撼登場！背后團(tuán)隊(duì)曝光；12天直播能否截胡老對手

51CTO技術(shù)棧 ? 2055瀏覽 ? 0回復(fù)
小模型界o1來了：微軟推出Phi-4，數(shù)學(xué)推理能力太逆天！14B模型擊敗GPT-4o！還印證了AI墻的一個重要推斷

51CTO技術(shù)棧 ? 2077瀏覽 ? 0回復(fù)
Cursor賬號過期了怎么辦？一文教你如何永久使用Cursor技巧！

唐克 ? 3.3w瀏覽 ? 1回復(fù)
OpenAI砸碎了程序員的飯碗

AI論文解讀 ? 1578瀏覽 ? 0回復(fù)
AGI前夜的思考：從o3到AGI，未來已來

PyTorch研習(xí)社 ? 2505瀏覽 ? 0回復(fù)
OpenAI 宣布 OpenAI o3：人工智能推理領(lǐng)域的顯著進(jìn)步，在 Arc AGI 基準(zhǔn)測試中得分為 87.5%

Halo咯咯 ? 2113瀏覽 ? 0回復(fù)
OpenAI揭示o3的推理過程，以彌合與DeepSeek-R1的差距

51CTO內(nèi)容精選 ? 1656瀏覽 ? 0回復(fù)
超過DeepSeek、o3，雙思維模型Claude 3.7來了

Aceryt ? 1624瀏覽 ? 0回復(fù)
暴論：2025年，程序員必學(xué)技能就是 MCP

玄姐聊AGI ? 3004瀏覽 ? 0回復(fù)
今天的智譜，燃炸了！

51CTO技術(shù)棧 ? 1037瀏覽 ? 0回復(fù)
OpenAI 深夜王炸！ o3 推理模型徹底顛覆認(rèn)知，AGI真的來了？

算家計(jì)算 ? 591瀏覽 ? 0回復(fù)
OpenAI 最強(qiáng)推理模型 o3 / o4-mini 震撼發(fā)布！AI 從此能“看圖思考”？

AI博物院 ? 626瀏覽 ? 0回復(fù)
最先進(jìn)推理模型！ OpenAI 推出o3 和 o4-mini模型

51CTO內(nèi)容精選 ? 563瀏覽 ? 0回復(fù)

51CTO技術(shù)棧

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

微軟突然封鎖Cursor，全面禁用C、C++、C#擴(kuò)展，網(wǎng)友：理解微軟，Cursor白嫖VSCode 0回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

上一篇：馬斯克明顯是個惡霸！不會完全放棄非營利性質(zhì)！奧特曼罕見采訪曝猛料：馬斯克喜歡到處干架

下一篇：雷軍在線挖人，傳年薪千萬級！DeepSeek 關(guān)鍵骨干羅福莉已離職加入小米，或領(lǐng)軍小米大模型團(tuán)隊(duì)

社區(qū)精華內(nèi)容

目錄