自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

WOT技術(shù)大會(huì)

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

OpenAI砸碎了程序員的飯碗

發(fā)布于 2024-12-25 11:53

瀏覽

0收藏

一、O3究竟是什么？

1. 名稱由來

為避免版權(quán)糾紛，OpenAI放棄了o2的命名，直接將其稱為o3。

OpenAI砸碎了程序員的飯碗-AI.x社區(qū) 圖片

2. 編程能力

在編程領(lǐng)域，o3取得了驚人的成績。在人類在線編程競技平臺(tái)codeforces上，o3模型的Elo得分達(dá)到2727分，排名第175位。在168076名全球參賽程序員中，o3擊敗了99.9%的程序員，超越了此前的GPT - 4o和o1等模型。這意味著o3在編程競技中已達(dá)到頂尖水平，甚至超越了許多大廠中眾多程序員的實(shí)力。要知道，字節(jié)跳動(dòng)、騰訊、阿里等大廠都有10萬量級(jí)的員工，每個(gè)公司里，光年薪百萬的程序員都超過175個(gè)人了。o3的發(fā)布，將是沖擊碼農(nóng)崗位需求和薪資的里程碑事件。

OpenAI砸碎了程序員的飯碗-AI.x社區(qū) 圖片

3. 真實(shí)軟件工程能力

在SWE - bench測(cè)試中（SWE - bench挑戰(zhàn)AI模型根據(jù)給定的Github代碼庫（codebase）和問題描述（issue）生成相應(yīng)的代碼補(bǔ)?。╬atch）來解決問題，測(cè)試平臺(tái)不僅關(guān)注算法解題能力，還全面評(píng)估AI模型在實(shí)際軟件工程任務(wù)中的表現(xiàn)，包括但不限于代碼缺陷檢測(cè)、代碼質(zhì)量評(píng)估、代碼變更預(yù)測(cè)等，其中SWE - bench Verified是其經(jīng)過五年經(jīng)驗(yàn)碼農(nóng)人工驗(yàn)證的子集，包含500個(gè)樣本），o3跑分達(dá)到71.7，能為71.7%的問題生成正確代碼補(bǔ)丁并通過單元測(cè)試，在模型中處于領(lǐng)先地位，甚至領(lǐng)先o1 20多個(gè)點(diǎn)的acc。這可能意味著，至少有70%本來需要程序員去救火的工程問題，o3能直接去解了。而問題的總量可能不會(huì)更多（甚至可能會(huì)因?yàn)閛3打底早期代碼而變得更少），但需要人類程序員去解決的需求卻大量減少了。

OpenAI砸碎了程序員的飯碗-AI.x社區(qū) 圖片

4. 數(shù)學(xué)能力

在數(shù)學(xué)測(cè)試中，o3同樣表現(xiàn)驚艷。在AIME 2024（數(shù)學(xué)測(cè)試基準(zhǔn)）中得分96.7%，相當(dāng)于在AMO美國數(shù)學(xué)奧林匹克競賽上只答錯(cuò)1道題；在GPQA Diamond（博士級(jí)科學(xué)問題測(cè)試）中得分87.7%，甩開上一代o1接近10個(gè)百分點(diǎn)。

5. 圖形邏輯推理能力

在ARC - AGI測(cè)試中（測(cè)試形式為圖形邏輯推理，每輪舉出3 - 5個(gè)例子，圖形為1x1到30x30的網(wǎng)格圖形，讓AI根據(jù)圖形變化規(guī)律預(yù)測(cè)下一個(gè)圖形形式），o3微調(diào)成o3 low和o3 high兩個(gè)模型。o3 low得分75.7%，符合公共排行榜成本要求，成為新榜單TOP1；o3 high得分87.5%，超越人類評(píng)估閾值（85），但訓(xùn)練成本大約是o3 low的172倍，超出1萬美元成本要求。此前的ChatGPT各種型號(hào)在這項(xiàng)測(cè)試中的得分慘不忍睹，如GPT - 3為0%，GPT - 4為2%，GPT - 4o為5%，o1 - preview為21%，o1滿血版為32%，o1 Pro為50%左右。

OpenAI砸碎了程序員的飯碗-AI.x社區(qū) 圖片

6. 高級(jí)數(shù)學(xué)推理能力

在FrontierMath測(cè)試（由Epoch AI推出，專門評(píng)估AI高級(jí)數(shù)學(xué)推理能力，地獄級(jí)難度，測(cè)試內(nèi)容為最新未發(fā)表題目，經(jīng)驗(yàn)豐富的人類數(shù)學(xué)專家解答也需數(shù)小時(shí)或數(shù)天，1998年菲爾茲獎(jiǎng)得主Tim Gowers評(píng)價(jià)即使答對(duì)一個(gè)問題也遠(yuǎn)超現(xiàn)在能力范圍）中，o3在不限制時(shí)間的情況下得分可達(dá)25.2%，而此前最強(qiáng)模型得分僅2%。

OpenAI砸碎了程序員的飯碗-AI.x社區(qū) 圖片

OpenAI砸碎了程序員的飯碗-AI.x社區(qū) 圖片

7. O3強(qiáng)大的原因

OpenAI研究員表示，o1驗(yàn)證了LLM + RL范式可行，但o3通過scaling up真正發(fā)揮了該范式的威力，證明了對(duì)于編程、數(shù)學(xué)等任務(wù)，RL范式可提升上限。

8. O3的缺點(diǎn)

o3成本極高，在ARC - AGI團(tuán)隊(duì)描述中，是有史以來最昂貴的模型之一。除此之外，模型思考時(shí)間變長，o1的平均思考時(shí)間是8.92秒，o3 mini（high）平均思考時(shí)間達(dá)到23.33秒，差不多是o1的兩倍，o3旗艦版平均思考時(shí)間可能已達(dá)分鐘級(jí)。

OpenAI砸碎了程序員的飯碗-AI.x社區(qū) 圖片

二、O3 mini即將推出

好消息是，o3 mini預(yù)計(jì)明年1月底推出，上線后將開放API調(diào)用，并附帶o1的所有API功能。

o3的出現(xiàn)無疑是人工智能發(fā)展的一個(gè)重要里程碑，它在多個(gè)領(lǐng)域展現(xiàn)出的強(qiáng)大能力，不僅讓我們看到了技術(shù)的巨大進(jìn)步，也讓我們對(duì)未來充滿了期待和擔(dān)憂。它是否真的會(huì)如預(yù)測(cè)的那樣，對(duì)碼農(nóng)職業(yè)產(chǎn)生巨大沖擊？又將如何改變我們的生活和工作？讓我們一起拭目以待吧！

本文轉(zhuǎn)載自 ??AI論文解讀??，作者：柏企

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

開源版AI程序員來了：GPT-4加持，能力比肩Devin，一天1.4k Star

輕薄滴假象 ? 3636瀏覽 ? 0回復(fù)
谷歌美女程序員手搓矩陣乘法內(nèi)核

duhorse ? 4131瀏覽 ? 0回復(fù)
他12歲就能寫代碼，為數(shù)百萬程序員引路~

wx65af60231fbe2 ? 2486瀏覽 ? 1回復(fù)
Gartner預(yù)計(jì)：到2028年，將有75%的企業(yè)程序員使用AI輔助工具。同時(shí)，開發(fā)團(tuán)隊(duì)需警惕上級(jí)的過高期望

51CTO技術(shù)棧 ? 3233瀏覽 ? 0回復(fù)
ChatGPT無法取代人類程序員！ IEEE 35頁論文測(cè)出困難編碼正確率僅為0.66%

duhorse ? 2276瀏覽 ? 0回復(fù)
微軟放棄OpenAI觀察員席位！蘋果：我屁股還沒坐熱呢！

InfonityAI智推星 ? 2455瀏覽 ? 0回復(fù)
GPT-4o模仿人類聲音，詭異尖叫引OpenAI研究員恐慌！32頁技術(shù)報(bào)告出爐

duhorse ? 2393瀏覽 ? 0回復(fù)
最強(qiáng)AI程序員砸飯碗：84秒跑通代碼，像人一樣思考！團(tuán)隊(duì)僅5人

Crystalcxt ? 2040瀏覽 ? 0回復(fù)
來看看OpenAI研究員Lilian Weng的干貨分享

AIGC最前線 ? 3318瀏覽 ? 0回復(fù)
【好禮贏不停】1024程序員嘉年華！在這里集結(jié)

AI.x社區(qū)官方賬號(hào) ? 1.2w瀏覽 ? 15回復(fù)
【智匯金秋創(chuàng)造季】智匯成海，致敬開發(fā)者的“超級(jí)碼力”！

AI.x社區(qū)官方賬號(hào) ? 33.0w瀏覽 ? 148回復(fù)
PHP程序員學(xué)習(xí)AI的學(xué)習(xí)心得

龐然大悟 ? 1666瀏覽 ? 0回復(fù)
首個(gè)AI Agent程序員商業(yè)化，比ChatGPT Pro貴2倍

Aceryt ? 2009瀏覽 ? 0回復(fù)
前OpenAI首席研究員大爆猛料，揭露罕見內(nèi)部視角！

51CTO技術(shù)棧 ? 1644瀏覽 ? 0回復(fù)
擊敗99.9%的程序員！o3來了！AGI測(cè)試實(shí)現(xiàn)躍升！網(wǎng)友：推理scaling law太炸了！一文回顧OpenAI直播帶貨12天

51CTO技術(shù)棧 ? 2836瀏覽 ? 0回復(fù)
微軟開源PromptWizard，摔碎了提示工程師的飯碗

PaperAgent ? 2252瀏覽 ? 0回復(fù)
世界第一位AI程序員Devin：20項(xiàng)任務(wù)只完成了3項(xiàng)！14項(xiàng)任務(wù)徹底失敗！

51CTO技術(shù)棧 ? 1629瀏覽 ? 0回復(fù)
馬斯克連夜官宣Grok 3：這8個(gè)功能讓程序員集體失業(yè)

Halo咯咯 ? 2386瀏覽 ? 0回復(fù)
暴論：2025年，程序員必學(xué)技能就是 MCP

玄姐聊AGI ? 2956瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒有個(gè)人簡介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

深度剖析：為何擴(kuò)散模型會(huì)成為語言模型的未來？ 2025-03-14 07:45:15發(fā)布
一文讀懂 RAG-Gym：用過程監(jiān)督優(yōu)化推理與搜索智能體 2025-03-04 10:43:21發(fā)布

熱門推薦

大半精銳盡出！o1下線！滿血o3之后，模型本身就是Manus，最大賣點(diǎn)：替代人干真活！ 1回復(fù)

王炸！MCP 架構(gòu)設(shè)計(jì)深度剖析 & 使用 Spring AI + MCP 四步教你實(shí)現(xiàn) Agent 智能體開發(fā) 0回復(fù)

Dify從入門到高階系列二：手把手教學(xué)！超詳細(xì)的Dify知識(shí)庫配置全攻略 0回復(fù)

Crawl4AI：GitHub榜首40K星標(biāo)！LLM專屬極速開源爬蟲神器 0回復(fù)

只需5分鐘，教你用Python搭建MCP Server 0回復(fù)

上一篇： ICLR 2025驚現(xiàn)滿分論文，ControlNet作者再出佳作

下一篇： DeepSeek-V3 模型深度剖析：架構(gòu)創(chuàng)新、訓(xùn)練優(yōu)化與性能卓越

社區(qū)精華內(nèi)容

目錄

<cite id="rhxly"></cite>

^{<thead id="rhxly"></thead>}

<sub id="rhxly"><p id="rhxly"></p></sub>

<sub id="rhxly"></sub>^{<blockquote id="rhxly"></blockquote>}