OpenAI砸碎了程序員的飯碗
一、O3究竟是什么?
1. 名稱由來
為避免版權(quán)糾紛,OpenAI放棄了o2的命名,直接將其稱為o3。
圖片
2. 編程能力
在編程領(lǐng)域,o3取得了驚人的成績。在人類在線編程競技平臺(tái)codeforces上,o3模型的Elo得分達(dá)到2727分,排名第175位。在168076名全球參賽程序員中,o3擊敗了99.9%的程序員,超越了此前的GPT - 4o和o1等模型。這意味著o3在編程競技中已達(dá)到頂尖水平,甚至超越了許多大廠中眾多程序員的實(shí)力。要知道,字節(jié)跳動(dòng)、騰訊、阿里等大廠都有10萬量級(jí)的員工,每個(gè)公司里,光年薪百萬的程序員都超過175個(gè)人了。o3的發(fā)布,將是沖擊碼農(nóng)崗位需求和薪資的里程碑事件。
圖片
3. 真實(shí)軟件工程能力
在SWE - bench測(cè)試中(SWE - bench挑戰(zhàn)AI模型根據(jù)給定的Github代碼庫(codebase)和問題描述(issue)生成相應(yīng)的代碼補(bǔ)?。╬atch)來解決問題,測(cè)試平臺(tái)不僅關(guān)注算法解題能力,還全面評(píng)估AI模型在實(shí)際軟件工程任務(wù)中的表現(xiàn),包括但不限于代碼缺陷檢測(cè)、代碼質(zhì)量評(píng)估、代碼變更預(yù)測(cè)等,其中SWE - bench Verified是其經(jīng)過五年經(jīng)驗(yàn)碼農(nóng)人工驗(yàn)證的子集,包含500個(gè)樣本),o3跑分達(dá)到71.7,能為71.7%的問題生成正確代碼補(bǔ)丁并通過單元測(cè)試,在模型中處于領(lǐng)先地位,甚至領(lǐng)先o1 20多個(gè)點(diǎn)的acc。這可能意味著,至少有70%本來需要程序員去救火的工程問題,o3能直接去解了。而問題的總量可能不會(huì)更多(甚至可能會(huì)因?yàn)閛3打底早期代碼而變得更少),但需要人類程序員去解決的需求卻大量減少了。
圖片
4. 數(shù)學(xué)能力
在數(shù)學(xué)測(cè)試中,o3同樣表現(xiàn)驚艷。在AIME 2024(數(shù)學(xué)測(cè)試基準(zhǔn))中得分96.7%,相當(dāng)于在AMO美國數(shù)學(xué)奧林匹克競賽上只答錯(cuò)1道題;在GPQA Diamond(博士級(jí)科學(xué)問題測(cè)試)中得分87.7%,甩開上一代o1接近10個(gè)百分點(diǎn)。
5. 圖形邏輯推理能力
在ARC - AGI測(cè)試中(測(cè)試形式為圖形邏輯推理,每輪舉出3 - 5個(gè)例子,圖形為1x1到30x30的網(wǎng)格圖形,讓AI根據(jù)圖形變化規(guī)律預(yù)測(cè)下一個(gè)圖形形式),o3微調(diào)成o3 low和o3 high兩個(gè)模型。o3 low得分75.7%,符合公共排行榜成本要求,成為新榜單TOP1;o3 high得分87.5%,超越人類評(píng)估閾值(85),但訓(xùn)練成本大約是o3 low的172倍,超出1萬美元成本要求。此前的ChatGPT各種型號(hào)在這項(xiàng)測(cè)試中的得分慘不忍睹,如GPT - 3為0%,GPT - 4為2%,GPT - 4o為5%,o1 - preview為21%,o1滿血版為32%,o1 Pro為50%左右。
圖片
6. 高級(jí)數(shù)學(xué)推理能力
在FrontierMath測(cè)試(由Epoch AI推出,專門評(píng)估AI高級(jí)數(shù)學(xué)推理能力,地獄級(jí)難度,測(cè)試內(nèi)容為最新未發(fā)表題目,經(jīng)驗(yàn)豐富的人類數(shù)學(xué)專家解答也需數(shù)小時(shí)或數(shù)天,1998年菲爾茲獎(jiǎng)得主Tim Gowers評(píng)價(jià)即使答對(duì)一個(gè)問題也遠(yuǎn)超現(xiàn)在能力范圍)中,o3在不限制時(shí)間的情況下得分可達(dá)25.2%,而此前最強(qiáng)模型得分僅2%。
圖片
圖片
7. O3強(qiáng)大的原因
OpenAI研究員表示,o1驗(yàn)證了LLM + RL范式可行,但o3通過scaling up真正發(fā)揮了該范式的威力,證明了對(duì)于編程、數(shù)學(xué)等任務(wù),RL范式可提升上限。
8. O3的缺點(diǎn)
o3成本極高,在ARC - AGI團(tuán)隊(duì)描述中,是有史以來最昂貴的模型之一。除此之外,模型思考時(shí)間變長,o1的平均思考時(shí)間是8.92秒,o3 mini(high)平均思考時(shí)間達(dá)到23.33秒,差不多是o1的兩倍,o3旗艦版平均思考時(shí)間可能已達(dá)分鐘級(jí)。
圖片
二、O3 mini即將推出
好消息是,o3 mini預(yù)計(jì)明年1月底推出,上線后將開放API調(diào)用,并附帶o1的所有API功能。
o3的出現(xiàn)無疑是人工智能發(fā)展的一個(gè)重要里程碑,它在多個(gè)領(lǐng)域展現(xiàn)出的強(qiáng)大能力,不僅讓我們看到了技術(shù)的巨大進(jìn)步,也讓我們對(duì)未來充滿了期待和擔(dān)憂。它是否真的會(huì)如預(yù)測(cè)的那樣,對(duì)碼農(nóng)職業(yè)產(chǎn)生巨大沖擊?又將如何改變我們的生活和工作?讓我們一起拭目以待吧!
本文轉(zhuǎn)載自 ??AI論文解讀??,作者:柏企
