自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

擊敗99.9%的程序員!o3來了!AGI測試實(shí)現(xiàn)躍升!網(wǎng)友:推理scaling law太炸了!一文回顧OpenAI直播帶貨12天

發(fā)布于 2024-12-23 09:59
瀏覽
0收藏

編輯 | 言征、伊風(fēng)

網(wǎng)友誠不我欺,o3果真來了!

擊敗99.9%的程序員!o3來了!AGI測試實(shí)現(xiàn)躍升!網(wǎng)友:推理scaling law太炸了!一文回顧OpenAI直播帶貨12天-AI.x社區(qū)圖片

就在昨天谷歌推出自己的多模態(tài)推理大模型Thingking之后,OpenAI終于坐不住了,在十二天直播的最后一天,發(fā)布了自己最先進(jìn)的下一代模型o3!這里不得不感嘆一句,友商的壓力是無窮的~

不過,有朋友會好奇問,既然是下一代模型,為什么會跳過o2直接出o3呢?這可不是OpenAI今年擠牙膏式發(fā)布的風(fēng)格。

原來是商標(biāo)版權(quán)的問題:

據(jù)theinformation報道,OpenAI正在開發(fā)其下一代o1推理模型,在響應(yīng)之前,這將需要更多時間來“思考”用戶查詢。然而,由于與英國電信服務(wù)提供商O2的潛在版權(quán)或商標(biāo)沖突,該公司正在考慮跳過“o2”這個名字。

直播中,奧特曼也證明了這一說法。

擊敗99.9%的程序員!o3來了!AGI測試實(shí)現(xiàn)躍升!網(wǎng)友:推理scaling law太炸了!一文回顧OpenAI直播帶貨12天-AI.x社區(qū)圖片

這次OpenAI發(fā)布了兩款型號:o3和o3 mini。前者性能最強(qiáng),甚至可以在博士級科學(xué)任務(wù)上超過人類平均水平,當(dāng)然也最貴;后者性價比被奧特曼稱為“已經(jīng)做了最大性價比的優(yōu)化”。

有這樣一句評價:o1只是用強(qiáng)化學(xué)習(xí)訓(xùn)練了GPT,o3才是真正的展現(xiàn)了推理Scaling Law定律的擴(kuò)展空間。

看點(diǎn)上,聚光燈還是給到了o3的出色編程和數(shù)學(xué)能力。相信大家對于這兩塊已經(jīng)審美疲勞了,不過不要緊,這次OpenAI引進(jìn)了不少的新的測試用例和基準(zhǔn),給了大家耳目一新的感覺,值得一探。

打敗99.9%人類程序員的超強(qiáng)編程能力

首先,作為被大模型率先盯上的生產(chǎn)力變革領(lǐng)域,大模型的編程能力,o3刷新了先有模型的基準(zhǔn)。在流行的SWE基準(zhǔn)測試上,o3達(dá)到了驚人的71.7的分?jǐn)?shù),可以理解成1000道編碼工程問題,o3可以直接為717道問題生成正確的代碼布丁并通過單元測試,而且用時還比人類少很多(分鐘級)。

擊敗99.9%的程序員!o3來了!AGI測試實(shí)現(xiàn)躍升!網(wǎng)友:推理scaling law太炸了!一文回顧OpenAI直播帶貨12天-AI.x社區(qū)圖片

其次,還有一個非常新鮮的基準(zhǔn)測試:Codeforces。這是個什么鬼?這里要首先科普下,cedeforce是一個人類編程競技平臺。這次測試就是要讓AI 在 codeforces 上面參與競賽,是跟人類選手一樣,在比賽時才會拿到賽題。

擊敗99.9%的程序員!o3來了!AGI測試實(shí)現(xiàn)躍升!網(wǎng)友:推理scaling law太炸了!一文回顧OpenAI直播帶貨12天-AI.x社區(qū)圖片

如果高分參賽者輸給了低分參賽者時,那么高分參賽者的 Elo 分?jǐn)?shù)會下降,而低分參賽者的 Elo 分?jǐn)?shù)會上升。令人吃驚的是,目前這個競賽,有 168076 名來自全球各地的程序員參賽。

而o3竟然已經(jīng)排到了175,Elo分?jǐn)?shù)超過了2700分,有熱心的網(wǎng)友直呼:這不意味著o3已經(jīng)在編程競技中擊敗了世界上 1-175/168076=99.9% 的程序員嗎?

數(shù)學(xué):刷榜最難數(shù)學(xué)測試,吊打sota

那么,o3這次在數(shù)學(xué)方面有哪些新看點(diǎn)呢?

一、在美國數(shù)學(xué)奧林匹克預(yù)科考試(AIME)中,o3只打錯了一道題,在上一個版本o1最好的水平是答錯了5道題目。

擊敗99.9%的程序員!o3來了!AGI測試實(shí)現(xiàn)躍升!網(wǎng)友:推理scaling law太炸了!一文回顧OpenAI直播帶貨12天-AI.x社區(qū)圖片

二、在處理博士級水平的科學(xué)任務(wù)方面,o3同樣也得到了顯著的代際提升,GPQA Diamond測試水平87.7%,已經(jīng)超過了人類博士的平均水平(70%),o1的數(shù)字則是78.3%。

三、還有項(xiàng)測試:號稱最難數(shù)學(xué)測試的 EpochAI Frontier Math,包含最新未公開前沿題目。o3在測試中比之前SOTA從2分提升到25分。這個也是沒想到的,一下提高了12倍!

據(jù)說,這項(xiàng)測試難度極高,人類專業(yè)數(shù)學(xué)家解決其中一道題目也要花費(fèi)數(shù)小時到數(shù)天,現(xiàn)在o3只需要思考幾分鐘了。

擊敗99.9%的程序員!o3來了!AGI測試實(shí)現(xiàn)躍升!網(wǎng)友:推理scaling law太炸了!一文回顧OpenAI直播帶貨12天-AI.x社區(qū)圖片

AGI測試新突破,邁入新階段

Keras之父Fran?ois Chollet發(fā)起了一項(xiàng)面向AGI能力的測試基準(zhǔn)ARC-AGI,典型題目為圖形邏輯推理。比如這樣式兒的——

擊敗99.9%的程序員!o3來了!AGI測試實(shí)現(xiàn)躍升!網(wǎng)友:推理scaling law太炸了!一文回顧OpenAI直播帶貨12天-AI.x社區(qū)圖片

這些圖形邏輯推理題對于人類而言并不是很難,但是它能考驗(yàn)?zāi)P屯评淼膭?chuàng)新適應(yīng)性能力,而o3在ARC-AGI上的分?jǐn)?shù)從32%躍升到了75.7%、87.5%,可以說踏入了一個新階段。

擊敗99.9%的程序員!o3來了!AGI測試實(shí)現(xiàn)躍升!網(wǎng)友:推理scaling law太炸了!一文回顧OpenAI直播帶貨12天-AI.x社區(qū)圖片

那為什么是兩個分?jǐn)?shù)?原因當(dāng)然是因?yàn)閛3設(shè)置了兩個思考模式——低思考程度和高思考程度兩種設(shè)置,高思考程度花費(fèi)的算力也是大的嚇人。

這里有兩個冷知識——

1.這個ARC-AGI測試中,所有任務(wù)都具有獨(dú)特性,無法提前準(zhǔn)備;不需要特定的世界知識或語言能力;僅依賴人類普遍具備的核心認(rèn)知能力。

2.AI 參與 ARC-AGI 測試的要求是:讓AI在ARC-AGI-1公共訓(xùn)練集上進(jìn)行訓(xùn)練,訓(xùn)練的預(yù)算成本要小于 1 萬美元。

但,這并不意味著o3已經(jīng)是AGI了,據(jù)介紹,在該項(xiàng)測試中,一些非常簡單的任務(wù),o3依舊會出錯。

有關(guān)o3 mini

OpenAI 以思考的時間和成本為基準(zhǔn),不僅將 o3 系列分成了 o3 和 o3 mini,甚至更進(jìn)一步的將 o3 mini 分成了 low、medium、high(低中高)三個型號。

擊敗99.9%的程序員!o3來了!AGI測試實(shí)現(xiàn)躍升!網(wǎng)友:推理scaling law太炸了!一文回顧OpenAI直播帶貨12天-AI.x社區(qū)

而 o1 的平均思考時間是 8.92 秒,o3 mini(high)直接翻了差不多兩倍,達(dá)到了 23.33 秒的平均思考時間。

而 o3 mini(high)在一些任務(wù)上是 o1 水平,o3 旗艦版的平均思考時間這里沒有放出來,有網(wǎng)友認(rèn)為可能已經(jīng)達(dá)到了分鐘級。

基本上就是這些了,可以看出這次o3的發(fā)布,還是給出了不少驚喜:很多都是階躍式的提升。

相信各位朋友對于能不能用上更感興趣,目前o3也只是展示階段,還沒有真正開放使用,奧特曼透露,o3 mini會在明年1月底前發(fā)布,o3也會在那之后不久開放,現(xiàn)在呢,如果有心急的朋友可以先去申請測試:

??https://openai.com/index/early-access-for-safety-testing/??

最后附上以上12天的直播概覽吧,小編也在辛苦的追!

OpenAI12天發(fā)布回顧

DAY-1: o1滿血版上線

  • 滿血版o1上線多模態(tài)推理,推理速度和正確率比preview版顯著提升
  • 發(fā)布200美元/月的ChatGPT Pro 訂閱計(jì)劃,可無限制訪問 o1,還可訪問特供版o1 Pro

擊敗99.9%的程序員!o3來了!AGI測試實(shí)現(xiàn)躍升!網(wǎng)友:推理scaling law太炸了!一文回顧OpenAI直播帶貨12天-AI.x社區(qū)圖片

DAY-2: 新功能強(qiáng)化微調(diào)推出

  • 強(qiáng)化微調(diào)功能上線,最低幾十個例子就可創(chuàng)建專家模型,使開發(fā)人員能夠創(chuàng)建針對各種領(lǐng)域復(fù)雜任務(wù)的專用AI模型

擊敗99.9%的程序員!o3來了!AGI測試實(shí)現(xiàn)躍升!網(wǎng)友:推理scaling law太炸了!一文回顧OpenAI直播帶貨12天-AI.x社區(qū)圖片

DAY-3: Sora公開可用

  • Sora上線,開放給ChatGPT Plus/Pro用戶
  • Sora新增故事版(Storyboard)、Remix、Re-cut、Loop等功能

擊敗99.9%的程序員!o3來了!AGI測試實(shí)現(xiàn)躍升!網(wǎng)友:推理scaling law太炸了!一文回顧OpenAI直播帶貨12天-AI.x社區(qū)圖片

DAY-4: Canvas正式上線

  • Canvas上線,提供了智能寫作、代碼協(xié)作和AI智能體為一體的工作臺

擊敗99.9%的程序員!o3來了!AGI測試實(shí)現(xiàn)躍升!網(wǎng)友:推理scaling law太炸了!一文回顧OpenAI直播帶貨12天-AI.x社區(qū)圖片

上圖:Canvas界面,可以隨時與ChatGPT交互

擊敗99.9%的程序員!o3來了!AGI測試實(shí)現(xiàn)躍升!網(wǎng)友:推理scaling law太炸了!一文回顧OpenAI直播帶貨12天-AI.x社區(qū)逐漸變得濃烈的圣誕裝扮

DAY-5: 官宣和蘋果的合作

  • ChatGPT宣布全面接入蘋果設(shè)備,包括iPhone、iPad和Mac,支持Apple Intelligence

DAY-6: OpenAI的Her功能上線

  • 此前的AI實(shí)時視頻對話功能推出,允許用戶通過攝像頭與ChatGPT進(jìn)行互動
  • 團(tuán)隊(duì)用戶、ChatGPT Plus/Pro用戶可以訪問此項(xiàng)功能

擊敗99.9%的程序員!o3來了!AGI測試實(shí)現(xiàn)躍升!網(wǎng)友:推理scaling law太炸了!一文回顧OpenAI直播帶貨12天-AI.x社區(qū)圖片

DAY-7: Projects 功能上線

  • ChatGPT添加了“Projects”功能,相當(dāng)于給ChatGPT的對話搞了個文件夾
  • “Projects”允許用戶組織聊天會話,并上傳文件、設(shè)置項(xiàng)目指令

擊敗99.9%的程序員!o3來了!AGI測試實(shí)現(xiàn)躍升!網(wǎng)友:推理scaling law太炸了!一文回顧OpenAI直播帶貨12天-AI.x社區(qū)圖片

DAY-8: ChatGPT Search功能開放

  • ChatGPT Search功能開放給了免費(fèi)用戶,并進(jìn)行了大量更新,包括實(shí)時搜索、高級語音等功能

擊敗99.9%的程序員!o3來了!AGI測試實(shí)現(xiàn)躍升!網(wǎng)友:推理scaling law太炸了!一文回顧OpenAI直播帶貨12天-AI.x社區(qū)圖片

DAY-9: API的重大更新

  • OpenAI將o1模型通過API全面向第三方開發(fā)者開放
  • 宣布了對Realtime API的重大更新,價格全面下調(diào)(實(shí)時API音頻token價格降了60%)
  • 推出一種全新的微調(diào)方法——偏好微調(diào),根據(jù)開發(fā)人員的偏好更輕松地定制模型

擊敗99.9%的程序員!o3來了!AGI測試實(shí)現(xiàn)躍升!網(wǎng)友:推理scaling law太炸了!一文回顧OpenAI直播帶貨12天-AI.x社區(qū)因?yàn)榕co1有關(guān),成員很有梗的穿了草莓毛衣

DAY-10: ChatGPT熱線電話

  • OpenAI熱線開通,美國用戶撥打1-800-ChatGPT(或 1-800-242-8478)
  • 短信服務(wù):給上述號碼發(fā)送WhatsApp獲得ChatGPT回復(fù)

擊敗99.9%的程序員!o3來了!AGI測試實(shí)現(xiàn)躍升!網(wǎng)友:推理scaling law太炸了!一文回顧OpenAI直播帶貨12天-AI.x社區(qū)圖片

DAY-11: ChatGPT與Mac應(yīng)用深度集成

  • 桌面版ChatGPT打通了部分編程和寫作應(yīng)用,例如Warp、XCode、Notion,能夠更加方便地執(zhí)行任務(wù)

擊敗99.9%的程序員!o3來了!AGI測試實(shí)現(xiàn)躍升!網(wǎng)友:推理scaling law太炸了!一文回顧OpenAI直播帶貨12天-AI.x社區(qū)圖片

DAY-12: o3/o3 mini發(fā)布

  • OpenAI最新最強(qiáng)模型o3,在AGI測試方面躍升

擊敗99.9%的程序員!o3來了!AGI測試實(shí)現(xiàn)躍升!網(wǎng)友:推理scaling law太炸了!一文回顧OpenAI直播帶貨12天-AI.x社區(qū)圖片

完結(jié),撒花,冬至快樂~

本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者: 言征、伊風(fēng)


標(biāo)簽
已于2024-12-26 17:00:29修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦