自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

剛剛,OpenAI放出最后大驚喜o3,高計(jì)算模式每任務(wù)花費(fèi)數(shù)千美元

人工智能
o3 是 o1 系列模型的繼任者。這類(lèi)模型的特點(diǎn)是讓模型在回答問(wèn)題之前花更多時(shí)間思考(推理),從而提高回答的準(zhǔn)確率。不過(guò),OpenAI 在命名上跳過(guò)了 o2。據(jù) The Information 報(bào)道,這么做是為了避免版權(quán)問(wèn)題,因?yàn)橛?guó)有家電信公司名叫 O2,可能引起混淆。Sam Altman 在今天下午的直播中證實(shí)了這一點(diǎn)。

剛剛,OpenAI 為期 12 天的發(fā)布迎來(lái)尾聲。如外界所料,新的推理系列模型 ——o3 和 o3-mini 成為這次發(fā)布的收官之作。

o3 是 o1 系列模型的繼任者。這類(lèi)模型的特點(diǎn)是讓模型在回答問(wèn)題之前花更多時(shí)間思考(推理),從而提高回答的準(zhǔn)確率。不過(guò),OpenAI 在命名上跳過(guò)了 o2。據(jù) The Information 報(bào)道,這么做是為了避免版權(quán)問(wèn)題,因?yàn)橛?guó)有家電信公司名叫 O2,可能引起混淆。Sam Altman 在今天下午的直播中證實(shí)了這一點(diǎn)。

事實(shí)上,從昨天開(kāi)始,OpenAI 就已經(jīng)開(kāi)始預(yù)熱這個(gè)模型。而且已經(jīng)有開(kāi)發(fā)者在網(wǎng)上找到了 OpenAI 網(wǎng)站上對(duì) o3_min_safety_test 的引用。

也有人早早就想看看 o3 究竟有何真本事,能否匹敵谷歌昨天發(fā)布的 Gemini 2.0 Flash Thinking。

現(xiàn)在,和傳言的一樣,o3 和 o3-mini 來(lái)了!遺憾的是,o3 系列模型并不會(huì)直接公開(kāi)發(fā)布,而是會(huì)先進(jìn)行安全測(cè)試。Sam Altman 也指出今天不是發(fā)布(launch),只是宣布(announce)。

Sam Altman 提到,他們計(jì)劃在一月底左右推出 o3-mini,并在不久后推出完整的 o3 模型。

o3:突破 ARC-AGI 基準(zhǔn),博士級(jí)問(wèn)題求解能力

首先,在 12 只圣誕青蛙聚集的圓桌前,ARC Prize Fundation 總裁 Greg Kamradt 參與了對(duì) o3 模型的介紹。

ARC Prize Fundation 是一個(gè)非營(yíng)利組織,旨在「通過(guò)基準(zhǔn)測(cè)試來(lái)成為實(shí)現(xiàn) AGI 之路的北極星」。該組織的首個(gè)基準(zhǔn) ARC-AGI 已經(jīng)提出了 5 年時(shí)間,但一直未被攻克。

直到現(xiàn)在,Kamradt 宣布 o3 已經(jīng)在該基準(zhǔn)上達(dá)到了優(yōu)良水平,成為首個(gè)突破 ARC-AGI 基準(zhǔn)的 AI 模型。

據(jù)介紹,o3 系列模型在 ARC-AGI 基準(zhǔn)上的最低性能可達(dá)到 75.7%,而如果讓其使用更多計(jì)算資源思考更長(zhǎng)時(shí)間,o3 更是可以達(dá)到 87.5% 的水平。

在 ARC-AGI 基準(zhǔn)中,AI 需要根據(jù)配對(duì)的「輸入 - 輸出」示例尋找規(guī)律,然后再基于一個(gè)輸入預(yù)測(cè)輸出,下圖展示了一些例子。參加過(guò)畢業(yè)季招聘或公務(wù)員考試的人或許對(duì)此類(lèi)圖形推理問(wèn)題并不陌生。

Greg Kamradt 也順勢(shì)宣布開(kāi)源了一個(gè)任務(wù)數(shù)據(jù)集:https://github.com/arcprizeorg/model_baseline

ARC-AGI 發(fā)起者、Keras 之父 Fran?ois Chollet 在測(cè)試報(bào)告中寫(xiě)道,「(o3 系列模型)在高效率模式下取得的 75.7% 的分?jǐn)?shù)符合 ARC-AGI-Pub 的預(yù)算規(guī)則(成本 <10000 美元),因此有資格在公共排行榜上排名第一!而它們?cè)诘托誓J较氯〉玫?87.5% 的分?jǐn)?shù)。雖然成本高昂,但仍然表明新任務(wù)的性能確實(shí)隨著計(jì)算量的增加而提高(至少達(dá)到了這個(gè)水平)。」

報(bào)告中還寫(xiě)道,盡管每項(xiàng)任務(wù)的成本很高(o3 在低計(jì)算量模式下每個(gè)任務(wù)需要 17-20 美元,高計(jì)算量模式下每個(gè)任務(wù)數(shù)千美元),但這些數(shù)字不僅僅是將暴力計(jì)算應(yīng)用于基準(zhǔn)測(cè)試的結(jié)果。OpenAI 的新 o3 模型代表了人工智能適應(yīng)新任務(wù)的能力的重大飛躍。這不僅僅是漸進(jìn)式的改進(jìn),而是真正的突破,標(biāo)志著與 LLM 之前的局限性相比,人工智能能力發(fā)生了質(zhì)的轉(zhuǎn)變。o3 能夠適應(yīng)以前從未遇到過(guò)的任務(wù),可以說(shuō)在 ARC-AGI 領(lǐng)域接近人類(lèi)水平的表現(xiàn)。

不過(guò),報(bào)告也指出,ARC-AGI 并不是對(duì) AGI 的嚴(yán)峻考驗(yàn),通過(guò) ARC-AGI 并不等于實(shí)現(xiàn) AGI。「事實(shí)上,我認(rèn)為 o3 還不是 AGI。o3 在一些非常簡(jiǎn)單的任務(wù)上仍然失敗,這表明其與人類(lèi)智能存在根本差異?!笷ran?ois Chollet 表示。

OpenAI o3 消耗數(shù)千美元,生成數(shù)百萬(wàn)個(gè) token 也沒(méi)能解決的問(wèn)題。

ARC Prize Fundation 總裁 Greg Kamradt 表示,明年還會(huì)與 OpenAI 一起開(kāi)發(fā)下一代基準(zhǔn)。不過(guò),從早期數(shù)據(jù)點(diǎn)來(lái)看,即將推出的 ARC-AGI-2 基準(zhǔn)測(cè)試仍將對(duì) o3 構(gòu)成重大挑戰(zhàn),即使在高計(jì)算量下,其得分也可能會(huì)降低到 30% 以下(而聰明人在不經(jīng)過(guò)任何培訓(xùn)的情況下仍然能夠得分超過(guò) 95%)。

在報(bào)告中,F(xiàn)ran?ois Chollet 還分析了為什么 o3 的分?jǐn)?shù)可以提升那么多。他寫(xiě)道,「LLM 就像一個(gè)向量程序的存儲(chǔ)庫(kù)。當(dāng)被提示時(shí),它們會(huì)檢索你的提示詞映射到的程序,并在當(dāng)前的輸入上『執(zhí)行』它。LLM 是一種通過(guò)被動(dòng)接觸人類(lèi)生成的內(nèi)容來(lái)存儲(chǔ)和操作化數(shù)百萬(wàn)有用小程序的方法?!?/span>

「只要有足夠的合適訓(xùn)練數(shù)據(jù),這種『記憶、檢索、應(yīng)用』的模式就能在任意任務(wù)上達(dá)到任意水平的技能,但它無(wú)法適應(yīng)新情況或即時(shí)學(xué)習(xí)新技能(也就是說(shuō),這里并沒(méi)有涉及到 fluid intelligence)。這一點(diǎn)在 LLM 在 ARC-AGI 上的表現(xiàn)中得到了體現(xiàn),ARC-AGI 是專(zhuān)門(mén)設(shè)計(jì)用來(lái)衡量對(duì)新事物適應(yīng)能力的基準(zhǔn)測(cè)試 ——GPT-3 得分為 0,GPT-4 得分接近 0,GPT-4o 達(dá)到了 5%。將這些模型擴(kuò)展到可能的極限,并沒(méi)有使 ARC-AGI 的得分接近幾年前基本的暴力枚舉就能達(dá)到的水平(高達(dá) 50%)?!?/span>

「要適應(yīng)新事物,你需要兩樣?xùn)|西。首先,你需要知識(shí) —— 一套可復(fù)用的函數(shù)或程序庫(kù)。LLM 在這方面擁有的資源綽綽有余。其次,你需要在面對(duì)新任務(wù)時(shí),能夠?qū)⑦@些函數(shù)重新組合成一個(gè)全新的程序 —— 一個(gè)能夠模擬當(dāng)前任務(wù)的程序。這就是程序合成。LLM 長(zhǎng)期以來(lái)缺乏這一特性。而 o 系列模型解決了這個(gè)問(wèn)題。」

「關(guān)于 o3 模型的具體工作原理,目前我們只能進(jìn)行一些推測(cè)。o3 模型的核心機(jī)制似乎是在 token 空間內(nèi)進(jìn)行自然語(yǔ)言程序搜索和執(zhí)行 —— 在測(cè)試時(shí),模型會(huì)在可能的思維鏈空間中搜索,這些思維鏈描述了解決任務(wù)所需的步驟,這種方式可能與 AlphaZero 風(fēng)格的蒙特卡洛樹(shù)搜索(Monte-Carlo tree search)頗有相似之處。在 o3 的情況下,搜索可能由某種評(píng)估模型引導(dǎo)進(jìn)行。值得注意的是,DeepMind 的 Demis Hassabis 在 2023 年 6 月的一次采訪(fǎng)中暗示,DeepMind 一直在研究這一概念 —— 這項(xiàng)工作已經(jīng)醞釀了很長(zhǎng)時(shí)間。」

詳細(xì)分析參見(jiàn):https://arcprize.org/blog/oai-o3-pub-breakthrough

除了解決 ARC-AGI 這樣的「IQ」 問(wèn)題,o3 的編碼能力也比之前的 o1 系列明顯更勝一籌。在 SWE-bench Verified 基準(zhǔn)上,o3 的準(zhǔn)確率約為 71.7%,比 o1 模型高出 20% 以上。在 Competition Code 中,o3 獲得了難以置信 2727 Elo 得分,而 o1 僅為 1891。

此外,o3 在競(jìng)賽數(shù)學(xué)(Competition Math )上的準(zhǔn)確率達(dá)到 96.7%,在 GPQA Diamond (該基準(zhǔn)衡量模型在博士級(jí)科學(xué)問(wèn)題上的表現(xiàn))上的準(zhǔn)確率達(dá)到 87.7%,比之前的 o1 表現(xiàn)(78%)高出近 10%。總結(jié)來(lái)看,o3 在這兩項(xiàng)基準(zhǔn)測(cè)試上都達(dá)到了最佳表現(xiàn)。

o3 在 OpenAI 研究人員認(rèn)為最嚴(yán)格的基準(zhǔn)之一(EpochAI Frontier Math)上的表現(xiàn)如下表所示。該數(shù)據(jù)集由新穎的、未發(fā)表的以及非常難、極其難的問(wèn)題組成。

OpenAI 高級(jí)研究副總裁 Mark Chen 特別強(qiáng)調(diào)了,即使是專(zhuān)業(yè)數(shù)學(xué)家也需要幾個(gè)小時(shí)甚至幾天才能解決里面的問(wèn)題之一。而今天,所有產(chǎn)品在這個(gè)基準(zhǔn)上的準(zhǔn)確率都低于 2%,o3 的準(zhǔn)確率可以超過(guò) 25%。

o3-mini:高性能低成本,非常適合編程

o3 mini 是一個(gè)更經(jīng)濟(jì)高效的 o3 版本,專(zhuān)注在提升推理速度、降低推理成本的同時(shí)兼顧模型性能。

介紹 o3-mini 的是參與訓(xùn)練的 OpenAI 研究者 Hongyu Ren

它支持三種不同的推理時(shí)間選項(xiàng) —— 低、中、高。

與 o1 相比,o3-mini 在 Codeforces 上的性能具有顯著的成本效益,這使其成為一個(gè)非常適合用來(lái)編程的模型。

在數(shù)學(xué)問(wèn)題上,o3-mini (low) 實(shí)現(xiàn)了與 gpt-4o 相當(dāng)?shù)牡脱舆t。

o3-mini 上所有的 API 特性以及相應(yīng)的能力表現(xiàn)如下:  

Hongyu Ren 現(xiàn)場(chǎng)演示了幾個(gè)示例。首先,針對(duì) o3-mini (high),任務(wù)是使用 Python 語(yǔ)言編寫(xiě)一個(gè)本地服務(wù)器,其有一個(gè)簡(jiǎn)易的用戶(hù) UI,同時(shí)可以將用戶(hù)給出的文本消息通過(guò) API 傳輸給 o3-mini 的 medium 選項(xiàng),然后獲取得到的代碼,將其保存到桌面的一個(gè)臨時(shí)文件中,然后在一個(gè)新的 Python 終端中執(zhí)行該文件。

38 秒后,o3-mini 生成了結(jié)果代碼:

接著,Hongyu Ren 直接將其復(fù)制到了一個(gè) server.py 文件中,然后直接運(yùn)行了它。

圖片

之后,他嘗試了使用這個(gè)服務(wù)器:print openai 并隨機(jī)給出一個(gè)數(shù),簡(jiǎn)單任務(wù),當(dāng)然很成功。

圖片

接下來(lái)他們上了點(diǎn)難度:在相當(dāng)困難的 GPQA Diamond 數(shù)據(jù)集(這是一個(gè)博士水平的科學(xué)問(wèn)題基準(zhǔn))上,生成一個(gè)代碼來(lái)評(píng)估 o3-mini 的 low 模式,需要下載 https://openaipublic.blob.core.windows.net/simple-evals/gpga_diamond.csv

最后,使用前面編寫(xiě)的 UI 界面,o3-mini 用了一定時(shí)間完成了這個(gè)任務(wù),最終得到 low 模式下的 o3-mini 在 GPQA Diamond 數(shù)據(jù)集上的準(zhǔn)確度為 61.62%。也就是說(shuō),他們成功讓模型編寫(xiě)了一個(gè)測(cè)試該模型自身的腳本。

圖片

Mark Chen 打趣地表示明年要讓 AI 演示一下自我提升,但這個(gè)說(shuō)法似乎不夠 PR,讓 Sam Altman 趕忙說(shuō)了一句:「Maybe not.」

另外,他們也給出了在 GPQA Diamond 數(shù)據(jù)集上的更多測(cè)試結(jié)果??梢钥吹剑琽3-mini (low) 的結(jié)果與上面演示示例得到的結(jié)果基本一致,而 o3 滿(mǎn)血版更是可以得到 87.7 的高準(zhǔn)確度分?jǐn)?shù)。

如何申請(qǐng)測(cè)試 o3 和 o3-mini

Mark Chen 表示,OpenAI 已經(jīng)做了大量?jī)?nèi)部安全測(cè)試,而現(xiàn)在他們正在推進(jìn)外部安全測(cè)試。從即日起,想要參與的測(cè)試者可以申請(qǐng)測(cè)試 o3-mini,至于 o3,就連測(cè)試員也還得繼續(xù)等待。

早期訪(fǎng)問(wèn)申請(qǐng)現(xiàn)已在 OpenAI 網(wǎng)站上開(kāi)放,并將于 2025 年 1 月 10 日關(guān)閉。

申請(qǐng)地址:https://openai.com/index/early-access-for-safety-testing/

申請(qǐng)者必須填寫(xiě)一份在線(xiàn)表格,表格中會(huì)要求他們提供各種不同的信息,包括之前發(fā)表的論文鏈接及其在 Github 上的代碼庫(kù),并選擇他們希望測(cè)試的模型(o3 或 o3-mini)以及計(jì)劃使用它們做什么。

選定的研究人員將被授予訪(fǎng)問(wèn) o3 和 o3-mini 的權(quán)限,以探索它們的能力并為安全評(píng)估做出貢獻(xiàn),不過(guò) OpenAI 的表格提示稱(chēng),o3 將在幾周內(nèi)無(wú)法使用。

OpenAI 表示他們將滾動(dòng)審核申請(qǐng),并立即開(kāi)始選拔申請(qǐng)人。

最后,Mark Chen 也簡(jiǎn)單介紹了他們的一種新的安全評(píng)估方法:deliberative alignment,即審議式對(duì)齊。這是一種直接教授模型安全規(guī)范的新范式,并可訓(xùn)練模型在回答之前明確回憶規(guī)范并準(zhǔn)確地執(zhí)行推理。他們使用了這種方法來(lái)對(duì)齊 OpenAI 的 o 系列模型 ,并實(shí)現(xiàn)了對(duì) OpenAI 安全政策的高度精確遵守,并且這個(gè)過(guò)程無(wú)需人工編寫(xiě)的思路或答案。

感興趣的讀者可查看 OpenAI 的相關(guān)論文。


  • 論文標(biāo)題:Deliberative Alignment: Reasoning Enables Safer Language Models
  • 論文地址:https://assets.ctfassets.net/kftzwdyauwt9/4pNYAZteAQXWtloDdANQ7L/978a6fd0a2ee268b2cb59637bd074cca/OpenAI_Deliberative-Alignment-Reasoning-Enables-Safer_Language-Models_122024.pdf

所以,總結(jié)起來(lái),12 天發(fā)布的最后一天,OpenAI 真正發(fā)布出來(lái)的東西只有一篇論文,更多是兌現(xiàn)期票。另外,我們還是不知道 o3 是否能解答最難的高考數(shù)學(xué)題,但至少?gòu)?OpenAI 的描述來(lái)看,答案應(yīng)該是樂(lè)觀的。

對(duì)于 OpenAI 的這最后一天發(fā)布和 o3 模型,你有什么看法?

責(zé)任編輯:姜華 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-12-30 09:55:00

AI數(shù)據(jù)模型

2024-12-24 16:15:04

2025-01-24 07:26:07

2025-04-11 10:32:39

2025-03-18 08:58:13

2025-04-23 08:30:05

2025-02-07 09:05:36

2025-01-13 00:00:00

AI模型數(shù)據(jù)

2025-03-20 09:46:06

OpenAI模型AI

2025-02-06 09:23:07

2012-03-13 16:55:02

2025-04-18 11:18:51

2025-04-17 08:59:59

2025-04-21 16:25:58

OpenAI測(cè)試模型

2013-05-16 09:33:06

移動(dòng)開(kāi)發(fā)谷歌IO大會(huì)

2025-04-21 08:22:25

2025-04-17 09:02:00

2025-04-24 09:11:09

2024-12-09 07:00:00

o1-mini模型強(qiáng)化微調(diào)OpenAI

2024-12-24 15:00:00

模型數(shù)據(jù)訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)