自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

中杯o3成OpenAI“性價(jià)比之王”?ARC-AGI測(cè)試結(jié)果出爐:得分翻倍、成本僅1/20

人工智能 新聞
ARC-AGI是一項(xiàng)旨在評(píng)判大模型的“智力”,或者說“AGI能力”的基準(zhǔn)測(cè)試。

得分比第二名翻倍,成本卻僅為1/20?!

o3中杯在超難推理任務(wù)ARC-AGI上的新成績,屬實(shí)又給眾人帶來了億點(diǎn)點(diǎn)震撼。

圖片

根據(jù)ARC Prize官方介紹,本輪測(cè)試得出的關(guān)鍵結(jié)論如下:

  • o3 (Medium) 在ARC-AGI-1上得分為57%,成本為1.5美元/任務(wù),優(yōu)于目前所有已知COT推理模型;
  • o4-mini(Medium)在ARC-AGI-1上得分為42%,成本為0.23美元/任務(wù),準(zhǔn)確率不足但成本優(yōu)勢(shì)明顯;
  • 在難度升級(jí)的ARC-AGI-2上,兩種型號(hào)模型的準(zhǔn)確率均未超過3%。

圖片

按照最新ARC測(cè)試,中杯o3堪稱目前OpenAI所有模型中的“性價(jià)比之王”。

不過值得注意的是,相比2024年12月OpenAI在“雙十二”直播活動(dòng)中發(fā)布的o3模型,最新成績可謂“大幅縮水”。

當(dāng)時(shí)o3在低推理能力設(shè)置下(Low)得分高達(dá)75.7%,并且讓模型推理更長時(shí)間后,其得分更是首次超越人類(85%)飆升至87.5%。

圖片

那么問題來了,為何短短幾個(gè)月過去,o3模型在ARC測(cè)試上的得分差異明顯呢?

原來前后兩個(gè)模型雖然名稱一樣,但實(shí)際并非相同的模型。

OpenAI當(dāng)下最新的o3,已針對(duì)聊天和產(chǎn)品應(yīng)用進(jìn)行了微調(diào)。

圖片△圖源:ARC Prize官網(wǎng)

甚至,OpenAI研究員們也強(qiáng)調(diào),最新發(fā)布的o3并未專門針對(duì)ARC-AGI測(cè)試進(jìn)行訓(xùn)練。

也就是說,中杯o3第一次挑戰(zhàn)ARC難題就取得了好成績。

圖片圖片

賓大沃頓商學(xué)院教授Ethan Mollick更是直言:

現(xiàn)在有更多的證據(jù)表明, o3代表著一次重大進(jìn)步。

圖片

與此同時(shí),時(shí)代雜志發(fā)表的一篇獨(dú)家文章表示,o3優(yōu)于94%的專業(yè)病毒學(xué)家。其在這一專業(yè)領(lǐng)域的準(zhǔn)確率達(dá)到了43.8%,相比之下博士級(jí)人類專家的準(zhǔn)確率僅為22.1%。

圖片

中杯o3 ARC-AGI測(cè)試成績出爐

ARC-AGI是一項(xiàng)旨在評(píng)判大模型的“智力”,或者說“AGI能力”的基準(zhǔn)測(cè)試。

里面包含了一系列拼圖問題,要求AI從不同顏色的方塊中識(shí)別出視覺模式,并生成正確的 “答案” 網(wǎng)格。這些問題主要是為了迫使AI適應(yīng)未曾見過的新問題。

圖片

正如開頭所言,在ARC-AGI-1中,o3模型曾以75.7%的得分“稱王稱霸”。而在看到這一成績后,ARC官方感受到了進(jìn)一步更新的緊迫性。

于是在2024年3月,他們上新了ARC-AGI-2版本,核心目標(biāo)是測(cè)試模型能否高效地獲取超出其訓(xùn)練數(shù)據(jù)的新技能。

具體而言,在ARC-AGI-1基礎(chǔ)之上,官方引入了更多符號(hào)解釋、多組合規(guī)則以及需要更深層次抽象的任務(wù),難度再次大升級(jí)。

正是基于以上兩個(gè)測(cè)試基準(zhǔn),在OpenAI最新上線了o3和o4-mini之后,ARC又重新進(jìn)行了測(cè)試。

除了中杯o3取得的好成績,更多測(cè)試結(jié)果如下:

首先是o3 (high),ARC官方自稱耗費(fèi)超過5萬美元,最終仍未獲得o3 (high)的完整測(cè)試結(jié)論。

理由是,在高推理能力設(shè)置下,模型在大多數(shù)情況下均無法響應(yīng)或超時(shí),最后只有不到一半的任務(wù)返回了結(jié)果。

不過參與審查的Mike Knoop表示,建議默認(rèn)使用o3 (high)設(shè)置,除非遇到超時(shí)才切換到Medium選項(xiàng)。

同時(shí)他認(rèn)為,雖然中杯o3的準(zhǔn)確率遠(yuǎn)低于o3-preview(去年12月的版本),但毫無疑問o3整體在準(zhǔn)確率和成本優(yōu)化方面做得非常出色。

如今,你在其他任何地方都買不到o3級(jí)別的AI推理能力。

一言以蔽之,本輪測(cè)試結(jié)果表明,中杯o3在繼承o3-preview大部分新功能的前提下,成本有了大幅下降。

圖片

除此之外,ARC官方還得出了三個(gè)關(guān)鍵發(fā)現(xiàn):

1、早期響應(yīng)準(zhǔn)確率更高:模型越早返回的任務(wù),準(zhǔn)確率越高。而那些耗時(shí)更長(無論是運(yùn)行時(shí)間還是token使用量)的任務(wù),失敗的可能性更大。

2、高級(jí)推理可能效率低下:在相同任務(wù)上比較中杯o3和o3 (high)時(shí),發(fā)現(xiàn)后者始終使用更多token來得出相同的答案。

3、每秒token數(shù)的最小變化:在o系列模型中,不同任務(wù)的每秒token數(shù)差異較小。特別是o3-mini-low和o4-mini-low的吞吐量(tok/s)高于中高版本。

圖片

One More Thing

順帶一提,ARC官方早前還測(cè)試過DeepSeek-R1。

最終結(jié)果是,在ARC-AGI-1基準(zhǔn)上,DeepSeek-R1得分為15.8%,遠(yuǎn)低于o3模型。

圖片

你怎么看o3的新測(cè)試?

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-12-26 11:42:56

ARC-AGI大模型人工智能

2024-12-23 07:40:00

AI模型數(shù)學(xué)

2024-06-20 10:43:15

2025-04-22 09:18:57

2024-12-24 16:15:04

2025-04-21 08:22:25

2025-03-25 13:07:36

2025-03-10 08:10:00

AI研究安全

2025-04-23 08:30:05

2025-02-07 09:05:36

2025-02-18 08:15:03

2025-03-18 13:14:13

2025-04-17 14:09:52

OpenAI模型編程

2024-12-23 10:20:00

數(shù)據(jù)訓(xùn)練模型

2025-04-18 11:18:51

2025-03-18 08:58:13

2025-04-17 08:59:59

2025-04-21 16:25:58

OpenAI測(cè)試模型

2025-01-16 14:35:34

2024-12-30 09:30:00

OpenAIAI訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)