中杯o3成OpenAI“性價(jià)比之王”?ARC-AGI測(cè)試結(jié)果出爐:得分翻倍、成本僅1/20
得分比第二名翻倍,成本卻僅為1/20?!
o3中杯在超難推理任務(wù)ARC-AGI上的新成績,屬實(shí)又給眾人帶來了億點(diǎn)點(diǎn)震撼。
根據(jù)ARC Prize官方介紹,本輪測(cè)試得出的關(guān)鍵結(jié)論如下:
- o3 (Medium) 在ARC-AGI-1上得分為57%,成本為1.5美元/任務(wù),優(yōu)于目前所有已知COT推理模型;
- o4-mini(Medium)在ARC-AGI-1上得分為42%,成本為0.23美元/任務(wù),準(zhǔn)確率不足但成本優(yōu)勢(shì)明顯;
- 在難度升級(jí)的ARC-AGI-2上,兩種型號(hào)模型的準(zhǔn)確率均未超過3%。
按照最新ARC測(cè)試,中杯o3堪稱目前OpenAI所有模型中的“性價(jià)比之王”。
不過值得注意的是,相比2024年12月OpenAI在“雙十二”直播活動(dòng)中發(fā)布的o3模型,最新成績可謂“大幅縮水”。
當(dāng)時(shí)o3在低推理能力設(shè)置下(Low)得分高達(dá)75.7%,并且讓模型推理更長時(shí)間后,其得分更是首次超越人類(85%)飆升至87.5%。
那么問題來了,為何短短幾個(gè)月過去,o3模型在ARC測(cè)試上的得分差異明顯呢?
原來前后兩個(gè)模型雖然名稱一樣,但實(shí)際并非相同的模型。
OpenAI當(dāng)下最新的o3,已針對(duì)聊天和產(chǎn)品應(yīng)用進(jìn)行了微調(diào)。
△圖源:ARC Prize官網(wǎng)
甚至,OpenAI研究員們也強(qiáng)調(diào),最新發(fā)布的o3并未專門針對(duì)ARC-AGI測(cè)試進(jìn)行訓(xùn)練。
也就是說,中杯o3第一次挑戰(zhàn)ARC難題就取得了好成績。
賓大沃頓商學(xué)院教授Ethan Mollick更是直言:
現(xiàn)在有更多的證據(jù)表明, o3代表著一次重大進(jìn)步。
與此同時(shí),時(shí)代雜志發(fā)表的一篇獨(dú)家文章表示,o3優(yōu)于94%的專業(yè)病毒學(xué)家。其在這一專業(yè)領(lǐng)域的準(zhǔn)確率達(dá)到了43.8%,相比之下博士級(jí)人類專家的準(zhǔn)確率僅為22.1%。
中杯o3 ARC-AGI測(cè)試成績出爐
ARC-AGI是一項(xiàng)旨在評(píng)判大模型的“智力”,或者說“AGI能力”的基準(zhǔn)測(cè)試。
里面包含了一系列拼圖問題,要求AI從不同顏色的方塊中識(shí)別出視覺模式,并生成正確的 “答案” 網(wǎng)格。這些問題主要是為了迫使AI適應(yīng)未曾見過的新問題。
正如開頭所言,在ARC-AGI-1中,o3模型曾以75.7%的得分“稱王稱霸”。而在看到這一成績后,ARC官方感受到了進(jìn)一步更新的緊迫性。
于是在2024年3月,他們上新了ARC-AGI-2版本,核心目標(biāo)是測(cè)試模型能否高效地獲取超出其訓(xùn)練數(shù)據(jù)的新技能。
具體而言,在ARC-AGI-1基礎(chǔ)之上,官方引入了更多符號(hào)解釋、多組合規(guī)則以及需要更深層次抽象的任務(wù),難度再次大升級(jí)。
正是基于以上兩個(gè)測(cè)試基準(zhǔn),在OpenAI最新上線了o3和o4-mini之后,ARC又重新進(jìn)行了測(cè)試。
除了中杯o3取得的好成績,更多測(cè)試結(jié)果如下:
首先是o3 (high),ARC官方自稱耗費(fèi)超過5萬美元,最終仍未獲得o3 (high)的完整測(cè)試結(jié)論。
理由是,在高推理能力設(shè)置下,模型在大多數(shù)情況下均無法響應(yīng)或超時(shí),最后只有不到一半的任務(wù)返回了結(jié)果。
不過參與審查的Mike Knoop表示,建議默認(rèn)使用o3 (high)設(shè)置,除非遇到超時(shí)才切換到Medium選項(xiàng)。
同時(shí)他認(rèn)為,雖然中杯o3的準(zhǔn)確率遠(yuǎn)低于o3-preview(去年12月的版本),但毫無疑問o3整體在準(zhǔn)確率和成本優(yōu)化方面做得非常出色。
如今,你在其他任何地方都買不到o3級(jí)別的AI推理能力。
一言以蔽之,本輪測(cè)試結(jié)果表明,中杯o3在繼承o3-preview大部分新功能的前提下,成本有了大幅下降。
除此之外,ARC官方還得出了三個(gè)關(guān)鍵發(fā)現(xiàn):
1、早期響應(yīng)準(zhǔn)確率更高:模型越早返回的任務(wù),準(zhǔn)確率越高。而那些耗時(shí)更長(無論是運(yùn)行時(shí)間還是token使用量)的任務(wù),失敗的可能性更大。
2、高級(jí)推理可能效率低下:在相同任務(wù)上比較中杯o3和o3 (high)時(shí),發(fā)現(xiàn)后者始終使用更多token來得出相同的答案。
3、每秒token數(shù)的最小變化:在o系列模型中,不同任務(wù)的每秒token數(shù)差異較小。特別是o3-mini-low和o4-mini-low的吞吐量(tok/s)高于中高版本。
One More Thing
順帶一提,ARC官方早前還測(cè)試過DeepSeek-R1。
最終結(jié)果是,在ARC-AGI-1基準(zhǔn)上,DeepSeek-R1得分為15.8%,遠(yuǎn)低于o3模型。
你怎么看o3的新測(cè)試?