自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

奧賽級AI基準(zhǔn)來了:難倒所有模型,GPT-4o僅考34分,上海交大出品

人工智能 新聞
上海交通大學(xué)生成式人工智能實驗室 (GAIR Lab) 的研究團隊推出多學(xué)科認知推理基準(zhǔn)OlympicArena,即使是GPT-4o 也只達到了 34.01% 的整體準(zhǔn)確率,而其他開源模型的整體準(zhǔn)確率也難以達到20%。

為了進一步挑戰(zhàn)AI系統(tǒng),大家已經(jīng)開始研究一些最困難的競賽中的問題,特別是國際奧林匹克競賽和算法挑戰(zhàn)。

但目前尚無奧林匹克級別的、多學(xué)科的基準(zhǔn),能夠全面評估綜合解決問題的能力,以全面檢驗人工智能的綜合認知能力。

上海交通大學(xué)生成式人工智能實驗室 (GAIR Lab) 的研究團隊推出多學(xué)科認知推理基準(zhǔn)OlympicArena,即使是GPT-4o 也只達到了 34.01% 的整體準(zhǔn)確率,而其他開源模型的整體準(zhǔn)確率也難以達到20%。

這一鮮明的對比凸顯了他們基準(zhǔn)測試的巨大難度和嚴謹性,證明了它在突破當(dāng)前 AI 能力界限方面的有效性。

圖片

OlympicArena不僅是一套題庫,還做了一些創(chuàng)新,比如為避免模型“刷題”,團隊引入數(shù)據(jù)泄漏檢測技術(shù),采用N-gram預(yù)測檢測數(shù)據(jù)泄露,確認99.6%的題目未被預(yù)訓(xùn)練數(shù)據(jù)污染。

除此之外還提供了一套全面的資源來支持人工智能研究,包括基準(zhǔn)數(shù)據(jù)集、開源注釋平臺、詳細的評估工具和具有自動提交功能的排行榜。

圖片

OlympicArena難度水平

OlympicArena覆蓋數(shù)學(xué)、物理、化學(xué)、生物、地理、天文學(xué)、計算機科學(xué)7大領(lǐng)域,細分34個分支(如數(shù)論、量子物理、有機化學(xué))。題目來源包括國際數(shù)學(xué)奧賽(IMO)、國際物理奧賽(IPhO)等62項頂尖賽事,共11163道雙語題目(中英對照),實際的難度如何。

AGI-Eval大模型評測團隊基于此,做了OlympicArena題目的難度驗證,按照14個標(biāo)桿模型(去除Qwen2-72B-Chat)的結(jié)果對數(shù)據(jù)子集和數(shù)據(jù)集維度做難度分布,從圖中可以看到,OlympicArena整體難度偏難,僅低于AGI-Eval團隊私有的兩個高中數(shù)學(xué)競賽題目。

圖片

AGI-Eval評測模型榜單

“奧賽題是檢驗AI科學(xué)思維的絕佳試金石?!边@類高難度題目不僅需要知識儲備,更考驗邏輯推導(dǎo)、空間想象、符號理解等綜合能力。在這場超級測試中,那擅長代碼、學(xué)科競賽的推理系模型表現(xiàn)如何?

AGI-Eval大模型評測社區(qū)也做了新的模型評測,接入最新的推理系模型以及大語言標(biāo)桿模型。

從整體表現(xiàn)上看o1和DeepSeek-R1的水平基本持平,但是在化學(xué)、生物學(xué)、天文學(xué)、物理上o1表現(xiàn)好于DeepSeek-R1,特別是天文學(xué)上o1得分達92.47%,但數(shù)學(xué)、地理方面DeepSeek-R1優(yōu)于o1。

圖片

推理系模型和新迭代的模型版本效果都有明顯提升,詳細排名及得分可上官網(wǎng)查看。

圖片

學(xué)術(shù)難度分析

從能力測試上可以看到模型在不同學(xué)科的表現(xiàn)水平不同,在天文學(xué)上o1得分高達92.47%。是天文學(xué)很簡單嗎?基于此,團隊也做了相關(guān)的學(xué)科分析,從下面的箱合圖中可以看到(中位數(shù)越小越難):

  • 化學(xué)、生物、地理和天文為一檔,該檔模型中位數(shù)大于0.6,從箱型大小可以得到構(gòu)建優(yōu)先級為:天文 > 化學(xué) > 生物 > 地理
  • 物理為單獨一檔,該檔模型中位數(shù)0.5附近,箱型大小較大
  • 數(shù)學(xué)為單獨一檔,該檔模型中位數(shù)0.3附近,箱型大小極大

客觀來說,在數(shù)學(xué)物理上R1、o1、o3-mini表現(xiàn)能力更好,能力水平也會更穩(wěn)定。

圖片

題型分析

除對模型進行能力評測外,AGI-Eval大模型評測團隊也做了相關(guān)的題型分析,提煉出以下雷達圖,從圖中可以看到1-5排名的推理模型對其它模型產(chǎn)生了碾壓的態(tài)勢,特別是在非選擇題題型上,建議構(gòu)建題目以單問的生成題為主。

圖片

△通用模型6-10

難度分析

同時也對模型在面對不同難度題目做了分析,可以看到頭部模型在Easy難度基本已接近100%的準(zhǔn)確率,且無區(qū)分度;Medium/Hard難度是推理系模型拉開的主戰(zhàn)場,且Meidum難度已達到90%的準(zhǔn)確率,后續(xù)模型評測建議只構(gòu)建Hard難度的題目。

圖片

預(yù)測分析,用Medium、Hard擬合Easy,Easy、Hard擬合Medium,以及Easy、Medium擬合Hard,可以得到如下圖(在Ideal Fit線上方的為超出預(yù)期,線下的為低于預(yù)期)。

  • O3-mini、O1、DeepSeek-R1在Hard上已超越模型列表中的正常表現(xiàn),但在Medium上略低于預(yù)期
  • 平衡點:即Easy、Medium、Hard上分數(shù)為多少時三公式有解,說明模型表現(xiàn)均衡,Easy = 1, Medium = 0.6695, Hard = 0.1897

圖片

圖片

圖片

結(jié)語

OlympicArena的誕生,是對現(xiàn)有模型的試金石,更是對AI研發(fā)路徑的深刻啟示:僅靠數(shù)據(jù)堆砌無法實現(xiàn)真正的智能。未來的AI應(yīng)該學(xué)會像奧賽選手一樣拆解問題、關(guān)聯(lián)知識、嚴謹推導(dǎo)。

當(dāng)模型能力達到這樣的水平時,對模型的評測的題目難度及評測要求也越來越高,后續(xù)模型評測建議只構(gòu)建Hard難度的題目。

基于此,AGI-Eval大模型評測團隊創(chuàng)新性地提出了人機協(xié)作評測模式,并推出10q的全新玩法。待測模型需要在同一套system prompt下指導(dǎo)真實用戶學(xué)習(xí)一個知識點并完成quiz,基于模型與用戶的高質(zhì)量多輪對話數(shù)據(jù),產(chǎn)出更加高置信度的評測結(jié)論。

在這種模式下,參與者可以與最新的大模型共同完成任務(wù),既有助于提高任務(wù)完成度又便于建立更加直觀的區(qū)分度。

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-04-16 08:40:00

模型智能語音

2024-06-17 18:04:38

2024-07-11 11:53:56

2024-08-05 08:46:00

模型測評

2024-06-27 12:45:30

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2024-12-19 09:00:00

模型數(shù)學(xué)訓(xùn)練

2024-05-15 17:34:15

2024-12-18 13:24:30

谷歌AI大語言模型

2024-05-14 11:29:15

2025-02-18 12:30:00

2024-04-01 08:00:00

AI模型

2024-11-28 15:51:19

GPT-4o微軟

2024-07-31 13:20:14

2024-09-24 11:13:14

2025-04-16 09:15:00

AI模型數(shù)據(jù)

2025-01-08 13:08:55

2024-05-30 13:13:43

2024-08-14 14:30:00

AI訓(xùn)練

2025-04-07 02:33:00

GPT-4.5GPT-4oAI
點贊
收藏

51CTO技術(shù)棧公眾號