自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

人類最后一次考試,AI慘敗正確率<10%!數(shù)百頂級專家聯(lián)手出題,DeepSeek竟是王者

人工智能 新聞
AI模型可能并沒有想象中強(qiáng)大。在最新的AI基準(zhǔn)測試「人類最后一次考試」中,所有頂尖LLM通過率不超過10%,而且模型都表現(xiàn)得過度自信。

捍衛(wèi)「人類智慧」最后一戰(zhàn)!

剛剛,Scale AI和Center for AI Safety(CAIS)公布了「人類最后一場考試」結(jié)果!

新基準(zhǔn)全稱「人類最后一次考試」(Humanity’s Last Exam),簡稱「HLM」,包含3000個(gè)問題,由數(shù)百位領(lǐng)域?qū)<议_發(fā),用于追尋人類知識推理的邊界。

目前,最好的模型,準(zhǔn)確率也小于10%,而且自信「過頭」。

圖片

圖片

具體結(jié)果如下:

圖片

Scale AI和CAIS同時(shí)公布了相關(guān)論文、數(shù)據(jù)集和測試代碼。

圖片

項(xiàng)目鏈接:https://lastexam.ai/

網(wǎng)友對這項(xiàng)工作也不吝贊賞:

圖片

圖片

「人類最后一次考試」

為了評估AI的能力的進(jìn)展,已發(fā)布了多個(gè)數(shù)據(jù)集,針對語言模型,根據(jù)「Paper with code」網(wǎng)站統(tǒng)計(jì),就有165個(gè)相關(guān)數(shù)據(jù)集。

圖片

然而,目前的基準(zhǔn)測試難度并未跟上進(jìn)步的步伐:LLM在一些熱門基準(zhǔn)測試(如MMLU)上已能達(dá)到90%以上的準(zhǔn)確率,這限制了對最新LLM能力的有效評估。

圖片

甚至有基準(zhǔn)被爆出,可能存在給某些模型「漏題」的問題。

為此,Scale AI和CAIS推出了名為「人類最后的考試」(Humanity's Last Exam)的多模態(tài)基準(zhǔn)測試,旨在成為這類封閉式學(xué)術(shù)基準(zhǔn)測試的最終版本,覆蓋廣泛的學(xué)科領(lǐng)域。

測評一覽

「人類最后一次考試」(HLE)包含兩種問題格式:

  1. 精確匹配題(Exact-Match Questions):模型需要輸出一個(gè)完全匹配的字符串作為答案。
  2. 選擇題(Multiple-Choice Questions):模型需要從五個(gè)或更多選項(xiàng)中選擇一個(gè)正確答案。

此外,HLE是一個(gè)多模態(tài)基準(zhǔn)測試,其中10%的問題要求理解文本和圖像參考,80%的問題為精確匹配題,其余為選擇題。

該數(shù)據(jù)集包含3000道難度較高的問題,涉及100多個(gè)學(xué)科。

各學(xué)科分類,大體如下:

圖片

圖3:HLE高級類別分組。

大部分問題已公開發(fā)布,同時(shí)保留了一部分私有測試集,用于評估模型是否存在過擬合現(xiàn)象。

在項(xiàng)目網(wǎng)站上,公布了不同領(lǐng)域/科目的8個(gè)樣題,包含化學(xué)、物理、數(shù)學(xué)、計(jì)算機(jī)科學(xué)、語言學(xué)等。

比如,其中的一道常識性問題:

希臘神話中,伊阿宋的曾祖父是誰?

具體樣題,參考下列圖片。

圖片

圖片

圖片

圖片

創(chuàng)建流程

為了吸引高質(zhì)量的問題提交,HLE設(shè)立了總額50萬美元的獎(jiǎng)金池,并提供以下獎(jiǎng)勵(lì):

  1. 頂級問題獎(jiǎng)勵(lì):每道排名前50的問題將獲得5,000美元獎(jiǎng)金。
  2. 優(yōu)質(zhì)問題獎(jiǎng)勵(lì):接下來的500道問題,每道將獲得500美元獎(jiǎng)金。

此外,任何被HLE接受的問題提交者,都有機(jī)會成為相關(guān)論文的共同作者,激勵(lì)了眾多高水平的專家參與,特別是那些擁有高級學(xué)位或在相關(guān)技術(shù)領(lǐng)域擁有豐富經(jīng)驗(yàn)的專業(yè)人士。

總體而言,總收集了超過70,000個(gè)試驗(yàn)性問題,其中13,000個(gè)問題被選出來供人類專家評審,進(jìn)而最終確定在公開考試中發(fā)布的3,000個(gè)問題。

近1000名專家成功提交了問題。

他們來自50個(gè)國家的500多個(gè)機(jī)構(gòu),其中大多數(shù)貢獻(xiàn)者是活躍的研究員或教授。

問題涵蓋了多種格式,包括純文本和多模態(tài)難題,整合了圖像和圖表。

為了確保問題的高質(zhì)量和難度,HLE的數(shù)據(jù)集通過以下流程創(chuàng)建:

  1. 問題篩選:首先接收問題提交,這些問題專門前沿的LLM設(shè)計(jì),LLM通常難以正確回答。
  2. 迭代優(yōu)化:在專家同行評審的幫助下,反復(fù)修改和優(yōu)化提交的問題,提升問題的復(fù)雜性和準(zhǔn)確性。
  3. 手動(dòng)審核:由組織者或由組織者培訓(xùn)的專家,手動(dòng)審核每道問題,確保問題符合測試要求。
  4. 保留私有數(shù)據(jù)集:除了公開數(shù)據(jù)集,還保留了一部分私有測試集,用于評估模型在公開基準(zhǔn)測試上的過擬合和可能的作弊行為。

圖片

HLE的數(shù)據(jù)集創(chuàng)建流程

具體結(jié)果

研究者共測評了7個(gè)模型,包括GPT-40、Grok 2、Claude 3.5 Sonnect、Gemini 1.5 Pro、Gemini 2.0 Flash Thinking、o1和DeepSeek-R1。

表1顯示,所有前沿模型在HLE中的準(zhǔn)確率都很低,所有模型的校準(zhǔn)表現(xiàn)都很差,反映在較高的RMS校準(zhǔn)誤差分?jǐn)?shù)中。

圖片

表1:不同模型在HLE上的準(zhǔn)確率和RMS校準(zhǔn)誤差。

具有推理能力的模型,通常需要顯著更多的推理時(shí)間和計(jì)算資源。

為了更清晰地了解這一點(diǎn),對各模型生成的補(bǔ)全(completion)token數(shù)量進(jìn)行了分析。

正如圖5所示,推理模型Gemini  2.0 Flash  Thinking、o1和DeepSeek-R1為了提升性能,需要生成的token數(shù)量遠(yuǎn)遠(yuǎn)超過非推理模型GPT-40、Grok 2、Claude 3.5 Sonnect以及Gemini 1.5 Pro(見圖5)。

圖片

圖5:不同模型的平均補(bǔ)全(completion)token數(shù)量

展望未來

在「人類最后一次考試」(Humanity's Last Exam,簡稱 HLE)中,目前的LLM表現(xiàn)仍然非常差。

但從發(fā)展歷史來看,基準(zhǔn)測試的飽和速度非??臁P屯诙潭痰臅r(shí)間內(nèi),從接近0的準(zhǔn)確率躍升至接近100%的表現(xiàn)。

鑒于AI發(fā)展的快速步伐,在2025年底前,模型有可能在HLE上超過50%的準(zhǔn)確率。

圖片

AI實(shí)驗(yàn)室有新榜單可刷了,躍躍欲試

如果模型在HLE中獲得高分,將表明模型在封閉式、可驗(yàn)證的問題以及前沿科學(xué)知識方面的專家級表現(xiàn),但這并不意味著模型具備自主研究能力或「通用人工智能」(AGI)。

HLE測試的是結(jié)構(gòu)化的學(xué)術(shù)問題,而非開放式研究或創(chuàng)造性問題解決能力,因此它更側(cè)重于技術(shù)知識和推理能力的衡量。

作者在論文表示:「雖然HLE是給予模型的最后一場學(xué)術(shù)考試,但它遠(yuǎn)非AI評估的最后一個(gè)基準(zhǔn)?!?/span>

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2016-12-02 20:10:22

人工智能唇語序列

2019-10-22 15:19:27

AI 數(shù)據(jù)人工智能

2009-03-25 18:26:20

多核服務(wù)器顯卡

2012-12-06 13:30:28

搜搜架構(gòu)

2013-03-29 09:27:55

2010-12-17 09:07:13

2011-07-07 16:59:02

2022-03-18 14:45:32

AI谷歌模型

2020-03-10 07:51:35

面試諷刺標(biāo)準(zhǔn)

2018-11-27 13:33:36

2022-07-01 15:15:56

AIMITOpenAI

2017-06-05 10:25:43

AIAlphaGo機(jī)器學(xué)習(xí)

2017-06-28 15:40:44

2025-02-08 10:42:34

2020-08-16 11:46:33

SaaS數(shù)據(jù)技術(shù)

2021-10-25 09:16:27

MySQL分庫分表

2021-11-10 15:21:35

Windows 10累積更新Version

2020-08-24 08:30:41

DevOps運(yùn)維開發(fā)

2024-04-01 07:00:00

模型AI

2020-07-21 10:55:42

技術(shù)研發(fā)指標(biāo)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號