人類最后一次考試,AI慘敗正確率<10%!數(shù)百頂級專家聯(lián)手出題,DeepSeek竟是王者
捍衛(wèi)「人類智慧」最后一戰(zhàn)!
剛剛,Scale AI和Center for AI Safety(CAIS)公布了「人類最后一場考試」結(jié)果!
新基準(zhǔn)全稱「人類最后一次考試」(Humanity’s Last Exam),簡稱「HLM」,包含3000個(gè)問題,由數(shù)百位領(lǐng)域?qū)<议_發(fā),用于追尋人類知識推理的邊界。
目前,最好的模型,準(zhǔn)確率也小于10%,而且自信「過頭」。
具體結(jié)果如下:
Scale AI和CAIS同時(shí)公布了相關(guān)論文、數(shù)據(jù)集和測試代碼。
項(xiàng)目鏈接:https://lastexam.ai/
網(wǎng)友對這項(xiàng)工作也不吝贊賞:
「人類最后一次考試」
為了評估AI的能力的進(jìn)展,已發(fā)布了多個(gè)數(shù)據(jù)集,針對語言模型,根據(jù)「Paper with code」網(wǎng)站統(tǒng)計(jì),就有165個(gè)相關(guān)數(shù)據(jù)集。
然而,目前的基準(zhǔn)測試難度并未跟上進(jìn)步的步伐:LLM在一些熱門基準(zhǔn)測試(如MMLU)上已能達(dá)到90%以上的準(zhǔn)確率,這限制了對最新LLM能力的有效評估。
甚至有基準(zhǔn)被爆出,可能存在給某些模型「漏題」的問題。
為此,Scale AI和CAIS推出了名為「人類最后的考試」(Humanity's Last Exam)的多模態(tài)基準(zhǔn)測試,旨在成為這類封閉式學(xué)術(shù)基準(zhǔn)測試的最終版本,覆蓋廣泛的學(xué)科領(lǐng)域。
測評一覽
「人類最后一次考試」(HLE)包含兩種問題格式:
- 精確匹配題(Exact-Match Questions):模型需要輸出一個(gè)完全匹配的字符串作為答案。
- 選擇題(Multiple-Choice Questions):模型需要從五個(gè)或更多選項(xiàng)中選擇一個(gè)正確答案。
此外,HLE是一個(gè)多模態(tài)基準(zhǔn)測試,其中10%的問題要求理解文本和圖像參考,80%的問題為精確匹配題,其余為選擇題。
該數(shù)據(jù)集包含3000道難度較高的問題,涉及100多個(gè)學(xué)科。
各學(xué)科分類,大體如下:
圖3:HLE高級類別分組。
大部分問題已公開發(fā)布,同時(shí)保留了一部分私有測試集,用于評估模型是否存在過擬合現(xiàn)象。
在項(xiàng)目網(wǎng)站上,公布了不同領(lǐng)域/科目的8個(gè)樣題,包含化學(xué)、物理、數(shù)學(xué)、計(jì)算機(jī)科學(xué)、語言學(xué)等。
比如,其中的一道常識性問題:
希臘神話中,伊阿宋的曾祖父是誰?
具體樣題,參考下列圖片。
創(chuàng)建流程
為了吸引高質(zhì)量的問題提交,HLE設(shè)立了總額50萬美元的獎(jiǎng)金池,并提供以下獎(jiǎng)勵(lì):
- 頂級問題獎(jiǎng)勵(lì):每道排名前50的問題將獲得5,000美元獎(jiǎng)金。
- 優(yōu)質(zhì)問題獎(jiǎng)勵(lì):接下來的500道問題,每道將獲得500美元獎(jiǎng)金。
此外,任何被HLE接受的問題提交者,都有機(jī)會成為相關(guān)論文的共同作者,激勵(lì)了眾多高水平的專家參與,特別是那些擁有高級學(xué)位或在相關(guān)技術(shù)領(lǐng)域擁有豐富經(jīng)驗(yàn)的專業(yè)人士。
總體而言,總收集了超過70,000個(gè)試驗(yàn)性問題,其中13,000個(gè)問題被選出來供人類專家評審,進(jìn)而最終確定在公開考試中發(fā)布的3,000個(gè)問題。
近1000名專家成功提交了問題。
他們來自50個(gè)國家的500多個(gè)機(jī)構(gòu),其中大多數(shù)貢獻(xiàn)者是活躍的研究員或教授。
問題涵蓋了多種格式,包括純文本和多模態(tài)難題,整合了圖像和圖表。
為了確保問題的高質(zhì)量和難度,HLE的數(shù)據(jù)集通過以下流程創(chuàng)建:
- 問題篩選:首先接收問題提交,這些問題專門前沿的LLM設(shè)計(jì),LLM通常難以正確回答。
- 迭代優(yōu)化:在專家同行評審的幫助下,反復(fù)修改和優(yōu)化提交的問題,提升問題的復(fù)雜性和準(zhǔn)確性。
- 手動(dòng)審核:由組織者或由組織者培訓(xùn)的專家,手動(dòng)審核每道問題,確保問題符合測試要求。
- 保留私有數(shù)據(jù)集:除了公開數(shù)據(jù)集,還保留了一部分私有測試集,用于評估模型在公開基準(zhǔn)測試上的過擬合和可能的作弊行為。
HLE的數(shù)據(jù)集創(chuàng)建流程
具體結(jié)果
研究者共測評了7個(gè)模型,包括GPT-40、Grok 2、Claude 3.5 Sonnect、Gemini 1.5 Pro、Gemini 2.0 Flash Thinking、o1和DeepSeek-R1。
表1顯示,所有前沿模型在HLE中的準(zhǔn)確率都很低,所有模型的校準(zhǔn)表現(xiàn)都很差,反映在較高的RMS校準(zhǔn)誤差分?jǐn)?shù)中。
表1:不同模型在HLE上的準(zhǔn)確率和RMS校準(zhǔn)誤差。
具有推理能力的模型,通常需要顯著更多的推理時(shí)間和計(jì)算資源。
為了更清晰地了解這一點(diǎn),對各模型生成的補(bǔ)全(completion)token數(shù)量進(jìn)行了分析。
正如圖5所示,推理模型Gemini 2.0 Flash Thinking、o1和DeepSeek-R1為了提升性能,需要生成的token數(shù)量遠(yuǎn)遠(yuǎn)超過非推理模型GPT-40、Grok 2、Claude 3.5 Sonnect以及Gemini 1.5 Pro(見圖5)。
圖5:不同模型的平均補(bǔ)全(completion)token數(shù)量
展望未來
在「人類最后一次考試」(Humanity's Last Exam,簡稱 HLE)中,目前的LLM表現(xiàn)仍然非常差。
但從發(fā)展歷史來看,基準(zhǔn)測試的飽和速度非??臁P屯诙潭痰臅r(shí)間內(nèi),從接近0的準(zhǔn)確率躍升至接近100%的表現(xiàn)。
鑒于AI發(fā)展的快速步伐,在2025年底前,模型有可能在HLE上超過50%的準(zhǔn)確率。
AI實(shí)驗(yàn)室有新榜單可刷了,躍躍欲試
如果模型在HLE中獲得高分,將表明模型在封閉式、可驗(yàn)證的問題以及前沿科學(xué)知識方面的專家級表現(xiàn),但這并不意味著模型具備自主研究能力或「通用人工智能」(AGI)。
HLE測試的是結(jié)構(gòu)化的學(xué)術(shù)問題,而非開放式研究或創(chuàng)造性問題解決能力,因此它更側(cè)重于技術(shù)知識和推理能力的衡量。
作者在論文表示:「雖然HLE是給予模型的最后一場學(xué)術(shù)考試,但它遠(yuǎn)非AI評估的最后一個(gè)基準(zhǔn)?!?/span>