自拍偷在线精品自拍偷,亚洲欧美中文日韩v在线观看不卡

DeepSeek-R1、o1都低于10%,人類給AI的「最后考試」來了,貢獻(xiàn)者名單長(zhǎng)達(dá)兩頁

人工智能 新聞
雖然目前的 LLM 在 HLE 上的準(zhǔn)確度非常低,但最近的歷史表明,這個(gè)基準(zhǔn)很快就會(huì)飽和 —— 前沿模型的性能可在短時(shí)間內(nèi)從接近零到接近完美。

隨著 AI 大模型在一個(gè)又一個(gè)的任務(wù)上達(dá)到乃至超越人類水平,人類文明似乎已經(jīng)進(jìn)入了與 AI 共生的時(shí)代。 

為了跟蹤 AI 的發(fā)展進(jìn)度,適當(dāng)?shù)幕鶞?zhǔn)必不可少。但現(xiàn)在,由于 AI 發(fā)展的速度實(shí)在太快,已有的基準(zhǔn)已經(jīng)開始不夠用了。比如在常用的基準(zhǔn) MMLU 上,當(dāng)今前沿的 LLM 已經(jīng)能達(dá)到超過 90% 的準(zhǔn)確度了!這就限制了對(duì)前沿 LLM 能力的精確度量能力。

基于此現(xiàn)狀,Center for AI Safety(AI 安全中心)與 Scale AI 聯(lián)合打造一個(gè)名字相當(dāng)吸引眼球的新基準(zhǔn):Humanity's Last Exam,即「人類的最后考試」,簡(jiǎn)稱 HLE

  • 論文標(biāo)題:Humanity’s Last Exam
  • 論文地址:https://arxiv.org/pdf/2501.14249
  • 項(xiàng)目地址:https://lastexam.ai

從名字也能看出來,其背后必然有一個(gè)雄心勃勃的團(tuán)隊(duì)。據(jù)介紹,HLE 是一個(gè)「位于人類知識(shí)前沿的多模態(tài)基準(zhǔn)」,其設(shè)計(jì)目標(biāo)是成為「同類中具有廣泛學(xué)科覆蓋范圍的終極封閉式學(xué)術(shù)基準(zhǔn)。」

現(xiàn)目前,HLE 已包含 3000 個(gè)問題,涉及上百門學(xué)科,包括數(shù)學(xué)、人文科學(xué)和自然科學(xué)。其中的問題主要由適合自動(dòng)評(píng)估的多項(xiàng)選擇題和簡(jiǎn)單問答題構(gòu)成;每個(gè)問題都有一個(gè)已知的解,該解非常明確且易于驗(yàn)證,但無法通過互聯(lián)網(wǎng)檢索快速回答。

為了構(gòu)建 HLE 基準(zhǔn),Center for AI Safety 與 Scale AI 向全球不同學(xué)科的專家尋求了幫助,最終讓該論文有了一份長(zhǎng)達(dá)兩頁、近千人的數(shù)據(jù)集貢獻(xiàn)者名單:

該團(tuán)隊(duì)也使用該基準(zhǔn)測(cè)試了一些 SOTA 模型,結(jié)果如下。很顯然,HLE 相當(dāng)難。

數(shù)據(jù)集

HLE 包含 3000 多個(gè)高難度問題,涉及一百多個(gè)科目,概況見下圖 3 。

下面展示了一些問題示例:

雖然這些問題已公開發(fā)布,但該團(tuán)隊(duì)也表示還維護(hù)著一個(gè)私有的測(cè)試集,其中包含一些用來評(píng)估模型過擬合現(xiàn)象的問題。

收集數(shù)據(jù)集

該團(tuán)隊(duì)在技術(shù)報(bào)告中分享了 HLE 基準(zhǔn)數(shù)據(jù)集的收集過程:「HLE 是一項(xiàng)全球合作的成果,其中的問題來自 50 個(gè)國(guó)家 / 地區(qū)的 500 多個(gè)機(jī)構(gòu)的近 1000 名學(xué)科專家貢獻(xiàn)者 —— 主要由教授、研究人員和研究生學(xué)位持有者組成?!?/span>

問題風(fēng)格:HLE 包含兩種問題格式:精確匹配問題(模型提供確切的字符串作為輸出)和多項(xiàng)選擇題(模型從五個(gè)或更多答案選項(xiàng)中選擇一個(gè))。HLE 是一個(gè)多模態(tài)基準(zhǔn),其中 10% 的問題需要同時(shí)理解文本和圖像。80% 的問題是精確匹配型問題,其余的是多項(xiàng)選擇題。

提交格式:為確保問題的質(zhì)量和完整性,該團(tuán)隊(duì)設(shè)定了嚴(yán)格的提交標(biāo)準(zhǔn)。

  • 問題應(yīng)該準(zhǔn)確、明確、可解且不可搜索,確保模型不能依賴記憶或簡(jiǎn)單的檢索方法。
  • 所有提交內(nèi)容必須是原創(chuàng)的,或者是基于已發(fā)表信息的非平凡合成版本,但也會(huì)接受未發(fā)表的研究。
  • 問題通常需要研究生水平的專業(yè)知識(shí)或高度特定主題的測(cè)試知識(shí)(例如,精確的歷史細(xì)節(jié)、瑣事、當(dāng)?shù)亓?xí)俗),并且有領(lǐng)域?qū)<医邮艿木唧w、明確的答案。
  • 當(dāng) LLM 能提供正確答案但推理有誤時(shí),希望作者能修改問題參數(shù),例如答案選項(xiàng)的數(shù)量,以阻止假正例。
  • 要求明晰的英語和精確的技術(shù)術(shù)語,并在必要時(shí)支持 LATEX 標(biāo)注。
  • 答案要簡(jiǎn)短,并且對(duì)于精確匹配的問題,答案要容易驗(yàn)證,以支持自動(dòng)評(píng)分。
  • 禁止開放式問題、主觀解釋題和與大規(guī)模殺傷性武器有關(guān)的內(nèi)容。
  • 每個(gè)問題都應(yīng)附有詳細(xì)的解答以驗(yàn)證準(zhǔn)確性。

獎(jiǎng)金池:為了吸引高質(zhì)量的投稿,該團(tuán)隊(duì)還設(shè)立了一個(gè)獎(jiǎng)金池,其中包含 50 萬美元。對(duì)于前 50 個(gè)問題,每個(gè)獎(jiǎng)金 5000 美元,接下來的 500 個(gè)問題每個(gè)獎(jiǎng)金 500 美元,具體由組織者決定。正是由于這種這種激勵(lì)結(jié)構(gòu),加上任何被 HLE 接收的問題的作者都有機(jī)會(huì)成為論文合著者,吸引了有資歷專家的參與,尤其是那些在其領(lǐng)域內(nèi)擁有高級(jí)學(xué)位或豐富技術(shù)經(jīng)驗(yàn)的專家。

收集完成后,該團(tuán)隊(duì)還組織人手對(duì)收集到的問題進(jìn)行了審核,下圖展示了其審核流程:

當(dāng)前 SOTA 模型在該基準(zhǔn)上表現(xiàn)如何?

有了基準(zhǔn),自然得對(duì)當(dāng)前的模型進(jìn)行一番評(píng)估。該團(tuán)隊(duì)評(píng)估了 SOTA 模型在 HLE 上的性能表現(xiàn),并分析了它們?cè)诓煌瑔栴}類型和領(lǐng)域上的能力。

這些模型表現(xiàn)如何呢?如下表所示,整體表現(xiàn)可以總結(jié)為一個(gè)字:差。

從 GPT-4o 到 DeepSeek-R1,當(dāng)前最佳的模型的準(zhǔn)確度表現(xiàn)都沒能超過 10%。目前官網(wǎng)也已經(jīng)更新了 o3-mini 的成績(jī),其中 high 版本能達(dá)到 13%

OpenAI CEO Sam Altman 還表示 o3-mini-high 如果使用 Deep Research,則其在 HLE 上的準(zhǔn)確度更能倍增至 26.6%。

該團(tuán)隊(duì)表示:「如此低分的部分原因是設(shè)計(jì)使然 —— 數(shù)據(jù)集收集過程試圖過濾掉現(xiàn)有模型可以正確回答的問題。然而,我們?cè)谠u(píng)估時(shí)注意到,這些模型的準(zhǔn)確度也都不是零。這是由于模型推理中固有的噪聲 —— 模型可能會(huì)不一致地猜對(duì)正確答案,或者猜中多項(xiàng)選擇題答案的概率低于隨機(jī)?!挂虼耍@些模型在該數(shù)據(jù)集上的真正能力底線仍然是未知的,接近零準(zhǔn)確度的微小變化并不能有力地表明進(jìn)展。

鑒于這些模型在 HLE 上表現(xiàn)不佳,該團(tuán)隊(duì)表示應(yīng)該在考慮到不確定性的前提下校準(zhǔn)模型,而不是自信地提供錯(cuò)誤答案,畢竟模型存在虛構(gòu)/幻覺現(xiàn)象。為了測(cè)量校準(zhǔn)誤差(Calibration Error),該團(tuán)隊(duì)讓模型提供答案的同時(shí)還提供置信度(范圍是 0% 到 100%)。經(jīng)過良好校準(zhǔn)的模型聲明的置信度應(yīng)該與其實(shí)際準(zhǔn)確度相匹配 —— 例如,在聲稱置信度為 50% 的問題上實(shí)現(xiàn) 50% 的準(zhǔn)確度。

而表 1 的結(jié)果表明所有模型的校準(zhǔn)都很差。在 HLE 上,模型經(jīng)常以高置信度提供錯(cuò)誤答案,這表明這些模型無法分辨這些問題何時(shí)超出其能力范圍。

token 數(shù)量:具有推理能力的模型需要更多的推理時(shí)間計(jì)算。為了在評(píng)估中闡明這一點(diǎn),該團(tuán)隊(duì)分析了各個(gè)模型使用的完成 token 的數(shù)量。如圖 5 所示,所有推理模型都需要生成比非推理模型多得多的 token 才能提高性能。該團(tuán)隊(duì)指出:「未來的模型不僅應(yīng)該提升準(zhǔn)確度,還應(yīng)該努力實(shí)現(xiàn)計(jì)算優(yōu)化。

討論

該團(tuán)隊(duì)表示,雖然目前的 LLM 在 HLE 上的準(zhǔn)確度非常低,但最近的歷史表明,這個(gè)基準(zhǔn)很快就會(huì)飽和 —— 前沿模型的性能可在短時(shí)間內(nèi)從接近零到接近完美。

他們預(yù)計(jì),到 2025 年底,模型在 HLE 上的準(zhǔn)確度就可能超過 50%。

如果模型能在 HLE 上取得高準(zhǔn)確度表現(xiàn),則說明其在封閉式、可驗(yàn)證的問題和前沿的科學(xué)知識(shí)上具備了專家級(jí)的表現(xiàn),但僅靠這個(gè)基準(zhǔn),并不能表明模型已經(jīng)具備自主研究能力或者已經(jīng)是所謂的「通用人工智能」。HLE 測(cè)試的是結(jié)構(gòu)化的學(xué)術(shù)問題,而不是開放式研究或創(chuàng)造性解決問題的能力,因此這是一個(gè)重點(diǎn)關(guān)注技術(shù)知識(shí)和推理的測(cè)量指標(biāo)。

該團(tuán)隊(duì)寫到:「HLE 可能是我們需要對(duì)模型進(jìn)行的最后的學(xué)術(shù)考試,但它遠(yuǎn)非 AI 的最后一個(gè)基準(zhǔn)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-02-03 14:17:27

2025-02-19 08:00:00

2025-03-05 10:21:04

DeepSeekLVLM

2025-01-24 15:03:27

2025-03-27 09:34:42

2025-03-05 08:40:00

2025-02-19 08:33:18

2025-01-26 08:40:00

AI模型預(yù)測(cè)

2025-01-26 12:08:03

2025-03-20 10:20:16

2025-02-03 12:07:52

2025-02-06 10:18:45

2025-03-10 08:10:00

AI研究安全

2025-02-18 08:15:03

2025-02-18 09:00:00

2025-03-05 09:00:00

DeepSeek模型AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)